Signal20. Februar 2026

GDPVal misst KI an Wissensarbeit im Wert von 3 Billionen US-Dollar Jahresgehältern

GDP Val von OpenAI ist ein ernsthafter Versuch, Frontier-Modelle an echten Aufgaben von Wissensarbeitern zu messen. Der Benchmark umfasst 1.320 Aufgaben aus 9 Branchen — keine konstruierten Testszenarien, sondern Arbeit, für die Menschen tatsächlich bezahlt werden.

Wenn 20 % dieser Arbeit auf Sprachmodelle übergingen, entspräche das allein in den USA einem Gegenwert von 600 Milliarden Dollar an Jahresgehältern. Und die USA machen nur etwa 25 % des weltweiten BIP aus. Die Dimension ist kaum zu überschätzen.

Was das Paper zeigt

Die größten Hebel für bessere Ergebnisse waren laut Paper: mehr Kontext, Zwischenschritte und Prompt-Optimierung. Das überrascht wenig — alle Benchmark-Aufgaben wurden als One-Shot-Prompts ausgeführt, ohne Orchestrierung, ohne Iteration. Das wirkt künstlich. Große Teile der Branche setzen längst auf zerlegte, orchestrierte Teilaufgaben, weil Steuerbarkeit und Zuverlässigkeit in echten Workflows entscheidend sind.

Das Paper räumt die Lücke selbst ein: „We are working on improvements to GDPval that involve more interactivity and contextual realism."

Wie es weitergeht

Meine Einschätzung: Wissensarbeiter werden weder klassische Workflows bauen noch im reinen Chat arbeiten. Sie brauchen etwas, das ihnen erlaubt, Ziel, Qualitätskriterien und eine gewisse Ablauflogik zu definieren — bevor ein Modell übernimmt.

Wer AI-Produktivitätstools entwickelt, kann den Aufgabenkatalog von GDPVal nutzen, um zu verstehen, wo das echte Verdrängungspotenzial liegt — und wo Modelle noch scheitern.

Ein paar bemerkenswerte Datenpunkte

In einer Momentaufnahme aus dem Paper erreichte Claude Opus 4.1 im blinden Direktvergleich mit einer Experten-Baseline 47,6 % (Siege + Unentschieden). Das Leaderboard hat sich seitdem bewegt — GPT 5.2 steht aktuell bei 70,9 %.
Experten bevorzugten das menschliche Ergebnis vor allem dann, wenn Modelle Anweisungen nicht vollständig befolgten — nicht wegen fehlenden Wissens.
Selbst etwas so Banales wie Formatierung bereitete Modellen Probleme, besonders GPT-5. Auf den Seiten 17–18 des Papers ist der verbesserte Prompt dokumentiert, den sie dafür erstellen mussten. LibreOffice entpuppte sich als unerwartete Stütze von OpenAIs Benchmark-Infrastruktur.

Referenzen

[1] GDPVal Paper (Snapshot)

[2] GDPVal Leaderboard