De AGI-benchmark heeft een winnaar, een vijfjarige en niet de miljardensoftware
AGI bereikt, score net boven nul. Hoe overleeft een zin als deze een persconferentie?
De benchmark die zichzelf brak
Huang ging naar een podcast en zei dat AGI bereikt is. Twee dagen later scoorde zijn concurrent 0,37 procent op de enige test die die claim serieus neemt. Grok scoorde nul. Niet dicht bij nul. Nul. Elke vijfjarige deed het beter, zonder instructies, zonder training, zonder financieringsronde.
Dit is geen fout. Dit is het product.
Huang verkoopt chips. Altman verkoopt abonnementen. Arm noemde een processor de “AGI CPU.” De taal doet precies wat het hoort te doen: geld inzamelen van mensen die begrijpen dat ze het missen als ze niet nu bewegen. Er is niets fout gegaan. Er hoeft niets gerepareerd te worden. Welkom.
Hoe getallen de waarheid overleven
ARC-AGI-1 viel. ARC-AGI-2 viel. Elke keer gooiden de labs rekenkracht en trainingsdata naar het probleem totdat de benchmark dood was. Nu er geen trainingsdata meer is om weg te gooien, scoort het systeem 0,37 procent. Ze noemen dat een methodologisch debat. Natuurlijk doen ze dat.
De Duke-harnas duwde Claude naar 97,1 procent op één variant. Eén. Van de honderdvijfendertig. De officiële score bleef 0,25 procent. Maar 97,1 bestaat nu. Het circuleert. Het verschijnt in presentaties, in persberichten, in gesprekken met mensen die beslissingen nemen over iemands baan. Zo stuur je een getal de wereld in terwijl je technisch gezien de waarheid vertelt. Niemand loog. Niemand hoefde dat. Dat is de schoonheid ervan.
Miljarden zijn ingezameld op een belofte die architecturaal onmogelijk in te lossen is. Het systeem interpoleert binnen zijn trainingsverspreiding. Buiten die verspreiding stort het in. Dit staat in de papers. De mensen die het geld inzamelen lezen de papers. Ze zamelen het geld toch in.
Ergens beslist iemand in een organisatie welke rollen “AGI-proof” zijn. Die beslissing is gebaseerd op wat Huang op een podcast zei. De persoon die ontslagen wordt weet niet dat Grok nul scoorde. Ze krijgen te horen dat de timing logisch is. Dat het niet persoonlijk is.
Het is nooit persoonlijk.
Nvidia. OpenAI. Microsoft. Arm. De namen staan in het artikel. Op het moment dat ze als antwoord uitgesproken moeten worden, grijpt het stuk naar een retorische vraag. Zo bescherm je iemand terwijl je doet alsof je hem ter verantwoording roept.