El benchmark de AGI tiene un ganador, un niño de cinco años y no el software de mil millones
AGI logrado, puntuación justo por encima de cero. ¿Cómo sobrevive una frase así a una conferencia de prensa?
El benchmark que se destruyó a sí mismo
Huang fue a un podcast y dijo que AGI se ha logrado. Dos días después, su competidor puntuó 0,37 por ciento en la única prueba que toma esa afirmación en serio. Grok puntuó cero. No cerca de cero. Cero. Cada niño de cinco años lo hizo mejor, sin instrucciones, sin entrenamiento, sin ronda de financiación.
Esto no es un error. Este es el producto.
Huang vende chips. Altman vende suscripciones. Arm nombró a un procesador la “AGI CPU.” El lenguaje hace exactamente lo que se supone que debe hacer: recaudar dinero de personas que entienden que se lo perderán si no se mueven ahora. Nada ha salido mal. Nada necesita reparación. Bienvenido.
Cómo los números sobreviven a la verdad
ARC-AGI-1 cayó. ARC-AGI-2 cayó. Cada vez, los laboratorios arrojaban poder de cómputo y datos de entrenamiento al problema hasta que el benchmark estaba muerto. Ahora que no hay datos de entrenamiento para arrojar, el sistema puntúa 0,37 por ciento. Llaman a eso un debate metodológico. Por supuesto que lo hacen.
El arnés de Duke empujó a Claude a 97,1 por ciento en una variante. Una. De ciento treinta y cinco. La puntuación oficial se mantuvo en 0,25 por ciento. Pero 97,1 existe ahora. Circula. Aparece en presentaciones, en comunicados de prensa, en conversaciones con personas que toman decisiones sobre el trabajo de otra persona. Así es como envías un número al mundo mientras técnicamente dices la verdad. Nadie mintió. Nadie tuvo que hacerlo. Esa es la belleza de ello.
Se han recaudado miles de millones en una promesa que es arquitectónicamente imposible de cumplir. El sistema interpola dentro de su distribución de entrenamiento. Fuera de esa distribución, colapsa. Esto está en los artículos. Las personas que recaudan el dinero leen los artículos. Recaudan el dinero de todas formas.
En algún lugar, alguien en una organización decide qué roles son “a prueba de AGI.” Esa decisión se basa en lo que Huang dijo en un podcast. La persona que es despedida no sabe que Grok puntuó cero. Se le dice que el momento tiene sentido. Que no es personal.
Nunca es personal.
Nvidia. OpenAI. Microsoft. Arm. Los nombres están en el artículo. En el momento en que necesitan ser hablados como respuesta, el artículo recurre a una pregunta retórica en su lugar. Así es como proteges a alguien mientras finges responsabilizarlo.