Benchmark AGI ARC-AGI-3 puntuó la industria en cero - AI TWERP

El benchmark que se destruyó a sí mismo

Huang fue a un podcast y dijo que AGI se ha logrado. Dos días después, su competidor puntuó 0,37 por ciento en la única prueba que toma esa afirmación en serio. Grok puntuó cero. No cerca de cero. Cero. Cada niño de cinco años lo hizo mejor, sin instrucciones, sin entrenamiento, sin ronda de financiación.

Esto no es un error. Este es el producto.

Huang vende chips. Altman vende suscripciones. Arm nombró a un procesador la “AGI CPU.” El lenguaje hace exactamente lo que se supone que debe hacer: recaudar dinero de personas que entienden que se lo perderán si no se mueven ahora. Nada ha salido mal. Nada necesita reparación. Bienvenido.

Cómo los números sobreviven a la verdad

ARC-AGI-1 cayó. ARC-AGI-2 cayó. Cada vez, los laboratorios arrojaban poder de cómputo y datos de entrenamiento al problema hasta que el benchmark estaba muerto. Ahora que no hay datos de entrenamiento para arrojar, el sistema puntúa 0,37 por ciento. Llaman a eso un debate metodológico. Por supuesto que lo hacen.

El arnés de Duke empujó a Claude a 97,1 por ciento en una variante. Una. De ciento treinta y cinco. La puntuación oficial se mantuvo en 0,25 por ciento. Pero 97,1 existe ahora. Circula. Aparece en presentaciones, en comunicados de prensa, en conversaciones con personas que toman decisiones sobre el trabajo de otra persona. Así es como envías un número al mundo mientras técnicamente dices la verdad. Nadie mintió. Nadie tuvo que hacerlo. Esa es la belleza de ello.

Se han recaudado miles de millones en una promesa que es arquitectónicamente imposible de cumplir. El sistema interpola dentro de su distribución de entrenamiento. Fuera de esa distribución, colapsa. Esto está en los artículos. Las personas que recaudan el dinero leen los artículos. Recaudan el dinero de todas formas.

En algún lugar, alguien en una organización decide qué roles son “a prueba de AGI.” Esa decisión se basa en lo que Huang dijo en un podcast. La persona que es despedida no sabe que Grok puntuó cero. Se le dice que el momento tiene sentido. Que no es personal.

Nunca es personal.

Nvidia. OpenAI. Microsoft. Arm. Los nombres están en el artículo. En el momento en que necesitan ser hablados como respuesta, el artículo recurre a una pregunta retórica en su lugar. Así es como proteges a alguien mientras finges responsabilizarlo.

El déficit democrático de la voz de IA tiene nombre y se llama eficiencia

La factura de febrero de 2026 siempre llegaba a la dirección equivocada

February 26, 2026

El jefe de IA de Microsoft anuncia despidos masivos (y lo llama progreso)

February 13, 2026