AGI基准 ARC-AGI-3 给行业打了零分 - AI TWERP

自我摧毁的基准

黄仁勋上了一档播客，说AGI已经实现了。两天后，他的竞争对手在唯一认真对待这个说法的测试中得了0.37分。Grok得了零分。不是接近零。就是零。每个五岁的孩子都做得更好，没有指示，没有训练，没有融资轮。

这不是错误。这就是产品。

黄仁勋卖芯片。奥特曼卖订阅。Arm给一个处理器起名叫”AGI CPU”。这种语言做的正是它应该做的：从理解如果现在不行动就会错过的人那里筹钱。没有什么出错了。没有什么需要修复。欢迎。

数字如何幸存于真相

ARC-AGI-1失败了。ARC-AGI-2失败了。每一次，实验室都向这个问题投入计算能力和训练数据，直到基准测试死亡。现在没有训练数据可以投入了，系统得分0.37%。他们称之为方法论辩论。当然他们会这样说。

Duke线束把Claude推到了一个变体上的97.1%。一个。在一百三十五个中。官方分数保持在0.25%。但97.1现在存在了。它在流传。它出现在演讲中，在新闻稿中，在与做出关于别人工作决定的人的谈话中。这就是你如何把一个数字送入世界，同时在技术上说真话。没人撒谎。没人必须撒谎。这就是它的妙处。

数十亿美元是在一个在建筑上不可能兑现的承诺上筹集的。系统在其训练分布内进行插值。在该分布之外，它崩溃了。这在论文里。筹集资金的人读了论文。他们还是筹集了资金。

在某个地方，某个组织中的某个人决定哪些角色是”AGI防证的”。这个决定基于黄仁勋在播客上说的话。被裁员的人不知道Grok得了零分。他们被告知时机是有道理的。说这不是个人的。

这从来都不是个人的。

Nvidia。OpenAI。Microsoft。Arm。这些名字在文章里。在需要作为答案说出来的时刻，这篇文章转向了一个修辞问题。这就是你如何保护某人，同时假装要求他们负责。

AI语音的民主赤字有个名字，叫效率

对AI的人类控制是一个空洞的短语，对每个人意味着不同的东西

微软AI负责人宣布大规模裁员（并称之为进步）

February 13, 2026