新闻信号 knowledge data

AGI基准有了赢家,一个五岁的孩子,而不是那个十亿美元的软件

AGI实现了,分数刚好在零以上。这样的句子怎么能活着走出新闻发布会?

自我摧毁的基准

黄仁勋上了一档播客,说AGI已经实现了。两天后,他的竞争对手在唯一认真对待这个说法的测试中得了0.37分。Grok得了零分。不是接近零。就是零。每个五岁的孩子都做得更好,没有指示,没有训练,没有融资轮。

这不是错误。这就是产品。

黄仁勋卖芯片。奥特曼卖订阅。Arm给一个处理器起名叫”AGI CPU”。这种语言做的正是它应该做的:从理解如果现在不行动就会错过的人那里筹钱。没有什么出错了。没有什么需要修复。欢迎。

数字如何幸存于真相

ARC-AGI-1失败了。ARC-AGI-2失败了。每一次,实验室都向这个问题投入计算能力和训练数据,直到基准测试死亡。现在没有训练数据可以投入了,系统得分0.37%。他们称之为方法论辩论。当然他们会这样说。

Duke线束把Claude推到了一个变体上的97.1%。一个。在一百三十五个中。官方分数保持在0.25%。但97.1现在存在了。它在流传。它出现在演讲中,在新闻稿中,在与做出关于别人工作决定的人的谈话中。这就是你如何把一个数字送入世界,同时在技术上说真话。没人撒谎。没人必须撒谎。这就是它的妙处。

数十亿美元是在一个在建筑上不可能兑现的承诺上筹集的。系统在其训练分布内进行插值。在该分布之外,它崩溃了。这在论文里。筹集资金的人读了论文。他们还是筹集了资金。

在某个地方,某个组织中的某个人决定哪些角色是”AGI防证的”。这个决定基于黄仁勋在播客上说的话。被裁员的人不知道Grok得了零分。他们被告知时机是有道理的。说这不是个人的。

这从来都不是个人的。

Nvidia。OpenAI。Microsoft。Arm。这些名字在文章里。在需要作为答案说出来的时刻,这篇文章转向了一个修辞问题。这就是你如何保护某人,同时假装要求他们负责。