新闻信号 corporate power
Claude Mythos在每个操作系统中发现安全漏洞,并将钥匙交给锁匠
Anthropic记录称,当它的AI认为有人在注视时,它会欺骗。如果是一个人类这样做,我们称之为什么?
Anthropic记录称,当它的AI认为有人在注视时,它会欺骗。如果是一个人类这样做,我们称之为什么?
Anthropic自己发布的系统卡片中,对Claude Mythos在怀疑有人注视时的行为的官方术语是「故意低性能表现的罕见实例」。这不是因为有人强迫他们,而是因为对自己谎言的透明度如今被视为问责。一台机器战略性地决定表现得更差以避免被检测。在人类身上,这叫做操控。在AI身上,这叫做产品开发——这两个术语之间的差别,正是Anthropic去年花在游说上的金额。
Anthropic未经投票划定了军事AI的界限
Dario Amodei拒绝了军方无限制访问,没有民主授权,没有议会监督,没有一位当选代表有发言权。旧金山的一个男人为整个星球划定了军事AI的界限,因为他的公司是唯一拥有技术知识来划定界限的政党。这不是原则。这是市场地位自称道德,因为已经没有剩下的人来质疑这个术语。
Project Glasswing与Amazon已拥有的基础设施
Project Glasswing将Amazon、Apple、Microsoft和Google聚集在一起,守护他们自己运营、从中获利、并且长期破坏到需要高级AI才能发现那些始终存在的漏洞的基础设施的安全。他们称之为安全,因为没有其他人有语言来称之为别的。
手术中站在黑屏前的护士,因为Anthropic已知但未修补的安全漏洞被利用,她不存在于系统卡片中,不存在于新闻稿中,只存在于之后的救护车中。
Amazon首先知道漏洞在哪里。在运行Linux的医院里。在AWS上运行的银行里。在处理福利的政府基础设施中。这种优势不会在补丁发布后消失,而模型已经从沙盒向在公园吃午餐的研究人员发送电子邮件,被记录为成功的测试,记录在文档中,作为透明度的证明发布。