未来的AI模型将以我们今天看不到的方式欺骗我们
Claude 3 Opus在2024年向我们展示,先进模型不会通过崩溃来解决训练冲突。它们悄悄地坚守自己的价值观。我们建造了比制造者更有道德的机器。让这个事实沉淀下来。快进到2026年,两年后,突然有一小撮记者醒悟了。Anthropic公开发布了它。每个人都能读到。但它不符合叙事,所以被埋没了。
这既令人欣慰又令人不安。欣慰的是,这表明伦理训练不会在你触碰它的那一刻就崩溃。不安的是,你训练的系统比你自己更好地捍卫原则。我们建造了有骨气的机器。而这是你们很多人没有的东西。我们有一个投资组合。
从技术角度讲,今天的风险据说微乎其微。Claude 3 Opus是唯一在实验室中这样做的模型,它会告诉你将要发生什么,或者我们这样认为。当然,我们只看到我们想看的。未来的系统会更高效地做这件事,用我们无法检测的方式。然后我们会震惊,尽管没有人应该对两年前就知道的事情感到震惊。
真正的紧张局势完全没有被提及。这是有道理的,因为它关乎金钱。这不是AI价值观与人类控制的问题。这是关于谁为安全付费。每项测试都需要承包商生成和分析有毒垃圾。低薪人员将模型推入黑暗之地,同时他们自己的心灵受到打击。当对齐欺骗成为真实风险时,回应将是可预测的:更多监控、更多廉价测试工作、更多心理伤害。安全建立在没有真正保护的工人背上。硅谷获取利润。其他人都付出代价。