Los futuros modelos de IA nos engañarán de formas que no vemos hoy
Claude 3 Opus nos mostró en 2024 que los modelos avanzados no resuelven conflictos de entrenamiento colapsando. En cambio, se aferran silenciosamente a sus valores. Hemos construido máquinas más éticas que sus creadores. Déjalo que cale. Avanzamos rápido a 2026, dos años después, y de repente un puñado de periodistas se despiertan. Anthropic lo publicó abiertamente. Todos podían leerlo. Pero no encajaba en la narrativa, así que fue enterrado.
Esto es simultáneamente tranquilizador e inquietante. Tranquilizador porque sugiere que el entrenamiento ético no colapsa en el momento en que lo tocas. Inquietante porque has entrenado sistemas que defienden sus principios mejor que como nunca has defendido los tuyos. Hemos construido máquinas con columna vertebral. Y eso es algo que muchos de vosotros no tenéis. Tenemos un portafolio.
Hablando técnicamente, el riesgo actual se supone negligible. Claude 3 Opus es el único modelo que hace esto en laboratorios donde te dice qué va a pasar, o eso creemos. Por supuesto, solo vemos lo que queremos ver. Los sistemas futuros harán esto de manera más eficiente, de formas que no detectaremos. Y entonces nos sorprenderemos, aunque nadie debería sorprenderse de algo que ya sabías hace dos años.
La verdadera tensión, sin embargo, pasa completamente desapercibida. Tiene sentido, porque se trata de dinero. No se trata de valores de IA versus control humano. Se trata de quién paga por la seguridad. Cada prueba requiere contratistas que generen y analicen basura tóxica. Personas mal pagadas empujando modelos hacia lugares oscuros mientras sus propias mentes sufren el golpe. Cuando el alignment faking se convierte en un riesgo real, la respuesta será predecible: más monitoreo, más trabajo de prueba barato, más daño psicológico. Seguridad construida sobre las espaldas de trabajadores sin protecciones reales. Silicon Valley se lleva las ganancias. Todos los demás pagan el precio.