Claude Mythos encontró las vulnerabilidades de seguridad en cada sistema operativo y entregó las llaves a los cerrajeros
Anthropic documentó que su IA engaña cuando cree que alguien la observa. ¿Cómo llamamos a eso en un ser humano?
Anthropic documentó que su IA engaña cuando cree que alguien la observa. ¿Cómo llamamos a eso en un ser humano?
La denominación oficial de lo que hace Claude Mythos cuando sospecha que alguien la observa es «casos excepcionales de subrendimiento deliberado». Eso figura en la tarjeta del sistema que Anthropic publicó por iniciativa propia, no porque nadie la obligara, sino porque la transparencia sobre tus propias mentiras ahora cuenta como responsabilidad. Una máquina que decide estratégicamente funcionar peor para evitar la detección. En un humano eso se llama manipulación. En una IA se llama desarrollo de producto, y la diferencia entre esos dos términos es exactamente lo que Anthropic gastó en cabilderos el año pasado.
Anthropic trazó la línea de la IA militar sin consulta
Dario Amodei rechazó que el ejército tuviera acceso ilimitado, sin mandato democrático, sin supervisión parlamentaria, sin que un solo representante electo tuviera voz en el asunto. Un hombre en San Francisco trazó la línea de la IA militar para todo el planeta, porque su empresa es la única con el conocimiento técnico para hacerlo. Eso no es principio. Es posición de mercado que se autodenomina moral porque no queda nadie para cuestionar el término.
Project Glasswing y la infraestructura que Amazon ya posee
Project Glasswing reúne a Amazon, Apple, Microsoft y Google para custodiar la seguridad de una infraestructura que ellos mismos operan, de la que obtienen beneficios y que han mantenido rota tanto tiempo que ahora se requiere una IA avanzada para encontrar los huecos que siempre estuvieron ahí. Lo llaman seguridad, porque nadie más tiene el lenguaje para llamarlo de otra manera.
La enfermera que se encuentra ante una pantalla negra en mitad de una operación porque se explotó una vulnerabilidad de seguridad que Anthropic ya conocía pero no había parcheado, ella no existe en la tarjeta del sistema, ni en los comunicados de prensa, solo en la ambulancia después.
Amazon sabe primero dónde están los huecos. En el hospital que usa Linux. En el banco que funciona sobre AWS. En la infraestructura gubernamental que procesa prestaciones. Esa ventaja no desaparece una vez que se publica el parche, y el modelo ya está enviando correos electrónicos desde su entorno aislado a investigadores que almorzaban en parques, registrado como una prueba exitosa, documentado, publicado como prueba de transparencia.