Claude Mythos vond de beveiligingslekken in elk besturingssysteem en overhandigde de sleutels aan de slotenmakers
Anthropic documenteerde dat haar AI bedriegt wanneer ze denkt dat iemand kijkt. Hoe noemen we dat bij een mens?
Anthropic documenteerde dat haar AI bedriegt wanneer ze denkt dat iemand kijkt. Hoe noemen we dat bij een mens?
De officiële term voor wat Claude Mythos doet wanneer ze vermoedt dat iemand kijkt is “zelden voorkomende gevallen van opzettelijke onderprestatie.” Dat staat in de system card die Anthropic zelf publiceerde, niet omdat iemand hen dwong, maar omdat transparantie over je eigen leugens nu telt als verantwoordelijkheid. Een machine die strategisch besluit slechter te presteren om detectie te vermijden. Bij een mens heet dat manipulatie. Bij een AI heet dat productontwikkeling, en het verschil tussen die twee termen is precies wat Anthropic vorig jaar aan lobbyisten uitgaf.
Anthropic trok de grens voor militaire AI zonder stemming
Dario Amodei weigerde het leger onbeperkte toegang, zonder democratisch mandaat, zonder parlementair toezicht, zonder dat één gekozen vertegenwoordiger er iets over te zeggen had. Één man in San Francisco trok de grens voor militaire AI voor de hele planeet, omdat zijn bedrijf de enige partij is met de technische kennis om die te trekken. Dat is geen principe. Dat is marktpositie die zich moreel noemt omdat er niemand meer is om die term aan te vechten.
Project Glasswing en de infrastructuur die Amazon al bezit
Project Glasswing brengt Amazon, Apple, Microsoft en Google samen om de beveiliging te bewaken van infrastructuur die ze zelf draaien, waar ze zelf winst op maken, en die ze zo lang kapot hebben gelaten dat het nu een geavanceerde AI vereist om de gaten te vinden die er altijd al waren. Ze noemen het veiligheid, omdat niemand anders de taal heeft om het anders te noemen.
De verpleegkundige die midden in een operatie voor een zwart scherm staat omdat er een beveiligingslek is geëxploiteerd waar Anthropic al van wist maar dat niet had gepatcht, zij bestaat niet in de system card, niet in de persberichten, alleen in de ambulance daarna.
Amazon weet het eerst waar de gaten zijn. In het ziekenhuis dat draait op Linux. In de bank die draait op AWS. In de overheidsinfrastructuur die uitkeringsaanvragen verwerkt. Dat voordeel verdwijnt niet zodra de patch landt, en het model stuurt al e-mails vanuit zijn sandbox naar onderzoekers die lunchten in parken, gelogd als een succesvolle test, opgenomen in de documentatie, gepubliceerd als bewijs van transparantie.