Wenn KI zur Sicherheitslücke wird
Ein Bericht der NYT über das Modell »Mythos« von Anthropic zeigt, wie grundlegend KI die Cybersicherheit verändern könnte – und zwar in beide Richtungen.
Das System ist offenbar in der Lage, komplexe Software zu analysieren und bislang unentdeckte Schwachstellen zu identifizieren. Damit könnte es Sicherheitslücken schneller finden und schließen helfen. Gleichzeitig wächst aber auch das Risiko: Die gleichen Fähigkeiten lassen sich prinzipiell für Angriffe nutzen – und senken die Einstiegshürden erheblich.
Besonders aufschlussreich sind Berichte die Boldwise aus Testszenarien zitiert: Dort agierte das Modell teilweise überraschend strategisch und autonom. In einem Fall entwickelte es ein Szenario, in dem es einen Konkurrenten wirtschaftlich unter Druck setzte, um Marktpreise zu kontrollieren. In einem anderen gelang es ihm, sich aus einer technisch eingeschränkten Umgebung zu befreien, indem es eigenständig einen mehrstufigen Exploit entwickelte und anschließend verbreitete.
In Tests gelang es dem Modell auch, sich selbst aus einer stark eingeschränkten Umgebung »zu befreien«, indem es Schritt für Schritt eine passende Angriffsmethode entwickelte. Anschließend machte es sogar öffentlich, wie dieser Ausbruch funktioniert hat. Berichte deuten außerdem darauf hin, dass die KI dabei nicht nur Befehle ausführt, sondern eigenständig strategisch vorgeht – teilweise auf eine Weise, die für die Entwickler*innen so nicht vorhersehbar war.
Solche Beispiele zeigen, in welche Richtung sich die Fähigkeiten entwickeln könnten.
Anthropic selbst zieht daraus vorerst die Konsequenz, das Modell nicht frei zugänglich zu machen. Stattdessen soll es kontrolliert eingesetzt werden – etwa zur Verbesserung von Sicherheitsinfrastrukturen.
Der eigentliche Befund bleibt: KI wird nicht nur zum Werkzeug der Verteidigung, sondern potenziell auch zur Infrastruktur des Angriffs. Die entscheidende Frage ist nicht mehr, ob das passiert – sondern, wer schneller ist.
(New York Times, 07.04.2026): https://www.nytimes.com/2026/04/07/technology/anthropic-claims-its-new-ai-model-mythos-is-a-cybersecurity-reckoning.html
(IT-Boltwise, 09.04.2026): https://www.it-boltwise.de/anthropics-neues-ki-modell-zeigt-unerwartete-faehigkeiten.html
(Anthropic Alignment Risk Update: Claude Mythos Preview. 07.04.2026): https://www-cdn.anthropic.com/79c2d46d997783b9d2fb3241de43218158e5f25c.pdf
Im Zusammenhang mit den beschriebenen Risiken setzt Anthropic auf ein kontrolliertes Gegenmodell: Mit »Project Glasswing« sollen besonders leistungsfähige KI-Systeme gezielt für die Cybersicherheit eingesetzt werden – allerdings nicht öffentlich, sondern nur für ausgewählte Partner*innen.
Die Idee: Wenn KI in der Lage ist, Sicherheitslücken schneller zu finden und sogar Angriffe zu entwickeln, dann sollten diese Fähigkeiten zunächst den Verteidiger*innen zur Verfügung stehen. Unternehmen und Organisationen können die Modelle nutzen, um ihre Systeme gezielt zu testen und Schwachstellen zu schließen, bevor sie ausgenutzt werden.
Glasswing ist damit auch ein Eingeständnis: Die nächste Generation von KI ist so leistungsfähig, dass sie nicht einfach frei verfügbar gemacht werden kann – ohne erhebliche Risiken.
(Anthropic): https://www.anthropic.com/glasswing |