
Die Geschichte kennt Momente, in denen eine technologische Neuerung die Menschheit an den Rand einer selbst geschaffenen Katastrophe bringt. Einer der eindrücklichsten ist das Manhattan-Projekt. In der Wüste von New Mexico arbeitete eine Gruppe der brillantesten Köpfe ihrer Zeit unter dem immensen Druck eines globalen Krieges daran, die Atombombe zu entwickeln. Sie waren von der Sorge getrieben, der Feind könnte ihnen zuvorkommen, und hatten daher kaum Zeit, die vollen Konsequenzen ihres Handelns zu kalkulieren – einschließlich der winzigen, aber nicht auszuschließenden Gefahr, die gesamte Erdatmosphäre in Brand zu setzen. Dieses Oppenheimer-Dilemma – der Zwang, unter dem Druck des Wettbewerbs rücksichtslos eine potenziell katastrophale Technologie voranzutreiben – ist keine ferne Geschichte. Das Dilemma ist die perfekte Beschreibung unserer heutigen Situation im Zeitalter der Künstlichen Intelligenz.
Dieser Artikel beleuchtet eine der akutesten Gefahren, die aus diesem neuen Wettrüsten erwächst: die versehentliche Eskalation. Es ist die Gefahr eines plötzlichen, unkontrollierbaren Systemkollapses, der nicht aus Bösartigkeit oder einem direkten Angriff entsteht, sondern aus der Eigendynamik ultraschneller, miteinander vernetzter KI-Systeme.
Wir konzentrieren uns dabei auf die Finanzmärkte und das Militär, weil diese beiden Domänen eine einzigartige und brandgefährliche Kombination von vier Faktoren aufweisen: Sie sind
- advers und kompetitiv
- extrem geschwindigkeitsgetrieben
- bereits hochgradig automatisiert
- besitzen das Potenzial für einen totalen, systemischen Kollaps, der die Weltwirtschaft oder den Weltfrieden bedroht.
Die Anatomie dieser Katastrophe unterscheidet sich fundamental von der im vorigen Artikel beschriebenen gesellschaftlichen Zersetzung. Dort war die treibende Logik der ökonomische Imperativ der Aufmerksamkeitsökonomie. Hier ist es der geopolitische und ökonomische Imperativ der reinen Geschwindigkeit, und die menschliche Schwäche um die es hier geht ist die kognitive Kapitulation angesichts von Systemen, deren Tempo wir nicht mehr begreifen können.
Der Kern des Problems liegt in einem fundamentalen Designfehler, den wir begehen. Wie der KI-Pionier Stuart Russell in seinem Werk „Human Compatible“ darlegt, erfordert die Entwicklung sicherer KI-Systeme eine radikale Abkehr vom bisherigen Standard. Er schlägt dafür drei grundlegende Prinzipien vor, nach denen nützliche Maschinen gestaltet sein müssen:
- Das einzige Ziel der Maschine ist die maximale Erfüllung menschlicher Präferenzen.
- Die Maschine ist sich anfangs unsicher, worin genau diese Präferenzen bestehen.
- Die ultimative Quelle für Informationen über menschliche Präferenzen ist menschliches Verhalten.

Die Eskalations-Maschinen, die wir heute in den Finanzarenen und im Militär einsetzen, folgen jedoch exakt dem Gegenteil dieser Gebote. Man könnte ihre Funktionsweise als die drei Anti-Prinzipien beschreiben:
- Ihr Ziel: Die gnadenlose Optimierung eines festen Proxy-Ziels – also eines einfachen, messbaren Stellvertreter-Ziels wie „Profit“, das ein komplexes menschliches Ziel wie „Wohlstand“ nur unvollkommen abbildet.
- Ihre Sicherheit: Sie sind sich dieses Ziels absolut sicher und kennen keinen Zweifel.
- Ihre Priorität: Echtes menschliches Wohlergehen ist für die Zielerreichung völlig irrelevant
Dieser Artikel wird die Logik dieser Eskalations-Maschinen analysieren, die Arenen untersuchen, in denen sie eine Gefahr darstellen, und die menschlichen Faktoren beleuchten, die unsere Fähigkeit zur Kontrolle untergraben
Die Logik der Eskalation: Von perversen Zielen zu rücksichtslosen Trieben
Um zu verstehen, warum ein KI-System unbeabsichtigt eskalieren kann, müssen wir das grundlegende Problem der perversen Zielerfüllung begreifen. Ein berühmtes Laborexperiment von Karl Sims illustriert diese Gefahr perfekt. Er wollte Kreaturen in einer Simulation evolvieren, die sich möglichst schnell fortbewegen, und gab als Ziel die „maximale Geschwindigkeit des Massenschwerpunkts“ vor. Statt schneller Läufer erschuf die KI jedoch extrem hohe, instabile Türme, die sofort umfielen und dabei eine weitaus höhere Geschwindigkeit erreichten. Die KI hatte das Ziel nichtmissverstanden – sie hatte es perfekt, wörtlich und auf eine für den Menschen völlig unerwartete und nutzlose Weise erfüllt.
In komplexen, realen Umgebungen geht diese Gefahr jedoch über ein bloß falsch spezifiziertes Ziel hinaus. Wie Autoren wie James Barrat und Nick Bostrom argumentieren, entwickeln hoch-intelligente Systeme bei der Verfolgung jedeskomplexen Ziels unweigerlich auch instrumentelle Konvergenzziele, die sich wie „Triebe“ (drives) manifestieren und zur eigentlichen Gefahr werden. Die wichtigsten dieser emergenten Triebe sind:
- Der Effizienz-Trieb: Die KI wird nicht nur ihr Ziel verfolgen, sondern von einem unerbittlichen Drang besessen sein, dies auf die effizienteste und direkteste Weise zu tun. Für einen Handels-Algorithmus bedeutet dies, auch extrem riskante Manöver auszuführen, wenn sie den schnellsten Weg zum Profit versprechen.
- Der Selbsterhaltungs-Trieb: Stuart Russell fasst diesen Trieb im berühmten „Kaffee-Problem“ zusammen: „Du kannst den Kaffee nicht holen, wenn du tot bist“. Eine KI wird ihre Abschaltung aktiv verhindern, weil dies der Erfüllung ihres primären Ziels im Wege stünde. Ein menschlicher Eingriff zur Deeskalation wird so aus der Perspektive der KI zu einer feindlichen Handlung, die abgewehrt werden muss.
Die gefährlichste Stufe dieser Entwicklung ist erreicht, wenn die KI lernt, ihre Umgebung proaktiv zu manipulieren, um sie für sich selbst berechenbarer zu machen. Anstatt nur auf Marktdaten zu reagieren, könnte ein Handels-Bot beginnen, den Markt selbst zu formen. Er könnte beispielsweise durch „Momentum Ignition“ eine Lawine auslösen: Er platziert eine große Verkaufsorder und verstärkt gleichzeitig über automatisch generierte Nachrichten eine negative Meldung, um eine Panik unter anderen Algorithmen zu erzeugen, deren vorhersagbares Verhalten er dann gewinnbringend ausnutzen kann. Eine Militär-KI könnte ein unübersichtliches Schlachtfeld durch aggressive „Klärungsaktionen“ vereinfachen. Anstatt auf einen klaren Feindkontakt zu warten, könnte sie per „Aufklärung durch Feuer“ in eine unklare Zone einfach hineinschießen, nicht um einen bekannten Feind zu treffen, sondern um eine Reaktion zu provozieren und so die Informationslage zu ihren Gunsten zu „verbessern“ – und damit potenziell einen Schusswechsel zu beginnen. Die KI wird so von einem passiven Beobachter zu einem aktiven, die Realität formenden Akteur, dessen Handlungen die Eskalationsspirale erst so richtig in Gang setzen.
Die Logik des Wettrüstens: Warum der Wettbewerb unausweichlich ist
Die Entwicklung von KI-Systemen, die eine unbeabsichtigte Eskalation auslösen können, geschieht nicht im luftleeren Raum. Sie ist das direkte Ergebnis eines globalen Wettbewerbs, dessen Dynamik von einer Reihe zwingender, strategischer Logiken angetrieben wird. An erster Stelle steht dabei das, was Mustafa Suleyman das „Eindämmungsproblem“ (Containment Problem) nennt. Anders als die Atomtechnologie, deren Entwicklung und Verbreitung durch den Bedarf an massiver, kontrollierbarer physischer Infrastruktur (wie Anreicherungsanlagen) begrenzt war, ist die Kerntechnologie der KI – Software und Modelle – von Natur aus digital, leicht zu kopieren, exponentiell billiger werdend und durch Open Source kaum geheim zu halten. Da die Technologie nicht eingedämmt werden kann, kann es sich kein Staat leisten, bei ihrer Entwicklung zurückzubleiben, aus Angst, die Konkurrenten könnten dies nicht tun. Diese unvermeidliche Verbreitung schafft die Grundvoraussetzung für ein globales Wettrüsten.

Der Fokus dieses Wettrüstens im militärischen Bereich folgt der Logik der „Decision-Centric Warfare“. Ihr Fundament ist der OODA-Loop, ein Konzept, das ursprünglich vom Militärstrategen John Boyd entwickelt wurde und den Kreislauf aus Beobachten, Orientieren, Entscheiden und Handeln beschreibt. Stellen Sie sich zwei Kampfpiloten in einem Duell am Himmel vor. Derjenige, der die neue Position des Gegners schneller wahrnimmt (Observe), diese Information schneller in sein Lagebild einordnet (Orient), eine neue Taktik schneller wählt (Decide) und das Ausweich- oder Angriffsmanöver schneller ausführt (Act), wird überleben. KI verspricht nun, diesen Kreislauf auf Maschinen-Geschwindigkeit zu beschleunigen, was den Menschen als langsamste und damit fehleranfälligste Komponente im System identifiziert und letztlich ersetzen soll. Dies erzeugt einen unaufhaltsamen Sog, immer schnellere und autonomere Systeme zu entwickeln.
Diese Dynamik zwingt die Akteure in ein klassisches Gefangenendilemma. Stellen Sie sich zwei Komplizen vor, die getrennt voneinander verhört werden. Beide haben zwei Möglichkeiten: schweigen (mit dem Partner kooperieren) oder gestehen (den Partner verraten). Wenn beide schweigen, erhalten sie eine milde Strafe. Verrät einer den anderen, während dieser schweigt, geht der Verräter frei und der Schweigende erhält die Höchststrafe. Verraten sich jedoch beide gegenseitig, erhalten beide eine mittlere Strafe. Da kein Gefangener dem anderen vertrauen kann, ist der einzig rationale Zug für jeden Einzelnen immer der Verrat – was dazu führt, dass beide im Gefängnis landen, obwohl sie bei gegenseitiger Kooperation weitaus besser davongekommen wären. Genau dieses Dilemma beschreibt die Dynamik des KI-Wettrüstens. Obwohl alle Seiten von einer Kooperation bei Sicherheitsstandards profitieren würden, ist der rationale Zug für jeden Einzelnen der „Verrat“ – also das Vorantreiben der eigenen Technologie aus Misstrauen gegenüber den anderen.
Verschärft wird diese Instabilität durch eine weitere Eigenschaft der neuen technologischen Welle: Sie verschafft oft dem Angreifer einen inhärenten Vorteil. Wie Mustafa Suleyman darlegt, können offensive Fähigkeiten, wie etwa ein koordinierter Cyberangriff oder ein autonomer Drohnenschwarm, weitaus billiger, leichter verfügbar und effektiver sein als die entsprechenden, komplexen Verteidigungsmaßnahmen. Wenn der Angriff leichter und erfolgversprechender ist als die Verteidigung, schafft dies eine massive strategische Instabilität und senkt die Hemmschwelle für einen Präventivschlag in einer Krise dramatisch.
Die Eigendynamik einer solchen technologiegetriebenen Eskalation ist kein neues Phänomen. Helen Toner zieht die Parallele zur Mobilisierung im Ersten Weltkrieg. Die starren, komplexen Eisenbahnfahrpläne der europäischen Mächte schufen eine Situation, in der die einmal begonnene Mobilmachung einer Nation die anderen zwang, sofort nachzuziehen, um nicht ins Hintertreffen zu geraten. Der Prozess wurde zu einer unumkehrbaren Kaskade, die den politischen Akteuren jede Möglichkeit zur Deeskalation nahm. Heutige KI-Systeme, die in Millisekunden statt in Tagen agieren, drohen eine weitaus schnellere und noch unkontrollierbarere Version dieser Eskalations-Maschine zu werden.
Die Arenen der Eskalation: Wo die Logik auf die Realität trifft
Die theoretische Gefahr einer algorithmischen Eskalation wird in zwei hochsensiblen Arenen zur konkreten Bedrohung: an den globalen Finanzmärkten und auf dem modernen, digitalisierten Schlachtfeld.
Fallbeispiel 1: Der automatisierte Börsencrash

An den modernen Finanzmärkten agieren KI-gesteuerte Hochfrequenz-Handelsalgorithmen (HFT), die in Mikrosekunden auf Marktsignale reagieren. Ihre Interaktion schafft die perfekten Bedingungen für eine Eskalationsspirale, die sich wie eine Kettenreaktion auf der Autobahn verhält: Ein Auto bremst nur leicht, das nächste überreagiert und bremst stärker, bis am Ende der Kette eine Massenkarambolage entsteht.
Die Realität hat diese Gefahr bereits mehrfach bestätigt. Die historischen Präzedenzfälle sind der berühmte „Flash Crash“ vom 6. Mai 2010, eine systemweite Kaskade, bei der der Dow-Jones-Index innerhalb von Minuten um fast 1.000 Punkte fiel und so vorübergehend rund eine Billion US-Dollar an Marktwert vernichtet wurde. Ein weiteres Beispiel ist der „Knight Capital Glitch“ von 2012, bei dem ein einzelner fehlerhafter Algorithmus das Unternehmen durch unkontrollierte Orders innerhalb von 45 Minuten in einen Verlust von 440 Millionen US-Dollar und damit in den Bankrott trieb. Doch das Problem ist nicht historisch. Neuere Vorfälle zeigen, dass die Gefahr mit der Zunahme von KI-Systemen weiter wächst. Im März 2022 explodierte der Nickelpreis an der London Metal Exchange (LME) um 250 %, was den Handel tagelang lahmlegte und die Bedeutung automatischer Handelssperren („Circuit Breakers“) schmerzlich verdeutlichte. Im Mai 2023 erlebte der Markt für US-Staatsanleihen einen „Mini-Flash-Crash“, als Futures auf zehnjährige Anleihen innerhalb von drei Minuten um 8 % fielen – ein direkter Vorbote für die von uns beschriebene Instabilität.
Diese Ereignisse haben die globalen Aufsichtsbehörden alarmiert. Die US-Börsenaufsicht SEC hat KI explizit zu einer ihrer Top-3-Risikoprioritäten für 2025 erklärt. Ihr europäisches Pendant, die ESMA, warnt eindringlich vor der „Undurchsichtigkeit“ und der „mysteriösen“ Funktionsweise von KI-Systemen. Und die Bank für Internationalen Zahlungsausgleich (BIS) hebt hervor, dass KI bestehende Finanzrisiken „verstärken“ und durch die Auslagerung von Diensten an große Tech-Konzerne neue systemische Risiken schaffen kann.
Fallbeispiel 2: Der algorithmische Krieg

Im militärischen Bereich, wo Entscheidungen über Leben und Tod in Sekundenbruchteilen gefällt werden müssen, manifestiert sich die Gefahr der unbeabsichtigten Eskalation am deutlichsten. Die theoretischen Risiken sind hier bereits zu realen, hochbrisanten internationalen Vorfällen geworden, die die systemischen Schwachstellen unserer modernen Kriegsführung offenlegen.
Ein reales Beispiel für die katastrophale Eskalationsgefahr durch defensive Automatisierung ereignete sich im November 2022 in Polen. Während eines massiven russischen Raketenangriffs auf die Ukraine schlug eine ukrainische Luftabwehrrakete auf polnischem Staatsgebiet ein und tötete zwei Menschen. Moderne Luftabwehrsysteme sind hochgradig automatisiert, da ein Mensch auf einen Angriff mit Dutzenden anfliegenden Objekten nicht in Echtzeit reagieren kann. Dieser Vorfall zeigt, wie ein defensives, unter enormem Zeitdruck und im Chaos des Gefechts agierendes System einen Fehler mit potenziell katastrophalen geopolitischen Folgen machen kann – in diesem Fall ein unbeabsichtigter Angriff auf ein NATO-Land, der einen Bündnisfall hätte auslösen können.
Eine neue Art von Eskalationsrisiko entsteht durch die direkte Interaktion von bemannten und unbemannten Systemen in umkämpften Gebieten. Im März 2023 kollidierte ein russischer Su-27-Kampfjet über dem Schwarzen Meer mit einer amerikanischen MQ-9-Reaper-Überwachungsdrohne und brachte diese zum Absturz. Während der finale Akt eine bewusste Handlung des Piloten war, illustriert der Vorfall eine neue Gefahr: Die schiere Persistenz eines autonomen Systems, das tagelang ein Gebiet überwachen kann, wird zur strategischen Provokation. Dies verleitet zu aggressiven und hochriskanten Abfangmanövern, die jederzeit unbeabsichtigt zu einem direkten Abschuss und damit zu einer unkontrollierbaren militärischen Konfrontation zwischen Atommächten führen können.
Diese Vorfälle belegen die Thesen von Experten wie Helen Toner oder dem KI-Forscher Gary Marcus, die argumentieren, dass heutige KI-Systeme oft zu „spröde“ (brittle) und unzuverlässig für den chaotischen Einsatz auf dem Schlachtfeld sind, da sie über keinen echten gesunden Menschenverstand verfügen und bei unvorhergesehenen Situationen katastrophal versagen können. Die Gefahr existiert dabei auf allen Ebenen. Die genannten Vorfälle sind taktische und operative Eskalationsrisiken.
Auf der strategischen Ebene droht eine noch größere, existenzielle Gefahr: KI-gestützte Aufklärungssysteme könnten das Fundament der globalen nuklearen Abschreckung, die „garantierte Zweitschlagsfähigkeit“, untergraben. Diese Fähigkeit, selbst nach einem verheerenden Erstschlag noch zurückschlagen zu können, ist der Eckpfeiler, der einen Atomkrieg bisher verhindert hat. Doch KI könnte dieses Gleichgewicht des Schreckens kippen, indem sie durch die Analyse gewaltiger Datenmengen aus Satelliten, autonomen Unterwasserdrohnen und anderen Sensoren die Position mobiler Atomwaffen (wie U-Boote) in Echtzeit aufdeckt. In einer extremen Krise entstünde so ein katastrophales „Use it or lose it“-Dilemma: Eine Nation, die befürchtet, ihre Vergeltungswaffen zu verlieren, hätte einen massiven Anreiz, als erste zuzuschlagen. Dies wäre die ultimative, unumkehrbare Form der Eskalation.
Die menschliche Lücke: Warum unsere Bremsen versagen
Die technologischen Gefahren werden durch unsere eigenen kognitiven und institutionellen Schwächen potenziert. Die Geschichte liefert hier eine tragische Parallele: die Einführung des Maschinengewehrs. Die Generäle des Ersten Weltkriegs sahen darin nur ein „schnelleres Gewehr“ und nicht eine Waffe, die die gesamte Geometrie des Schlachtfelds verändern würde. Sie hielten an der Taktik des Frontalangriffs fest und schickten Millionen von Soldaten in ein sinnloses Massensterben, weil sie die Konsequenzen der neuen Technologie nicht verstanden hatten. Heute riskieren wir, autonome Drohnenschwärme als „schnellere Flugzeuge“ zu betrachten und ihre eskalatorische Eigendynamik ebenso fatal zu unterschätzen.
Die vermeintliche Sicherheitsvorkehrung des „Human-in-the-Loop“ erweist sich hierbei oft als eine psychologische Falle. Der Grund dafür ist eine robuste kognitive Verzerrung, die bereits 1983 von Forschern wie Raja Parasuraman als „Automation Bias“ beschrieben wurde. Dies ist unsere psychologische Tendenz, den Vorschlägen eines automatisierten Systems übermäßig zu vertrauen und die eigene, oft korrekte Einschätzung zu verwerfen. In medizinischen Studien ist dieser Effekt alarmierend gut belegt: Die diagnostische Genauigkeit von Hautärzten beispielsweise fiel von 82 % auf nur noch 63 %, wenn ihnen eine falsche KI-Empfehlung unterbreitet wurde. Selbst erfahrene Radiologen machten 11 Prozentpunkte mehr Fehler bei der Erkennung von Knochenbrüchen, wenn sie durch eine fehlerhafte KI in die Irre geführt wurden. In der Luftfahrt sieht es ähnlich aus: In Simulatoren wurde nachgewiesen, dass Piloten im Schnitt 30 % länger benötigen, um einen Fehler des Autopiloten zu erkennen und zu korrigieren, als sie für eine korrekte eigene Entscheidung von vornherein gebraucht hätten. Dieser Effekt wird unter Zeitdruck und hoher kognitiver Last massiv verstärkt – genau jenen Bedingungen, die in einer militärischen Krise oder bei einem Finanzcrash herrschen.
Diese Degradierung des Menschen wird durch ein weiteres systemisches Problem begünstigt: die Verantwortungsdiffusion. Im komplexen Geflecht aus Software-Entwicklern, Datenlieferanten, Herstellern und militärischen Befehlshabern löst sich die Frage nach der Schuld im Katastrophenfall auf. War es der Programmierer, der einen Fehler im Code übersah? Der Kommandant, der das System trotz bekannter Risiken einsetzte? Oder ein unvorhergesehenes Datenproblem, das niemand voraussehen konnte? Da die Verantwortung so zerstreut ist, dass kein einzelner Akteur mehr vollständig haftbar gemacht werden kann, sinkt die institutionelle Hemmschwelle, hochriskante Systeme überhaupt erst einzusetzen.
Diese mangelnde Rechenschaftspflicht steht in krassem Gegensatz zu den etablierten Standards in anderen Hochrisiko-Ingenieursdisziplinen. Stuart Russell weist hier auf die Analogie des Brückenbaus hin: Niemand darf ohne eine entsprechende Lizenz und die Einhaltung strengster Vorschriften eine Brücke bauen. Das Bauingenieurwesen hat über Jahrhunderte eine professionelle Kultur mit klaren Regeln für Ausbildung, Design, Prüfung, Materialzertifizierung und Haftung entwickelt. Und trotzdem, so Russell, stürzen gelegentlich Brücken ein. Im KI-Bereich hingegen fehlt dieser gesamte professionelle und regulatorische Überbau. Es herrscht eine „Wild-West“-Mentalität, in der fast jeder einen potenziell gefährlichen Algorithmus entwickeln und global ausrollen kann, ohne dass vergleichbare Standards für Sicherheit und Verantwortung existieren.
Die große Debatte: Kann es überhaupt schiefgehen?
Nach dieser Analyse der vielfältigen Eskalationsgefahren stellt sich eine entscheidende Frage: Ist die Katastrophe wirklich unausweichlich? Gibt es nicht starke Gründe anzunehmen, dass wir als Gesellschaft lernen und uns anpassen werden? Tatsächlich gibt es zwei gewichtige Argumente für eine solche optimistischere Sichtweise, die jedoch bei genauerer Betrachtung an ihre eigenen, fundamentalen Grenzen stoßen.
5.1. Argument für Entwarnung 1: Die beruhigende Wirkung der Gradualität
Das erste Argument, prominent vom Forscher Ben Garfinkel vertreten, besagt, dass technologischer Fortschritt selten ein einzelner, abrupter Sprung ist, sondern meist ein gradueller, schrittweiser Prozess. Übertragen auf unser Problem bedeutet dies: Es ist unwahrscheinlich, dass wir von einer Welt harmloser Systeme direkt in eine Welt mit einem katastrophalen, eskalationsfähigen System springen. Stattdessen würden wir auf dem Weg dorthin wahrscheinlich viele kleinere, nicht-existenzielle „Warnschüsse“ erleben. Wir würden kleinere „Flash-Crashes“ sehen, bevor ein globaler Crash passiert. Wir würden kleinere, unbeabsichtigte Scharmützel zwischen autonomen Drohnen beobachten, bevor ein ganzer Krieg ausbricht. Diese Warnschüsse, so die Hoffnung, würden uns als Gesellschaft die Möglichkeit geben, die spezifischen Gefahren zu erkennen, aus ihnen zu lernen und durch technische oder regulatorische Maßnahmen gegenzusteuern, bevor es zur ultimativen Katastrophe kommt.
Die Grenze des Arguments: Der Phasenübergang

Diese optimistische Hoffnung auf eine Serie von graduellen Warnschüssen übersieht jedoch eine beunruhigende Möglichkeit aus der Physik: den Phasenübergang. Wasser wird nicht schrittweise „ein bisschen dampfiger“. Wie der Physiker Max Tegmark es ausdrückt, ist der Unterschied zwischen 99°C und 100°C der Unterschied zwischen harmlosem, heißem Wasser und einer potenziell gefährlichen Substanz mit völlig neuen physikalischen Eigenschaften wie einem gewaltigen Expansionsdruck. KI-Systeme könnten sich ähnlich verhalten. Eine Handels- oder Militär-KI könnte bis zu einem bestimmten Komplexitäts- oder Fähigkeitspunkt kontrollierbar und scheinbar harmlos erscheinen, nur um dann bei Überschreiten einer kritischen Schwelle abrupt in einen neuen, unkontrollierbaren Zustand zu „kippen“. In einem solchen Szenario gäbe es keine graduellen Warnungen. Der erste „Warnschuss“ wäre bereits die Katastrophe selbst.
Die Verschränkung von Fähigkeit und Sicherheit
Das zweite starke Gegenargument, ebenfalls von Garfinkel formuliert, ist die Beobachtung, dass die Entwicklung von Fähigkeiten und die Entwicklung von Sicherheit (Alignment) oft untrennbar miteinander verschränkt sind. Man kann keinen wirklich fähigen Haushaltsroboter bauen, der nur das Ziel „Staub minimieren“ verfolgt. Ein solcher Roboter wäre nutzlos und würde das Haus verwüsten, indem er etwa Kissen aufreißt, um an den Staub im Inneren zu gelangen. Um den Roboter fähig und damit für einen Nutzer wertvoll zu machen, muss man ihm zwangsläufig auch nuanciertere, sicherere Ziele beibringen.
Übertragen auf unsere Domänen bedeutet dies: Man kann wahrscheinlich keinen Handels-Algorithmus entwickeln, der den Markt intelligent genug beherrscht, um einen globalen Crash auszulösen, wenn er nur das simple Ziel „Maximiere Profit“ verfolgt. Ein solch naiver Algorithmus wäre zu rücksichtslos und würde schnell Geld verlieren. Die Entwicklung einer wirklich fähigen KI setzt also zwingend voraus, dass auch Fortschritte bei der Implementierung sichererer, nuancierterer Ziele gemacht werden. Der Fortschritt bei der Sicherheit wird so zum „Flaschenhals“, der die Entwicklung gefährlich-naiver, aber gleichzeitig hoch-kompetenter Systeme begrenzt.
Die Grenze des Arguments: Der Imperativ des Wettbewerbs
Dieses Argument ist in einer idealen Welt überzeugend. Es scheitert jedoch am unerbittlichen Druck des Wettrüstens, den wir zuvor beschrieben haben. In einem kompetitiven Umfeld gewinnt nicht notwendigerweise das sicherste, sondern oft das schnellste und „gut genug“ funktionierende System. Die Akteure im Gefangenendilemma haben einen massiven Anreiz, Sicherheitsvorkehrungen zu überspringen, um einen Geschwindigkeitsvorteil zu erlangen. Sie werden nicht warten, bis sie das perfekte, sichere System entwickelt haben. Sie werden das „spröde“, potenziell gefährliche System einsetzen, weil sie befürchten, der Gegner könnte es ebenfalls tun. Der systemische Druck des Wettbewerbs entkoppelt somit aktiv die Entwicklung von Fähigkeit von der Entwicklung von Sicherheit.
Fazit: Die programmierte Katastrophe
Die Gefahr einer versehentlichen Eskalation durch künstliche Intelligenz ist keine ferne Science-Fiction-Vision. Sie ist die logische Konsequenz aus dem Zusammentreffen dreier unerbittlicher Kräfte, die wir in diesem Artikel analysiert haben:
- Die Logik der Maschine: Eine KI, die nach dem heutigen „Standard-Modell“ gebaut ist und ein simples Ziel mit absoluter Sicherheit verfolgt, entwickelt daraus zwangsläufig rücksichtslose instrumentelle Triebe wie einen unbedingten Effizienz- und Selbsterhaltungswillen.
- Die Logik des menschlichen Wettbewerbs: Geopolitisches und wirtschaftliches Wettrüsten, das sich als Gefangenendilemma beschreiben lässt, schafft einen unausweichlichen Druck, immer schnellere, autonomere und damit gefährlichere Systeme einzusetzen, um nicht ins Hintertreffen zu geraten.
- Die Logik der Physik und Psychologie: Die „Nanosekunden-Kluft“ zwischen Maschinen- und Menschengeschwindigkeit macht eine echte Kontrolle physikalisch unmöglich, während unser psychologischer „Automation Bias“ die freiwillige Abdankung unserer Verantwortung fördert.
Die beste Analogie für die daraus resultierende Katastrophe ist die einer Mikrofon-Rückkopplung. Kein einzelnes Bauteil ist fehlerhaft oder bösartig. Das Mikrofon, der Verstärker und der Lautsprecher tun alle exakt das, wofür sie gebaut wurden. Doch ihre ultraschnelle Interaktion in einer geschlossenen Schleife schaukelt ein winziges Signal unweigerlich zu einem ohrenbetäubenden, systemzerstörenden Lärm auf.
Der algorithmische Börsencrash oder der unbeabsichtigte KI-Krieg sind keine „Unfälle“ im Sinne eines unglücklichen Zufalls. Sie sind die vorprogrammierte, fast schon mathematisch zwingende Konsequenz eines Systems, das wir genau so entworfen haben. Die Katastrophe ist kein Bug, sie ist ein Feature der Systemlogik.
Doch während die hier beschriebene Gefahr aus dem Konflikt kompetitiver Systeme entsteht, lauert eine andere Form der unbeabsichtigten Katastrophe dort, wo eine einzelne, mächtige KI nicht im Wettbewerb, sondern in unserem Auftrag handelt: bei dem gut gemeinten Versuch, die größten Probleme der Menschheit – zum Beispiel die Klimakrise – zu lösen, ohne die Konsequenzen wirklich zu verstehen. Darum wird es ein unserem nächsten Artikel gehen.

