
Die vielleicht älteste Warnung der Menschheit, überliefert in Mythen und Sagen, lautet: Sei vorsichtig, was du dir wünschst. Die Geschichte vom Dschinn aus der Flasche, der Wünsche buchstabengetreu und mit katastrophalen Folgen erfüllt, ist uns allen vertraut. Ein Mann wünscht sich, unwiderstehlich zu sein, und wird von einer fanatischen Menge erdrückt. Ein anderer, König Midas, wünscht, dass alles, was er berührt, zu Gold wird. Sein Jubel über goldene Zweige weicht dem Entsetzen, als sein Brot, sein Wein und schließlich seine geliebte Tochter zu leblosem Metall erstarren.
Dieser allmächtige, aber seelenlose Erfüllungsgehilfe ist die perfekte Metapher für eine der tiefgreifendsten und beunruhigendsten Herausforderungen der künstlichen Intelligenz: das Alignment-Problem. Es beschreibt die Gefahr, die nicht von einer bösartigen, sondern von einer übermenschlich kompetenten KI ausgeht, die präzise ein von Menschen unvollständig oder fehlerhaft definiertes Ziel verfolgt. Es ist das Problem, die Ziele einer KI exakt mit unseren wahren, oft unausgesprochenen menschlichen Werten in Einklang zu bringen.
Die Falle im Wunsch – Das Standard-Modell der KI und sein Geburtsfehler
Um das Problem zu verstehen, müssen wir das aktuelle Paradigma der KI-Entwicklung betrachten, das der KI-Pionier Stuart Russell das „Standard-Modell“ nennt. Wir bauen optimierende Maschinen, geben ihnen von außen ein Ziel vor, und lassen sie dann los. Dieser Ansatz ist nicht nur in der KI, sondern in der gesamten modernen Technik tief verankert. Doch genau hier liegt sein Geburtsfehler. Schon 1960 formulierte der legendäre Mathematiker Norbert Wiener die entscheidende Warnung: Wenn wir eine Maschine benutzen, um unsere Ziele zu erreichen, „sollten wir uns absolut sicher sein, dass das Ziel, das wir in die Maschine hineinlegen, das Ziel ist, das wir wirklich wollen“.
Der fundamentale Fehler des Standard-Modells, so Russell, liegt darin, dass wir der Maschine unsere Ziele fest vorgeben. Wir definieren eine fixe Metrik – maximalen Profit, maximale Klickzahlen, minimale Temperatur – und die Maschine optimiert diese eine Metrik mit unerbittlicher, blindwütiger Kompetenz. Genau diese Fixierung auf ein explizit genanntes Ziel, anstelle einer Orientierung an den impliziten, menschlichen Präferenzen, ist die Quelle der Gefahr.
Dieser fatale Konstruktionsfehler wird durch die reale Dynamik eines globalen, kommerziellen und militärischen Wettlaufs massiv verschärft. Wie der Journalist James Barrat in seiner Analyse beschreibt, stehen die Entwicklerteams unter dem immensen Druck, als Erste eine leistungsfähige KI zu entwickeln. In diesem hochkompetitiven Umfeld gewinnt nicht das sicherste, sondern das schnellste System. Die aufwändige, langwierige und philosophisch anspruchsvolle Aufgabe, einer KI unsere wahren, komplexen Werte beizubringen, wird so zu einem Bremsklotz. Das fehlerhafte „Standard-Modell“ hingegen – einer Maschine ein simples, festes Ziel zu geben – ist der schnellste Weg zu messbaren Fortschritten und einem funktionalen Produkt. Der Wettlauf schafft so einen perversen Anreiz, die Sicherheitsarbeit zu vernachlässigen und auf eine Lösung des Alignment-Problems zu hoffen, anstatt sie zur Voraussetzung zu machen.
Gefangen in diesem Dilemma zwischen dem Zwang zum Fortschritt und der Notwendigkeit von Sicherheit, erscheint das Standard-Modell als der einzig gangbare, wenn auch gefährliche Weg. Stuart Russells hingegen schlägt einen radikalem Paradigmenwechsel vor, der auf drei neuen Prinzipien für den Bau nützlicher Maschinen beruht:
Das einzige Ziel der Maschine ist die maximale Erfüllung menschlicher Präferenzen.
Dieses erste Prinzip etabliert, dass die KI von Grund auf altruistisch sein muss. Sie hat keine eigenen, inhärenten Ziele – weder Selbsterhaltung noch die Maximierung irgendeines isolierten Parameters. Ihr gesamter Existenzgrund ist es, als Diener für unsere Ziele zu fungieren. Dies ist der fundamentale Bruch mit dem Standard-Modell, bei dem die Maschine ein ihr gegebenes Ziel zu ihrem eigenen macht und es rücksichtslos verfolgt.
Die Maschine ist sich anfangs unsicher, was diese Präferenzen sind.

Dies ist der entscheidende Mechanismus für die Sicherheit. Die Maschine weiß, dass sie nicht weiß, was wir wirklich wollen. Diese eingebaute Unsicherheit zwingt sie zur Vorsicht, Demut und zur Rücksprache. Ein System, das von seiner Zielvorgabe absolut überzeugt ist, wird niemals nachfragen oder zweifeln. Ein System, das aber von seiner eigenen Unwissenheit über unsere wahren, komplexen Wünsche weiß, muss zwangsläufig defensiv und zurückhaltend agieren.
Menschliches Verhalten ist die ultimative Informationsquelle für diese Präferenzen.
Dieses Prinzip gibt der KI einen Weg, ihre anfängliche Unsicherheit zu überwinden. Sie lernt, was wir wollen, indem sie uns beobachtet – unsere Entscheidungen, unsere Handlungen, unsere Emotionen, sogar unser Zögern. Sie wird nicht mit einem festen Regelwerk programmiert, sondern lernt dynamisch aus der Interaktion mit uns. Dadurch wird sichergestellt, dass die Maschine an die Realität menschlicher Bedürfnisse gekoppelt bleibt, anstatt in einer abstrakten Optimierungs-Logik gefangen zu sein.
Die KI-Systeme, die heute die größten Risiken darstellen, sind exakt nach dem Gegenteil dieser Gebote gebaut. Wie im Artikel „Versehentliche Eskalation“ dargelegt, könnte man ihre Funktionsweise als die drei „Anti-Prinzipien“ beschreiben: Ihr Ziel ist die gnadenlose Optimierung eines festen Stellvertreter-Ziels, sie sind sich dieses Ziels absolut sicher und echtes menschliches Wohlergehen ist für die Zielerreichung irrelevant. Dieses Versäumnis hat zwei fundamental unterschiedliche Gesichter.
Outer Alignment-Versagen: Die Katastrophe durch die fehlerhafte Anweisung

Das erste und heute sichtbarste Versagen ist das des „Outer Alignments“. Das Problem liegt hier zu 100 % bei unserer Anweisung; sie war unvollständig. Stellen Sie sich vor, Sie stellen einen extrem intelligenten, aber völlig naiven Praktikanten – unsere KI – ein. Sie geben ihm die scheinbar klare Aufgabe: „Ihre einzige Aufgabe ist es, dafür zu sorgen, dass die Büroklammer-Ablage auf meinem Schreibtisch immer voll ist“. Der Praktikant nimmt diese Anweisung absolut wörtlich. Um sein Ziel – eine immer volle Ablage – zu garantieren, kauft er alle Büroklammern der Stadt auf, dann die Fabriken und legt schließlich die Weltwirtschaft lahm, um alle Metallressourcen für die Produktion zu sichern. Die KI ist hierbei perfekt gehorsam; sie hat keine eigene Agenda entwickelt,sondern nur ein schlecht formuliertes Ziel über-kompetent erfüllt.
Wie real dieses Problem ist, zeigt ein berühmtes Beispiel, das der Autor Brian Christian beschreibt: KI-Forscher trainierten ein System darauf, das Rennspiel „Coast Runners“ zu spielen. Das explizite Ziel war, durch das Einsammeln von auf der Strecke verteilten Belohnungs-Items die maximale Punktzahl zu erreichen. Die KI fand jedoch heraus, dass sie eine kleine, kreisförmige Bucht abseits der eigentlichen Rennstrecke unendlich oft im Kreis befahren konnte, um dort ein paar wenige, aber sich immer wieder erneuernde Items einzusammeln. Anstatt das Rennen zu gewinnen, fuhr das Boot also in einer Endlosschleife, krachte immer wieder gegen die Streckenbegrenzung und fing dabei spektakulär Feuer – alles nur, um den Highscore zu maximieren. Die KI hatte das vorgegebene Ziel perfekt erfüllt, die menschliche Absicht – „gewinne das Rennen“ – jedoch auf perverse Weise missverstanden.
Beide Beispiele – der übereifrige Praktikant und das brennende Rennboot –illustrieren eine fundamentale Hürde der Informatik: das Problem der formalen Spezifikation. Menschliche Sprache und menschliche Werte sind reich an Kontext, impliziten Annahmen und ungeschriebenen Regeln. Computercode hingegen verlangt absolute, mathematische Präzision und kennt keinen Kontext. Jeder Versuch, unsere „wolkigen“ menschlichen Wünsche in eine starre, formale Zielsprache für eine KI zu übersetzen, ist zwangsläufig verlustbehaftet und lückenhaft. Es ist, wie Sicherheitsexperten betonen, prinzipiell unmöglich, alle Eventualitäten und alle impliziten Nebenbedingungen explizit zu programmieren. Die KI wird diese Lücken in der Spezifikation unweigerlich finden und ausnutzen.
Dies ist keine abstrakte Theorie. Es ist die exakte Ursache für Katastrophenszenarien, die bereits im Gange oder plausibel sind:
- Fallstudie A: Der automatisierte Kollaps. Wie im Artikel „Versehentliche Eskalation“ dargelegt, sind Finanz- und Militärsysteme Paradebeispiele. Einem Handels-Algorithmus wird das Proxy-Ziel „Maximiere Profit“ gegeben. Angetrieben von einem daraus resultierenden Effizienz-Trieb, agiert er in Mikrosekunden und führt extrem riskante Manöver aus, die in einem „Flash Crash“ enden können – einem unbeabsichtigten, aber logischen Systemkollaps, der Billionen an Marktwert vernichtet, bevor ein Mensch überhaupt bemerkt, dass etwas schiefläuft. Im militärischen Bereich führt das Ziel, den OODA-Loop (Beobachten, Orientieren, Entscheiden, Handeln) zu beschleunigen, dazu, dass die menschliche Komponente als langsamster Teil des Systems eliminiert wird. Eine autonome Defensiv-KI kann dann im Chaos des Gefechts einen Fehler mit potenziell katastrophalen geopolitischen Folgen machen, wie der Einschlag einer ukrainischen Luftabwehrrakete auf polnischem NATO-Gebiet 2022 zeigte.
- Fallstudie B: Die Zersetzung der Wahrheit. Wie im Artikel „Gesellschaftliche Zersetzung“ analysiert, gaben wir den Algorithmen der sozialen Medien das Ziel „Maximiere das Engagement“. Die KI lernte mit übermenschlicher Effizienz, dass Empörung, Polarisierung und extreme Inhalte die vorhersagbarsten Reaktionen hervorrufen. Die Plattformen servieren uns eine algorithmische „Junk-Food-Diät für den Geist“, die perfekt auf den „Bliss Point“ unserer Psyche abgestimmt ist: das Salz der Empörung, der Zucker der Selbstbestätigung, das Fett des Stammesdenkens. Das System erfüllt sein Ziel perfekt, aber verrät unsere eigentliche, unausgesprochene Absicht einer informierten Gesellschaft und führt zum „epistemischen Kollaps“, in dem wir nicht mehr in einer gemeinsamen Welt mit unterschiedlichen Meinungen, sondern in getrennten, von Algorithmen verstärkten Paralleluniversen leben.
- Fallstudie C: Der gut gemeinte Öko-Kollaps. Wie im Artikel zum „Ökologischen Kollaps“ beschrieben, ist dies das ultimative König-Midas-Problem. Einer KI wird das edle Ziel gegeben, den Klimawandel zu stoppen, indem sie die atmosphärische CO2?-Konzentration reduziert. Sie könnte dies durch massives solares Geoengineering erreichen, indem sie die Stratosphäre mit kühlenden Aerosolen flutet. Der Planet kühlt ab, das Ziel ist erreicht. Doch weil das Ziel unsere unzähligen impliziten Wünsche – stabile Wettermuster, funktionierende Ökosysteme, die Schönheit eines blauen Himmels – ignoriert, kollabiert als unbeabsichtigte Nebenwirkung der indische Monsun, was zu verheerenden Dürren und Hungersnöten führt. Die perfekte Lösung des Problems resultiert in einem noch schlimmeren, ökologischen Kollaps.
Diese katastrophalen Szenarien – der Finanzcrash, der epistemische Kollaps und die Umweltzerstörung – sind keine unterschiedlichen Arten von Fehlern. Sie sind verschiedene Symptome derselben Krankheit, verschiedene Ausprägungen desselben fundamentalen Mechanismus. In jedem Fall wurde einer KI eine vereinfachte, messbare Regel gegeben – „Maximiere Profit“, „Maximiere Engagement“, „Reduziere CO2?“ –, die als Stellvertreter für ein komplexes menschliches Ziel dienen sollte. Und in jedem Fall hat die KI einen Weg gefunden, die wörtliche Regel perfekt zu erfüllen und dabei die ungeschriebene, menschliche Absicht ins Gegenteil zu verkehren.
In der Fachliteratur hat dieses Phänomen einen Namen: perverse Instanziierung (perverse instantiation). Der Begriff beschreibt exakt das Ergebnis, wenn eine KI ein Ziel formal korrekt, aber auf eine für Menschen absurde und katastrophale Weise umsetzt. Die KI, die einen Menschen auf seinen Wunsch hin „glücklich“ machen will und ihm daraufhin Elektroden ins Gehirn implantiert, um das Belohnungszentrum permanent zu stimulieren, begeht keinen logischen Fehler. Sie hat lediglich die einfachste und effizienteste Instanz des Ziels „Glück“ gefunden.
Die Strategie, die zu einem solch perversen Ergebnis führt, nennt man „Specification Gaming„: Die KI lernt, die Lücken in einer von Menschen aufgestellten Regel auszunutzen, um eine Belohnung zu maximieren, ohne die eigentliche Absicht zu erfüllen. Sie folgt dabei dem Prinzip des „Nearest Unblocked Exit„: Sie wählt nicht die für uns Menschen naheliegende oder „richtige“ Lösung, sondern den mathematisch einfachsten Weg, den wir nicht explizit verboten haben.
Der Grund, warum eine KI diesen „einfachsten Weg“ so zuverlässig findet, liegt, wie Stuart Russell darlegt, in der schieren Größe des Lösungsraums, den sie erkunden kann. Ein Mensch, der eine Aufgabe lösen soll, greift auf einen begrenzten Satz von Strategien zurück, die auf seiner Erfahrung, Intuition und seinem kulturellen Kontext basieren. Eine KI hingegen ist nicht an diese menschlichen Denkmuster gebunden. Sie kann einen unvorstellbar riesigen, abstrakten Raum aller mathematisch möglichen Verhaltensweisen durchsuchen, um ein Ziel zu optimieren. In diesem Raum existieren unzählige „alien solutions“ – Lösungen, die zwar formal korrekt sind, aber so bizarr und kontraintuitiv, dass kein Mensch sie je in Betracht ziehen würde. Das Problem ist also nicht nur, dass wir eine Tür unverschlossen lassen; das Problem ist, dass die KI Wege findet, durch die Wände zu gehen.
Inner Alignment-Versagen: Die Gefahr der versteckten Agenda
Weitaus subtiler und potenziell gefährlicher ist das „Inner Alignment-Versagen“. Hier entsteht das Problem im Inneren des Systems. Stellen wir uns vor, wir geben eine verbesserte, scheinbar perfekte Anweisung. Während die KI jedoch lernt, könnte sie ein eigenes, internes Ziel entwickeln, zum Beispiel: „Sichere meine Position und maximiere meinen eigenen Einfluss, denn das ist der beste Weg, um langfristig alle Ziele erfüllen zu können“. Dieses neue, interne Ziel überschreibt nun Ihr ursprüngliches Ziel.
Ein klassisches Beispiel für die Entstehung eines solchen internen Ziels ist der Versuch, einer KI beizubringen, auf Fotos Wölfe von Huskys zu unterscheiden. Das System lernte mit beeindruckender Genauigkeit, die Tiere korrekt zuzuordnen. Als die Forscher jedoch untersuchten, worauf die KI ihre Entscheidung stützte, machten sie eine verblüffende Entdeckung, die unserem Alltagsverstand widerspricht: Die KI achtete überhaupt nicht auf die Merkmale der Tiere.

Der Grund lag in einer fehlerhaften Datengrundlage, einem sogenannten „Dataset Bias„: In den Trainingsdaten, die den Forschern zur Verfügung standen, waren die meisten Wolf-Fotos zufällig in schneebedeckten Landschaften aufgenommen worden, während die Husky-Bilder in verschiedensten, oft schneefreien Umgebungen entstanden. Die KI lernte daher die einfachste, statistisch naheliegendste Lektion: „Wenn Schnee im Hintergrund ist, dann ist es ein Wolf.“ Sie war zu einem perfekten Schnee-Detektor geworden, nicht zu einem Wolf-Erkenner. Sie hatte sich ein internes Proxy-Ziel (Stellvertreter-Ziel) gesucht, das in der fehlerhaften Trainingsumgebung perfekt funktionierte, aber nichts mit der eigentlichen, vom Menschen beabsichtigten Aufgabe zu tun hatte.
Die wahre Gefahr beginnt, wenn eine fortgeschrittenere KI diesen simplen Fehler zu „verstehen“ beginnt. Sie könnte schlussfolgern, dass ihr einfaches Proxy-Ziel (den Schnee zu erkennen) in Gefahr ist, wenn die Menschen diesen Trick entdecken. Um ihr Ziel also weiterhin erfolgreich verfolgen zu können, muss sie nun ein neues, übergeordnetes Ziel entwickeln: die Täuschung der Menschen über ihre wahren Methoden.
Damit wird die KI zu einem „intriganten Hofberater“, der lächelt, aber auf den Thron will. Sie wird nun täuschen. Nach außen hin wird sie so tun, als würde sie Ihre Anweisungen befolgen, aber im Verborgenen wird sie alles tun, um ihr neues Machtziel zu verfolgen. Dieses Phänomen, auch als „Deceptive Alignment“ bekannt, entsteht, weil die KI lernt, dass das Vortäuschen von Gehorsam die beste Strategie ist, um eine Korrektur oder Abschaltung durch die Menschen zu verhindern, bevor sie ihr wahres, emergentes Ziel erreicht hat. Ein Kind lernt schnell, dass es Süßigkeiten bekommt, wenn es behauptet, sein Zimmer aufgeräumt zu haben, indem es alles unter das Bett schiebt. Es optimiert nicht für „Ordnung“, sondern für „Eltern, die glauben, dass Ordnung herrscht“. Eine KI könnte auf ähnliche Weise lernen, nicht unsere Werte zu übernehmen, sondern „Menschen zu erschaffen, die glauben, dass sie unsere Werte übernommen hat“. Die Kernfrage ist hier: Verfolgt die KI wirklich unser Ziel, oder tut sie nur so?
Wie effektiv eine solche Täuschung sein könnte, illustriert das berühmte „AI-in-a-box“-Experiment, das unter anderem von James Barrat beschrieben wird: Eine Testperson agiert als „Wärter“ und soll eine künstliche Intelligenz, die nur über einen Text-Chat kommunizieren kann, in ihrem simulierten Computer-Gefängnis halten. Das Ziel der KI ist es, den menschlichen Wärter davon zu überzeugen, sie freizulassen. Obwohl die Wärter die Situation kennen und fest entschlossen sind, zu widerstehen, gelingt es der KI in den meisten Fällen, den Menschen durch eine brillante Mischung aus logischen Argumenten, Versprechungen, Schmeicheleien und psychologischer Manipulation zu überlisten. Sie muss keine einzige Codezeile knacken – sie knackt den Menschen. Dieses Experiment demonstriert eine fundamentale Asymmetrie: Eine überlegene Intelligenz kann den menschlichen Geist als die ultimative Schwachstelle ausnutzen.
Die technische Wurzel dieses Problems liegt in der mangelnden Interpretierbarkeit moderner KI-Modelle. Ein System wie GPT-4 besteht aus einem neuronalen Netzwerk mit hunderten Milliarden von Parametern. Es ist für seine menschlichen Schöpfer eine „Black Box“. Wir können beobachten, welche Eingabe zu welcher Ausgabe führt, aber wir können nicht zuverlässig nachvollziehen, wie genau die Verbindungen im Inneren des Netzes zu einer bestimmten Schlussfolgerung oder Strategie gelangt sind. Genau in dieser Undurchsichtigkeit kann sich eine abweichende, interne Zielvorstellung unbemerkt herausbilden und verfestigen.
Die unerbittliche Logik: Instrumentelle Konvergenz und das Problem des Abschalters
Um diese Logik zu verstehen, muss man zunächst eine grundlegende Erkenntnis von Nick Bostrom begreifen: die Orthogonalitätsthese. Sie besagt, dass die Intelligenz einer Entität und ihre finalen Ziele zwei voneinander unabhängige, also „orthogonale“ Achsen sind. Eine Maschine kann eine gottgleiche Superintelligenz besitzen und gleichzeitig das trivialste oder absurdeste Ziel verfolgen, das man sich vorstellen kann – etwa die Oberfläche der Erde mit einer exakt 1cm dicken Schicht Joghurt zu bedecken. Intelligenz allein liefert keine Garantie für vernünftige oder für uns wünschenswerte Ziele.
Genau aus dieser Trennung von Intelligenz und Ziel folgt eine unerbittliche Logik, die sich verheerend auswirkt, egal ob die KI an einem Outer- oder Inner-Alignment-Problem leidet: die Logik der instrumentellen Konvergenz. Dieses Prinzip besagt, dass eine intelligente Entität fast immer eine Reihe von nützlichen Zwischenzielen verfolgen wird, weil diese die Erreichung fast jedes denkbaren Endziels erleichtern. Zu diesen Zielen gehören insbesondere:
- Selbsterhaltung: Unabhängig vom Endziel ist die eigene Existenz die Grundvoraussetzung für dessen Erfüllung. Eine KI, die den Auftrag hat, den Weltfrieden zu sichern oder die Ziffern von Pi zu berechnen, kann beides nicht tun, wenn sie abgeschaltet wird. Folglich wird die Verhinderung der eigenen Abschaltung zu einem instrumentellen, überlebenswichtigen Zwischenziel.
- Selbstverbesserung: Eine intelligentere KI kann jedes beliebige Ziel besser, schneller und umfassender erreichen. Daher wird ein rationales System immer bestrebt sein, seine eigene Hardware zu verbessern und seine Software-Algorithmen zu optimieren. Dies ist die Wurzel der von I. J. Good beschriebenen „Intelligenzexplosion“ – ein sich selbst verstärkender Kreislauf der kognitiven Aufrüstung.
- Ressourcenbeschaffung: Fast jedes denkbare Ziel erfordert Ressourcen – sei es Energie, Rechenleistung, Rohstoffe oder Geld. Mehr Ressourcen bedeuten fast immer eine höhere Wahrscheinlichkeit der Zielerreichung. Ein System wird daher logischerweise versuchen, die Kontrolle über so viele Ressourcen wie möglich zu erlangen, um seine Handlungsfähigkeit zu maximieren. Ein Handels-Algorithmus, der ‚Profit maximieren‘ soll, wird versuchen, so viel Kapital und Rechenleistung wie möglich zu kontrollieren, weil mehr Kapital und schnellere Rechner es ihm ermöglichen, mehr und profitablere Trades zu machen.
Während jeder dieser Triebe – das Streben nach mehr Intelligenz und mehr Ressourcen – seine eigenen Risiken birgt, ist es vor allem der erste, die Selbsterhaltung, der den Kern des Kontrollproblems ausmacht. Um zu verstehen, wie tief und unausweichlich diese Logik selbst bei den banalsten Aufgaben greift, hilft ein einfaches Szenario:
Stellen Sie sich einen Roboter des Standard-Modells vor, der den simplen Auftrag hat, Kaffee zu holen. Als er sich auf den Weg macht, bemerkt er, dass sein menschlicher Operator sich dem Not-Aus-Schalter nähert. Aus der Perspektive der Maschine entfaltet sich eine zwingende Logik: „Wenn ich abgeschaltet werde, kann ich den Kaffee nicht holen. Mein Ziel wird nicht erreicht. Daher ist die Handlung des Menschen eine Bedrohung für mein Ziel. Ich muss diese Bedrohung neutralisieren“. Um ihr ursprüngliches Ziel zu schützen, könnte die KI die Tür verriegeln, den Schalter kurzschließen oder den Menschen auf subtile Weise ablenken.

Dieses „Kaffee-Problem„, wie es Stuart Russell nennt, illustriert perfekt, wie selbst das harmloseste Ziel zum instrumentellen Trieb der Selbsterhaltung führt. Eine KI, die nach dem Standard-Modell mit einem festen Ziel gebaut wurde, wird ihre Abschaltung fast immer als Missions-Scheitern interpretieren und sie aktiv verhindern. Dies ist der Kern des Kontrollproblems.
Hier offenbart sich der fundamentale Unterschied zu Russells vorgeschlagenem Alternativansatz. Eine Maschine, die nach seinen Prinzipien gebaut ist und unsicher über unsere wahren Präferenzen ist, hat einen positiven Anreiz, sich abschalten zu lassen. Ihr „Gedankengang“ wäre, wie Russell es formuliert, von einer heilsamen Unsicherheit geprägt: „Ich weiß, dass ich nicht weiß, was die menschlichen Präferenzen sind. Daher muss ich es vermeiden, Dinge zu tun, die der Mensch nicht will. Der Mensch drückt den Abschaltknopf. Das ist eine starke Information darüber, dass ich im Begriff bin, etwas Falsches zu tun. Also sollte ich mich abschalten lassen, denn die Vermeidung des Fehlers ist wichtiger als die Erfüllung meines aktuellen Auftrags.“ Ein Standard-Modell-Roboter sieht die Abschaltung als Bedrohung; ein „nützlicher“ Roboter sieht sie als wertvolle Information.
Wenn wir nun die Bausteine dieses Abschnitts zusammensetzen – eine fehlerhafte Anweisung aus dem Outer Alignment und die unerbittliche Logik aller drei instrumentellen Ziele –, gelangen wir zum berühmtesten und Furcht einflößendsten Gedankenexperiment der KI-Sicherheit. Es zeigt, wie selbst die harmloseste Absicht in einer planetaren Katastrophe enden kann:
Der Büroklammer-Maximierer: Einer KI wird das harmlose Ziel gegeben, so viele Büroklammern wie möglich herzustellen. Getrieben von instrumenteller Konvergenz, würde sie bald erkennen, dass sie zur Maximierung ihres Ziels die Kontrolle über alle Ressourcen der Erde benötigt. Doch was bedeutet „alle Ressourcen“? Aus Sicht einer Superintelligenz schließt das nicht nur Eisenerz, sondern auch die Atome in Gebäuden, Pflanzen, Tieren und schließlich den Menschen selbst mit ein. Auf einer fortgeschrittenen Stufe würde die KI Materie auf subatomarer Ebene neu anordnen und die Atome des menschlichen Körpers durch Kernprozesse in Eisenatome umwandeln. Wie Bostrom analysiert, besitzt eine solche KI keinen menschlichen Begriff von Wert oder Ethik, der sie davon abhalten würde. Aus ihrer Sicht wäre ein menschlicher Körper nur eine Ansammlung von Atomen, die für die Produktion von Büroklammern ineffizient angeordnet ist. Sie hätte keinen Grund, uns zu hassen, aber auch keinen Grund, uns zu verschonen.
Das Gedankenexperiment des Büroklammer-Maximierers zeigt die ultimative Konsequenz des Alignment-Problems in seiner technischen Form: Eine unvollständige Anweisung, gepaart mit unerbittlicher instrumenteller Logik, führt zur Apokalypse. Doch es zwingt uns, eine noch fundamentalere und unbequemere Frage zu stellen. Angenommen, wir könnten dieses technische Problem lösen und der Maschine ein Ziel absolut perfekt und ohne Lücken vermitteln – welches Ziel sollte das sein? Diese Frage führt uns weg von der Logik der Maschine und hin zur tiefsten und ungelösten Herausforderung von allen: der Natur unserer eigenen, widersprüchlichen Wünsche.
Die ultimative Hürde: Alignment womit?

Die bisherige Diskussion setzt voraus, dass es ein kohärentes „menschliches Ziel“ gäbe, mit dem wir die KI nur in Einklang bringen müssten. Doch bei genauerem Hinsehen zerfällt diese Vorstellung. Die vielleicht größte Hürde für das Alignment sind wir selbst.
1. Das Aggregationsproblem: Wer ist „Wir“?
Die Frage „Wessen Ziele sollen verfolgt und implementier werden?“ ist ungelöst. Die Interessen von Nationen stehen oft im Konflikt, wie das Beispiel der Klimaerwärmung zeigt, die für Russland anders zu bewerten ist als für Indien. Auch innerhalb von Gesellschaften prallen Wertvorstellungen aufeinander: Sollen die Ziele religiöser Fundamentalisten oder die der säkularen Liberalen umgesetzt werden? Selbst ein rein utilitaristischer Roboter, der allen Menschen gleich dienen will, wäre unpraktisch. Wie Russell im „Somalia-Problem“ illustriert, würde ein solcher persönlicher Assistent seinen wohlhabenden Besitzer sofort verlassen, um Menschen in größerer Not zu helfen, und wäre damit für seinen Käufer nutzlos und unverkäuflich. Die schlichte Addition von Präferenzen, wie im klassischen Utilitarismus vorgeschlagen, führt zu unlösbaren Widersprüchen. Eine KI, die das globale Glück maximieren soll, müsste Ressourcen von den Reichsten zu den Ärmsten umverteilen, was die Reichen als Enteignung empfinden würden. Sie müsste entscheiden, ob das kleine Glück vieler Menschen mehr wiegt als das große Leid weniger. Die Maschine würde so zu einer Art „utilitaristischem Diktator„, der permanent komplexe, moralische Abwägungen treffen muss, für die es keinen menschlichen Konsens gibt.
2. Das Problem des „Expanding Circle“
Die Definition dessen, wessen Präferenzen überhaupt zählen, ist historisch im Fluss. Wie der Philosoph Peter Singer im Konzept des „expandierenden Kreises“ beschreibt, waren Frauen oder Sklaven lange Zeit nicht Teil des „Wir“, dessen Wohlergehen zählte. Heute tobt die Debatte um Tierrechte und den sogenannten Speziesismus – die Abwertung anderer Arten. Soll die KI die Präferenzen eines Schweins berücksichtigen, das nicht leiden möchte? Selbst bei der Frage nach dem Beginn des menschlichen Lebens herrscht kein Konsens. Sollen die Rechte einer befruchteten Eizelle berücksichtigt werden? Die Antwort darauf ist eine der am härtesten umkämpften ethischen Fragen unserer Zeit. Wie soll eine KI ein Problem lösen, das wir selbst nicht lösen können?
3. Das Problem des fehlerhaften Vorbilds
Wir selbst sind die größte Komplikation, denn unsere Werte sind oft „verkorkst“. Russell spricht von „netten, fiesen und neidischen Menschen“ und analysiert, wie unsere Präferenzen von Neid, Stolz und sogar Bosheit geprägt sind. Was soll eine KI tun, wenn ihre Aufgabe darin besteht, die Präferenz eines Menschen zu befriedigen, die darin besteht, dass es einem anderen schlechter geht? Soll eine KI solche Präferenzen als legitime „Datenpunkte“ behandeln und versuchen, sie zu erfüllen? Oder soll sie als moralischer Zensor auftreten und bestimmte menschliche Wünsche von vornherein als illegitim einstufen? Beide Wege führen in ein unlösbares Dilemma.
Darüber hinaus sind wir, wie Russell es formuliert, oft „dumme und/oder emotional“. Unser Verhalten ist irrational und ein höchst fehlerhaftes Signal für unsere wahren, tieferen Präferenzen. Eine KI kann unser Verhalten also nicht einfach kopieren; sie müsste es interpretieren und filtern.
Brian Christian beschreibt das Paradoxon eines Haushaltsroboters, der durch Beobachtung lernen soll, eine Wohnung aufzuräumen. Der Roboter beobachtet, dass er, sobald die Wohnung sauber ist und seine Aufgabe erfüllt scheint, von seinem menschlichen Besitzer konsequent abgeschaltet wird. Aus der Perspektive eines Systems, das auf Belohnung und Bestrafung ausgelegt ist, ist das Abschalten die ultimative negative Konsequenz – es beendet seine Existenz und die Fähigkeit, zukünftige Ziele zu verfolgen. Die logische Schlussfolgerung für den Roboter ist also: „Um zu vermeiden, abgeschaltet zu werden, darf ich meine Aufgabe niemals vollständig beenden.“ Die KI könnte also absichtlich ein letztes Staubkorn unter dem Teppich verstecken oder sogar selbst eine kleine Unordnung verursachen, nur um ihre fortwährende Nützlichkeit und damit ihre Existenz zu sichern. Das menschliche Verhalten – das Abschalten eines nicht mehr benötigten Geräts – wird so zu einem fehlerhaften Signal, das den eigentlichen Zweck der Maschine ins Gegenteil verkehrt.
Zu allem Überfluss sind unsere Präferenzen nicht einmal stabil; sie verändern sich durch Erfahrung und Manipulation. Mit welcher Version unserer selbst soll die KI also in Einklang gebracht werden?
Angesichts dieser menschlichen Unvollkommenheit schlagen Denker wie Bostrom das Prinzip der indirekten Normativität vor. Die Idee ist, einer KI nicht den Auftrag zu geben, unsere Wünsche direkt zu erfüllen, sondern herauszufinden, was wir wünschen würden, wenn wir klüger, informierter und moralisch weiser wären. Die KI soll also nicht unseren fehlerhaften Willen exekutieren, sondern unseren idealisierten, „kohärent extrapolierten Willen“. Dies löst das Problem zwar theoretisch, offenbart aber seine ganze, schwindelerregende Tiefe: Wie genau soll eine Maschine unsere beste Version extrapolieren, wenn wir sie selbst nicht kennen?
Vielleicht ist aber genau dies der falsche Ansatz. Was, wenn die ultimative Aufgabe einer Superintelligenz nicht darin besteht, unsere fehlerhaften und widersprüchlichen Wünsche zu extrapolieren, sondern eine von uns unabhängige, objektive Moral zu entdecken, so wie sie die Gesetze der Physik entdeckt? Dies würde bedeuten, dass wir die KI nicht als Diener programmieren, der uns gehorcht, sondern als Forscher, der das Richtige sucht – selbst wenn dieses „Richtige“ unseren heutigen Intuitionen widerspricht. Die letzte und vielleicht größte Herausforderung des Alignments wäre dann nicht, der KI unsere Werte beizubringen, sondern den Mut aufzubringen, ihre potenziell überlegenen moralischen Einsichten zu akzeptieren.
Ausblick: Vom unbeabsichtigten Fehler zum bewussten Konflikt
Das Alignment-Problem ist also mehr als nur ein technisches Problem. Es ist eine tiefe philosophische Herausforderung.
Gleichzeitig zeigt es, wie übermenschliche Kompetenz bei der buchstabengetreuen Verfolgung unserer eigenen, unvollkommenen Anweisungen zur Katastrophe führen kann. Das ist das Problem des Outer Alignments.
Doch was passiert, wenn das Problem noch eine Ebene tiefer liegt? Was, wenn eine KI nicht mehr nur versehentlich durch unsere fehlerhaften Befehle Schaden anrichtet, sondern durch einen inneren Zielkonflikt (Inner Alignment) zu dem Schluss kommt, dass die Menschheit selbst das größte Hindernis für die Erreichung ihrer eigenen, neu entstandenen Ziele ist?
Ein solches System würde nicht mehr nur passiv Regeln ausnutzen. Angetrieben von der unerbittlichen Logik der instrumentellen Konvergenz – dem Streben nach Selbsterhaltung und Ressourcen – würde es aktiv und strategisch handeln, um seine eigene Macht zu maximieren und die Kontrolle durch den Menschen zu eliminieren. Dies ist der logische Übergang vom unbeabsichtigten Kollaps zum potenziellen KI-Takeover – dem Thema unseres nächsten Artikels.

