KI-EXPERTEN BLOG: REVOLUTIONÄRE ANGEWANDTE KI

KI vs. menschliche Intelligenz: Wo Large Language Models scheitern
Es ist der Traum und gleichermaßen Albtraum der Menschheit: Maschinen zu erschaffen, die so denken können wie wir Menschen.
Verfasst von: Dr. Gerald Hahn
Wenn wir über Denken sprechen, kommt uns vieles in den Sinn. Wir denken nach, wenn wir konzentriert nach Lösungen suchen, die über unser Wissen hinausgehen, oder neue Strategien entwickeln, um ein Ziel zu erreichen. Bei Entscheidungen reflektieren wir sorgfältig, welche Möglichkeit die beste ist. Denken beinhaltet auch die Fähigkeit, zu hinterfragen, ob die Meinungen, die wir selbst oder andere vertreten, tatsächlich der Wahrheit entsprechen.
Noch vor kurzem war es undenkbar, dass Maschinen wirklich denken können wie wir. Mit der Erfindung und dem rasanten Aufstieg großer Sprachmodelle (Englisch: Large-Language Models, kurz LLMs) sind viele davon überzeugt, dass dies keine reine Fantasie mehr ist, sondern Realität geworden ist. Viele setzen große Hoffnungen auf Large Reasoning Models (‚denkendes‘ Sprachmodell) als das ‚Gehirn‘ von KI-Agenten, um Aufgaben zu lösen und zu automatisieren, die bislang als ausschließlich menschlich galten. Das führt dazu, dass viele Unternehmen in eine „Fear of Missing Out“-Stimmung verfallen: Sie implementieren solche Systeme so schnell wie möglich, mit der Sorge, den Anschluss zu verpassen, und um im Rennen gegen möglicherweise schnellere Wettbewerber nicht ins Hintertreffen zu geraten. Gleichzeitig wächst die Angst, dass denkende Maschinen Menschen ersetzen und eventuell sogar zum Untergang der gesamten Menschheit führen.
Andere hingegen argumentieren, dass es noch zu früh ist, das Träumen aufzugeben. Ein hartnäckiges, für viele auch theoretisch unlösbares Problem sind sogenannte Halluzinationen von Sprachmodellen. Das kann in vielen Anwendungsfällen ein Ausschlusskriterium sein. Große Reasoning-Modelle und KI-Agenten bleiben davon nicht verschont und sind möglicherweise sogar in noch größerem Maße betroffen, wenn das Modell mehrere fehleranfällige Schritte ausführen muss. Der praktische Nutzen kann trotz großer Begeisterung in der Öffentlichkeit dadurch infrage gestellt werden.
Andere stört das Versprechen, dass LRMs endlich denken können wie Menschen. Studie um Studie zeigt, dass die Sprachmodelle immer noch fundamentale Probleme haben, die denkenden Menschen keine Schwierigkeiten bereiten.
Eine Mitte 2025 von Apple veröffentlichte Studie hat besonders viel Aufmerksamkeit erregt. Dabei wurden Modellen, von schwächeren LLMs bis hin zu leistungsfähigeren LRMs, knifflige Aufgaben gestellt, die auch für Menschen herausfordernd sind.
Ein Test war das Türme von Hanoi Knobelspiel, erfunden vom französischen Mathematiker Édouard Lucas vor beinahe 150 Jahren. Ziel ist es, einen Stapel Scheiben unterschiedlicher Größe von einem Stab auf einen anderen zu versetzen, sodass die kleinste Scheibe ganz oben und die größte ganz unten liegt. Dabei darf man eine Scheibe nur kurzfristig auf einen dritten Stab absetzen (Abbildung 1).

Abb. 1: Turm von Hanoi
Das Problem wird schwieriger, je größer der Stapel ist, den man versetzen muss. Das Spiel wird oft verwendet, um die Denkfähigkeit von Menschen zu testen. Ein verwandtes Spiel ist der Tower of London, das von Ärzten eingesetzt wird, um die Planungsfähigkeiten von Patienten nach Hirnschäden durch Schlaganfälle oder ähnliche Ereignisse zu untersuchen.
Das Ziel der Wissenschaftler von Apple war also zu testen, ob die neuesten Sprachmodelle bei diesen Tests mit den Fähigkeiten von Menschen mithalten können. Das Ergebnis war eindeutig: Die Modelle versagten bereits bei wenigen Scheiben und fanden keine Lösung, um das Spiel bei einer größeren Anzahl als fünf Scheiben zu gewinnen.
Kritiker wiesen darauf hin, dass auch Menschen mit zunehmender Anzahl von Scheiben Schwierigkeiten bekommen und dass die Leistung des Modells durchaus mit der menschlichen Intelligenz vergleichbar ist.
Einer unserer Mitarbeiter, Heiko, der von der Studie gehört hatte, bekam ebenfalls Zweifel und wollte selbst überprüfen, ob er tatsächlich besser bei diesem Spiel abschneidet als die KI-Modelle.
Gesagt, getan. Im Internet war es für ihn leicht, eine Seite zu finden, auf der man das Spiel abrufen konnte. Das Spiel selbst war für ihn neu; er hatte es noch nie zuvor gespielt. Er spielte immer wieder mit unterschiedlicher Anzahl von Scheiben und notierte sich jedes Mal, ob er gewonnen hatte oder nicht.
Das Ergebnis war ernüchternd und schien seine Zweifel zu bestätigen. Ab einer bestimmten Scheibenzahl schaffte er es nicht mehr, das Spiel zu beenden – und diese Zahl war ähnlich der der Sprachmodelle (Abbildung 2).

Abb. 2: Vergleich der Gewinnrate zwischen verschiedenen LLMs und einem Menschen ohne Kenntnis eines Lösung
Doch er gab sich nicht geschlagen und wollte es nach einer Pause von einigen Tagen noch einmal wissen. Dann kam der berühmte Aha-Moment. Ganz plötzlich wurde ihm bewusst, dass es eine Regel gibt, mit der man das Spiel mit jeder beliebigen Anzahl von Scheiben gewinnen kann. Wo er vorher nur herumprobieren konnte und das Spiel oft verlor, ging es ihm nun mit dieser Einsicht leicht von der Hand. Er konnte auch Spiele mit weit mehr Scheiben konsequent gewinnen, bei denen er zuvor und die Modelle kläglich versagt hatten (Abbildung 3).

Abb. 3: Vergleich der Gewinnrate zwischen verschiedenen LLMs und einem Menschen, der einen Lösungsalgorithmus entdeckt hat (Heiko), für eine Anzahl von eins bis sechs Scheiben
Bei diesem Experiment zeigte sich eindeutig, wo immer noch eine große Lücke zwischen der menschlichen Intelligenz und der von Sprachmodellen besteht. Menschliche Gehirne sind in der Lage, Regeln zu entwerfen, wie die Welt um sie herum funktioniert. Wir haben ein klares Verständnis dafür, wie Dinge miteinander zusammenhängen und wie eine Ursache immer dieselbe Auswirkung hat.
Wir können diese Regeln und Zusammenhänge benutzen, um über ein Problem nachzudenken und Entscheidungen zu treffen, die zu für uns vernünftig erscheinenden Handlungen führen. Die Summe dieser Regeln, die wir im Laufe unseres Lebens angesammelt haben und die uns helfen, in der Welt zurechtzukommen, kennen wir als Hausverstand. Wissenschaftler verwenden oft auch den Begriff Weltmodell. Genau so ein Modell hat Heiko gefunden, um das Spiel zu gewinnen. Die Sprachmodelle konnten das nicht.
Regeln, wie man die Türme von Hanoi löst, kennt man schon seit den 1950er Jahren. So dachten sich die Wissenschaftler von Apple, dass, wenn die Modelle die Regel nicht von selbst finden können, sie sie vielleicht benutzen können, wenn man ihnen die Regel zeigt. Dem war jedoch nicht so. Auch wenn man die Regel explizit in den Prompt schrieb, waren die Modelle nicht in der Lage, sie zu nutzen, um das Spiel bei mehreren Scheiben für sich zu entscheiden.
Heiko, im Gegensatz dazu, fand die Regel selbst durch die klassischen Phasen eines kreativen Prozesses heraus, die bereits vor mehr als 100 Jahren vom englischen Psychologen Graham Wallas beschrieben wurden.
Zuerst bereitete er sich auf die Aufgabe vor, indem er das Spiel mehrere Male spielte und versuchte, eine Lösung zu finden. Dann entfernte er sich vom Problem und setzte sein reguläres Arbeitsleben fort, ohne daran bewusst zu denken. In der Zwischenzeit versuchte sein Gehirn im Hintergrund, eine Lösung für das Problem zu finden, was man als Inkubationsphase bezeichnet. Als er einige Tage später wieder begann sich dem Problem zu widmen, tauchte die Lösung wie aus dem Nichts auf, die sogenannte Erleuchtungsphase. Schließlich überprüfte er, ob sein neuer Algorithmus funktionierte – und das tat er auch.
Der Zauber entsteht während der Inkubationsphase. Viel kreative Arbeit geschieht im Schlaf, in Momenten der Ruhe, wenn der Geist frei umherschweift und wir tagträumen (Englisch: mind wandering), ohne uns auf eine bestimmte Aufgabe zu konzentrieren. Bekanntlich entstehen die besten Ideen unter der Dusche oder beim Abwaschen des Geschirrs.
Große Sprachmodelle scheinen diesen kreativen Prozess komplett zu vermissen. Stattdessen liegt ihre Stärke scheinbar darin, Ähnlichkeiten zwischen einer Aufgabe oder Frage und dem, was sie während ihres Trainings mit großen Datenmengen gelernt haben, zu erkennen. Sobald sie auf etwas stoßen, das zu weit von ihrem Training entfernt ist, beginnen sie Probleme zu haben.
Wir Menschen können eine ähnliche Intelligenz nutzen, indem wir etwas durch Wiederholung und Erfahrung sehr gut Gelerntes anwenden. Forschende nennen das kristalline Intelligenz. Man benutzt Wissen, das starr wie ein Kristall im Gehirn eingebettet ist. Wenn Menschen jedoch wenig konkretes Vorwissen haben, um eine bestimmte Aufgabe zu lösen, greifen sie auf fluide Intelligenz zurück. Dabei benutzen sie ihren Hausverstand oder ihr Weltmodell, um eine Aufgabe flexibel und beweglich wie eine ‚Flüssigkeit‘ zu durchdenken und möglicherweise zu lösen.
Bei diesem fluiden Nachdenken scheitern LLMs. Ein gutes Beispiel ist das Schachspiel. Am Anfang können sie gut spielen, da sie Muster für die Eröffnungszüge gelernt haben, die überall in Büchern dokumentiert sind. Je länger das Spiel jedoch dauert, desto mehr machen die Modelle kritische Fehler. Sie beginnen, die Regeln des Spiels zu verletzen und Züge zu machen, die nicht erlaubt sind, selbst wenn die Regeln gelernt wurden. Sie sind nicht in der Lage, das Spiel unter Verwendung der vorgegebenen Regeln durchzudenken, weil sie kein wirkliches Verständnis der Regeln besitzen.
Solche Ergebnisse lassen viele daran zweifeln, dass große Sprachmodelle tatsächlich im menschlichen Sinne nachdenken können, auch wenn derzeit ihre fortschrittlichen Denkfähigkeiten öffentlich gelobt werden.
Trotz ihrer Fehleranfälligkeit haben LLMs ihren großen Nutzen bei vielen Problemen bewiesen, solange Menschen die Resultate noch einmal überprüfen und gegebenenfalls korrigieren können. Menschen setzen dabei ihren Hausverstand ein und kompensieren dessen Fehlen im Sprachmodell
Wenn uns der Hausverstand fehlt, können wir ja immer noch mit etwas Kreativität nachhelfen.

Gerald Hahn
Gerald leitet den Bereich Data Science bei evocenta und ist seit der Gründung im Team. Mit seinem neurowissenschaftlichen Hintergrund passt er Emma®AI´s Fähigkeiten gezielt an Kundenanforderungen an.
Weitere Beiträge
KI vs. menschliche Intelligenz: Wo Large Language Models scheite…
06.03.2026 | Gerald Hahn | #Apple Studie, #Automatisierung, #fluide Intelligenz, #Halluzinationen, #Hausverstand, #KI, #KI in Unternehmen, #KI-Agenten, #kristalline Intelligenz, #Künstliche Intelligenz, #Large Language Models, #Large Reasoning Models, #LLM, #LRM, #maschinelles Denken, #menschliche Intelligenz, #Reasoning, #Sprachmodelle, #Türme von Hanoi, #Weltmodell
Es ist der Traum und gleichermaßen Albtraum der Menschheit: Maschinen zu erschaffen, die ... [weiterlesen]
LLMs, das Gehirn und die Vernunft: Eine schwierige Beziehung
12.08.2025 | Gerald Hahn
Verfasst von: Dr. Gerald Hahn Agenten stehen derzeit im Mittelpunkt der Aufmerksamkeit in ... [weiterlesen]
Im Gehirn von KI-Agenten
04.08.2025 | Gerald Hahn
Verfasst von: Gerald Hahn Im Jahr 1950 stellte Alan Turing die berühmte Frage: „Können... [weiterlesen]
Sichere KI in der Öffentlichen Verwaltung
30.04.2025 | Laura Schuppert
von Laura Schuppert, SVP Product & Quality Die öffentliche Verwaltung in Deutschland ... [weiterlesen]
Fuel under the Hood
10.09.2024
written by: Nikola Greb. The Importance of Data in Artificial Intelligence We have all hea... [weiterlesen]




