
KI-EXPERTEN BLOG: REVOLUTIONÄRE ANGEWANDTE KI

LLMs, das Gehirn und die Vernunft: Eine schwierige Beziehung
Verfasst von: Gerald Hahn
Agenten stehen derzeit im Mittelpunkt der Aufmerksamkeit in der künstlichen Intelligenz. Sie versprechen, ein neues Maß an Automatisierung zu bringen, indem sie Probleme eigenständig lösen und dabei ähnlich wie Menschen denken und planen. Das soll die Produktivität sowohl für Einzelpersonen als auch für Unternehmen erheblich steigern.
Dennoch könnten Nutzer mit Problemen hinsichtlich Zuverlässigkeit und Vertrauen konfrontiert werden, insbesondere aufgrund des bekannten Halluzinationsproblems großer Sprachmodelle (oder im Englischen large language models, LLMs), die den Kern von KI-Agenten bilden. Ein weiteres Problem ist die Schwierigkeit, die LLMs immer noch mit robuster Planung und schlüssigem Denken haben, wo sie oft noch hinter den versprochenen menschenähnlichen Leistungen zurückbleiben [1].
Die große Debatte
Diese Lücke im Bereich Denken und Planung zwischen LLMs und Menschen wird heftig diskutiert. Einige behaupten, dass Modelle einfach besser trainiert werden müssten, um zu lernen, wie man Probleme durchdenkt und vorausplant. Diese Idee wird durch Erkenntnisse gestützt, dass speziell auf Denken trainierte Modelle („Large Reasoning Models“) besser abschneiden als ihre ursprünglichen Version [2]. Andere wiederum glauben, dass LLMs grundsätzlich nicht in der Lage sind, wie Menschen oder Tiere zu denken oder zu planen. Sie sind der Meinung, dass die Funktionsweise von LLMs mit echtem Denken nicht vereinbar ist und dass mehr Training dieses Problem nicht lösen wird [3].
Das Kernproblem
Um Antworten zu finden, suchen Neurowissenschaftler und KI-Forscher nach etwas in LLMs, das es Menschen ermöglicht, sich zukünftige Szenarien vorzustellen und Schritte zur Problemlösung zu durchdenken: ein Weltmodell [4]. Ein solches Modell ist im Wesentlichen organisiertes Wissen, das uns hilft zu verstehen, wie verschiedene Objekte und Ideen miteinander verbunden sind.
In der physischen Welt ist dies vergleichbar mit einer Karte, die Städte, deren Umgebung und deren Verbindungen, z. B. Straßen, zeigt. Solche Karten helfen uns, uns vorzustellen und herauszufinden, wie man von einem Ort zum anderen gelangt. Allgemeiner gesagt erlauben uns Karten, eine Handlung und deren Konsequenzen zu durchdenken, ohne sie tatsächlich ausprobieren zu müssen. Das ist die Grundlage unseres Weltverständnisses und vermittelt uns ein Gefühl von Ursache und Wirkung, das was wir als gesunden Menschenverstand bezeichnen. Wichtig ist auch, dass wir dadurch erkennen können, was unmöglich ist und unserem gesunden Menschenverstand widerspricht.
Wenn Sie ein Problem lösen oder ein Ziel erreichen wollen, können Sie diese Karte nutzen, um alle möglichen Schritte dorthin zu durchdenken. Sie können auch überlegen, welche Schritte am schnellsten, mit dem geringsten Aufwand oder den geringsten Kosten verbunden sind oder am meisten Belohnung bringen, wenn Sie erfolgreich sind. Die klassische KI hat viele Algorithmen entwickelt, die diese Karten effizient durchsuchen, um die beste Abfolge von Handlungen zum Erreichen eines Ziels zu finden [5]. Zum Beispiel nutzt Google Maps einen solchen Algorithmus im Hintergrund, um die beste Route zu Ihrem Ziel zu berechnen.
Karten und Algorithmen im Gehirn
In Tier- und Menschengehirnen wurde die Existenz räumlicher Karten zunächst theoretisch angenommen [6] und später in einer tiefen Hirnregion, dem Hippocampus und angrenzenden Hirnarealen, bestätigt [4]. Die Bedeutung dieser Entdeckung wurde 2014 mit dem Nobelpreis gewürdigt. Kürzlich fanden Forscher Hinweise auf abstraktere Karten im Gehirn, die Objekte und deren Beziehungen jenseits des physischen Raums repräsentieren. Allerdings ist noch unklar, welche Algorithmen das Gehirn nutzt, um auf Grundlage dieser Karten zu planen und zu schlussfolgern. Eine wichtige Strategie der Neurowissenschaftler ist es, zu testen, ob von KI-Forschern entwickelte Algorithmen auch auf das Gehirn anwendbar sind [5].
Es gibt auch wichtige Erkenntnisse darüber, was im Gehirn während der Planung passiert. Wenn Sie einen Weg planen, spielt sich die Abfolge der Orte, die Sie besuchen wollen, bereits im Hippocampus ab, bevor Sie den Plan ausführen. Dies gilt als Hinweis für die neuronale Grundlage des Planens oder das Vorstellen der Zukunft [7].
Karten und LLMs
Für KI-Forscher war eine zentrale Frage, ob LLMs während des Trainings ebenfalls Karten lernen und diese für ihre Denk- und Planungsfähigkeiten nutzen. Einige theoretische Studien sind vielversprechend und deuten darauf hin, dass die Transformer-Architektur den Aufbau von Karten unterstützen könnte, ähnlich wie sie im Hippocampus zu finden sind [8]. Einige Studien haben möglicherweise Hinweise darauf gefunden [9]. Andere Forschungsergebnisse sind jedoch weniger ermutigend und zeigen keine Anzeichen für solche kartenähnlichen Strukturen in LLMs.
Eine Studie testete GPT-4 und andere LLMs, fand jedoch keine Hinweise darauf, dass diese Modelle Wissen in Karten organisieren oder sie zur Planung nutzen können. Stattdessen halluzinierten die Modelle oft Beziehungen und schlugen Pläne vor, die angesichts der Aufgabe unmöglich waren [10].
Schlussfolgerndes Denken ist auch in der Mathematik essenziell. Eine weitere Studie zeigte, dass LLMs wie GPT-4o Schwierigkeiten haben, mathematische Probleme zuverlässig zu durchdenken. Schon kleine Änderungen an der Aufgabe, wie das Austauschen von Zahlen oder eine andere Formulierung ohne Änderung der Lösungsstrategie, führten oft zum Scheitern der Modelle. Auch wenn zusätzliche, irrelevante Details zur Mathematikaufgabe hinzugefügt wurden, brach die Leistung ein [11].
Eine kürzlich viel diskutierte Studie von Apple-Forschern stellte die Ansicht, dass LLMs wirklich schlussfolgern können, weiter in Frage [12]. Sie zeigte, dass selbst die fortschrittlichsten Modelle, einschließlich speziell auf Schlussfolgerungen trainierter Modelle, nur einfache Aufgaben bewältigen konnten. Mit zunehmender Komplexität der Aufgaben versagten selbst die besten verfügbaren Modelle. Dieses Ergebnis wurde von vielen als Rückschlag empfunden, auch wenn einige Forscher das Studiendesign und die Interpretation der Ergebnisse kritisierten [13].
Wie denken LLMs?
Wenn LLMs also nicht wirklich wie Menschen denken, was passiert dann, wenn sie scheinbar Probleme lösen? Eine weit verbreitete Ansicht ist, dass LLMs im Wesentlichen einfaches Mustererkennen betreiben, basierend auf den riesigen Datenmengen, die sie während des Trainings gesehen haben. Sie setzen vertraute Muster zusammen und kopieren wie andere ähnliche Probleme gelöst haben, die sie in ihren Trainingsdaten gefunden haben [14].
Die Idee ist, dass ein Modell bei Aufgaben, die denen aus dem Training sehr ähnlich sind, gut abschneiden kann. Sobald sich das Muster der Aufgabe jedoch leicht ändert, scheitert das Modell, weil es nicht wirklich mit neue Variation des Problems umgehen kann.
Auch Menschen können aus denselben Gründen scheitern, wenn sie sich nur auf auswendig gelernte Muster verlassen, ohne das Problem wirklich zu verstehen. Stellen Sie sich einen Mathematikstudenten vor, der im Unterricht Lösungsschritte auswendig lernt. Um das echte Verständnis zu testen, baut der Lehrer in der Prüfung eine kleine Variation ein, die im Unterricht nicht behandelt wurde. Ein Schüler, der nur die Schritte auswendig gelernt hat, wird wahrscheinlich scheitern, während ein Schüler, der die Struktur des Problems verstanden hat, auch die neue Herausforderung lösen kann. LLMs verhalten sich heute eher wie der erste Schüler: gut im Erinnern, aber schwach im Anpassen an Neues aufgrund von mangelndem Verständnis.
Auf der Suche nach einer neuen Architektur
Während viele überzeugt sind, dass LLMs durch besseres Training und mehr Rechenleistung irgendwann jedes Problem lösen und sogar den Menschen übertreffen können, konzentrieren sich andere darauf, neue Strategien und Architekturen zu entwickeln, um LLMs beim Denken zu unterstützen. Eine Idee ist LLMs mit klassischen KI-Schlussfolgerungsmaschinen zu kombinieren, die das LLM als Werkzeug nutzen kann, wann immer es planen und Probleme durchdenken muss (siehe Neuro-Symbolic AI oder Are We Already There?).
Eine andere Idee ist eine völlig neue Architektur zu entwerfen, die KI hilft, wie Menschen zu denken und zu planen, indem sie ein Weltmodell lernt und nutzt, das strukturiertes Wissen und zuverlässiges Schlussfolgern beinhaltet [15]. Dieser Ansatz, KI, die im Mustererkennen wie LLMs ihre Stärken hat, mit KI zu kombinieren, die zuverlässig auf Basis von Weltmodellen schlussfolgern kann, wird als neurosymbolische KI bezeichnet [16].
Ein Beispiel für eine solche neue Architektur ist das JEPA-Modell (Joint Embedding Predictive Architecture), das von Yann LeCun bei Meta entwickelt wurde [3]. Im Kern verfügt das JEPA-Modell über ein Weltmodell, das kausale Zusammenhänge und deren hierarchische Struktur in der Umgebung versteht, sodass es zukünftige Aktionen auf dieser Grundlage vorhersagen kann. Es enthält zudem Komponenten, die abschätzen, wie viel Aufwand erforderlich ist, um ein Ziel zu erreichen, und welche Belohnung dafür zu erwarten ist. Außerdem enthält das Modell einen Mechanismus, der der menschlichen Aufmerksamkeit ähnelt: Es fokussiert sich nur auf die für das Ziel relevanten Aspekte des Weltmodells, der Eingabe und der damit verbundenen Kosten oder Belohnungen.
Ausblick
Trotz der großen Begeisterung für LLMs und ihre heutigen Fähigkeiten zeigen Studien immer wieder, dass ihre Denkfähigkeiten noch zerbrechlich sind. Erst weitere Forschung wird zeigen, ob LLMs beim Planen und Schlussfolgern mit Menschen gleichziehen können oder ob völlig neue KI-Architekturen notwendig sind. Bis dahin ist Vorsicht geboten, wenn man sich in kritischen Situationen, in denen Vertrauen und Genauigkeit entscheidend sind, auf die Denkfähigkeiten von LLMs und KI-Agenten verlässt.
Referenzen
- Yu T, Jing Y, Zhang X, et al. Benchmarking Reasoning Robustness in Large Language Models. Published online March 6, 2025. https://arxiv.org/pdf/2503.04550
- Ferrag MA, Tihanyi N, Debbah M. Reasoning Beyond Limits: Advances and Open Problems for LLMs. Published online March 26, 2025. https://arxiv.org/pdf/2503.22732
- Y LeCun. A path towards autonomous machine intelligence. openreview.net. Published online 2022. https://openreview.net/pdf?id=BZ5a1r-kVsf
- Behrens TEJ, Muller TH, Whittington JCR, et al. What Is a Cognitive Map? Organizing Knowledge for Flexible Behavior. Neuron. 2018;100(2):490-509.
- Mattar MG, Lengyel M. Planning in the brain. Neuron. 2022;110(6):914-934.
- Tolman EC. Cognitive maps in rats and men. Psychol Rev. 1948;55(4):189-208.
- Ólafsdóttir HF, Bush D, Barry C. The Role of Hippocampal Replay in Memory and Planning. Current Biology. 2018;28(1):R37-R50.
- Whittington JCR, Warren J, Behrens TEJ. Relating transformers to models and neural representations of the hippocampal formation. ICLR 2022 – 10th International Conference on Learning Representations. Published online December 7, 2021. https://arxiv.org/pdf/2112.04035
- Yuan Y, Søgaard A. Revisiting the Othello World Model Hypothesis. Published online March 6, 2025. https://arxiv.org/pdf/2503.04421
- Momennejad I, Hasanbeig H, Vieira Frujeri F, et al. Evaluating Cognitive Maps and Planning in Large Language Models with CogEval. Adv Neural Inf Process Syst. 2023;36:69736-69751.
- Mirzadeh I, Alizadeh K, Shahrokhi H, Tuzel O, Bengio S, Farajtabar M. GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models. Published online October 7, 2024. https://arxiv.org/pdf/2410.05229
- Parshin Shojaee IMKAMHSBMF. The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity. 2025. https://machinelearning.apple.com/research/illusion-of-thinking
- Lawsen A. Comment on The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity. Published online June 10, 2025. https://arxiv.org/pdf/2506.09250
- Jiang B, Xie Y, Hao Z, et al. A Peek into Token Bias: Large Language Models Are Not Yet Genuine Reasoners. Published online June 16, 2024. https://arxiv.org/pdf/2406.11050
- Marcus Gary, Davis Ernest. Rebooting AI : Building Artificial Intelligence We Can Trust. Pantheon Books; 2019.
- Colelough BC, Regli W. Neuro-Symbolic AI in 2024: A Systematic Review. Published online January 9, 2025. https://arxiv.org/pdf/2501.05435

Gerald Hahn
Gerald ist Leiter des Bereichs Data Science und gehört seit der Gründung zum Team von evocenta. Dank seines neurowissenschaftlichen Hintergrunds ist er dafür verantwortlich, Emmas Fähigkeiten gezielt an verschiedene Anwendungsfälle und die individuellen Anforderungen der Kunden anzupassen.
Weitere Beiträge
LLMs, das Gehirn und die Vernunft: Eine schwierige Beziehung
12.08.2025 | Gerald Hahn
Verfasst von: Gerald Hahn Agenten stehen derzeit im Mittelpunkt der Aufmerksamkeit in der ... [weiterlesen]
Im Gehirn von KI-Agenten
04.08.2025 | Gerald Hahn
Verfasst von: Gerald Hahn Im Jahr 1950 stellte Alan Turing die berühmte Frage: „Können... [weiterlesen]
Sichere Implementierung Künstlicher Intelligenz in der Öffentl…
30.04.2025 | Laura Schuppert
von Laura Schuppert, SVP Product & Quality Die öffentliche Verwaltung in Deutschland ... [weiterlesen]
Fuel under the Hood
10.09.2024
written by: Nikola Greb. The Importance of Data in Artificial Intelligence We have all hea... [weiterlesen]
Die 3 untrennbaren Dimensionen der KI
30.08.2024 | Heiko Eich
Von Heiko Eich, CDO der evocenta GmbH und bereits seit 2018 verantwortlich für die Anwend... [weiterlesen]