
KI-EXPERTEN BLOG: REVOLUTIONÄRE ANGEWANDTE KI

Im Gehirn von KI-Agenten
Verfasst von: Gerald Hahn
Im Jahr 1950 stellte Alan Turing die berühmte Frage: „Können Maschinen denken?“ [1]. Da ein Gedanke schwer zu definieren ist, schlug Turing einen anderen Ansatz vor. Anstatt zu versuchen, ihn zu beschreiben, empfahl er, das Verhalten von Maschinen zu beobachten.
Er führte das „imitation game“ ein, das heute als Turing-Test bekannt ist: Wenn die Antworten einer Maschine von denen eines Menschen nicht zu unterscheiden sind, gilt der Test als bestanden. Turings Ideen gaben den Anstoß für viele Jahre der Forschung im Bereich der künstlichen Intelligenz, die in den letzten Jahren mit der Entwicklung von generativer KI und großen Sprachmodellen (im Englischen large language models, LLMs) neuen Schwung erhalten hat.
Die jüngsten Verbesserungen großer Sprachmodelle haben Hoffnungen geweckt, dass wir der Beantwortung von Alan Turings großer Frage näherkommen. Die Entwicklung immer ausgefeilterer Modelle erweckt den Eindruck, dass LLMS menschliche Fähigkeiten wie logisches Denken, Planung und Problemlösen in LLMs erlernt haben [2].
Es wächst der Glaube, dass diese neue Generation von LLMs, ausgestattet mit zusätzlichen Funktionen wie Gedächtnis und der Fähigkeit externe Werkzeuge zu nutzen (auch „KI-Agenten“ genannt), menschliche Aufgaben auf völlig neue Weise automatisieren und möglicherweise viele Arbeitsplätze ersetzen könnte.
Frühe KI: die Nähe zum Menschen
Es war ein langer Weg KI auf ein Niveau zu bringen, das wie menschliches Denken wirkt. Frühe KI-Systeme waren nach menschlichen Maßstäben nur mäßig intelligent. Sie konnten nicht selbstständig lernen und waren darauf angewiesen, dass Menschen Regeln programmierten, die ihr Verhalten bestimmten. Diese Regeln umfassten auch Algorithmen, die KI-Modelle dazu brachten, eine begrenzte Anzahl von Problemen zu planen und zu durchdenken [3].
Der Hauptvorteil dieses Ansatzes war die Vorhersagbarkeit: Bei einer bestimmten Eingabe, zum Beispiel einer Frage, lieferte die KI immer die gleiche Antwort. Dieses Verhalten ging jedoch auf Kosten der Flexibilität, da sich die Modelle ohne menschliches Eingreifen nicht an neue Umstände anpassen konnten, Das unterscheidet sich deutlich von dem was wir als Denken betrachten.
Doch auch Menschen handeln manchmal ähnlich, wenn sie Routinen oder Gewohnheiten folgen. In diesen Fällen ist kaum oder gar kein bewusstes Nachdenken beteiligt. Eine vertraute Situation löst eine automatische Reaktion aus. Zum Beispiel wachen Sie vielleicht auf und überprüfen sofort Ihre E-Mails und Nachrichten oder begrüßen Ihre Familie und Kollegen instinktiv mit einem „Guten Morgen“. Dazu gehören auch Handlungsabfolgen, die vertraut sind, sowie Pläne, die sich in der Vergangenheit bewährt haben und nun im Gedächtnis gespeichert sind.
Der Vorteil eines solchen gewohnheitsmäßigen Verhaltens, ähnlich wie bei früher KI, ist, dass es schnell, mühelos, konsistent und zuverlässig ist und zu weniger Fehlern führt [4]. Unter Stress verlässt man sich sogar noch mehr auf Gewohnheiten [5]. Im Gegensatz zu regelbasierter KI erwerben Menschen diese Routinen jedoch durch Wiederholung und Lernen im Laufe der Zeit.
Wenn Maschinen lernen – ohne zu denken
Die künstliche Intelligenz veränderte sich grundlegend mit der Erfindung des maschinellen Lernens. Anstatt von Menschen programmierte Regeln zu verwenden, begannen Maschinen, Muster und Regeln direkt aus Daten zu lernen [3]. Es gibt jedoch einen großen Unterschied zur früheren KI: Die Regeln, die maschinelle Lernmodelle verwenden, basieren auf Statistik.
Das führt dazu, dass in einer bestimmten Situation diese Systeme nur eine wahrscheinliche Antwort liefern können, keine feste. Das gilt auch für LLMs, die heute wohl bekanntesten maschinellen Lernmodelle.
Als die ersten großen Sprachmodelle erschienen, wirkten sie dem menschlichen Denken näher, waren aber immer noch ähnlich wie ältere regelbasierte KI. Sie antworten sofort auf eine Frage, ohne einen echten Denkprozess dazwischen.
Hinter den Kulissen menschlicher Gedanken
Was bedeutet es, wenn wir sagen, wir denken? Denken kann verschiedene Prozesse beschreiben. Wir denken, wenn wir bewusst neue Probleme lösen, die über vertraute Lösungen hinausgehen, oder neue Pläne machen und die nötigen Schritte zum Erreichen eines Ziels bedenken. Wenn wir vor Entscheidungen stehen wägen wir ab, welche Option am besten ist. Denken umfasst auch das Beurteilen, ob unsere eigenen oder fremde Meinungen wahr sind. Kreativ sein und sich neue Situationen vorstellen sind ebenfalls Formen des Denkens.
Das menschliche Gehirn setzt Denken ein, wenn wir entspannt oder leicht gestresst sind. Unter starkem Stress schaltet das Gehirn jedoch oft die langsameren [4], fehleranfälligeren Denkprozesse ab und wechselt in die schnelleren, automatischen und sichereren Routinen und Gewohnheiten [5].
Die geheime Zutat des Denkens
Eine wesentliche Zutat des Denkens ist das Gedächtnis, die Fähigkeit sich an Vergangenes zu erinnern. Ohne Gedächtnis könnten wir Fakten, die wir gelernt haben nicht durchdenken, verschiedene Schritte zu einem Plan verbinden oder Optionen vergleichen, um Entscheidungen zu treffen. Man könnte sogar den gerade gefassten Plan vergessen, etwa wenn man zum Kühlschrank geht und nicht mehr weiß, warum.
Es gibt verschiedene Formen des Gedächtnisses [6]. Das episodische Gedächtnis speichert persönliche Erfahrungen und hält fest, was wann und wo passiert ist. Eine andere wichtige Form ist das semantische Gedächtnis oder „Wissensgedächtnis“, das Fakten über die Welt, Wortbedeutungen und Konzepte enthält. Das Arbeitsgedächtnis erlaubt es uns Informationen für kurze Zeit zu behalten, etwa das, was wir oder unser Gesprächspartner gerade gesagt haben.
All diese Gedächtnisarten werden mit den Informationen aus unseren Sinnen kombiniert, um unsere Gedanken zu formen und Handlungen auszuführen. Im Gegensatz zu reaktivem Verhalten, bei dem wir automatisch auf bestimmte Reize reagieren, führen wir bei zielgerichtetem Handeln einen Plan aus, um ein bestimmtes Ziel zu erreichen.
Die Hoffnung der KI-Agenten
Es ist derzeit überall in den Nachrichten: LLMs haben kürzlich ein großes Upgrade erhalten. Sie wurden zu KI-Agenten. Was diese neuen KI-Agenten auszeichnet, ist ihr Versuch menschliche Denkfähigkeiten zu kopieren, sodass sie komplexere Aufgaben bewältigen können, als nur passiv auf Anfragen zu reagieren.
LLMs nehmen ihre Umgebung wahr, indem sie Eingaben von verschiedenen Geräten wie Tastaturen, Mikrofonen und Kameras erhalten. Traditionelle LLMs nutzen dann ihr antrainiertes Wissen (semantisches Gedächtnis), um die eingehenden Informationen zu interpretieren und Fragen zu beantworten.
Ohne Gedächtnis geht es nicht
Mit dem Agenten-Upgrade haben LLMs nun Zugriff auf eine viel größere Bandbreite an Gedächtnismöglichkeiten [6]. Sie können ihr semantisches Gedächtnis erweitern, indem sie Informationen aus Unternehmensdatenbanken abrufen und im Internet nach aktuellen Fakten suchen.
Außerdem können LLMs sich merken, was der Nutzer gerade geschrieben hat, und den laufenden Dialog verfolgen, ähnlich wie das Kurzzeitgedächtnis beim Menschen.
Manche LLMs sind inzwischen mit einer menschenähnlichen Form des episodischen Gedächtnisses ausgestattet. Sie können auf Datenbanken zugreifen, die Gespräche und Interaktionen aus der ferneren Vergangenheit speichern. So kann das LLM die Vorlieben des Nutzers im Laufe der Zeit lernen und seine Antworten entsprechend anpassen.
KI, die denkt und handelt
Das nächste Upgrade besteht darin, dem LLM die Fähigkeit zu geben, zu planen und zu schlussfolgern. Ein effektiver Ansatz ist das Modell direkt dazu aufzufordern ein Problem oder eine Aufgabe Schritt für Schritt zu durchdenken, etwa mit ReAct- oder Chain-of-Thought-Prompts. In neueren Modellen wurde diese fortgeschrittene Denkfähigkeit oft schon beim Training erlernt (Im Englischen Large Reasoning Models oder LRMs), sodass das ein LLM komplexere Denkaufgaben automatisch erledigen kann. Wenn man einem solchen LLM eine Frage stellt, kann man manchmal beobachten, wie es ein Problem durchdenkt. Es scheint, als würde das LLM verschiedene Sichtweisen abwägen, bevor es zur endgültigen Antwort kommt.
Der nächste Schritt hin zu menschenähnlicheren LLMs ist ihnen zu erlauben Handlungen auszuführen, um Pläne umzusetzen und Ziele zu erreichen. Eine solche Handlung ist z.B. der Zugriff auf zusätzliche Gedächtnisquellen wie Datenbanken oder das Internet, um Informationen wie Wetterdaten, aktuelle Nachrichten oder unternehmensspezifische Daten abzurufen.
Über die Informationsbeschaffung hinaus können LLMs auch mit verschiedenen Software- und Anwendungsprogrammen interagieren. Dazu gehören Taschenrechner für Mathematik, E-Mail-Programme zum Analysieren von Nachrichten, Kalender zum Abrufen oder Erstellen von Terminen und Chatsysteme zur Kommunikation mit anderen Menschen. All diese externen Ressourcen, Apps, Software und Datenbanken werden als „Tools“ (Deutsch: Werkzeuge) bezeichnet. LLMs erhalten meist die Autonomie selbst zu entscheiden, welche Tools sie zum Erreichen eines Ziels am effektivsten nutzen.
Wenn ein LLM mit Gedächtnis, Denk- und Planungsfähigkeiten sowie Zugang zu externen Tools ausgestattet ist wird es zu dem, was man heute einen modernen KI-Agenten nennt [7].
KI-Agenten werden zunehmend für alltägliche Aufgaben und Geschäftsprozesse eingesetzt. Sie planen Termine, verwalten E-Mails (z. B. wichtige Infos extrahieren, unwichtige Nachrichten filtern, Antworten verfassen), beantworten unternehmensspezifische Fragen, fassen Daten in Tabellen und Grafiken zusammen und unterstützen bei Entscheidungen [8].
Teamarbeit
KI-Agenten sind meist als Einzelagenten konzipiert, bei denen ein LLM ein bestimmtes Ziel alleine verfolgt. Menschen hingegen erreichen komplexe Ziele oft in Teams, wobei jeder für eine Teilaufgabe verantwortlich ist. Koordination durch eine Teamleitung und klare Kommunikation sind entscheidend, um die Arbeit zu teilen und das gemeinsame Ziel zu erreichen.
Dieses Teamkonzept gilt auch für KI-Agenten. In Multi-Agenten-Systemen werden mehrere einzelne KI-Agenten zusammengebracht, von denen jeder eine bestimmte Aufgabe übernimmt. Manchmal koordiniert ein übergeordneter Agent den Prozess und verteilt die Aufgaben. Wie bei Menschen kommunizieren und kooperieren die Agenten, um ein gemeinsames Ziel zu erreichen.
Ein einfaches Beispiel: Ein Agent schreibt einen Entwurf zu einem Thema, ein anderer überprüft diesen kritisch. Der Prüfer macht Verbesserungsvorschläge, die der Schreib-Agent einarbeitet, bevor er den Text erneut zur Überprüfung weitergibt. Dieser Zyklus wiederholt sich, bis eine Endversion bereitsteht, die von einem Menschen nochmals kontrolliert wird.
Nicht so schnell
Sind LLMs nun wirklich in der Lage, wie Menschen zu denken, zu planen und zu schlussfolgern? Die Antwort ist nicht eindeutig. Betrachtet man nur das Verhalten der Agenten, wie es Turing einst vorschlug scheint es, als hätten sie das menschliche Niveau noch nicht erreicht.
LLMs haben anhaltende Probleme, die auch bei Agenten nicht gelöst werden. Die Hauptprobleme sind ihre Neigung zu Halluzinationen, also das Erfinden von Informationen, die nicht stimmen, sowie ihre mangelnde Zuverlässigkeit und Konsistenz beim Antworten.
Menschen verlassen sich auf strukturiertes Wissen, Fakten, Logik und ein Verständnis von Ursache und Wirkung („gesunder Menschenverstand“), was beim Denken und Planen ein Gefühl von Sicherheit gibt. Im Gegensatz dazu scheinen LLMs in erster Linie auf statistisches Mustererkennen zu setzen und reproduzieren Muster, die sie in ihren umfangreichen Trainingsdaten gelernt haben, anstatt die zugrundeliegenden Konzepte wirklich zu verstehen. Wenn sie mit etwas Neuem konfrontiert werden, das sie im Training nicht gesehen haben, sinkt ihre Leistung oft erheblich und sie werden in unbekannten Situationen unzuverlässig (siehe LLMs und Vernunft: Eine komplizierte Beziehung).
Das Problem mit Halluzinationen und mangelnder Zuverlässigkeit kann zu Fehlern führen, wenn ein Agent Informationen aus Datenbanken extrahiert, Probleme durchdenkt oder Tools auswählt [7]. Selbst mit optimiertem Prompting sind diese Probleme nicht vollständig gelöst.
In Multi-Agenten-Systemen verschärfen sich diese Probleme, da jeder Schritt eine weitere Fehlerquelle darstellt und Fehler sich akkumulieren, wenn Agenten falsche Informationen weitergeben. Zudem sind die aktuellen Gedächtnissysteme nicht ausgereift genug, um komplexe Planungen oder langanhaltendes Denken zu unterstützen.
Ein weiteres Problem ist, dass mit zunehmender Komplexität von Agentensystemen die Leistungsbewertung und Fehlersuche schwieriger werden. Außerdem sind Agentensysteme teuer, da für eine Aufgabe oft viele LLM-Aufrufe nötig sind, was die Kosten erhöht.
Zwei aktuelle Studien verdeutlichen diese Probleme. In einer Studie wurde festgestellt, dass die Hauptprobleme in Agentensystemen darin bestehen, dass LLMs Anweisungen nicht befolgen, die Kommunikation zwischen Agenten scheitert und Kontrollsysteme Fehler nicht erkennen [9]. Dadurch liegt die Erfolgsquote bei Aufgaben oft unter 50%.
Eine weitere Studie simulierte ein kleines Softwareunternehmen, das vollständig von KI-Agenten betrieben wird („TheAgentCompany“), in Rollen wie CTO, Data Science, HR und Finanzen [10]. Selbst mit spezialisierten Tools und Kommunikationssystemen lag die Erfolgsquote bei Aufgaben nur bei 30%, was Zweifel an der kurzfristigen Ersetzbarkeit menschlicher Arbeitskräfte durch KI-Agenten aufkommen lässt. Die Studie bestätigte zudem die hohen Kosten von Multi-Agenten-Systemen.
Das Gehirn bleibt unerreicht
Obwohl die Begeisterung für KI-Agenten derzeit groß ist, bestehen erhebliche Risiken aufgrund der inkonsistenten Funktionsweise von LLMs. Sie können die Produktivität in risikoarmen Situationen steigern, doch in kritischen Anwendungen, in denen Zuverlässigkeit, Vertrauen und rechtliche Vorschriften entscheidend sind, sind ihre Grenzen ein ernstes Problem. Insgesamt sind heutige KI-Agenten mit ihren „LLM-Gehirnen“ noch weit davon entfernt, die Denkfähigkeiten des menschlichen Gehirns zu erreichen (siehe LLMs und Vernunft: Eine komplizierte Beziehung für eine ausführlichere Erklärung).
Referenzen
- TURING AM. I.—COMPUTING MACHINERY AND INTELLIGENCE. Mind. 1950;LIX(236):433-460.
- Kambhampati S, Stechly K, Valmeekam K, et al. Stop Anthropomorphizing Intermediate Tokens as Reasoning/Thinking Traces! Published online May 27, 2025. https://arxiv.org/pdf/2504.09762v2
- Kautz HA. The Third AI Summer: AAAI Robert S. Engelmore Memorial Lecture. AI Mag. 2022;43(1):105-125.
- Kahneman D. Thinking, Fast and Slow. Farrar, Straus and Giroux; 2013.
- Schwabe L, Wolf OT. Stress and multiple memory systems: From “thinking” to “doing.” Trends Cogn Sci. 2013;17(2):60.
- Wu Y, Liang S, Zhang C, et al. From Human Memory to AI Memory: A Survey on Memory Mechanisms in the Era of LLMs. Published online April 23, 2025. https://arxiv.org/pdf/2504.15965v2
- Krishnan N. AI Agents: Evolution, Architecture, and Real-World Applications. Published online March 16, 2025. https://arxiv.org/pdf/2503.12687
- Sapkota R, Roumeliotis KI, Karkee M. AI Agents vs. Agentic AI: A Conceptual Taxonomy, Applications and Challenges. Published online May 15, 2025. https://arxiv.org/pdf/2505.10468v1
- Cemri M, Pan MZ, Yang S, et al. Why Do Multi-Agent LLM Systems Fail? Published online March 17, 2025. https://arxiv.org/pdf/2503.13657
- Xu FF, Song Y, Li B, et al. TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks. Published online December 18, 2024. https://arxiv.org/pdf/2412.14161

Gerald Hahn
Gerald ist Leiter des Bereichs Data Science und gehört seit der Gründung zum Team von evocenta. Dank seines neurowissenschaftlichen Hintergrunds ist er dafür verantwortlich, Emmas Fähigkeiten gezielt an verschiedene Anwendungsfälle und die individuellen Anforderungen der Kunden anzupassen.
Weitere Beiträge
LLMs, das Gehirn und die Vernunft: Eine schwierige Beziehung
12.08.2025 | Gerald Hahn
Verfasst von: Gerald Hahn Agenten stehen derzeit im Mittelpunkt der Aufmerksamkeit in der ... [weiterlesen]
Im Gehirn von KI-Agenten
04.08.2025 | Gerald Hahn
Verfasst von: Gerald Hahn Im Jahr 1950 stellte Alan Turing die berühmte Frage: „Können... [weiterlesen]
Sichere Implementierung Künstlicher Intelligenz in der Öffentl…
30.04.2025 | Laura Schuppert
von Laura Schuppert, SVP Product & Quality Die öffentliche Verwaltung in Deutschland ... [weiterlesen]
Fuel under the Hood
10.09.2024
written by: Nikola Greb. The Importance of Data in Artificial Intelligence We have all hea... [weiterlesen]
Die 3 untrennbaren Dimensionen der KI
30.08.2024 | Heiko Eich
Von Heiko Eich, CDO der evocenta GmbH und bereits seit 2018 verantwortlich für die Anwend... [weiterlesen]