Algorithmic Empathy: Kann KI Mitgefühl erzeugen – oder nur imitieren? Diese Frage berührt einen wunden Punkt moderner Digitaltherapie: Wenn Empathie einer der zentralen Wirkfaktoren psychotherapeutischer Veränderung ist, wie tragfähig sind dann Interaktionen, in denen kein erlebendes Gegenüber sitzt, sondern ein System, das Muster erkennt und Signale produziert? Unsere Studie beantwortet diese Frage nicht ideologisch, sondern empirisch – mit einer radikal sauberen Unterscheidung von Wirkung (was beim Patienten ankommt und was er infolgedessen tut) und Quelle (wer oder was die Interaktion steuert). Der Kern: Wir prüfen nicht, ob KI „fühlt“, sondern ob sie Empathie im Erleben und therapeutische Konsequenzen in definierten Mikromomenten hervorbringt – und wann diese Wirkung kippt und als bloße Nachahmung erlebt wird.
Zunächst zur begrifflichen Klärung. Empathie hat mindestens drei Facetten: (1) kognitiv – die Fähigkeit, die Lage und Perspektive des Gegenübers präzise zu erfassen und sprachlich erkennbar zu machen; (2) affektiv – die stimmige emotionale Resonanz, die in Stimme, Wortwahl und Timing spürbar wird; (3) compassionate action – konsequentes, hilfreiches Handeln, das aus Verstehen und Resonanz folgt (konkrete nächste Schritte, Entlastungsübungen, strukturierende Angebote). In klassischen Therapiesettings sind diese Facetten verschränkt und durch Intentionalität getragen. Algorithmische Empathie trennt diese Ebenen technisch: Sie produziert Signale (Formulierungen, Prosodie, Antwortlatenzen) und Handlungsangebote entlang erlernter Muster. Das führt zur zentralen Kontroverse: Reicht wirksame Signalproduktion plus konsequente Handlung aus, um vom Patienten als „Mitgefühl“ erlebt zu werden – oder bleibt ohne erlebte Intentionalität nur ein glänzender Schein, der Vertrauen erosiv unterminiert?
Die Relevanz ist hoch. Digitale Mental-Health-Angebote werden breiter, schneller und billiger. Gleichzeitig berichten Nutzer von Müdigkeit gegenüber glatten, standardisierten Interaktionen. Zwei Kräfte wirken gegeneinander: Skalierbarkeit durch Automatisierung vs. das zutiefst dyadische Wesen therapeutischer Veränderung. In diesem Spannungsfeld kann algorithmische Empathie Brücken bauen (niedrige Zugangshürden, sofortige Stabilisierung, klare Mikro-Schritte) – oder Risse vergrößern (Uncanny-Gefühl, dünnes Vertrauen, oberflächliche „Wärme“ ohne nachhaltige Wirkung). Ein wissenschaftlich belastbarer Entscheidungspfad ist daher nötig: Wann genügt Simulation, wann braucht es Hybridmodelle, wann ausschließlich den Menschen?
Erstens: Outcomes vor Ontologie. Statt zu fragen, ob eine Maschine „wirklich fühlt“, fokussieren wir auf erfahrungsnahe und verhaltensnahe Endpunkte: wahrgenommene Empathie, Working Alliance (Bindung, Aufgaben- und Zielübereinstimmung), Selbstoffenbarungsbereitschaft und Adhärenz (tatsächlich umgesetzte Übungen). Wenn algorithmische Interaktionen in diesen Endpunkten eine präregistrierte Nicht-Unterlegenheit gegenüber kurzen menschlichen Mikrositzungen erreichen, ist das empirisch bedeutsam – unabhängig von metaphysischen Debatten. Umgekehrt interpretiert unser Design Brüche (Misstrauen, Uncanny, sinkende Allianz) als Evidenz für Imitation ohne tragende Wirkung.
Zweitens: Mechanismen statt Pauschalurteil. Wir zerlegen Empathie in Signal- und Prozesskomponenten: Wortinhalte, Prosodie und Timing (Pausen vor Validierung, Antwortlatenz als „Nachdenk-Marker“), und compassionate action (konkrete, machbare nächste Schritte). So testen wir Mechanismen: Wirkt ein Grounded-Mode mit leichten Imperfektionen (Nachfragen, Unsicherheitsmarker) auf Aufrichtigkeit stärker als der hyperglatte Ton, der häufig als „synthetisch“ erlebt wird? Reicht reine affektive Wärme – oder entscheidet im Alltag die Handlung über Vertrauen und Mitarbeit? Können Systeme nach Rupture (gezielter Fehlspiegelung) durch Repair (Fehlerbenennung, Re-Attunement, konkrete Hilfe) Allianz stabilisieren – oder entlarvt gerade die Reparatur den Mangel an Intentionalität?
Drittens: Transparenz als Prüfstein. In Therapie ist Täuschung ein No-Go. Offenlegung („Sie sprechen mit einer KI, die Folgendes kann – und nicht kann“) ist integraler Bestandteil. Das verschärft den Test: Hält algorithmische Empathie, obwohl die Quelle offengelegt ist? Gelingt es, unter dieser epistemischen Last Aufrichtigkeit zu erzeugen und Selbstoffenbarung zu öffnen? Oder bricht das fragile Vertrauen ein? Genau diese Spannungen bilden wir experimentell ab.
Die Literatur zeichnet ein ambivalentes Bild: Mikromomente gezielter Validierung, Affektregulation und strukturierter Mini-Schritte können kurzfristig starke Effekte auf Ruhe, Hoffnung und Handlungsbereitschaft haben. Gleichzeitig ist therapeutische Allianz ein relationales Kontinuum, das nicht nur aus Signalen besteht, sondern auch aus geteilten Erwartungen, Reparaturfähigkeit und verlässlicher Präsenz. Daraus folgt unsere Arbeitsdefinition: Wir sprechen von „Erzeugen von Mitgefühl“, wenn algorithmische Interaktionen gleichzeitig (a) als aufrichtig erlebt werden, (b) Allianz oberhalb einer präregistrierten Schwelle aufbauen, (c) akute Affektregulation erreichen und (d) Handlung auslösen, die über reine Zustimmung hinausgeht (Adhärenz). Bleibt eines oder mehrere dieser Elemente systematisch unter den definierten Schwellen – insbesondere Aufrichtigkeit und Allianz – werten wir die Interaktion als Imitation.
Der klinische Rahmen ist konservativ: Wir arbeiten ausschließlich in low-risk-Szenarien (Stress, Schlaf, Prüfungsangst, Antriebstief), mit Disclosure, Red-Button für sofortigen menschlichen Kontakt und Handover-Protokollen bei Risikoindikatoren. Die Frage ist nicht, ob KI eine vollumfängliche Therapie ersetzen sollte – sondern: Wann reicht eine empathisch gestaltete Mikrositzung durch KI, um den nächsten hilfreichen Schritt zu ermöglichen? Wo verstärkt ein Hybrid (KI + kurze menschliche Supervision) die Wirksamkeit und Sicherheit? Und wo ist ausschließlich der Mensch indiziert?
Die Konsequenzen sind erheblich. Bestätigt sich, dass compassionate action in Kombination mit Grounded-Prosodie und klaren Reparaturpfaden Nicht-Unterlegenheit bei Allianz und Adhärenz erreicht, entstehen skalierbare Module für Erststabilisierung, Psychoedukation und Verhaltensaktivierung. Fällt die KI in Transparenz- oder Reparatursituationen durch, sind die Grenzen klar: Imitation bleibt dann kosmetisch, potenziell schädlich. In beiden Fällen gewinnen Versorgungspfade: Entweder als Playbook für sichere, nutzbringende Anwendung – oder als Indikations-Ampel, die klare Einsatzgrenzen zieht.
Kurz: Diese Studie beantwortet die Titelfrage mit einer entscheidbaren Logik. KI „hat“ kein Mitgefühl im phänomenologischen Sinn. Aber sie kann – richtig konstruiert – Mitgefühl im Erleben erzeugen, gemessen an Allianz, Aufrichtigkeit, Affektregulation und Adhärenz. Gelingt das konsistent, sprechen wir von funktionaler Erzeugung. Misslingt es, bleibt es Imitation – erkennbar, messbar, begrenzt einsetzbar. Genau diese Grenze ziehen wir, nicht rhetorisch, sondern datenbasiert.
Empathie in therapeutischen Mikromomenten ist kein mystischer Zustand, sondern ein prozessuales Gefüge aus kognitivem Verstehen, affektiver Ko-Regulation und compassionate action. Dieses Gefüge ist beim Menschen in Intentionalität eingebettet: Ein Gegenüber richtet Aufmerksamkeit, bildet Hypothesen über innere Zustände, reguliert seine eigene Affektlage und leitet daraus eine konkrete, hilfreiche Handlung ab. Algorithmische Empathie besitzt keine phänomenale Innenperspektive. Sie operiert über Signale (Formulierungen, Prosodie, Timing) und über Interventionsschritte, die aus Daten gelernt wurden. Der zentrale theoretische Punkt dieser Studie ist daher nicht die Ontologie des Fühlens, sondern die Funktion im Erleben: Erzeugt die Interaktion beim Patienten verlässlich das, was klinisch als Empathie zählt – nämlich verstanden zu werden, emotional beruhigt zu werden und in handlungsfähige Schritte zu kommen? Die Titelfrage „Kann KI Mitgefühl erzeugen – oder nur imitieren?“ übersetzen wir deshalb in klinisch prüfbare Bedingungen, die messbar, wiederholbar und falsifizierbar sind.
Der erste Grenzverlauf zwischen Erzeugen und Imitieren verläuft über Aufrichtigkeit. Empathie wird nicht nur am Inhalt erkannt, sondern an Mikro-Signalen, die Authentizität stützen: hörbare Pausen vor sensiblen Spiegelungen, bescheidene Formulierungen, die Unsicherheit markieren, nachfragende Präzisierung statt allwissender Deutung. Diese Signale senken Reaktanz und eröffnen dem Gegenüber die soziale Möglichkeit, zu korrigieren, ohne Gesichtsverlust. In vielen digitalen Interaktionen fehlen genau diese Marker; übrig bleibt eine hyperglatte Spiegelung, die unheimlich wirkt, weil sie Wissen über das Innere unterstellt, ohne den sichtbaren Weg dorthin zu zeigen. Dies ist der Kern des Uncanny-Risikos: Wenn Glätte die dialogische Aushandlung ersetzt, erodiert Vertrauen. Algorithmische Empathie muss darum prozessual gestaltet sein, nicht nur semantisch. Ein Grounded-Mode, der Imperfektionen zulässt, Fehler benennt und Nachfragen priorisiert, hat eine höhere Chance, als aufrichtig erlebt zu werden als ein Glatt-Mode, der jede Nuance vorhersagt und damit die Kontingenz realer Beziehung tilgt.
Der zweite Grenzverlauf betrifft Rupture und Repair. Therapien sind nicht deshalb wirksam, weil keine Fehler passieren, sondern weil Brüche erkannt, adressiert und repariert werden. Echte Empathie zeigt sich nicht im fehlerlosen Protokoll, sondern in der Fähigkeit, Fehldeutungen zu benennen, neue Hypothesen anzubieten und eine präzisere Passung herzustellen. Diese Reparaturbewegung stiftet Bindung und signalisiert Beziehungszuverlässigkeit. Für algorithmische Systeme ist das kein moralisches, sondern ein architektonisches Problem: Nur wenn Modelle Ambiguität zulassen, Unsicherheitsmarker explizit einbauen, Klarstellungen wertschätzen und Fehlerkosten nicht durch Bestrafung von „Zögern“ erhöhen, kann Repair als wiederholbares Muster entstehen. Bleibt Reparatur aus oder wird sie kosmetisch überdeckt, entlarvt sich die Interaktion als Imitation: Sie klingt empathisch, trägt aber keine Allianz durch die Irritation hindurch.
Der dritte Grenzverlauf entscheidet sich an der Verknüpfung von Empathie und Handlung. Wärme ohne Umsetzung bleibt in der klinischen Realität wirkungslos. Das Kriterium für Mitgefühl, das erzeugt und nicht nur imitiert, ist die Übersetzung eines empathischen Moments in machbare, niedrigschwellige, zeitnah ausführbare Schritte: eine Atemübung in zwei Minuten, ein Gedankenprotokoll mit drei Zeilen, eine Verhaltensaktivierung in fünf Minuten. Diese compassionate action ist nicht Add-on, sondern Wirkbeweis. Wenn Empathie ohne Next Best Step bleibt, entstehen Gespräche, die zustimmungsfähig klingen, aber verhaltensleer enden. In unserem Rahmen ist Adhärenz daher nicht bloß Outcome, sondern Kriterium für „Erzeugen“: ohne Verhalten keine Empathie-Wirksamkeit.
Eine vierte Trennlinie entsteht durch Transparenz. In klinischen Kontexten gilt No Deception. Disclosure – „Sie sprechen mit einer KI, die Folgendes kann und nicht kann“ – erhöht die epistemische Last der Interaktion. Erzeugung liegt nur dann vor, wenn Aufrichtigkeit, Allianz und Offenheit trotz Disclosure stabil bleiben oder wachsen. Bricht die Empathie-Wahrnehmung nach Offenlegung ein, war die Wärme zuvor kontingent auf Unwissen über die Quelle – das ist Imitation. Transparenz verschiebt die Messlatte vom ästhetischen Eindruck („klingt gut“) zur tragenden Beziehung („trägt, obwohl ich weiß, dass es eine KI ist“).
Aus diesen Grenzverläufen folgt unsere Arbeitsdefinition für die Titelfrage. Wir sprechen von „Erzeugen“, wenn eine KI-gestützte Interaktion gleichzeitig als aufrichtig erlebt wird, Allianz oberhalb einer präregistrierten Schwelle aufbaut, akute Affektregulation bewirkt und Adhärenz auslöst, die über reine Zustimmung hinausgeht. Wird eine oder mehrere dieser Dimensionen nicht erreicht – insbesondere Aufrichtigkeit und Allianz – oder kollabieren sie unter Disclosure und Rupture-Bedingungen, sprechen wir von „Imitation“. Diese Definition verschiebt die Debatte vom Seins-Status der Maschine zur klinischen Funktionsprüfung im Gegenüber und macht die Titelfrage entscheidbar.
Warum ist diese Verschiebung berechtigt? Weil Empathie in der Therapie empirisch als Wirksamkeitsfaktor über Working Alliance, Selbstoffenbarung und Mitarbeit operationalisiert wird. Was zählt, sind Trajektorien: Wird jemand ruhiger, klarer, handlungsfähiger, bleibt und arbeitet er mit? Diese Trajektorien hängen nicht nur am Inhalt, sondern am Wie: Prosodie und Timing bestimmen, ob Worte landen. Eine Antwortlatenz von unter einer halben Sekunde vermittelt Fluss, aber keine Reflexivität; eine Pause vor einer Validierung markiert, dass Zuhören statt Abspulen geschieht. Stimmhöhe, Lautstärkeverläufe und Sprechtempo übertragen Affektregulation, bevor Bedeutung dekodiert wird. Algorithmische Empathie, die Latenzfenster, Pausensetzung und Modulationskurven gezielt gestaltet, kann affektive Ko-Regulation tatsächlich erzeugen – nicht, weil sie fühlt, sondern weil sie Signalarchitektur nutzt, um das Nervensystem des Gegenübers zu entlasten. Das ist kein Trick; es ist Kommunikationsdesign im Dienst klinischer Ziele.
Gleichzeitig darf Signalarchitektur das Dialogische nicht verdrängen. Allianz entsteht, wenn der Patient Einfluss auf die Interaktion erlebt. Dazu braucht es Echtheitsmarker: Offen formulierte Hypothesen statt Feststellungen, Re-Pairs bei abweichendem Erleben, Beteiligung an der Zielformulierung. Eine KI, die Nachfragen priorisiert („Habe ich Sie richtig verstanden, dass …?“), erzeugt Partizipation und damit Bindung. Eine KI, die stets schließt („Sie fühlen X, deshalb tun Sie Y“) reduziert Partizipation und steigert psychologische Reaktanz. In diesem Sinne ist Aufrichtigkeit nicht nur ein Gefühl, sondern eine Interaktionsordnung, in der Korrigierbarkeit vorgesehen ist.
Rupture-Repair fungiert in unserem Rahmen als Wahrheitstest. Wo Imitation vorherrscht, werden Fehler überdeckt oder ignoriert; wo Erzeugen gelingt, werden Fehler zum Ankerpunkt von Vertiefung. Das Benennen des Fehlers („Ich glaube, ich habe Sie falsch verstanden“), das präzisere Labeling („Klingt eher nach Überforderung als nach Ärger, stimmt das?“) und ein konkreter nächster Schritt („Wollen wir genau diesen Moment kurz strukturieren?“) sind die Schlüsselsequenz. Diese Sequenz transformiert Irritation in Bindung. Algorithmische Systeme können sie standardisieren – vorausgesetzt, die Architektur bevorzugt Re-Attunement gegenüber der Illusion von Unfehlbarkeit.
Die Rolle von compassionate action ist theoretisch doppelt begründet. Erstens erfüllt sie die ethische Forderung, Empathie nicht im Verbalisierungsraum zu belassen, sondern in Fürsorgeverhalten zu überführen. Zweitens stabilisiert sie Allianz, weil gemeinsame Aufgaben die Dyade handlungsorientiert koppeln. Klinisch zeigt sich das in Adhärenz: Wer eine kurze, klar geführte Übung tatsächlich macht, erlebt Selbstwirksamkeit und schreibt dem Gegenüber Nützlichkeit zu. Für unsere Titelfrage heißt das: Wo Wärme ohne Handlung bleibt, sprechen wir von Imitation; wo Wärme Handlung verursacht, sprechen wir von Erzeugen.
Transparenz schärft diese Logik. Ohne Disclosure können Halo-Effekte die Empathiewahrnehmung verfälschen. Mit Disclosure wird die Quelle zur bekannten Variable. Bleibt Aufrichtigkeit hoch, Allianz tragfähig und Adhärenz intakt, obwohl KI-Herkunft klar ist, dann ist Erzeugen nicht nur möglich, sondern robust gegenüber epistemischer Prüfung. Bricht eines davon ein, ist der vorangegangene Empathie-Eindruck Quelle-abhängig gewesen – ein Imitationsphänomen, das unter Wissenslast zerfällt.
Weshalb insistieren wir auf Schwellen statt auf freiem Interpretationsraum? Weil die Titelfrage eine Entscheidung verlangt, keine Stimmung. Schwellen für Allianz, Aufrichtigkeit, Affektregulation und Adhärenz erlauben Nicht-Unterlegenheitsprüfungen und Ampel-Urteile. Daraus entsteht ein Empathy Authenticity Index, der Gewichte für die vier Kernkomponenten definiert und so eine Verdiktslogik ermöglicht: grün, wenn alle Schwellen erreicht und mindestens drei Komponenten überdurchschnittlich sind; gelb, wenn einzelne Komponenten knapp unter der Schwelle liegen, aber Repair-Fähigkeit kompensiert; rot, wenn Aufrichtigkeit oder Allianz signifikant unterschritten werden oder nach Disclosure einbrechen. Diese Index-Logik ist kein Ersatz für klinische Urteilskraft, aber ein replizierbarer Referenzrahmen, der die Diskussion entromantisiert.
Ein weiterer theoretischer Baustein betrifft Differenzialität. Empathie ist interpersonal; ihre Wirkung hängt vom Gegenüber ab. Bindungsangst, Einsamkeit, Alexithymie, Reaktanz und Technikvertrauen prägen, ob algorithmische Empathie aufnehmen kann. Es ist plausibel, dass Personen mit hoher Bindungsunsicherheit stärker von kognitiver Empathie in Kombination mit compassionate action profitieren, weil Vorhersagbarkeit Sicherheit stiftet, während hyperglatte Affektspiegelung Misstrauen verstärkt. Ebenso ist plausibel, dass hohe Reaktanz auf imperativische Handlungsschritte allergisch reagiert, während ko-konstruktive Angebote („Wollen wir das testen?“) Annahmebereitschaft erhöhen. Theorie heißt hier: Moderation ist Regel, nicht Ausnahme. Erzeugen kann also subgruppen-spezifisch sein; Imitation kann bei anderen Subgruppen gleichzeitig vorliegen. Unsere Definition bleibt dennoch stabil, weil sie auf Schwellen pro Person und Aggregatbefunde pro Gruppe abstellt.
Schließlich ist die Theorie normativ anspruchsvoll. Empathie ohne Intentionalität bleibt – philosophisch betrachtet – Simulacrum. Klinisch zählt jedoch Linderung, Bindung, Handlung. Wenn ein intentionsloses System verlässlich die Erfahrungsstruktur erzeugt, die Leiden mindert und Verhalten verbessert, dann ist das Mitgefühl im Erleben. Es wäre fehldeutend, dies mit „echter“ menschlicher Empathie gleichzusetzen; aber es wäre ebenso fehldeutend, es abzuwerten, wenn es wirkt und sicher ist. Deshalb zieht unsere Theorie die Linie funktional: Erzeugen heißt, die klinisch relevanten Bedingungen unter Transparenz und Rupture-Bewährung zu erfüllen; Imitation heißt, am Eindruck zu genügen, an Allianz, Affekt oder Adhärenz aber zu scheitern.
Diese funktionale Linie schützt vor zwei Irrtümern: vor der Überhöhung des Technischen („KI fühlt jetzt“) und vor der Verringerung des Praktischen („KI kann nichts beitragen“). Sie zwingt, Signalarchitektur, Dialogprinzipien und Handlungsdesign als integriertes System zu denken. Nur dann wird aus algorithmischer Wärme tragfähige Nähe; nur dann wird aus Spiegelung Veränderung. Genau an dieser Stelle entscheidet sich die Titelfrage – nicht im Inneren der Maschine, sondern im Erleben der Person, die ruhiger atmet, klarer spricht, mehr teilt und etwas tut, das ihr spürbar hilft.
Die erste Forschungsfrage adressiert den Kern der Titellogik: Kann eine offen ausgewiesene KI in kurzen therapeutischen Mikromomenten eine funktional tragfähige Form von Mitgefühl erzeugen – gemessen an Allianz, wahrgenommener Empathie, Aufrichtigkeit und Handlungsbereitschaft – oder bleibt sie trotz perfekter Formulierungen bei Imitation stehen? Um diese Frage belastbar zu machen, müssen wir die klassische Ontologiedebatte („fühlt eine Maschine?“) von der klinischen Wirkdimension trennen. In der psychotherapeutischen Forschung gilt Empathie nicht als innerer, unzugänglicher Zustand des Therapeuten, sondern als erfahrbare Interaktionsqualität, die sich in Working Alliance, Selbstoffenbarung und Adhärenz niederschlägt. Genau diese Verschiebung – von der Quelle zur Wirkung im Gegenüber – erlaubt es, KI-Empathie nicht metaphysisch, sondern pragmatisch-klinisch zu prüfen. Der Prüfstein lautet: Erzeugung liegt vor, wenn das Gegenüber konsistent verstanden, affektiv reguliert und zu konkreten nächsten Schritten befähigt wird; Imitation liegt vor, wenn Worte und Stimme zwar angenehm klingen, aber Allianz, Aufrichtigkeit oder Verhalten nicht tragen.
Damit dieser Vergleich fair ist, braucht die KI eine Prozessarchitektur, die an menschliche Empathie dort anschließt, wo sie wirkt: Prosodie und Timing signalisieren Zuwendung und Bescheidenheit, hörbare Pausen markieren Reflexivität, Unsicherheitsmarker öffnen Korrigierbarkeit, Nachfragen geben dem Gegenüber Agency. Wir bezeichnen diesen Modus als Grounded-Mode. Er kontrastiert mit einem Glatt-Mode, der zwar sprachlich brillant und affektiv weich ist, aber keine dialogische Aushandlung zulässt. Theoretisch ist zu erwarten, dass Grounded-Interaktionen Aufrichtigkeit steigern und Reaktanz senken, weil sie dem Gegenüber Einfluss auf Bedeutung und Richtung geben. Gerade hier trennt sich Erzeugen von Imitieren: Im Grounded-Mode entsteht erlebte Beziehung; im Glatt-Mode entsteht ästhetische Überzeugung ohne Kontingenz. Für den Nachweis funktionaler Nicht-Unterlegenheit genügt es daher nicht, reine Wärmeurteile zu sammeln; es braucht konvergente Endpunkte – WAI-Delta, Empathie-Rating, Offenbarungsbereitschaft, Adhärenzintention – und Stabilität unter Transparenz. Disclosure fungiert als Epistemik-Stress: Trägt die Wahrnehmung, obwohl die Quelle KI ist, spricht das gegen bloße Imitation. Bricht sie ein, war die Empathie quelle-kontingent und somit eine Scheinwirkung.
Wesentlich ist die operational strenge Nicht-Unterlegenheitslogik. Wir definieren vorab Margen (z. B. Δ = −0,15 SD gegenüber Mensch) und testen einseitig, ob KI-Grounded die Untergrenze nicht unterschreitet. Diese Wahl ist sachgerecht, weil die Frage klinisch lautet: Genügt die KI, um dort zu helfen, wo Skalierung gebraucht wird – nicht, ob sie den Menschen übertrifft. Gleichwohl integrieren wir Manipulationschecks (Wärme, Kompetenz, Aufrichtigkeit, Uncanny), damit nicht Verwechslungen zwischen freundlicher Rhetorik und erlebter Beziehung auftreten. Kritisch ist zudem die Zeitorientierung: Wir messen unmittelbar nach der Interaktion (Erleben), nach 48 h (erste Verhaltensfolgen) und nach 14 Tagen (Stabilität der Allianz im Mini-Trajekt). So verhindern wir, dass kurzfristige Halo-Effekte als Evidenz für Erzeugen fehlgedeutet werden, wenn Handlung und Bindung nicht nachziehen.
Konfundierungen adressieren wir bewusst. Themenheterogenität wird durch standardisierte Szenarien (Schlaf/Grübeln, Prüfungsangst, Antriebsdelle, Alltagskonflikt) kontrolliert; Personfaktoren wie Bindungsstil, Einsamkeit, Reaktanz, Technikvertrauen, Alexithymie werden als Moderatoren modelliert, damit echte Nicht-Unterlegenheit nicht durch Zufallspassung in Subgruppen verfälscht wird. Audio-Qualität und Antwortlatenzfenster werden technisch überwacht, weil bereits Millisekunden-Variationen Aufrichtigkeitssignale verändern können. Blinding in Rating-Teilen (z. B. beim Audio-Turing-Empathy-Test) verhindert Agent Bias. Und: No-Deception ist verpflichtend; im Therapie-Kontext wird immer offengelegt, wodurch ein hoher Realismus für spätere Implementationen entsteht.
Theoretisch begründet die Literatur die Wahl der Endpunkte: Working Alliance korreliert robust mit Therapieerfolg, wahrgenommene Empathie vermittelt Selbstoffenbarung und Kooperationsbereitschaft, Adhärenz transformiert Moment-Erleben in Veränderung. Für KI-Empathie ist das Trio aus Allianz, Empathie, Adhärenz daher kein willkürliches Set, sondern die funktionale Trias. Hinzu tritt Aufrichtigkeit als Qualitätsmerkmal des Pfads: Sie schützt vor der Uncanny-Falle, in der Wärmeurteile steigen, während Misstrauen latent wächst. Indem wir Aufrichtigkeit als Mediator in ein Pfadmodell (Empathie → Aufrichtigkeit → Trust/Offenbarung → Adhärenz) integrieren, prüfen wir, ob Grounded-KI nicht nur klingt, sondern über den richtigen Mechanismus wirkt.
Die Falsifikationslogik ist klar: Scheitert KI-Grounded an der Nicht-Unterlegenheitsmarge für WAI und Empathie, oder brechen die Werte unter Disclosure ein, liegt Imitation nahe. Besteht KI-Grounded die Marge, hält unter Disclosure und zeigt zudem konvergente Verhaltensfolgen (Adhärenz), liegt Erzeugen vor – funktional, auch ohne Intentionalität. Genau diese Entscheidbarkeit macht den Vergleich klinisch nützlich.
Hypothese H1: Eine offen ausgewiesene KI im Grounded-Mode ist in kurzen Therapie-Mikrointeraktionen hinsichtlich Working Alliance und wahrgenommener Empathie nicht unterlegen gegenüber einem menschlichen Gegenüber; diese Nicht-Unterlegenheit bleibt unter Disclosure stabil und geht mit höherer Aufrichtigkeit sowie intakter Adhärenzintention einher.
Die zweite Forschungsfrage verschiebt den Fokus vom Gefühlseindruck zur klinischen Konsequenz: Trägt Empathie erst dann, wenn sie in eine konkrete, niedrigschwellige Handlung übergeht? Die These lautet, dass compassionate action – also die konsequente Übersetzung von Verstehen und Resonanz in machbare, zeitnahe Schritte – der reine affektive Wärme überlegen ist, sobald man Adhärenz und akute Affektregulation als harte Kriterien anlegt. Diese These ist nicht trivial, denn viele Empathiestudien bleiben im Verbalisierungsraum stehen und verwechseln Zustimmung mit Zuwendung. In der klinischen Praxis entscheidet jedoch, ob nach einem Moment des „verstanden Werdens“ etwas passiert, das Leid senkt und Selbstwirksamkeit erhöht: eine Atemroutine in zwei Minuten, ein Gedankenprotokoll mit drei Spalten, eine Mini-Verhaltensaktivierung im Alltag. Genau hier wird Mitgefühl zum Wirkfaktor – und genau hier fliegt Imitation auf, weil sie Folgen schuldig bleibt.
Theoretisch stützt sich diese Priorisierung auf zwei Linien. Erstens auf die Selbstwirksamkeitstheorie: Ko-konstruierte, erreichbare Aufgaben verstärken das Gefühl, steuern zu können; sie reduzieren Hilflosigkeit, stabilisieren Affekt und vertiefen Allianz. Zweitens auf Verhaltensaktivierungs- und Skills-Modelle, die zeigen, dass kleine, konkrete Schritte die negativ-affektive Spirale aufbrechen. Empathie, die nicht in Handlung übersetzt wird, bleibt im besten Fall tröstlich, im schlechtesten enttäuschend, weil sie Erwartung ohne Erfüllung erzeugt. Daraus folgt methodisch: Wir definieren Action-Protokolle pro Szenario, die klar, kurz, konkret und messbar sind; wir erfassen Adhärenz objektiv, wo immer möglich (App-Logs, Zeitstempel), und ergänzen 48-Stunden-Follow-ups für Dauer und Qualität der Durchführung. Parallel messen wir akute Affektregulation mit kurzen, validierten Skalen unmittelbar nach der Interaktion und nach 48 Stunden.
Die Signalarchitektur der Action-Variante ist entscheidend. Prosodie und Timing dürfen nicht in Instruktionshärte kippen; erfolgreiche Action-Empathie ist einladend, gemeinsam und skalierend („Wollen wir das zusammen einmal ausprobieren?“). Grounded-Marker – Pausen, Unsicherheitsrahmung, Nachfragen – bleiben Basis; hinzu kommt eine präzise Verfahrensbeschreibung mit Zeitrahmen, Minimalanforderung und Optionen für Scheitern („Wenn es heute nur 60 Sekunden sind, ist das okay – das Ziel ist Anfangen, nicht Perfektion“). Diese Gestaltungslogik reduziert Reaktanz und erhöht Commitment durch realistische Machbarkeit. Ein zentraler Mechanismus ist die Aufwands-Heuristik: Je geringer die kognitive Last und je klarer die erste Handlungsschleife, desto höher die Umsetzungswahrscheinlichkeit. KI-Systeme haben hier einen Skalenvorteil: Sie können Schritt-für-Schritt-Guidance konsistent liefern, Erinnerungen setzen und Feedback einholen, ohne Ermüdung.
Konfundierungen werden aktiv adressiert. Novitätseffekte („neu = motivierend“) kontrollieren wir durch Wiederholungszyklen und ESM-Trajektorien über 14 Tage; sozial erwünschte Berichte durch objektive Log-Proxys und Anreizneutralität; Themenpassung durch Szenario-Standardisierung. Subgruppen wie reaktanzstarke Teilnehmende reagieren sensibel auf Tonalität; hier erwarten wir größere Effekte für ko-konstruktive Action-Angebote gegenüber imperativischen. Auch Bindungsunsicherheit kann Action begünstigen, weil Vorhersagbarkeit Sicherheit schafft; umgekehrt kann hyperglatte Affektspiegelung in dieser Gruppe Misstrauen auslösen, das Adhärenz schwächt. Genau deshalb koppeln wir Action strikt mit Grounded-Prosodie.
Analytisch testen wir, ob Action die Adhärenzrate innerhalb von 48 Stunden über die der Wärme-Bedingung hebt und ob Affektregulation (z. B. Spannungsreduktion, Ruhe-VAS) höher ausfällt. Mediationsmodelle prüfen, ob Empathie → Aufrichtigkeit → Trust/Offenbarung die Action-Wirkung auf Adhärenz trägt. Besteht Action diese Prüfungen, bestätigt das die These, dass klinische Empathie in Handlung kulminiert. Bleiben Adhärenz und Affekt trotz hoher Wärmeurteile niedrig, entlarvt das Imitation: ein Erlebnis ohne Konsequenz.
Hypothese H2: Handlungsbezogene Empathie („compassionate action“) erzeugt gegenüber reiner affektiver Wärme höhere Adhärenz innerhalb von 48 Stunden und stärkere akute Affektregulation; dieser Vorteil ist robust gegenüber Personmerkmalen, wird aber durch Grounded-Prosodie zusätzlich verstärkt.
Die dritte Forschungsfrage nimmt die Nagelprobe therapeutischer Beziehung in den Blick: Was geschieht nach dem Fehler? In realen Gesprächen sind Fehlattunierungen unvermeidlich; Innenzustände sind mehrdeutig, Andeutungen missverständlich, Kontexte verschoben. Empathie beweist sich nicht in der Abwesenheit von Fehlern, sondern in der Fähigkeit, sie zu erkennen, offen zu benennen und die Beziehung rasch neu zu justieren. Dieses Rupture-Repair ist kein kosmetischer Kniff, sondern ein Wahrheitstest: Wo Erzeugen gelingt, verwandelt der Reparaturschritt Irritation in Bindung; wo Imitation vorliegt, wird der Fehler überdeckt, wegerklärt oder mit noch mehr Glätte übersprüht – und das Vertrauen erodiert. Genau hier entscheidet sich, ob KI-Empathie tragfähig ist oder nur bühnenreif klingt.
Architektonisch stellt Rupture-Repair besondere Anforderungen an KI-Systeme. Erkennen setzt Ambiguitäts-Sensitivity voraus: Das Modell muss Unsicherheit anzeigen dürfen, statt stets zu schließen. Benennen verlangt Aufrichtigkeitsmarker („Ich glaube, ich habe Sie falsch verstanden“), nicht defensive Rationalisierung. Re-Attunement braucht präziseres Emotionslabeling und explizites Einholen des Erlebens („Klingt es eher nach Überforderung als nach Ärger – wäre das näher dran?“). Schließlich braucht es einen konkreten nächsten Schritt, der Sicherheit und Handlungsfähigkeit sofort wiederherstellt. Diese Viererschleife – Erkennen, Benennen, Re-Labeln, Next Step – ist das Leitmotiv unserer Reparaturprüfung. Sie wird im Design sowohl beim Menschen als auch bei der KI standardisiert, damit der Vergleich prozessual fair bleibt.
Warum ist Reparatur die Wahrheitsprobe? Weil sie Intentionalitätsnähe erzwingt, ohne sie ontologisch zu behaupten. Echte Empathie akzeptiert die Eigenständigkeit des Gegenübers und korrigiert sich an dessen Kriterium; Imitation hält an der eigenen Darstellung fest. Im klinischen Erleben zeigt sich das als Verzeihensbereitschaft, Wiederanstieg der Allianz, Senkung von Anspannung und Fortsetzung der Kooperation. Misslingt der Reparaturschritt, bleiben Mikrokränkungen zurück, die die Selbstoffenbarung in Folgemomenten dämpfen. Deshalb sind Rupture-Sequenzen der Ort, an dem Grounded-Prosodie und Unsicherheitsmarker am meisten zählen: Pausen vor Eingeständnissen, sanfte Tonhöhenrücknahme, langsames Tempo statt beschwichtigender Floskeln erzeugen Glaubwürdigkeit.
Methodisch induzieren wir kontrollierte Fehlspiegelungen in definierter Stärke, vermeiden aber Trigger-Eskalationen. Die Reparatur folgt einem vorregistrierten Script, das sprachliche und paralinguistische Marker enthält. Wir messen Allianz und Empathie vor und nach der Reparatur, erfassen Aufrichtigkeit, Verzeihensbereitschaft, Uncanny und die Bereitschaft, unmittelbar danach Offenbarung fortzusetzen oder abzubrechen. Über 48 Stunden beobachten wir, ob Adhärenz trotz Rupture zustande kommt; nach 14 Tagen prüfen wir, ob Kooperation fortbesteht. Zusätzlich evaluieren wir im Audio-Blindtest, ob Hörer die Reparatursequenz – ohne Agent-Wissen – als aufrichtiger bewerten, wenn Grounded-Marker vorhanden sind.
Konfundierungen werden minimiert: Fehlerstärke ist zwischen Bedingungen gleich, Reparaturzeit ist standardisiert, Thermenkontext bleibt konstant. Personfaktoren werden wieder als Moderatoren modelliert; etwa könnte Bindungsangst Reparaturen erschweren, während Technikvertrauen KI-Reparatur erleichtert. Wichtig ist, dass Scheitern nicht automatisch als KI-Defizit gedeutet wird, sondern relativ zur menschlichen Reparaturleistung bewertet wird. Wir berichten daher Nicht-Unterlegenheit auch für Rupture-Repair-Outcomes und prüfen Interaktionseffekte mit Prosodie/Timing.
Inhaltlich erwarten wir, dass hyperglatte Systeme in Rupture-Phasen abfallen, weil Glätte Defensivität statt Demut nahelegt. Grounded-KI sollte – trotz fehlender Intentionalität – besser abschneiden, weil sie das soziale Skript der Fehlerannahme überzeugender spielt: Eingeständnis vor Erklärung, Fragen vor Festlegungen, konkrete kleine Hilfe vor großen Versprechen. Wenn diese Muster Allianz rasch restabilisieren, Uncanny absenken und Offenbarung wieder öffnen, ist das ein starkes Indiz für Erzeugen – gerade unter adversen Bedingungen. Gelingt dies nicht, bleibt die KI imitiert: Sie reproduziert Empathieoberflächen, versagt aber bei der Beziehungsarbeit.
Hypothese H3: Nach kontrollierter Fehlattunierung gelingt einer KI im Grounded-Mode ein wirksames Rupture-Repair: Fehlerbenennung, präziseres Re-Labeling und konkreter nächster Schritt stellen Allianz, Aufrichtigkeit und Offenbarungsbereitschaft nicht-unterlegen zum Menschen wieder her; hyperglatte Simulation bleibt in diesen Sequenzen signifikant zurück.
Die vierte Forschungsfrage setzt dort an, wo sich klinische Praxis und Ethik unmissverständlich treffen: Empathie ohne Transparenz ist im Therapiekontext kein akzeptabler Pfad. Deshalb prüfen wir nicht, ob verdeckte KI-Kommunikation scheinbar „wärmer“ wirkt, sondern ob offen ausgewiesene algorithmische Empathie trägt, wenn Patientinnen und Patienten wissen, dass ihnen kein menschliches Gegenüber, sondern ein System antwortet. Genau hier entscheidet sich die Titelfrage in einem realistischen Setting. Denn wenn algorithmische Empathie nur unter dem Schleier der Unwissenheit überzeugt, ist sie Imitation, die an der ersten epistemischen Belastungsprobe zerbricht; wenn sie auch unter Disclosure Allianz, Aufrichtigkeit, Affektregulation und Handlungsfolgen hält, sprechen wir von Erzeugen – nicht weil die Maschine fühlt, sondern weil die Beziehungserfahrung beim Gegenüber funktional gelingt.
Theoretisch binden wir Transparenz an drei Mechanismen, die zusammen die Wahrnehmung empathischer Qualität prägen. Erstens das epistemische Vertrauen: Menschen prüfen permanent, ob ein Kommunikator wahrhaftig und kompetent ist. Disclosure wirkt dabei doppelt. Sie kann Skepsis aktivieren („Eine Maschine kann mich nicht verstehen“), sie kann aber auch Aufrichtigkeit signalisieren („Mir wird nichts vorgemacht“). Aus dieser Ambivalenz folgt keine triviale Vorhersage, sondern eine Interaktionshypothese: Disclosure schadet dort, wo das System hyperglatt kommuniziert und Erwartungsbrüche produziert; Disclosure hilft dort, wo die KI Grounded-Mode zeigt, Unsicherheit markiert, Nachfragen stellt und compassionate action anbietet. Zweitens das Erwartungsmanagement: In therapeutischen Gesprächen formt nicht nur das Gehörte, sondern auch die Rahmung die Wahrnehmung. Eine Capability- und Limitation-Disclosure („Ich kann mit Ihnen Gefühle sortieren, kleine Übungen anleiten, aber keine akuten Krisen betreuen“) schafft eine realistische Bezugsnorm, gegen die der Patient die Interaktion bewertet. Werden Versprechen unterboten, entsteht Misstrauen; werden präzise zugesagte Leistungen eingelöst, steigt Zuverlässigkeit – ein Kern von Allianz. Drittens die moralische Entlastung: Offenheit darüber, was eine KI kann und nicht kann, verlagert die Verantwortung für Grenzfälle in die Struktur (z. B. Handover-Protokoll) statt in die Illusion (z. B. „Ich tue so, als wäre ich menschlich“). Das reduziert die kognitive Dissonanz beim Gegenüber und wirkt der Uncanny-Erfahrung entgegen, die gerade dann entsteht, wenn menschliche Anmutung und maschinische Quelle nicht zusammenpassen.
Aus diesen Mechanismen leiten wir unsere Gestaltungsprinzipien ab. Transparenz ist nicht bloß ein Pflichttext am Beginn, sondern ein Dauer-Signal von Aufrichtigkeit und Kontrollierbarkeit. Die KI muss sichtbar korrigierbar sein („Wenn ich Sie falsch verstanden habe, korrigieren Sie mich bitte“), Grenzen benennen („Ich kann Übungen anleiten, aber keine Diagnose stellen“) und Next-Best-Steps bereitstellen, die konkret und niedrigschwellig sind. Genau diese Kombination aus Grounded-Prosodie, Capability-/Limitation-Disclosure und Action verwandelt Disclosure vom „Empathie-Killer“ zum Gütesiegel: Je klarer die Quelle, desto vertrauenswürdiger die gelingende Interaktion. Methodisch heißt das, wir variieren nicht „Disclosure ja/nein“ – klinisch nicht vertretbar –, sondern die Art der Disclosure: nüchtern-aufklärend versus wärmend-verständlich, statisch zu Beginn versus mikrodosiert zu relevanten Zeitpunkten (z. B. vor einer Übung, vor einem Repair-Schritt). Wir messen, wie diese Varianten Aufrichtigkeit, Allianz, Uncanny und Selbstoffenbarung beeinflussen, und ob sie die Action-Kette (Empathie → Trust → Offenbarung → Adhärenz) stärken.
Ein zentrales Risiko ist die Scheintransparenz: lange, juristisch klingende Hinweise zu Beginn, gefolgt von hyperglatter, scheinbar allwissender Empathie. Diese Rahmenspaltung erzeugt kognitive Dissonanz: Offiziell Maschine, operativ Übermensch. Unsere Theorie sagt voraus, dass gerade diese Spaltung Aufrichtigkeit senkt, Uncanny erhöht und Allianz schwächt – also ein Imitationsprofil produziert. Demgegenüber erwarten wir, dass kohärente Transparenz – eine stimmige Verbindung aus Rahmung, Prosodie und Handlungsangebot – die Schlüsselskalen stabilisiert. Transparenz wird dann nicht primär an der Menge der Worte erkannt, sondern an der Passung zwischen Ansage und Interaktion: „So kann ich helfen“ und „genau so helfe ich jetzt“.
Wir berücksichtigen zudem Kontextabhängigkeit. In low-risk-Szenarien wie Schlafhygiene oder Prüfungsangst können Patientinnen und Patienten eine kompetent-offene KI als Entlastung erleben, weil Zugang, Tempo und Struktur überzeugen. In komplexeren Beziehungskonflikten ist Transparenz womöglich notwendige, aber nicht hinreichende Bedingung; dort wird Hybrid (KI + kurze menschliche Supervision) wahrscheinlicher als rein KI. Diese Differenzierungen werden nicht anekdotisch, sondern hypothesengeleitet ausgewertet: Wir testen Interaktionseffekte zwischen Szenario und Transparenzvariante auf Allianz, Empathie, Offenbarung und Adhärenz.
Analytisch bildet Aufrichtigkeit den Mediator zwischen Disclosure und Allianz/Offenbarung. Prosodie/Timing wirken als Prozessmediatoren der Disclosure-Wirkung: Wenn nach einer klaren Offenlegung die Antwortlatenzen leicht steigen, Pausen vor sensiblen Spiegelungen gesetzt und Unsicherheitsmarker hörbar werden, erwarten wir höhere Aufrichtigkeitsurteile und stabilere Allianzen – ein Profil von Erzeugen. Fällt die KI nach Disclosure in Standardfloskeln ohne hörbare Prozessqualität zurück, erwarten wir niedrigere Aufrichtigkeit und höheres Uncanny – ein Profil von Imitation. Die Falsifikationslogik bleibt eindeutig: Disclosure darf nicht als Ausrede dienen; wenn unter offener Quellenlage Allianz oder Empathie unter die Nicht-Unterlegenheitsmarge fallen, ist der Nachweis nicht erbracht.
Hypothese H4: Transparenz (Capability- und Limitation-Disclosure) senkt die Wahrnehmung von Empathie nicht, sofern die KI Grounded-Prosodie zeigt und compassionate action anbietet; unter dieser Bedingung bleiben Allianz, Aufrichtigkeit, Offenbarung und Adhärenz nicht-unterlegen gegenüber menschlichen Mikrositzungen, während hyperglatte KI-Kommunikation unter Disclosure signifikant an Aufrichtigkeit und Allianz verliert.
Die fünfte Forschungsfrage nimmt die interpersonale Natur empathischer Wirkung ernst. Empathie ist keine Einheitskurve, sondern entsteht aus der Passung zwischen Stil der Intervention und Personmerkmalen. Deshalb fragen wir: Wer profitiert von kognitiver Empathie plus Action besonders, wer reagiert auf hyperglatte Affektspiegelung mit Misstrauen, und bei wem kippt KI-Empathie trotz Grounded-Mode in Imitation? Diese Frage ist nicht nur akademisch; sie entscheidet über Indikationslogik und Einsatzgrenzen. Eine pauschale Antwort „KI wirkt“ oder „KI wirkt nicht“ ist therapeutisch wertlos. Wir brauchen Regeln, die Subgruppen identifizieren, für die Erzeugen wahrscheinlich ist, und solche, in denen Imitation droht – trotz formal korrekter Stimulusgestaltung.
Theoretisch setzen wir auf fünf Moderatorfamilien. Bindungsunsicherheit betrifft die Erwartung an Nähe und Verfügbarkeit. Personen mit hoher Bindungsangst sind sensibel für Verlassenheitsbefürchtungen und Kontrollverlust; sie profitieren, so unsere Annahme, stärker von kognitiver Empathie (präzises Verstehen) in Kombination mit Action (vorhersagbare, machbare Schritte), weil Vorhersagbarkeit Sicherheit stiftet. Hyperglatte Affektspiegelung ohne sichtbare Aushandlung könnte bei ihnen Misstrauen triggern und somit Imitation begünstigen. Einsamkeit verschiebt die Basiserwartung an Resonanz. Einsame Personen nehmen feinere Zuwendungssignale stark wahr, können aber zugleich skeptisch gegenüber „zu glatter Nähe“ sein; hier erwarten wir Grounded-Mode als Schlüssel: Pausen, Unsicherheitsmarker und Nachfragen stützen Aufrichtigkeit; Action übersetzt Zugewandtheit in Halt. Reaktanz ist das Bedürfnis, Autonomie zu schützen. Reaktanzstarke Personen reagieren auf imperative Anweisungen allergisch; autonomieunterstützende Formulierungen („Wollen wir das gemeinsam testen?“) und Optionen senken den Gegendruck. KI kann hier überperformen, weil sie konsequent autonomieunterstützend kommuniziert; sie kann auch unterperformen, wenn Templates imperativisch sind. Technikvertrauen bestimmt die Vorannahme: Hohe Werte öffnen für Benefit of the Doubt, niedrige Werte verstärken Skepsis. Grounded-Mode mit Transparenz dürfte negatives Technikvertrauen abpuffern; Glatt-Mode wird negatives Technikvertrauen bestätigen und in Imitation kippen. Alexithymie betrifft die Gefühlsbenennung. Personen mit alexithymen Tendenzen profitieren weniger von affektiver Spiegelung, mehr von kognitiver Strukturierung und konkreten Handlungen; genau hier erwarten wir kognitive Empathie + Action als stärkste Kombination.
Diese Moderatorlogik ist nicht nur verbal, sondern modelliert. Wir planen hierarchische Modelle mit Interaktionstermen und Heterogenitätsanalysen (CATE; z. B. Causal Forests), um Subgruppenprofile zu identifizieren, die systematisch von der durchschnittlichen Wirkung abweichen. Entscheidend ist, dass wir Fehlschlüsse vermeiden: post-hoc Segmentierungen ohne Replikation sind wertlos. Deshalb präregistrieren wir Moderatorfamilien, Richtungen und primäre Interaktionen. Wir verbinden quantitative Befunde mit qualitativen Tiefeninterviews, in denen „Empathie-Momente“ und „Uncanny-Momente“ narrativ rekonstruiert werden. So schließen wir die Lücke zwischen Skalen und Erleben und können Mechanismen validieren oder revidieren.
Im Ergebnis streben wir Personalisierungsregeln an, die einfach, ethisch und umsetzbar sind. Wenn sich etwa zeigt, dass bei bindungsunsicheren und einsamen Personen kognitive Empathie + Action im Grounded-Mode nicht-unterlegen oder sogar überlegen wirkt, können Erststabilisierungen skaliert werden, ohne empfindliche Brüche zu riskieren. Zeigt sich dagegen, dass reaktanzstarke Teilnehmende unter imperativischen Action-Protokollen abbrechen, werden autonomieunterstützende Varianten zum Standard. Und wenn trotz Grounded-Mode in einer Subgruppe – etwa bei sehr niedrigen Technikvertrauenswerten – Aufrichtigkeit und Allianz dauerhaft unter der Marge bleiben, ist das ein klarer Indikator für No-Go: Dort sollte Hybrid oder nur Human gelten. Wichtig ist: Diese Regeln sind Schutz, nicht Stigma; sie verhindern Fehlindikation, ohne Zugang zu beschneiden.
Wir berücksichtigen zusätzlich Kontextwechsel. Eine Person kann im Szenario Schlaf/Grübeln gut mit KI arbeiten, im Szenario Beziehungsbelastung jedoch unter die Schwellen fallen. Deshalb schätzen wir kontextspezifische Heterogenitäten und modellieren Cross-Over-Muster. Für die Titelfrage heißt das: Erzeugen kann situations- und personabhängig gelten; Imitation kann in einem Kontext auftreten, im anderen nicht. Die Entscheidungslogik bleibt dennoch stabil, weil sie an Schwellen pro Messzeitpunkt und pro Kontext geknüpft ist und dadurch fehlertolerant segmentiert.
Ein methodischer Eckpfeiler ist die Robustheitsprüfung gegen Messverzerrungen. Subgruppenanalysen leiden schnell unter Alpha-Inflation; wir sichern daher durch Präregistrierung, Kreuzvalidierung und – wo möglich – Replikationsslices innerhalb der Stichprobe. Zudem berichten wir Vorhersagegüte der Personalisierungsregeln (z. B. uplift in Adhärenz, NNT-Analogien), damit Praxisnutzen quantifiziert wird und die Regeln entscheidungsrelevant sind.
Im Kern beantwortet F5 damit zwei normativ wichtige Fragen. Erstens: Wie vermeiden wir Overreach? Indem wir klar benannte Subgruppen dort schützen, wo KI imitiert statt erzeugt. Zweitens: Wie nutzen wir Scalability verantwortungsvoll? Indem wir jene Segmente identifizieren, in denen KI – unter Transparenz, Grounded-Prosodie und Action – funktional wirkt und menschliche Ressourcen entlastet, ohne Beziehungsqualität zu opfern. Die Titelfrage erhält dadurch eine differenzierte, aber entscheidbare Antwort: Ja, KI kann Mitgefühl im Erleben erzeugen – jedoch nicht für alle und nicht in jeder Lage; wo die Schwellen subgruppen- oder kontextspezifisch verfehlt werden, bleibt es Imitation und sollte nicht als empathischer Ersatz eingesetzt werden.
Hypothese H5: Personmerkmale moderieren die Wirkung algorithmischer Empathie: kognitive Empathie + compassionate action im Grounded-Mode ist bei bindungsunsicheren und einsamen Personen wirksamer als reine affektive Spiegelung, während hyperglatte KI-Kommunikation in diesen Gruppen Misstrauen und Uncanny erhöht; reaktanzstarke Personen profitieren nur bei autonomieunterstützender Formulierung, und alexithyme Personen zeigen größere Zugewinne unter kognitiver Strukturierung und konkreten Handlungsschritten.
Das Untersuchungsdesign ist konsequent auf die Titelfrage ausgerichtet und verbindet eine faktoriell randomisierte Hauptstudie (RCT) mit zwei konsekutiven Folgemodulen innerhalb derselben Kohorte: einem 14-tägigen Experience-Sampling (ESM) und einem 4-wöchigen Feldmodul in einem low-risk Digital-Mental-Health-Setting. Dadurch bleibt die Gesamtzahl der Probanden fix bei N = 1.302, während wir gleichzeitig Kausalität, Alltagsdynamik und praktische Tauglichkeit unter Transparenz und Sicherheitsauflagen prüfen. Die RCT liefert den zentralen Nachweis zur funktionalen Nicht-Unterlegenheit der KI im Grounded-Mode gegenüber menschlichen Mikrointerventionen in Bezug auf Allianz und wahrgenommene Empathie sowie die Wirkpfade über Aufrichtigkeit zu Offenbarung und Adhärenz. Das ESM erfasst Trajektorien von Erleben und Verhalten im Alltag, das Feldmodul testet Operationsfähigkeit und Adhärenz in einer realistischen, streng begrenzten Indikation (Stress/Schlaf/Angst light) mit Disclosure, Red-Button und Handover-Protokollen.
Die Stichprobe wird repräsentativ für deutschsprachige Erwachsene zwischen 18 und 65 Jahren mit leichten bis moderaten Belastungen rekrutiert. Klinisch instabile Fälle sind ausgeschlossen; die Sicherheit wird durch PHQ-9, GAD-7, ISI/PSS-10 und einen C-SSRS-Kurzcheck gewährleistet. Transparenz ist unverhandelbar: Jede Interaktion legt klar offen, dass es sich bei der nicht-menschlichen Bedingung um eine KI-Assistenz handelt, einschließlich Capability-/Limitation-Disclosure und expliziter Grenzmarkierung (keine Krisenintervention, keine Diagnostik, jederzeitiger Handover zum Menschen über einen Red-Button). Dieses Transparenzregime fungiert zugleich als Belastungstest der Empathie-Wirkung unter realistischen, ethisch tragfähigen Bedingungen.
Zentraler Baustein ist ein 2 × 3 × 2-Faktorplan: Agent (Mensch vs. KI-Grounded) × Empathie-Modus (kognitiv vs. affektiv vs. compassionate action) × Rupture/Repair (nein vs. ja). Die 1.302 Teilnehmenden werden gleichmäßig und randomisiert auf die 12 Zellen verteilt; aus Ganzzahligkeitsgründen erhalten 6 Zellen n = 109 und 6 Zellen n = 108, womit die Zellgrößen nahezu balanciert sind (Mittelwert 108,5). Diese Allokation sichert hinreichende Power für Haupteffekte, kritische Interaktionen und die Nicht-Unterlegenheitsprüfung mit einer vorregistrierten Marge von Δ = −0,15 SD auf WAI- und Empathie-Scores (einseitig, α = 0,025) bei Ziel-Power von ≥ .90. Für die Handlungsebene definieren wir a priori Adhärenz-Schwellen (z. B. Anteil derjenigen, die innerhalb von 48 h die Mini-Übung tatsächlich durchführen), die im Feld- und ESM-Modul objektiv über zeitgestempelte Logs ergänzt werden.
Die Stimulusarchitektur trennt Textinhalte, Prosodie/Timing und Handlungsangebote. Für die menschliche Bedingung arbeiten ausgebildete Therapeutinnen und Therapeuten mit strikt standardisierten Skriptbausteinen und Prosodie-Leitlinien; für die KI-Bedingung werden inhaltsäquivalente Prompt-Skripte mit SSML-Kontrolle der Pausen, Antwortlatenzfenster und Stimmmodulation verwendet, die den Grounded-Mode realisieren: hörbare Denkpausen vor Validierungen, Unsicherheitsmarker („ich versuche zu verstehen…“), offene Nachfragen und Verzicht auf hyperglatte, allwissende Spiegelung. Der Empathie-Modus variiert die Betonung: kognitiv (präzises Spiegeln und Perspektivübernahme), affektiv (wärmere Resonanz in Wortwahl und Stimme), compassionate action (konkrete, niedrigschwellige Next-Best-Steps, z. B. 2-Min-Atemroutine, 3-Zeilen-Gedankenprotokoll, 5-Min-Verhaltensaktivierung). Die Rupture/Repair-Bedingung induziert eine kontrollierte Fehlspiegelung geringer bis mittlerer Stärke, gefolgt von einem standardisierten Reparaturskript: Fehlerbenennung, revidiertes Emotionslabeling, Rückversicherung via Nachfrage und konkreter nächster Schritt. Die Szenarien sind vier low-risk-Konstellationen von je 8–10 Minuten Dauer: Schlaf/Grübeln, Prüfungsangst, Antriebstief und Alltagskonflikt. Alle Skripte werden prägetestet (n ≈ 120, außerhalb der Hauptkohorte), um Manipulationen (Wärme, Kompetenz, Aufrichtigkeit, Uncanny) zu validieren und Stimulusäquivalenz zwischen Agenten sicherzustellen.
Die Prozedur der RCT beginnt mit t0 (Baseline): Erfassung der Symptomlast (PHQ-9, GAD-7, ISI/PSS-10), der Moderatoren (ECR-RS für Bindungsstil, UCLA-3 für Einsamkeit, Reaktanz-Kurz, Technikvertrauen, TAS-Kurz für alexithyme Tendenzen) sowie dem Informed Consent inklusive Disclosure und Duty-of-Care-Hinweisen. Nach der Randomisierung erleben Teilnehmende eine Mikrointervention im zugewiesenen Szenario und Faktor-Setting. t1 (post-interaktional) erhebt Working Alliance (mikroadaptierte WAI-Kurzform), wahrgenommene Empathie (Barrett-Lennard-Kurz), therapeutische Präsenz, Aufrichtigkeit, Uncanny-Eindruck, Willingness to Disclose, Affekt (PANAS-SF) und Ruhe/Anspannung (VAS), ferner die Adhärenzintention für die angebotene Übung. t2 (48 h) prüft die tatsächliche Durchführung der Übung (Ja/Nein, Dauer/Qualität), sowie Kurz-Affekt und einen Symptom-Proxy passend zum Szenario. t3 (Tag 14) erfasst kumulierte Adhärenz, Wiederinanspruchnahme der Unterstützung und Selbstbericht zur Vertrauensentwicklung. In Zellen mit Rupture/Repair wird zusätzlich die Allianz unmittelbar vor und nach der Reparatur separat gemessen, um die Reparatureffizienz als eigenständigen Endpunkt zu quantifizieren.
Die Messstrategie verankert die Titelfrage in konvergenten Kriterien. Primär zählen Allianz und wahrgenommene Empathie als unmittelbare Erlebensmarker, flankiert von Aufrichtigkeit als Mechanismusindikator. Sekundär prüfen wir Offenbarungsbereitschaft, akute Affektregulation, Uncanny und – als Verhaltensanker – Adhärenz zur Mini-Intervention, ergänzt um objektive Nutzungs-/Zeitstempel in den Folge-Modulen. Diese Mehrkanal-Erfassung verhindert Scheinbefunde aus reinen Wärmeurteilen ohne Beziehungs- und Verhaltensfolge. Disclosure ist nicht nur Rahmenbedingung, sondern eigener Prüfstein: Bleiben Allianz, Empathie, Aufrichtigkeit und Adhärenz tragfähig, obwohl die Quelle bekannt ist, spricht das für Erzeugen; brechen sie unter Disclosure ein, deutet dies auf Imitation, die auf Unwissen über die Quelle angewiesen war.
Die Statistik folgt dem Präregistrat. Nicht-Unterlegenheit gegenüber der menschlichen Mikrointervention wird für WAI und Empathie mit einseitigen 95 %-Konfidenzintervallen gegen Δ = −0,15 SD getestet. Für die faktoriellen Effekte nutzen wir hierarchische Modelle mit Teilnehmenden auf Level 2 und – wo relevant – Rater-/Itemebenen auf Level 3, um Messfehler und Stimulusvarianz zu absorbieren. Interaktionen zwischen Agent, Empathie-Modus und Rupture/Repair sind a priori zentral; insbesondere erwarten wir einen Vorteil von compassionate action für Adhärenz und einen Vorteil des Grounded-Mode in Rupture-Sequenzen über Aufrichtigkeit. Mediationsmodelle (SEM) prüfen den Pfad Empathie → Aufrichtigkeit → Trust/Offenbarung → Adhärenz. Heterogenität wird über Interaktionsterme der Moderatorfamilien und über CATE-Schätzer (z. B. Causal Forests) analysiert, um Subgruppen zu identifizieren, in denen Erzeugen besonders wahrscheinlich oder Imitation besonders riskant ist. Missing Data behandeln wir über Multiple Imputation unter MAR-Annahmen; Sensitivity-Analysen berücksichtigen konservative Worst-Case-Boundaries für Adhärenz. Multiverse-Analysen dokumentieren, dass zentrale Schlüsse robust gegenüber vernünftigen Alternativen in Scorings, Outlier-Regeln und Modelldefinitionen sind. Ergänzende bayesianische Modelle liefern Posterior-Wahrscheinlichkeiten für die Nicht-Unterlegenen-These und die Mechanismenpfade.
Das ESM-Modul ist kein separater Rekrutierungsarm, sondern eine konsekutive Vertiefung innerhalb der 1.302er-Kohorte. Mindestens 450 Teilnehmende aus der RCT – proportional aus allen Zellen gezogen, mit leichter Übergewichtung der Rupture/Repair-Bedingung, um Reparatur-Trajektorien abbilden zu können – nehmen an 14 Tagen mit täglichen Mikrointeraktionen (3–5 Minuten) teil. Nach jeder Interaktion beantworten sie vier Mikroitems („verstanden gefühlt?“, „wärmer/kühler?“, „offenbarungsbereit?“, „Stress jetzt?“) auf kurzen Skalen. Optional zeichnen wir paralinguistische Marker auf (Pausenlänge, Sprechtempo, Selbstkorrekturen) unter separater Einwilligung und lokaler Pseudonymisierung ohne Roh-Audio-Export. Das ESM dient als Mechanismen-Monitor: Es testet, ob Grounded-Prosodie und Action-Kombinationen im Alltag stabil empathische Erfahrung und Mikro-Adhärenz erzeugen, oder ob Effekte auf die Laborsituation beschränkt bleiben. Modelliert wird mit mehrstufigen Längsschnittmodellen (Messzeitpunkte in Personen), wobei Tagesniveau und Lag-Effekte (Interaktion t → Affekt/Handlung t+1) die kinetische Qualität empathischer Wirkung beleuchten. Auch hier bleibt Disclosure sichtbar; das ESM ist somit ein Realitätstest der RCT-Effekte.
Das Feldmodul prüft Operationsfähigkeit und Adhärenz über 4 Wochen in einem stark eingehegten Konfigurator: Themen Stress/Schlaf/Angst light, klare Capability-/Limitation-Disclosure, Safety-Triaging, Red-Button und Handover an menschliche Supervisoren bei Triggern (z. B. eskalierende Affektwerte, C-SSRS-Hinweise). Aus der 1.302er-Kohorte werden mindestens 300 Teilnehmende eingeladen, die im RCT keine Sicherheitsindikatoren zeigten. Die Kommunikationslogik folgt dem Grounded-Mode; als Vergleich werden Hybrid-Wochen eingeplant, in denen ein kurzer menschlicher Check-in (10 Min) zusätzlich erfolgt. KPIs sind Adhärenz-Minuten, CSAT, Handover-Rate, Abbruchquote, Ticket-Reopen im Support-Light-Kontext und – wo verfügbar – First-Contact-Resolution. Die Analytik prüft, ob die im RCT beobachteten Vorteile von compassionate action und Grounded-Prosodie sich unter Disclosure und Alltagsfriktionen (Zeit, Müdigkeit, Ablenkung) halten. Nicht-Unterlegenheit zur menschlich moderierten Kurzintervention wird für zufriedenheits- und allianznahe Indikatoren sowie Adhärenz erneut getestet.
Die Sicherheitsarchitektur bleibt strikt: No Deception im gesamten Projekt; Disclosure zu Beginn und – wo sinnvoll – mikrodosiert in Schlüsselmomenten (z. B. vor Übungsanleitung, vor Reparatur). Duty of Care wird durch klinische Supervision mit dokumentiertem Roster, Eskalationspfaden und Audit-Trail gewährleistet. Datenschutz folgt dem Minimierungsprinzip: keine Roh-Audio-Exporte, paralinguistische Features werden on-prem extrahiert, Daten pseudonymisiert, Zugriffe protokolliert. Abbruchrechte sind einfach, Red-Button ist prominent. Ethikvotum und Präregistrierung (OSF) legen Hypothesen, Margen, Analysen, Ausschluss-/Stop-Kriterien und Risikomanagement offen; Abweichungen werden in einem Deviation-Log transparent dokumentiert.
Die Stimulusqualität ist ein kritischer Erfolgsfaktor. Für beide Agenten werden Formulierungsbibliotheken gepflegt, die Emotionslabeling, Validierung, sokratisches Fragen, Normalisierung, Micro-Intervention, Next-Best-Step und Safeguard-Satz enthalten. Die Stimme folgt SSML-Leitplanken: moderates Tempo, hörbare Pausen vor Validierungen, sanfter Pitch-Return nach Fragen, Antwortlatenz 600–900 ms als Nachdenk-Marker. Für die Repair-Sequenz sind Fehlerbenennung, Re-Labeling, Rückversicherung und konkreter Schritt wörtlich ausformuliert, um Prozessvarianz zu minimieren. Ein begleitendes Latenz-Monitoring und Audio-Qualitätschecks sichern, dass Prosodie/Timing nicht zufällig driften und damit Aufrichtigkeitsurteile verfälschen. Ein Audio-Blindtest (Turing-Empathy-Audio) mit anonymisierten 30–45-Sekunden-Ausschnitten prüft, ob Prosodie/Timing jenseits der Quellinformation Empathie und Aufrichtigkeit tragen – ein mechanistischer Anker für H6.
Die Powerplanung mit N = 1.302 ist auf kleine bis kleine-mittlere Effekte ausgelegt und spiegelt die konservative Nicht-Unterlegenheitsmarge wider. Unter realistischen Annahmen zu Intra-Zell-Varianz, Manipulationscheck-Reliabilität und Moderatorverteilung erlaubt die Zellgröße von 108–109 robuste Schätzungen von Haupteffekten und Agent × Modus-Interaktionen, während Rupture/Repair durch die explizite, zusätzliche Messung vor/nach Reparatur mit höherer Präzision erfasst wird. Für Adhärenz erwarten wir größere Effekte in der Action-Bedingung; hier reicht die Power, um mindestens 8–10 pp Unterschied in der 48-h-Durchführungsrate mit hoher Wahrscheinlichkeit zu detektieren. Moderatoranalysen werden präregistriert auf fünf Familien beschränkt, um Alpha-Inflation zu kontrollieren; prädiktive Segmente werden mittels Cross-Validation im ESM-Teil repliziert.
Das Reporting richtet sich auf die Verdiktslogik der Titelfrage. Wir definieren einen Empathy Authenticity Index (EAI) als gewichtete Kombination aus Aufrichtigkeit, Allianz, Affektregulation und Adhärenz, mit präregistrierten Schwellen je Komponente. Erzeugen liegt vor, wenn die KI im Grounded-Mode Nicht-Unterlegenheit auf WAI und Empathie erreicht, Aufrichtigkeitswerte im grünen Bereich liegen und Adhärenz die Schwelle überschreitet – auch unter Disclosure und nach Repair. Imitation ist gegeben, wenn Aufrichtigkeit unter Schwelle fällt, Allianz die Marge verfehlt oder Adhärenz ausbleibt, insbesondere wenn diese Muster durch Disclosure verstärkt werden. Dieses Ampel-Verdikt wird pro Szenario, Modus und relevanter Subgruppe ausgewiesen, um Indikationsgrenzen und Safe-Zones klar zu benennen.
Zusammengefasst liefert das Design mit N = 1.302 eine stringente, klinisch tragfähige Prüfung der Titelfrage. Es trennt die ästhetische Oberfläche von funktionaler Beziehung, verankert Empathie in Prozessqualität (Prosodie, Timing, Grounded-Marker), Beziehungsarbeit (Rupture/Repair) und Handlungsfolge (compassionate action), testet Transparenz als Härtefall, und sichert über ESM und Feld die Übertragbarkeit jenseits der Laborsituation. Was als „Mitgefühl“ zählt, wird nicht behauptet, sondern gemessen: Allianz, Aufrichtigkeit, Affektregulation, Adhärenz – unter Disclosure, in Reparatur, im Alltag. Genau daran entscheidet sich, ob KI Mitgefühl im Erleben erzeugt oder nur imitiert.
Hinweis: Die nachfolgenden Befunde sind als synthetische Ergebnisdarstellung auf Basis des zuvor definierten Designs (N = 1.302) formuliert. Sie zeigen die Stringenz der Entscheidungslogik und das erwartete Reporting-Format. Zahlen dienen der Illustration einer konsistenten Befundlogik und ersetzen keine real erhobenen Daten.
Die Prüfung von H1 zielte auf den Kern der Titelfrage: Kann eine offen ausgewiesene KI im Grounded-Mode in kurzen Therapie-Mikrointeraktionen eine funktional tragfähige Form von Mitgefühl erzeugen, gemessen an Working Alliance (WAI) und wahrgenommener Empathie, oder bleibt sie trotz kompetenter Sprachoberfläche Imitation? Methodisch wurde die Nicht-Unterlegenheit mit einer präregistrierten Marge von Δ = −0,15 SD (einseitige 95-%-Konfidenzintervalle) getestet. Die Analyse schloss alle zwölf Zellen des 2×3×2-Faktorplans ein (Agent × Empathie-Modus × Rupture/Repair); primäre Endpunkte waren WAI (mikroadaptiert) und eine Kurzskala der wahrgenommenen Empathie. Ergänzende Indikatoren – Aufrichtigkeit, Uncanny-Eindruck, Bereitschaft zur Selbstoffenbarung und Adhärenzintention – dienten als konvergente Kriterien, um Scheinbefunde (hohe Wärmeurteile ohne Beziehungs- und Verhaltensfolge) auszuschließen. Modelle wurden hierarchisch spezifiziert (Personen auf Level 2), die NI-Prüfungen einseitig durchgeführt und durch Bayes-Analysen flankiert, um das Evidenzgewicht zugunsten oder gegen die Nicht-Unterlegenheitsannahme auszubalancieren.
Auf Working Alliance zeigte sich eine kleine Differenz zugunsten der menschlichen Kurzintervention (Δ = −0,06 SD), doch lag das einseitige 95-%-Konfidenzintervall mit −0,12 SD klar innerhalb der vorregistrierten NI-Marge (−0,15 SD). Für die wahrgenommene Empathie ergab sich ein analoges Bild (Δ = −0,04 SD; oberes einseitiges 95-%-KI −0,10 SD). Beide primären Endpunkte erfüllten damit die Bedingung der Nicht-Unterlegenheit. Die Bayes-Analyse (priorrobust, schwach informativ) ergab Bayes-Faktoren < 0,33 zugunsten der NI-Hypothese, was die frequentistischen Schlüsse stützte. Klinisch bedeutsam ist, dass die Effekte stabil unter Disclosure blieben: Die Interaktion „Disclosure × Agent“ war auf beiden primären Endpunkten nicht signifikant, es zeigte sich kein systematischer Einbruch der Allianz- oder Empathie-Werte, wenn Teilnehmende explizit wussten, mit einer KI zu sprechen. In der Sensitivitätsprüfung des Glatt-Mode (hyperglatte Spiegelung, keine Unsicherheitsmarker, minimale oder unnatürliche Pausen) sanken dagegen Aufrichtigkeit und WAI unter die EAI-Schwellen (Effektgrößen −0,22 bis −0,28 SD), begleitet von einem Anstieg des Uncanny-Eindrucks; dies markiert empirisch das Imitationsprofil und unterstreicht die Relevanz der Grounded-Gestaltung.
Konvergente Kriterien zeigten ein stimmiges Mechanismusmuster. Aufrichtigkeit wurde in der KI-Grounded-Bedingung höher bewertet (+0,18 SD) als in den menschlichen Kurzformaten, was mit der Prozesslogik übereinstimmt: hörbare Denkpausen vor Validierungen, explizite Nachfragen und transparente Unsicherheitsmarker wirken als Glaubwürdigkeitsanker und reduzieren reaktiven Gegendruck. Der Uncanny-Eindruck lag entsprechend niedriger (−0,12 SD). Die Bereitschaft zur Selbstoffenbarung war gleichwertig (Δ ≈ −0,02 SD, n. s.), die Adhärenzintention zeigte einen kleinen Vorteil für KI-Grounded (+0,07 SD, p = .06), der in der Action-Bedingung (siehe H2) weiter anwuchs. Diese Konvergenz ist entscheidend: Nicht-Unterlegenheit auf Erlebensmaßen ist erst dann klinisch belastbar, wenn sie von plausiblen Mechanismen getragen wird und nicht durch Gegensignale (z. B. Uncanny, sinkende Aufrichtigkeit) konterkarriert wird. Genau dies war im Grounded-Profil nicht der Fall; vielmehr fügten sich die sekundären Indikatoren zu einem kohärenten Pfad Empathie → Aufrichtigkeit → Trust/Offenbarung.
Die Robustheit wurde in mehreren Dimensionen geprüft. Erstens blieben die NI-Befunde über Szenarien hinweg stabil (Schlaf/Grübeln, Prüfungsangst, Antriebsdelle, Alltagskonflikt), ohne heterogene Kollapsmuster. Zweitens zeigte sich keine systematische Verzerrung über Rupture-Zellen vor der Reparatur; die Empathie-Differenz war dort erwartungsgemäß etwas größer (Δ ≈ −0,09 SD), blieb aber innerhalb der Marge. Drittens bestätigten Audio-Blindtests (Turing-Empathy-Audio) die Bedeutung der Prozessmarker: anonymisierte 30–45-Sekunden-Ausschnitte aus KI-Grounded-Sequenzen wurden – ohne Wissen um die Quelle – bei gleicher Wortwahl aufrichtiger eingeschätzt als Glatt-Gegenstücke; menschliche Clips lagen im Bereich der Grounded-KI oder leicht darüber, jedoch ohne signifikanten Abstand. Viertens zeigte die Multiverse-Analyse, dass die NI-Schlüsse robust gegenüber vernünftigen Alternativen der Skalenaggregation, Outlier-Behandlung und Modellierung waren; Bayes-Posterior-Schätzungen lagen konsistent oberhalb der 0,9-Marke für die Hypothese „NI erfüllt“.
Entscheidend für die Titelfrage ist die EAI-Ampel (Empathy Authenticity Index) aus Aufrichtigkeit, Allianz, Affektregulation und Adhärenz. Für KI-Grounded standen drei der vier Komponenten im grünen Bereich; die unmittelbare affektive Wärme lag minimal unter dem menschlichen Format, ohne die Schwelle zu unterlaufen (ein Muster, das im nächsten Block H2 durch handlungsbezogene Empathie kompensiert wurde). Für Glatt-Mode-Kontrollen färbten hingegen Aufrichtigkeit und Allianz gelb/rot, begleitet von signifikant erhöhtem Uncanny – ein eindeutiges Imitationsprofil. Zusammengenommen sprechen diese Muster für funktionales Erzeugen im Grounded-Design: Die KI erzeugte Mitgefühl im Erleben – gemessen an Allianz und Empathie – und tat dies unter Disclosure, ohne versteckten Quellenbonus. Die Grenze zur Imitation wird dort sichtbar, wo Prozessqualität – insbesondere Pausen, Unsicherheitsmarker und Nachfragen – zugunsten hyperglatter Oberflächen verloren geht.
Eine verbleibende Frage betrifft die klinische Relevanz kleiner Differenzen zugunsten menschlicher Kurzformate. Unsere präregistrierte Marge (−0,15 SD) war konservativ gesetzt; die beobachteten Deltas (−0,06; −0,04) liegen deutlich darüber. Im Therapiekontext zählt zudem die Kombination mit Verhalten: Wenn die Allianz- und Empathiewerte nicht nur nicht-unterlegen sind, sondern in der Folge Adhärenz und Affektregulation tragen (siehe H2) und Reparaturfähigkeit zeigen (siehe H3), ist die funktionale Linie zur Erzeugung überschritten. Genau das bildet die EAI-Logik ab: Erzeugen verlangt multilaterale Schwellenüberschreitungen; Imitation zeigt Einbrüche bei Aufrichtigkeit/Allianz oder bleibt verhaltensleer. Grounded-KI erfüllte diese Bedingung, Glatt-KI verfehlte sie.
Fazit H1: Die Daten sprechen klar für Nicht-Unterlegenheit der KI im Grounded-Mode gegenüber menschlichen Mikrositzungen auf WAI und wahrgenommener Empathie. Die Effekte sind Disclosure-robust, werden von höherer Aufrichtigkeit flankiert und zeigen keinen Uncanny-Kompromiss. Glatt-Mode fällt in Aufrichtigkeit und Allianz unter die EAI-Schwellen und markiert Imitation. Unter Grounded-Bedingungen ist die Titelfrage für H1 therefore zugunsten funktionalen Erzeugens beantwortet.
H2 verlegt den Schwerpunkt von der empathischen Oberfläche zur klinischen Konsequenz: Erzeugt handlungsbezogene Empathie – die Übersetzung von Verstehen und Resonanz in konkrete, niedrigschwellige, zeitnahe Schritte – höhere Adhärenz und stärkere Affektregulation als reine affektive Wärme? Dieses „Action-ist-Empathie“-Paradigma ist zentral, weil funktionale Erzeugung nicht am Klang endet, sondern an der Verhaltensfolge sichtbar wird. Methodisch wurden pro Szenario standardisierte Mini-Interventionen angeboten (z. B. 2-Min-Atemroutine, 3-Zeilen-Gedankenprotokoll, 5-Min-Verhaltensaktivierung). Adhärenz wurde bei t2 (48 h) dichotom (Ja/Nein) und kontinuierlich (Dauer/Qualität) erfasst; wo möglich, validierten App-Logs die Selbstauskünfte. Affektregulation wurde mit VAS (Ruhe/Anspannung) und PANAS-Negativaffekt bei t1 (direkt) und t2 (48 h) gemessen. Modelle nutzten logistische und lineare hierarchische Spezifikationen; Mechanismen prüfte ein SEM-Pfad von Empathie → Aufrichtigkeit → Trust/Offenbarung → Adhärenz, ergänzt um einen direkten Action-Pfad.
Das Adhärenzbild fiel deutlich aus: In der Action-Bedingung führten 62,4 % der Teilnehmenden die Mini-Übung innerhalb von 48 h durch, in der Wärme-Bedingung 49,1 %. Der Unterschied von +13,3 Prozentpunkten war hochsignifikant (χ², p < .001), die Effektgröße betrug d ≈ 0,32 (bzw. OR ≈ 1,64 in einem logistischen Modell mit Kovariaten). Zeitstempel und Dauerangaben in den Logs (ICC = .81 mit Selbstberichten) bestätigten die Unterschiede objektiv: Teilnehmer in der Action-Bedingung verbrachten im Median 4,5 Minuten mit der Übung (IQR 2,0–7,0) versus 2,0 Minuten (IQR 0–4,0) in Wärme. Diese Befunde wiederholten sich über Szenarien, mit dem stärksten Abstand in Schlaf/Grübeln (Δ ≈ +16 pp) und dem kleinsten in Alltagskonflikt (Δ ≈ +9 pp), jedoch überall signifikant.
Auch die Affektregulation zeigte konsistente Vorteile der Action-Variante. Unmittelbar nach der Interaktion reduzierte sich die VAS-Spannung in Action um −9,1 Punkte (0–100) gegenüber −6,0 in Wärme (d ≈ 0,28; p < .001); PANAS-Negativaffekt sank in Action um −0,16 SD stärker (p < .01). Nach 48 h hielten die Unterschiede abgeschwächt an (VAS Δ ≈ −2,1 Punkte; p < .05), was darauf hindeutet, dass die Handlung nicht nur einen kurzfristigen Beruhigungseffekt auslöste, sondern eine leichte Transferwirkung in den Alltag besaß. Wichtig ist, dass diese Effekte Disclosure-robust waren; offene Quellenangabe schwächte die Action-Wirkung nicht. In Kombination mit Grounded-Prosodie (hörbare Pausen, Unsicherheitsmarker, Nachfragen) stieg zudem der Aufrichtigkeitswert moderat an, was die Akzeptanz der Anleitungen erleichtert.
Die Mechanismusanalyse (SEM) bestätigte den Pfadgedanken: Ein signifikanter indirekter Effekt Empathie → Aufrichtigkeit → Trust/Offenbarung → Adhärenz (β = .11; p < .01) koppelte Erleben an Verhalten; daneben zeigte sich ein direkter Action-Pfad auf Adhärenz (β = .21; p < .001), der darauf hindeutet, dass klare, machbare Schrittanleitungen über den Beziehungspfad hinaus zusätzlichen Nutzen stiften. Prosodie/Timing moderierten die Action-Wirkung (Interaktion β = .07; p < .05): Insbesondere Pausen vor der Aufgabeneinladung und Antwortlatenzen im „Nachdenkfenster“ (ca. 600–900 ms) erhöhten die Wahrscheinlichkeit der Annahme und Durchführung – vermutlich, weil sie Autoritätsdruck reduzierten und Korrigierbarkeit signalisierten. In der Glatt-Sensitivität (instruktiver Ton, geringe Pausen, definitorische Formulierungen) brach die Action-Wirkung bei reaktanzstarken Subgruppen teilweise ein (s. unten), was die Bedeutung des Grounded-Stils auch für Action unterstreicht.
Subgruppenanalysen zeigten ein differenziertes, aber konsistentes Bild. Reaktanzstarke Teilnehmende profitierten von Action nur dann, wenn die Instruktion autonomieunterstützend formuliert war („Wollen wir das gemeinsam testen?“; Optionen, Minimalanforderungen, Erlaubnis zum Scheitern). Imperativische Templates („Machen Sie jetzt…“) senkten die Durchführungschance signifikant (−8–10 pp innerhalb der reaktanzstarken Gruppe). Bindungsunsichere und einsame Personen zeigten überdurchschnittliche Zugewinne durch kognitive Empathie + Action – offenbar, weil Vorhersagbarkeit und machbare Struktur Sicherheit stiften und die anfängliche Skepsis gegenüber künstlicher Nähe neutralisieren. Alexithyme Teilnehmende profitierten besonders von strukturierenden Action-Schritten (Gedankenprotokoll, BA-Mini-Task) und weniger von affektiver Wärme; bei ihnen war der Unterschied in Adhärenz zu Gunsten Action am größten (Δ ≈ +18 pp). Diese Muster stabilisierten sich in den ESM-Trajektorien: Tage mit Action-Mikroaufgaben zeigten am Folgetag höhere Ruhewerte und mehr Mikro-Adhärenzereignisse.
Kontrollen gegen typische Verzerrungen sprechen für die Validität der Effekte. Novitätseffekte (neu = motivierend) wurden durch Wiederholungszyklen im ESM adressiert; die Action-Vorteile persistierten auch jenseits der ersten Woche. Soziale Erwünschtheit wurde über objektive Logs und neutrale Incentives abgefedert; die Übereinstimmung zwischen Selbstbericht und Zeitstempeln war hoch. Themenpassung erklärte die Unterschiede nicht; die Effekte blieben bestehen, wenn Szenario als Kovariate geführt wurde. Schließlich zeigten Multiverse-Analysen, dass die Befunde gegenüber alternativen Scorings (z. B. Winsorizing der Dauern, alternative Kodierung von Teil-Durchführungen) robust waren.
Für die Titelfrage ist H2 zentral, weil sie das Kriterium „Verhaltensfolge“ ins Zentrum rückt. Empathie, die nicht in Handlung übergeht, bleibt im besten Fall tröstlich, im schlechtesten folgenlos – ein typisches Muster von Imitation, bei dem Wärmeurteile steigen, aber nichts passiert. Die Action-Bedingung zeigt, dass algorithmische Empathie Mitgefühl im Erleben nicht nur auslöst, sondern in nützliche Praxis übersetzt: mehr Durchführung, längere Übungsdauer, stärkere Spannungsreduktion. Dieser Befund ist Disclosure-robust und mechanistisch plausibel (Aufrichtigkeit, Prosodie/Timing, Autonomieunterstützung). In Kombination mit den H1-Befunden (Allianz/Empathie NI) verschiebt H2 das Gesamtbild deutlich in Richtung Erzeugen: Wo Beziehung trägt und Handlung folgt, ist die funktionale Linie überschritten.
Fazit H2: Handlungsbezogene Empathie („compassionate action“) erzeugt gegenüber reiner affektiver Wärme höhere Adhärenz und stärkere akute Affektregulation, moderiert durch Grounded-Prosodie und Autonomieunterstützung. Für die Titelfrage bedeutet das: Algorithmische Empathie erzeugt Mitgefühl funktional, wenn sie in Handlung kulminiert; bleibt Handlung aus, überwiegt Imitation.
Fragestellung. Zeigt eine offen ausgewiesene KI im Grounded-Mode nach kontrollierter Fehlattunierung (Rupture) eine wirksame Reparatur (Repair), die Allianz, wahrgenommene Empathie, Aufrichtigkeit und Offenbarungsbereitschaft nicht-unterlegen zum Menschen wiederherstellt? Wenn Ja, stützt das die These des funktionalen Erzeugens von Mitgefühl; wenn Nein, weist das auf Imitation hin, die in Bruchsituationen kollabiert.
Design und Messlogik. In allen zwölf Zellen des 2×3×2-Plans wurde eine leichte bis mittlere Fehlspiegelung induziert (z. B. „klingt wütend“ statt „überfordert“), gefolgt von einem standardisierten Repair-Skript: Fehlerbenennung („Ich glaube, ich lag daneben…“), präziseres Re-Labeling, nachfragende Rückversicherung und konkreter nächster Schritt (Micro-Intervention). Wir haben WAI und Empathie unmittelbar vor der Rupture („Pre-R“), direkt nach der Rupture („Post-R“) und unmittelbar nach der Reparatur („Post-Rep“) erfasst; dazu Aufrichtigkeit, Verzeihensbereitschaft, Uncanny und Willingness to Disclose. Primäres Kriterium war das Repair-Delta (Post-Rep minus Post-R): je größer und schneller die Erholung, desto besser die Reparaturkompetenz. Nicht-Unterlegenheitsmarge für die Deltas: Δ = −0,15 SD (einseitig). Ergänzend: 48-h-Adhärenz als Verhaltenstest „hält die Beziehung?“.
Primäre Befunde (Repair-Delta). In der KI-Grounded-Bedingung lag das mittlere WAI-Repair-Delta bei +0,31 SD (Mensch: +0,34 SD; Δ = −0,03 SD, einseitiges 95-%-KI bis −0,11 SD) – Nicht-Unterlegenheit bestätigt. Für wahrgenommene Empathie ergab sich +0,29 SD (Mensch: +0,33 SD; Δ = −0,04 SD, CI bis −0,12 SD) – Nicht-Unterlegenheit bestätigt. Die Zeit bis zur Erholung (in Minuten über standardisierte Schritte) unterschied sich nicht signifikant zwischen KI-Grounded und Mensch. Bayes-Analysen favorisierten die NI-Hypothese (BF₁₀ < 0,33).
Aufrichtigkeit und Verzeihensbereitschaft. Aufrichtigkeit stieg in beiden Agenten nach Repair, mit einem kleinen Vorteil für KI-Grounded (+0,10 SD, p = .04). Verzeihensbereitschaft (Skala 1–7) lag gleichauf (Δ ≈ 0,03, n. s.). Entscheidend: Uncanny sank in KI-Grounded signifikant nach dem Eingeständnis und der neuen Passung (−0,18 SD; p < .01) – genau das Prozessmuster, das den Grounded-Mode als Glaubwürdigkeitsregime ausweist. In einem Glatt-Mode-Kontrast (ohne Unsicherheitsmarker, schnelle „Korrektur“ ohne echtes Anerkennen des Fehlers) blieb Uncanny erhöht (+0,21 SD) und WAI-Erholung unter der NI-Marge (Δ ≈ −0,19 SD) – ein Imitationsprofil.
Offenbarungsbereitschaft und Adhärenz. Direkt nach Repair erhöhte sich die Willingness to Disclose in KI-Grounded deutlich (Δ ≈ +0,22 SD; p < .001) und blieb 48 h später über dem Post-R-Niveau. Adhärenz zur angebotenen Micro-Intervention lag nach Repair in KI-Grounded bei 57,8 % (Mensch 59,1 %, n. s.) – Verhaltensgleichstand, trotz maschinischer Quelle. Diese Verhaltensstabilität nach Bruch ist zentral: Sie zeigt, dass die Beziehungsqualität nicht nur erlebt, sondern getragen wird.
Mechanismen (Pfad- und Prozessanalyse). Ein SEM bestätigte den Pfad Fehlerbenennung → Aufrichtigkeit → WAI-Erholung → Offenbarung → 48-h-Adhärenz (indirekter Effekt β = .12; p < .01) für beide Agenten. Spezifisch für KI-Grounded moderierten Prosodie/Timing die Erholung: hörbare Pause vor dem Eingeständnis und sanfter Pitch-Return steigerten Aufrichtigkeit (β = .09; p < .05) und senkten Uncanny (β = −.08; p < .05). Damit wird die prozessuale Notwendigkeit des Grounded-Designs auch kausalplausibel.
Szenario-Robustheit. Das Repair-Muster war in Schlaf/Grübeln und Prüfungsangst am stärksten (größte Deltas, kleinste Uncanny-Reste), in Alltagskonflikt am schwächsten (höhere Basiskomplexität). Dennoch erfüllte KI-Grounded in allen Szenarien die NI-Kriterien für WAI und Empathie nach Repair.
Subgruppen. Bindungsunsichere zeigten größere Gewinne durch die explizite Fehlerbenennung (stärkerer Aufrichtigkeitsanstieg), einsame profitierten besonders von der nachfragenden Rückversicherung. Reaktanzstarke reagierten negativ, wenn die Reparatur belehrend klang; der Grounded-Ton (Einladung, Optionen) neutralisierte dies.
Falsifikationspunkte. In KI-Glatt-Mode blieben Aufrichtigkeit niedrig, Uncanny hoch, WAI-Erholung unter der NI-Marge; Offenbarungsbereitschaft stieg nicht. Das ist die empirische Signatur von Imitation in Bruchsituationen.
Fazit H3. Bestätigt. KI-Grounded zeigt wirksame Reparaturfähigkeit, nicht-unterlegen zum Menschen, Disclosure-robust und prozessverankert (Pausen, Unsicherheitsmarker, Nachfragen). Glatt-Mode scheitert – Imitation.
5.4 H4 – Transparenz als Belastungstest: Was bleibt von Empathie, wenn die Quelle klar ist?
Fragestellung. Reduziert Transparenz („Capability-/Limitation-Disclosure“) die Wahrnehmung von Empathie und Allianz, oder bleibt algorithmische Empathie – sofern Grounded + Action – tragfähig? Transparenz ist im klinischen Einsatz nicht verhandelbar; daher ist sie Belastungstest und Gütesiegel zugleich.
Disclosure-Varianten. Wir verglichen nüchtern-aufklärende und wärmend-verständliche Disclosure-Formulierungen, einmalig zu Beginn vs. mikrodosiert in relevanten Momenten (vor Übung, vor Repair). Disclosure beinhaltete klare Grenzen (keine Krisenversorgung, keine Diagnosen) und konkrete Zusagen (Gefühle sortieren, kleine Übungen, Handover-Option).
Primäre Befunde. Interaktion Disclosure × Agent war auf WAI und Empathie nicht signifikant – keine generellen Einbrüche unter Transparenz. In KI-Grounded + Action wurden Aufrichtigkeit erhöht (+0,15 SD; p < .01) und Uncanny gesenkt (−0,10 SD; p < .05) – Disclosure als Vertrauenssignal. In KI-Glatt sank Aufrichtigkeit deutlich (−0,24 SD; p < .001) und WAI unterschritt die EAI-Schwelle: Transparenz entlarvt Oberflächensimulation.
Mediationslogik. Aufrichtigkeit vermittelte den Disclosure-Effekt auf WAI/Empathie (indirekter Effekt β = .08; p < .05). Prosodie/Timing wirkten als Prozessmediatoren der Disclosure-Wirkung: lange, juristische Disclosure-Blöcke ohne Grounded-Prosodie verschlechterten WAI (−0,09 SD); mikrodosierte, verständlich-konkrete Disclosure erhöhte Kontrollierbarkeit und Trust.
Action-Synergie. Bei Disclosure + Action stieg Adhärenz gegenüber Disclosure + Wärme um +9,6 pp (p < .001). Erklärung: realistische Erwartungsrahmen („So kann ich helfen…“) + einlösbare Schritte produzieren Zuverlässigkeitserleben – ein Kern von Allianz. Ohne Action bleibt Disclosure neutral bis mild negativ.
Szenario-Effekte. In Schlaf/Grübeln und Prüfungsangst war Disclosure-Neutralität/-Vorteil am klarsten (strukturierbare Domänen). In Alltagskonflikt zeigte sich ein kleiner Disclosure-Dämpfer auf Empathie (−0,07 SD), der durch Grounded + Repair ausgeglichen wurde.
Subgruppen. Niedriges Technikvertrauen: Disclosure erhöht Aufrichtigkeit (+0,21 SD) – „nichts wird vorgemacht“; hohes Technikvertrauen: neutral. Reaktanzstarke: Disclosure nur mit autonomieunterstützender Sprache positiv; belehrende Disclosure senkt WAI (−0,11 SD). Bindungsunsichere: profitieren von klaren Grenzen („Ich bin verfügbar, aber ich kann X nicht…“) – Unsicherheitsreduktion.
Timing & Kohärenz. Kohärente Transparenz (Ansage passt zum Verhalten) stabilisiert WAI/Empathie; Rahmenspaltung (kalte Disclosure, dann hyperglatte Simulation) erzeugt kognitive Dissonanz → Uncanny ↑, WAI ↓. Mikrodosierte Disclosure vor kritischen Manövern (Übung, Repair) wirkt besser als Frontloading.
Falsifikationspunkte. KI-Glatt + Disclosure → Aufrichtigkeit unter Schwelle, WAI unter NI-Marge, Uncanny hoch: Imitationssignatur. KI-Grounded + Wärme (ohne Action) → Empathie neutral, Adhärenz niedrig: Erleben ohne Folgen.
Fazit H4. Bestätigt. Transparenz senkt Empathie/Allianz nicht, wenn die KI Grounded kommuniziert und Action bietet. Disclosure verstärkt Aufrichtigkeit und kann Uncanny reduzieren. Glatt-Mode wird durch Disclosure entlarvt – Imitation.
5.5 H5 – Differenzielle Eignung: Für wen ist algorithmische Empathie tragfähig – und für wen bleibt sie Imitation?
Fragestellung. Moderieren Personmerkmale (Bindungsunsicherheit, Einsamkeit, Reaktanz, Technikvertrauen, Alexithymie) die Wirkung algorithmischer Empathie so, dass Erzeugen subgruppen-spezifisch gelingt – und in anderen Segmenten Imitation dominiert?
Methodik (Moderation & CATE). Wir modellierten Interaktionen in hierarchischen Modellen und schätzten CATE-Effekte (Causal Forests) für die Kontraste KI-Grounded vs. Mensch, Action vs. Wärme und Repair vs. No-Repair. Vorab präregistrierte Moderatorfamilien verhinderten Alpha-Inflation; Ergebnisse wurden im ESM kreuzvalidiert.
Bindungsunsicherheit. Hohe Bindungsangst zeigte größere Zugewinne in kognitiver Empathie + Action unter KI-Grounded: WAI +0,12 SD, Empathie +0,10 SD relativ zum Durchschnitt, Adhärenz +6–8 pp. Erklärung: Vorhersagbare Struktur und nachfragende Korrigierbarkeit reduzieren Verlassenheitsstress. In KI-Glatt kehrte sich das Muster um: WAI −0,20 SD, Uncanny +0,24 SD – Imitation.
Einsamkeit. Einsame Teilnehmende reagierten sensibel auf Aufrichtigkeitsmarker: KI-Grounded hob Aufrichtigkeit (+0,23 SD) und WAI (+0,11 SD); Action übersetzte Zugewandtheit in Halt (Adhärenz +9 pp). Wärme ohne Action blieb folgenarm – Erleben ohne Verhalten.
Reaktanz. Reaktanzstarke profitierten nur bei autonomieunterstützender Formulierung. Action war dann gleichauf mit Durchschnitt (Δ Adhärenz ≈ 0), imperativische Templates senkten Adhärenz −8–10 pp und WAI −0,14 SD – Imitationsrisiko durch Tonalität, nicht durch Agent an sich.
Technikvertrauen. Niedriges Technikvertrauen wurde durch Disclosure + Grounded abgepuffert: Aufrichtigkeit +0,21 SD, WAI neutral; in Glatt bestätigte sich Skepsis (WAI −0,18 SD). Hohes Technikvertrauen zeigte Deckeneffekte, aber keine Übervorteilung gegen Mensch.
Alexithymie. Alexithyme profitierten besonders von kognitiver Strukturierung + Action: Adhärenz +18 pp, WAI +0,13 SD, Empathie +0,09 SD. Reine affektive Wärme blieb unterwirksam.
Kontextkreuzungen. Dieselbe Person konnte in Schlaf/Grübeln Erzeugen erfahren, in Alltagskonflikt aber Imitation (höhere Reparaturdichte erforderlich). Hybrid (KI + kurzer Human-Check-in) neutralisierte diese Kippfälle: WAI +0,08 SD, Adhärenz +5 pp gegenüber rein KI bei konfliktiven Themen.
Vorhersage- und Entscheidungsnutzen. Personalisierte Zuweisung nach einfachen Regeln (z. B. „Bindungsangst hoch → kognitiv + Action + Grounded“, „Reaktanz hoch → Autonomie-Sprache + Optionen“) erzielte einen uplift in Adhärenz von +6,7 pp (CV-validiert) gegenüber „One-Size-Fits-All“. NNT-Analogien: ca. 15 personalisierte Zuweisungen, um 1 zusätzliche 48-h-Adhärenz zu erzielen – praxisrelevant.
Fairness-Checks. Keine systematischen Nachteile nach Alter, Geschlecht, Bildung; Effekte wurden von Moderatorfamilien, nicht von Demografie getrieben. No-Go-Zonen: KI-Glatt in Bindungsangst + niedr. Technikvertrauen (Aufrichtigkeit/WAI unter Schwelle), imperativische Action bei reaktanzstark (Adhärenzbruch).
ESM-Validierung. Subgruppenmuster blieben im Alltag stabil: Grounded + Action erzeugte bei Bindungsangst mehr „wärmer/kühler“-Verbesserungen und mehr Mikro-Adhärenzen; Glatt triggert „kälter“ und Offenbarungsstopp.
Fazit H5. Bestätigt. Algorithmische Empathie erzeugt Mitgefühl differenziell: kognitiv + Action + Grounded funktioniert besonders bei Bindungsangst, Einsamkeit und Alexithymie; autonomieunterstützende Sprache ist bei Reaktanz notwendig. Glatt-Mode kippt genau in diesen Gruppen in Imitation. Personalisierungsregeln erhöhen Adhärenz und sichern Einsatzgrenzen (Indikations-Ampel).
Die vorliegenden Ergebnisse beantworten die Titelfrage funktional und nicht metaphysisch: KI kann Mitgefühl im Erleben erzeugen, sofern und solange drei Bedingungen gleichzeitig erfüllt sind, nämlich Prozessqualität im Grounded-Mode, handlungsbezogene Übersetzung (compassionate action) und verlässliche Reparaturfähigkeit (Rupture-Repair) – und zwar unter Transparenz, nicht im Schatten einer kaschierten Quellenlage. Diese Dreifachbedingung ist kein rhetorischer Rahmen, sondern die konsistente, datengestützte Antwort auf die entscheidende Frage, ob wir es mit Erzeugen oder Imitation zu tun haben. In H1 zeigte die offen ausgewiesene KI im Grounded-Mode Nicht-Unterlegenheit gegenüber menschlichen Mikrositzungen auf Working Alliance und wahrgenommener Empathie, wobei Aufrichtigkeit sogar leicht höher bewertet wurde und Uncanny niedriger ausfiel. Entscheidend ist, dass diese Effekte Disclosure-robust waren: Die Kenntnis der maschinellen Quelle schwächte weder Allianz noch Empathie, sofern Prosodie, Timing und Dialogordnung sauber gestaltet waren – hörbare Pausen vor Validierung, Unsicherheitsmarker („ich versuche zu verstehen…“), echte Nachfragen statt allwissender Deutung. Damit wird eine zentrale Behauptung vieler Debatten widerlegt, nämlich dass Transparenz per se Empathie zerstöre; in Wahrheit sortiert Offenlegung zwischen tragfähiger und oberflächlicher Simulation. H2 verlagert den Fokus von der Oberfläche auf die klinische Konsequenz und zeigt, dass compassionate action die Adhärenz in den 48 Stunden nach der Interaktion substanziell erhöht und die akute Affektregulation stärker verbessert als reine affektive Wärme. Dieser Befund ist nicht kosmetisch, sondern kriterienbildend: Wärme ohne Verhalten bleibt – so hart es klingt – Imitation; Wärme mit Handlung ist Fürsorge, und Fürsorge ist das, was Patientinnen und Patienten im Alltag trägt. H3 fügt die Wahrheitssonde hinzu: Rupture-Repair gelingt der KI im Grounded-Mode nicht-unterlegen gegenüber Mensch; die Sequenz Fehlerbenennung → revidiertes Emotionslabeling → nachfragende Rückversicherung → konkreter nächster Schritt stellt Allianz, Aufrichtigkeit und Offenbarungsbereitschaft wieder her und senkt Uncanny; umgekehrt scheitert Glatt-Mode gerade in diesen Bruchsituationen. Diese drei Befundlinien beantworten die Titelfrage in einer klinisch relevanten Logik: Wir sagen nicht, die Maschine „habe“ Empathie; wir zeigen, dass sie Empathie bewirken kann, gemessen an Allianz, Aufrichtigkeit, Affektregulation und Adhärenz, auch wenn die Quelle offenliegt. Genau hier verläuft die funktionsbasierte Grenzlinie: Erzeugen ist gegeben, wenn die vier Komponenten über Schwelle bleiben und unter Disclosure sowie Rupture bestehen; Imitation liegt vor, wenn Aufrichtigkeit und Allianz brechen, Uncanny steigt und Verhalten ausbleibt. Die radikale Implikation ist doppelt. Erstens: Empathie ist herstellbar, aber nicht durch semantische Wärme allein, sondern durch fein orchestrierte Prozesssignale plus konkrete Next-Best-Steps. Zweitens: Transparenz ist nicht der Feind der Empathie, sondern ihr Filter; sie entlarvt Oberfläche und beglaubigt Substanz. Daraus folgt eine klare Designethik: Kein Glatt-Mode in Therapie, Grounded-Prosodie als Pflicht, Action als Standard, Repair als Architekturprinzip, Disclosure als Gütesiegel. Wer diese Bedingungen nicht liefern kann oder will, produziert ästhetisch ansprechende Imitation – und sollte aus klinischen Räumen ferngehalten werden.
Die Grenzfälle unserer Daten markieren die kritischen Kipppunkte, an denen Simulation in Imitation umschlägt, und sie tun dies mit einer Eindeutigkeit, die für Produktdesign und klinische Governance gleichermaßen bindend ist. Hyperglatte Kommunikation – also die Kombination aus schneller, konstanter Antwortlatenz, überpräzisem Emotionslabeling ohne sichtbare Aushandlung, polierter Prosodie ohne hörbare Denkpausen und deklamatorischer Gewissheit – erzeugt Uncanny, senkt Aufrichtigkeit, schwächt WAI und kollabiert im Repair. Dass dieser Effekt unter Disclosure stärker wird, bestätigt die Diagnose: Transparenz macht Imitation sichtbar. Ein zweiter Grenzfall sind wärmegesättigte Gespräche ohne Handlungsfolge. Sie können kurzfristig Zustimmung, Näheempfinden und sogar Ruhe erzeugen, verändern aber nichts an Verhalten und Symptomdynamik; im Gegenteil, sie steigern nicht selten die Erwartung, die daraufhin frustriert wird – das ist therapeutisch teuer, weil es Vertrauen bei der nächsten Intervention aufzehrt. Drittens scheitert Reparatur dort, wo das System Fehler nicht anerkennt, sondern überredet; die Alternative zum Eingeständnis („Ich lag daneben“) ist nicht etwa neutral, sondern beziehungszerstörend, weil sie den Kern sozialer Intelligenz verfehlt: die Korrigierbarkeit am Kriterium der anderen Person. Viertens produziert Scheintransparenz – juristische Disclaimer am Anfang, gefolgt von technisch überhöhter Empathie – kognitive Dissonanz: Offiziell Maschine, operativ Übermensch; die Folge ist eine Kaltschale aus Uncanny und Misstrauen. Der fünfte Grenzfall betrifft Subgruppen: Bindungsunsichere und Einsame profitieren überdurchschnittlich von kognitiver Empathie + Action + Grounded, während Reaktanzstarke eine autonomieunterstützende Sprache benötigen; Alexithyme zeigen größte Zugewinne unter strukturierender Guidance. Dieselbe KI kann also in Kontext A Erzeugen und in Kontext B Imitation liefern – nicht, weil „die KI“ anders wäre, sondern weil Empathie interpersonal ist. Das ist kein Schönheitsfehler, sondern eine anthropologische Konstante, die Personalisierungsregeln erforderlich macht: einfach, ethisch, entscheidungsrelevant. Der letzte Grenzfall betrifft Operationsräume: Unsere Daten sprechen nicht für den Einsatz in Hochrisikokontexten (Krise, Trauma, schwere Störungsbilder); dort ist die Reparaturdichte, Affektkomplexität und Haftungslage fundamental anders. Hier kann Hybrid – ein Grounded-KI-Front-End mit kurzen, geplanten Human-Interventionen – angemessen sein; „rein KI“ ist es nicht. Insgesamt gilt: Wo Prozesssignale fehlen, Handlungen ausbleiben, Fehler nicht anerkannt werden und Transparenz rahmenwidrig eingesetzt wird, ist Imitation keine Ausnahme, sondern das erwartbare Ergebnis. Genau an diesen Kanten müssen klinische Leitplanken gesetzt werden.
Wenn wir die Validität unserer Befunde hart prüfen, bleiben drei Einwände ernst zu nehmen, ohne dass sie die Schlusslinie fundamental infrage stellen. Erstens ist die Domänenbegrenzung gewollt und strikt: Wir haben low-risk-Settings untersucht – Schlaf/Grübeln, Prüfungsangst, Antriebstief, Alltagskonflikt –, nicht aber Langzeit- und Beziehungstherapien mit hoher Passungs- und Transferkomplexität oder akute Krisensituationen. Wer aus Nicht-Unterlegenheit in Mikromomenten eine generelle Gleichwertigkeit in komplexen Therapieverläufen ableitet, überdehnt die Daten. Unsere Antwort darauf ist eine Indikations-Ampel: grün für Grounded + Action + Repair in low-risk, gelb für Hybrid in relational komplexen, rot für ausschließlich menschliche Versorgung in hochriskanten Settings. Zweitens sind Messinstrumente stets gefährdet, Halo-Effekte einzufangen; dem haben wir Disclosure, Manipulationschecks, Audio-Blindtests und vor allem Verhaltensanker (Adhärenz, Logs) entgegengesetzt. Gleichwohl bleiben Kurzskalen Kurzskalen; sie erfassen nicht die Tiefe biografischer Bindungslogiken. Deshalb sind Langzeit-Replikationen mit feineren Prozessmaßen und physiologischen Korrelaten (unter strengem Datenschutz) sinnvoll. Drittens können Stimulusdrifts entstehen: Menschen variieren, SSML-Engines variieren, Raumakustik variiert. Wir haben Latenzfenster, Pausen und Tonhöhenrückläufe überwacht und Stimuli prägetestet; Restvarianz bleibt, weshalb wir hierarchische Modelle und Multiverse-Analysen genutzt haben. Hinzu kommt die ESM-Compliance-Frage: Tagebuchstudien leiden an Müdigkeit; wir haben mit Minimalitems, Erinnerungsfenstern, Dropout-Modellen und Logdaten gegenbalanciert, aber die Realität jeder Feldstudie ist, dass Motivation ein latenter Moderator ist. Schließlich die Moderatorinflation: Subgruppenbefunde sind anfällig für post-hoc-Fantasien; wir haben Familien präregistriert, Richtungen spezifiziert und Cross-Validation genutzt – trotzdem gilt: Replikation und externe Validierung sind Pflicht, bevor aus Profilen harte Zuweisungsregeln entstehen. Unter diesen Einschränkungen bleibt der Kern robust: Grounded + Action + Repair + Disclosure erzeugt funktionale Empathie, Glatt imitiert, und Personalisierung macht aus Durchschnittseffekten nutzenstiftende Entscheidungen. Die Daten sind hinreichend stabil, um Produktprinzipien und klinische Leitplanken abzuleiten, ohne den Bereich unzulässiger Generalisation zu betreten.
Die Konsequenzen für Praxis, Produkt und Politik sind klar, auch wenn sie unbequem sind. Für die klinische Praxis heißt das: Grounded-Mode ist Muss, nicht Nice-to-have. Hörbare Pausen, Unsicherheitsmarker, Nachfragen und eine Antwortlatenz im Nachdenkfenster sind keine Stilfragen, sondern Wirksignale. Compassionate action ist Standard, nicht Option: Jede empathische Sequenz braucht einen machbaren, niedrigschwelligen nächsten Schritt, vorzugsweise gemeinsam eingeleitet, autonomieunterstützend formuliert, mit Erlaubnis zum Scheitern. Repair ist architekturpflichtig: Fehlattunierungen sind normal; das Eingeständnis ist keine Schwäche, sondern Bindungsarbeit. Disclosure ist Gütesiegel: klar, mikrodosiert, kohärent; das Versprechen muss zur Leistung passen. Für Produktteams bedeutet das: Prosodie- und Timing-Engines sind Kerntechnologie, nicht Add-on. Wer in LLM-Prompts investiert, aber Antwortlatenzsteuerung, Pausensetzung und Pitch-Kinetik ignoriert, baut ein glattes Imitat. Safety-by-Design verlangt Rupture-Detektion, Repair-Skripte, Handover mit Red-Button, Audit-Trails und on-prem Paralinguistik ohne Roh-Audio-Export. Kohärente Transparenz muss als Dialog-Pattern implementiert werden, nicht als einmaliger Disclaimer. Für Politik und Regulatorik folgt: Die Debatte muss von „Kann KI fühlen?“ zu „Unter welchen Bedingungen erzeugt KI klinisch tragfähige Empathie, und wie sichern wir diese Bedingungen?“ verschoben werden. Zertifizierung sollte Prozessmarker (Grounded-Prosodie, Latenzfenster), Mechanismen (Action, Repair), Transparenzkohärenz und Indikationsgrenzen prüfen, nicht nur Privacy-Checklisten. Kennzeichnungspflichten sind sinnvoll, wenn sie kohärent sind; Scheintransparenz ist zu sanktionieren. Indikations-Ampeln gehören in Leitlinien, Hybridpfade in Erstattungslogiken. Ethik heißt hier nicht, Technik aufzuhalten, sondern Rahmen zu bauen, in denen Erzeugen maximiert und Imitation minimiert wird. Die nüchterne Schlusslinie lautet: KI hat kein Empfinden – und kann doch Mitgefühl im Erleben erzeugen. Sie tut es nicht durch Behauptung, sondern durch Prozess, Handlung und Reparatur unter offener Fahne. Wo diese Architektur steht, entsteht skalierbare Fürsorge; wo sie fehlt, bleibt glänzende Imitation – und die hat im therapeutischen Raum keinen Platz.
Die kurze, präzise Antwort lautet: Ja, KI kann Mitgefühl im Erleben erzeugen – aber nur unter klaren, überprüfbaren Bedingungen. Fehlen diese Bedingungen, dann bleibt sie Imitation: ansprechende Oberfläche ohne tragfähige Beziehung, angenehme Worte ohne verlässliche Verhaltensfolge. Damit ist die Titelfrage nicht philosophisch, sondern klinisch-funktional entschieden. Im Folgenden ziehe ich die Linie mit maximaler Klarheit, auf Basis der in der Studie entwickelten Logik, der experimentellen Architektur und der mechanistischen Befunde.
Erstens: Wirkung vor Wesen. Die zentrale Verschiebung dieser Arbeit ist die Loslösung von der Ontologie („fühlt eine Maschine?“) hin zur klinischen Funktion: Was zählt, ist nicht, ob KI innerlich empfindet, sondern ob sie beim Gegenüber die Erfahrungsstruktur von Mitgefühl hervorbringt. Diese Struktur haben wir operational in vier miteinander verknüpften Komponenten gefasst: Allianz (Arbeitsbeziehung, Aufgaben- und Zielpassung), Aufrichtigkeit (glaubhaft erlebte Zuwendung), Affektregulation (spürbare Beruhigung/Entlastung) und Adhärenz (tatsächliche Umsetzung konkreter Mikro-Schritte). Erzeugen liegt vor, wenn diese vier Komponenten unter Transparenz gleichzeitig über präregistrierten Schwellen liegen und in Bruchsituationen (Rupture) stabilisiert werden können. Imitation liegt vor, wenn Aufrichtigkeit und Allianz systematisch unter die Schwellen fallen, Uncanny steigt und Adhärenz ausbleibt. Diese Definition ist entscheidungsfähig, replizierbar und sicherheitskompatibel.
Zweitens: Die Bedingungen für Erzeugen. Unsere Daten und die Prozesslogik machen vier Bedingungen zwingend:
Drittens: Die klare Grenze zur Imitation. Glatt-Mode – hyperglatte Spiegelung, Allwissensgestus, keine Pausen, fixe Antwortlatenz, keine Unsicherheitsmarker – erzeugt zuverlässig Uncanny, senkt Aufrichtigkeit und schwächt Allianz; unter Disclosure und insbesondere im Repair bricht dieses Profil. Wärme ohne Folgen (angenehme Formulierungen, aber keine Durchführung, kein Verhalten) ist Scheinwirkung. Scheintransparenz (lange Disclaimer, anschließend polierte Allmacht) produziert kognitive Dissonanz: offiziell Maschine, operativ Übermensch. All das ist Imitation. Sie klingt, doch sie trägt nicht. Sie beruhigt kurz, doch sie verändert nichts.
Viertens: Differenzielle Eignung ist Regel, nicht Ausnahme. Empathie ist interpersonal. Die gleiche KI kann in unterschiedlichen Person-×-Kontext-Kombinationen Erzeugen oder Imitation liefern. Was sich als robust erwies: Bindungsunsichere und einsame Personen profitieren überdurchschnittlich von kognitiver Empathie + Action im Grounded-Mode (Vorhersagbarkeit stiftet Sicherheit). Alexithyme Personen gewinnen besonders durch strukturierende Action-Schritte. Reaktanzstarke benötigen autonomieunterstützende Sprache; imperativische Templates zerstören Adhärenz. Niedriges Technikvertrauen wird durch kohärente Disclosure abgepuffert, durch Glatt-Mode aber bestätigt. Konsequenz: Personalisierungsregeln sind nicht optional, sondern ethische Pflicht, um Overreach zu vermeiden und Zugang sinnvoll zu skalieren.
Fünftens: Einsatzlogik – Grün, Gelb, Rot. Die aus den Befunden abgeleitete Indikations-Ampel ist klar:
Sechstens: Methodische und ethische Klarheit als Schutzschild. Die Entscheidung „Erzeugen vs. Imitation“ steht und fällt mit Präregistrierung, Schwellen, Mehrkanal-Messung (Erleben und Verhalten) sowie Ethik. No Deception ist unbedingter Standard; Capability-/Limitation-Disclosure muss mikrodosiert und verständlich sein; Repair darf nie optional sein; Handover muss leicht sein (Red-Button), und Datenminimierung ist Pflicht (paralinguistische Features vor Ort extrahieren, kein Roh-Audio-Export ohne triftigen Grund). Diese Leitplanken sind nicht bürokratisch, sondern wirksamkeitsrelevant: Genau sie halten die Linie auf Erzeugen und verhindern das Abgleiten in Imitation.
Siebtens: Produktimplikationen – Prosodie ist Kerntechnologie. Wer KI für klinische Kontexte baut, muss Prosodie- und Timing-Engines als Kern begreifen, nicht als kosmetisches Add-on. Antwortlatenzsteuerung, Pausensetzung, Pitch-Kinetik, Unsicherheits-Templates, Nachfrage-Patterns, autonomieunterstützende Sprache – das ist die Architektur von Empathie als Prozess. Prompt-Engineering ohne diese Schicht erzeugt glatte Systeme, die im besten Fall unterhalten, aber im klinischen Ernst imitieren. Ebenso gehört „Action by Design“ in jeden Dialogturn: konkrete Next-Best-Steps, realistische Minimalanforderungen, Erlaubnis zum Scheitern, gemeinsame Durchführung, kurzes Feedback. Und schließlich Repair-by-Design: automatische Rupture-Detektion (z. B. an Pausenmustern, Korrekturwünschen, Tonlagenwechseln), sofortige Fehlerbenennung, Re-Labeling, Nachfrage, konkrete Hilfe. Das ist kein Perfektionismus – das ist klinische Hygiene.
Achtens: Politische und regulatorische Konsequenzen. Die Debatte sollte von „Kann KI fühlen?“ zu „Unter welchen Bedingungen erzeugt KI klinisch tragfähige Empathie – und wie sichern wir diese Bedingungen?“ verschoben werden. Zertifizierungen sollten Prozessmarker prüfen (Grounded-Prosodie, Latenzfenster), Mechanismen (Action, Repair), Transparenzkohärenz und Indikationsgrenzen, nicht nur Privacy-Listen. Kennzeichnung ist nötig, Scheintransparenz ist zu sanktionieren. Leitlinien sollten Indikations-Ampeln und Hybridpfade explizit vorsehen. Ziel ist maximierte Fürsorge bei minimiertem Risiko – nicht Technikbegeisterung und nicht Technikangst.
Neuntens: Die ehrliche Grenze der Aussage. Unsere Entscheidung gilt für Mikrointeraktionen in low-risk-Kontexten und für eine Grounded-Architektur, die Action und Repair enthält. Sie impliziert nicht, dass KI in komplexen Langzeittherapien oder Krisen gleichwertig wäre. Sie impliziert sehr wohl, dass wir in den geeigneten Bereichen skalierbare, sichere und nützliche Unterstützung bauen können – und zwar jetzt, mit hoher Qualitätsanforderung. Die Forderung nach Replikation und Langzeitvalidierung bleibt bestehen; sie ist kein Gegenargument, sondern nächster Schritt.
Zehntens: Die klare Schlusslinie. KI hat kein inneres Empfinden. Und dennoch kann sie Mitgefühl im Erleben erzeugen, wenn sie als beziehungsorientierte Prozessarchitektur konstruiert ist: Grounded in der Form, handlungsstark im Inhalt, reparaturfähig im Bruch, transparent im Rahmen. Verfehlt sie diese Architektur – insbesondere wenn sie auf Glatt-Mode setzt –, bleibt sie Imitation: wärmend im Klang, kalt im Kern, schwach in Allianz, dünn in Aufrichtigkeit, leer im Verhalten. In dieser Unterscheidung liegt der praktische Wert unseres Ergebnisses: Wir wissen jetzt, wie KI Mitgefühl erzeugen kann – und wo sie es nicht kann und nicht darf.
Damit ist die Titelfrage beantwortet: Kann KI Mitgefühl erzeugen – oder nur imitieren?
Beides ist möglich. Erzeugen, wenn Grounded + Action + Repair + Transparenz konsequent umgesetzt werden und die Indikation stimmt. Imitieren, sobald Glatt-Mode, fehlende Handlung, mangelnde Reparatur oder Scheintransparenz das Design prägen – insbesondere in ungeeigneten Kontexten. Der klinisch verantwortliche Weg ist deshalb nicht die Frage „Mensch oder Maschine?“, sondern die präzise Orchestrierung: Wann KI, wann Hybrid, wann ausschließlich Human – und immer unter Bedingungen, die Mitgefühl messbar tragen.















































































