Von A wie Angst bis Z wie Zwang – Teil II: Allgemeine Anwendungshinweise für die Therapieevaluation
From A for Anxiety Disorder to Z (Zwang) for Obsessive-Compulsive Disorder – Part II: General recommendations for therapy evaluation
verfasst von: Edgar Geissner, Stefan Koch & Manfred Schmitt
Abstract
Zusammenfassung: Der vorliegende Beitrag setzt die Überblicksarbeit „Von A wie Angst bis Z wie Zwang – Störungsspezifische Messinstrumente zur Evaluation von Psychotherapie“ (PTJ 4/2021) fort, in der geeignete Fragebogeninstrumente zur Beurteilung des Therapieerfolgs empfohlen wurden. Neben Diagnostik und Durchführung der Therapie bildet die Evaluation anhand standardisierter Instrumente eine dritte wichtige Säule in der Behandlung psychischer Störungen. War der erste Beitrag der Frage gewidmet „Was soll ich verwenden?“, so geht es in diesem Beitrag um die Frage „Wie soll ich es verwenden?“. Unter anderem wird auf die Auswahl des Evaluationsinstruments, die richtigen Messzeitpunkte, eine angemessene Häufigkeit der Messungen, die Auswertung und den Bezug auf Norm- bzw. Referenzwerte sowie die Veränderungsbeurteilung eingegangen – vor allem hinsichtlich der Kriterien Response (kritische Differenzen) und Remission (Cut-off). Hinweise zur transparenten Ergebnisvermittlung und Berichterstellung werden gegeben.
Summary: Continuation of a previous article „From A for Anxiety Disorder to Z for OCD – Disorder-Specific Assessment Instrument for Psychotherapy Evaluation" (PTJ issue 4/2021), which recommended suitable questionnaire instruments for the evaluation of therapy success. In addition to diagnosis and treatment, evaluation using standardized instruments is a third important pillar in the treatment of mental disorders. While the first article dealt with the question „What should I use?" this article deals with the question „How should I use it?”. It discusses, among other things, the choice of assessment tools, the correct timing of measurement, the appropriate frequency of measurement, the interpretation and reference to norms or reference values, and the assessment of change – especially with regard to the criteria of response (critical differences) and remission (cut-off). Information on transparent communication of results and reporting is provided.
Einleitung
Im Psychotherapeutenjournal 4/2021 – Jubiläumsausgabe 20 Jahre PTJ – hatten Edgar Geissner und Stefan Koch die Gelegenheit, störungs- bzw. syndromspezifische und änderungssensitive Fragebogeninstrumente zur Beurteilung des Psychotherapieerfolgs vorzustellen[1]Aus Gründen des Umfangs konnten wir auf eine Diskussion der Notwendigkeit störungs- und symptombezogener Testungen im Unterschied zu anderen darüberhinausgehenden Zielen, etwa Verbesserung von Bewältigungsfertigkeiten, Verbesserung der Alltagsfähigkeit etc. im damaligen Text nicht vertieft eingehen. Auch diese Kriterien können jedoch Therapieerfolg indizieren.. Nach der Skizzierung inhaltlicher Argumente pro Therapieauswertung und der Erläuterung gesetzlich-administrativer Regelungen wurde orientiert an der ICD-10 für 19 Störungen – „Von A wie Angst bis Z wie Zwang“ – je ein Instrument vorgestellt, welches inhaltlich geeignet und anwendungsfreundlich ist, dabei eine gute Verbreitung im Feld hat und überdies hinreichende psychometrische Eigenschaften besitzt (Geissner & Koch, 2021; vgl. für eine um zusätzliche Messinstrumente erweiterte, ausführlichere Darstellung Geissner et al., 2025).
Im folgenden Beitrag geht es um konkrete Auswertungsgesichtspunkte in der Praxis, beispielsweise die Auswahl eines Verfahrens, Untersuchungszeitpunkt und -häufigkeit, Änderungskriterien wie Response (kritische Differenz) oder Remission (cut-off), sachgerechte Interpretation nebst Ergebnisbeurteilung und -erläuterung sowie die Verschriftlichung. War Teil I (Geissner & Koch, 2021) der Frage gewidmet „Welches Untersuchungsinstrument soll ich verwenden?“, so geht es nun in Teil II um die Frage „Wie soll ich das gewählte Verfahren verwenden?“.
Der Blickwinkel von Evaluation ist auf das Ende der jeweils durchgeführten Maßnahme, hier also Psychotherapie, die dabei erzielten Ergebnisse und deren Stabilisierung bzw. weitere Verbesserung gerichtet. Hierin unterscheidet sich Evaluation substanziell von Diagnosesicherung und Quantifizierung am Anfang. Evaluation impliziert den Vergleich zwischen mindestens zwei Untersuchungszeitpunkten. Entsprechende Instrumente müssen die prinzipielle Möglichkeit der Veränderungsmessung vorsehen, sie müssen geeignet sein, erzielte Änderungen auch tatsächlich abbilden zu können. Diese Untersuchungsverfahren stellen innerhalb des Spektrums der psychometrischen Instrumente eine Untergruppe dar. Abgesehen von Validität und Zuverlässigkeit müssen sie für die Praxis auch unaufwändig, patientenfreundlich und zeitökonomisch sein.
Auswahl des Instruments – ohne Schrotschuss oder Fragebogenhuberei
Für die Bestimmung des Therapieerfolgs am Ende der Behandlung gelten einige Besonderheiten, die das Prozedere im Vergleich zu Anamnese und Diagnoseabklärung einfacher und aufwändiger zugleich machen. Für Evaluationszwecke ist es sinnvoll, dasjenige Instrument auszuwählen, welches die festgestellte und behandelte Störung / das klinische Syndrom gut misst – im Sinne von psychometrisch solide, patientenfreundlich und auf das Sinnvolle beschränkt. Auf den größeren Aufwand werden wir im übernächsten Abschnitt beim Thema „Wahl der Messzeitpunkte“ eingehen. Einfacher gestaltet sich das Prozedere jedoch, weil ein diagnostischer Rundumschlag bei der Evaluation entfällt, also nur störungsspezifisch gemessen werden muss. Auf die Erhebung von für das Ergebnis weniger relevanten Merkmalen kann verzichtet werden.
Spezifische Auswahl? – Ja
Liegt eine Störung / ein klinisches Syndrom vor – etwa Depression –, so wird für den Therapieoutcome ein Instrument eingesetzt, in diesem Fall zur Messung der Depression. Liegt unabhängig davon eine weitere Störung vor, beispielsweise zusätzlich auch eine Schlafstörung, so wird auch diese mithilfe eines Verfahrens erhoben. Der Einsatz weiterer Instrumente für die Therapieauswertung ist nicht zwingend erforderlich. Fragebögen mit überschaubarer Itemanzahl und fokussiert auf circa ein bis drei Störungen sind für die Patient*innen nachvollzieh- und zumutbar. Ergänzend kann es bei spezifischen Fragestellungen manchmal sinnvoll sein, neben der Ebene der Störung auch Prädiktoren, Verlaufs- und Interaktionsfaktoren miteinzubeziehen, und zwar dann, wenn Anhaltspunkte zu deren Einfluss auf das Therapieergebnis vorliegen. Hier wäre mitunter ein zusätzlicher Aufwand gerechtfertigt, wenn die Belastung für den*die Patient*in im Blick bleibt.
Mehrdimensional? – Nein
Zwar ist es zu Beginn der Behandlung eine verbreitete Praxis, „erst einmal zu schauen, welche Probleme vorliegen könnten“, und dafür ein ganzes Set von Messinstrumenten oder ein mehrdimensionales Verfahren für simultan mehrere Störungen/Syndrome zugleich einzusetzen. Aber dieses Vorgehen ist etwas schematisch und bleibt psychologisch meist unbefriedigend. Es spielt für die Evaluation keine Rolle. Im Allgemeinen liegen aus Exploration, Beobachtung, Vorbefunden und Anamnese keine begründeten Hypothesen für das Vorhandensein von z. B. gleichzeitig neun Störungen vor, die ein Messverfahren mit (genau diesen) neun Dimensionen rechtfertigen würden. In Institutionen und in Ausbildungskontexten existieren hier mitunter jedoch Vorgaben „von oben“ – teils von psychologischen Lai*innen. Dies kann ein fachlich begründetes Vorgehen erschweren bzw. zu Diskussionen über den Sinn einer solchen Fragebogenhuberei führen. In der ambulanten Versorgung ist dieser Gesichtspunkt weniger relevant, denn der*die Niedergelassene ist frei in der Wahl der Messverfahren.
Einige gebräuchliche mehrdimensionale Verfahren weisen zudem psychometrische Schwächen wie etwa fehlende faktorielle Validität auf und sind auch deshalb zur Therapieerfolgsbeurteilung wenig geeignet. Da Evaluation – wie besprochen – wiederholte Messung verlangt (s. u.), kann die erneute oder gar mehrfache Vorgabe solcher Breitbandinstrumentarien für Patient*innen ermüdend und irritierend sein, denn sie sollen Beschwerden einschätzen, die bei ihnen gar nicht vorliegen. Dies kann zu Missverständnissen und zufälligen Angaben führen, die später das Risiko von Fehlinterpretationen bergen. Evaluationsinstrumente müssen passgenau und zielgerichtet sein und sollten nicht zu viel Ballast mitschleppen.
Datenfriedhöfe? – Nein
Gelegentlich werden in Therapieeinrichtungen Patient*innen angehalten, eine ganze Anzahl an Fragebögen „für die Forschung“ zu beantworten. Solche – ebenfalls unter Fragebogenhuberei fallende – Erhebungen sind nicht nur strapaziös für die Betroffenen, sie münden auch nur allzu häufig in „Datenfriedhöfe“. Sie haben mit der Therapieerfolgsbeurteilung nichts zu tun. Daneben gilt: Große Stichproben bringen es mit sich, dass auch kleine Effekte statistisch signifikant werden, dies liegt in der Logik der Inferenzstatistik – praktisch-therapeutisch aber wären solche Befunde nicht bedeutsam. Signifikanzen allein indizieren den Therapieerfolg eines*einer Patient*in nicht.
Präzise Recherche und Abwägung
Bei der jeweiligen Auswahl des Instruments für die Therapieauswertung muss von Einzelfall zu Einzelfall entschieden werden, eingefahrene Routinen können hier manchmal in eine Sackgasse führen. Häufig liegen die Unterschiede dabei im Detail.
Hier zwei Beispiele:
-
Ein*e Patient*in mit Agoraphobie und ausgeprägten Vermeidungsverhaltensweisen kann nicht mit dem Beck-Angst-Inventar (BAI)[2]Bibliographische Angaben zu allen in diesem Beitrag erwähnten Messinstrumenten finden sich bei Geissner & Koch, 2021 (insbesondere im dortigen Supplement, s. frei zugängliches PTJ-Archiv) bzw. Geissner et al., 2025). untersucht werden, welches zwar sehr gute Messeigenschaften aufweist und (körperliche) Angstsymptome recht umfassend misst, hingegen Vermeidungsverhaltensweisen nicht erfasst. Diese misst nur das Mobilitäts-Inventar (MI) des Angstfragebogen-Sets AKV (steht für „Aengste, Kognitionen, Vermeidung“), daher ist hier das AKV-Set zu wählen. Anderenfalls kann der Erfolg der Behandlung – wenn es um den Abbau von Vermeidungen geht – nicht aufgezeigt werden.
-
Der Fragebogen Whiteley-Index zur Feststellung der Hypochondrie misst Krankheitsängste und -überzeugungen nur auf seinen Skalen 1 und 3, nicht jedoch auf Skala 2, die eine andere Störung abbildet. Skala 2 muss bei der sachgerechten Beurteilung des Erfolgs einer Hypochondriebehandlung weggelassen werden (folglich keine Summenbildung über die Skalen 1 bis 3 hinweg). Anderenfalls würde das Ergebnisbild verfälscht und das Störungsausmaß zu niedrig eingeschätzt. Vor allem käme der wahre Therapieerfolg bei der Behandlung der Störung nicht zum Ausdruck.
Es lohnt daher, dem Thema „Auswahl des Instruments für die Therapieerfolgsbeurteilung“ hinreichend Aufmerksamkeit zu widmen, insbesondere ist zu prüfen, was auf Itemebene tatsächlich zu beantworten ist. Es lohnt deswegen, weil der Erfolg der Behandlung präzise und psychometrisch abgesichert belegt werden kann, wenn das Messinstrument stimmig ist. Behilflich kann darüber hinaus die Beachtung der Abschnitte zur Validität des Verfahrens in den jeweiligen Manualen oder Beschreibungen sein.
Vier prinzipielle Bezugsquellen
Im Wesentlichen gibt es heutzutage im deutschen Sprachraum vier Quellen, um Messinstrumente für die Therapieauswertung zu beziehen:
-
über Verlage, die auf die Publikation und den Vertrieb von Tests und Fragebögen spezialisiert sind,
-
über Zeitschriften- und Buchpublikationen (dort manchmal in einem eigens ausgewiesenen Anhang platziert),
-
über die Homepage von Autor*innen – häufig an Universitäten oder forschungsorientierten Kliniken – und schließlich
-
über wissenschaftliche Dienstleistungsinstitute wie das Leibniz-Institut für Psychologie (ZPID, Trier; ehem. Zentrum für Psychologische Information und Dokumentation) bzw. das Leibniz-Institut für Sozialwissenschaften (GESIS, Mannheim; ehem. Gesellschaft Sozialwissenschaftlicher Infrastruktureinrichtungen).
Testverlage
Die verlagspublizierten Instrumentarien haben den großen Vorteil eines umfangreichen Manuals, welches die Ergebnisse jahrelanger Entwicklungsarbeiten und einer guten Daten- und Stichprobenbasis kondensiert wiedergibt. In aller Regel sind diese therapierichtungsübergreifend konzipiert bzw. von Autor*innenteams unterschiedlicher fachlicher Backgrounds entwickelt. Mithilfe dieser Manuale und der dort zu findenden Instruktionen für die Vorgabe, Auswertung und Interpretation kann man in der Praxis gut und – nach etwas Vertrautheit mit den Unterlagen – in einem zeitlich vernünftigen Rahmen arbeiten. Zudem ist das Untersuchungsmaterial auf professionellem Niveau gestaltet. Freilich sind Manuale und Material mit Anschaffungskosten bzw. lizenzgebührenpflichtiger Nutzung verbunden. Aber die Abrechnungsziffern der KV bzw. der GOP gewährleisten eine rasche Amortisation bereits nach wenigen Einsätzen in der Behandlungspraxis. Das Betreiben einer verlagseigenen Testabteilung ist ein aufwändiges Unterfangen und erfordert einen ausgesprochen hohen Grad an Spezialisierung – dem sich hierzulande im Wesentlichen nur zwei Verlage widmen (Hogrefe; Pearson). Für Praxiszwecke, etwa zunächst auch nur zum reinen Auffinden eines Verfahrens, ist die Homepage der Deutschen Testzentrale geeignet, die benutzerfreundlich eine Suchfeldeingabe anbietet (einfacher Eintrag des Fragebogennamens oder von dessen Abkürzung bzw. dessen Autor*in(nen) genügt bereits).
Fachliteratur
Für eine Reihe von Diagnosebereichen werden – u. a. in Behandlungsleitlinien – standardisierte Instrumente empfohlen, welche nicht mit Manual und Normierung in Testverlagen publiziert sind. Dies gilt beispielsweise im Bereich der Zwangsstörungen für die Yale-Brown Obsessive-Compulsive Scale (Y-BOCS), welche in Fachartikeln und – was den einfachen Abdruck des Wortlauts anbetrifft – in einem Therapiemanual veröffentlicht wurde, oder ähnlich im Bereich Schlafstörungen für den Insomnia Severity Index (ISI) (beide jeweils deutsche Fassung; vgl. Geissner & Koch, 2021). Wenn es sich um Fachartikel handelt, kann ein Nachteil dieser Art von Bezugsquelle darin bestehen, dass außerhalb wissenschaftlicher Einrichtungen der Zugang eingeschränkt ist. Mitunter ist hier Kreativität oder Vernetzung beim Recherchieren verlangt. Im ungünstigen Fall wäre auch einmal eine geringe Gebühr – meist im einstelligen Euro-Bereich – fällig.
Websites
Als weitere mögliche Bezugsquelle bieten einige Expert*innen auf Websites bzw. Homepages ihrer Institution Fragebögen und Informationsmaterial ihres Gebiets zum Download an. Exemplarisch ist etwa die Borderline Symptom Liste (BSL-23) zu nennen (Zentralinstitut für Seelische Gesundheit Mannheim, einschließlich weiterer dort verfügbarer Unterlagen, z. B. Auswertungsbögen) (vgl. Geissner & Koch, 2021).
Wissenschaftliche Dienstleistungsinstitute
ZPID bzw. GESIS unterhalten Fragebogensammlungen und Testarchive für den freien Gebrauch (digitale Zugriffsmöglichkeit). So ist beispielsweise das Inventory of Complicated Grief – Deutsch (ICG-D) zur Messung einer Trauerstörung beim ZPID erhältlich, das Penn State Worry Questionnaire – deutsch (PSWQ-d) zur Messung der Generalisierten Angststörung bei der GESIS. Die Recherche ist einfach – trotz der großen Zahl dort vorgehaltener Verfahren, die über das Spektrum klinisch-psychologischer Instrumente hinausgeht (vgl. Geissner et al., 2025).
Wahl der Untersuchungszeitpunkte
Therapieerfolg kann beurteilt werden, wenn auf die Störung gut zugeschnittene Messinstrumente bei der Behandlung so zum Einsatz kommen, dass Vergleiche mehrerer Untersuchungszeitpunkte möglich sind. Hier spielt auch die Eingrenzung des Beurteilungszeitraums (z. B. „innerhalb der letzten zwei Wochen“) und state-orientierte anstelle von trait-orientierten Itemformulierungen eine Rolle (z. B. „[…] hatte ich mit Grübeln und Sorgengedanken zu tun“ anstelle von „[…] bin ich ein pessimistischer Mensch“). Essenziell dabei: Zur Evaluation der Therapie benötigt man Messergebnisse nach Abschluss der Behandlung, häufig auch nach bestimmten zeitlichen Abschnitten im Verlauf (s. u.). Sie werden mit dem Status vor Beginn der Therapie verglichen. Oben haben wir angedeutet, dass das Prozedere bei der Ergebnisbeurteilung einfacher und aufwändiger zugleich ist, hier also nun aufwändiger.
Vorher – nachher
Ein prinzipiell erster Schritt besteht im Vergleich zwischen dem Messergebnis am Anfang und jenem am Ende der Behandlung: Hat der*die Patient*in am Ende einen niedrigeren Wert auf dem Instrument erzielt, welches die Störung abbildet? Wenn ja, wäre damit gezeigt, dass unter der Bedingung wöchentlicher Therapiesitzungen respektive dem förderlichen Setting einer Klinik Verbesserungen eingetreten sind. Dies wäre positiv zu werten, ein erstes Zwischenziel.
Katamnese
Psychotherapie soll jedoch erreichen, dass Patient*innen künftig alleine zurechtkommen und neue Erkenntnisse oder neu Erlerntes gut umsetzen. Um dies festzustellen, müssen wir einen Zeitraum verstreichen lassen – hier werden üblicherweise ca. sechs Monate nach Abschluss der Behandlung als plausibler Abstand angesetzt – und dann nochmals mit dem identischen Instrumentarium das dann vorhandene Störungsausmaß untersuchen. Kann eine Stabilisierung der bei Therapieende erzielten Erfolge aufgezeigt werden, idealerweise auch eine weitere Reduktion der Problematik? Katamnese-Messungen sollten diese Veränderungen im Vergleich zum Beginn der Psychotherapie entsprechend widerspiegeln.
Anmeldung bzw. Erstgespräch und eigentlicher Therapiebeginn
Wenden wir uns dem Referenzpunkt vor Beginn der Behandlung zu. Zahlreiche Untersuchungen haben gezeigt, dass zwischen Anmeldung bzw. Erstgespräch und tatsächlichem Beginn der Behandlung bereits Änderungen in der gemessenen Störungsausprägung eintreten. Diese Werte fallen – auch ohne dass eine Intervention stattgefunden hat – unmittelbar vor dem Start zumeist bereits niedriger aus als noch bei Anmeldung oder Erstgespräch.
Drei Faktoren spielen für dieses niedrigere Ausmaß unmittelbar bei Beginn der Therapiesitzungen eine Rolle. Der erste ist Hoffnung auf Erfolg („Jetzt geht es los, mein Therapieplatz ist sicher“). Der zweite ist das Sicherheitssignal „Selbst wenn mir jetzt etwas passieren würde, bekäme ich ja geholfen“. In Kliniken spielt dies eine Rolle, aber nicht nur dort; bei Patient*innen mit Herzangst/Panikstörung kann dies relevant werden, bei Patient*innen mit anderen Störungen auch. Der dritte Faktor, der bereits bei Therapiebeginn zu einer Linderung beitragen kann, ist der zu erwartende soziale Vergleichskontext in Form anderer Patient*innen („Ich scheine ja nicht allein zu sein mit meinen Ängsten und Problemen“).
Da sich diese unspezifischen Faktoren schon in der Wartezeit zwischen Anmeldung/Erstgespräch und dem unmittelbaren Beginn der Behandlung auswirken, ist als Referenzpunkt für die faire Auswertung der therapeutischen Intervention der Anmelde-/Erstgesprächszeitpunkt zu wählen. Wichtig zu erwähnen: Diese erwartungsbezogenen Elemente sind bereits Bestandteil der Therapie. Die Messung unmittelbar bei Therapiebeginn dient dann deren Kontrolle: Was hat sich in der Vorphase der Behandlung bereits getan?
Die Regression zur Mitte
Zum Anmelde-/Erstgesprächszeitpunkt besteht darüber hinaus eine Messthematik, die hier kurz benannt werden soll. Die Psychologie weiß aus vielen, nicht ausschließlich klinischen Studien, dass die erstmalige Schilderung einer subjektiv bedeutsamen Thematik oft extrem ausfällt, und schon allein eine zeitnahe zweite Messung weniger extreme Ausprägungen ergibt. Dies wird in der Fachsprache als Regression zur Mitte bezeichnet. Um die bei der ersten Schilderung einer Problematik möglicherweise zum Ausdruck kommende hohe Dringlichkeit einer Behandlung zu relativieren, hat sich eine zweite Messung bei Anmeldung/Erstgespräch (kurzer Zeitabstand) als methodisch sinnvoll bewährt.
Das Ergebnis dieser zweiten Messung sollte für die Auswertung herangezogen werden.
Summa summarum
Die umfassende Therapieerfolgsbestimmung erfordert zwei Messungen bei Anmeldung bzw. Erstgespräch, kann um eine weitere Messung unmittelbar bei Therapiebeginn ergänzt werden und beinhaltet zwei Messungen nach Abschluss der Psychotherapie – eine zeitnah am Behandlungsende und eine katamnestische nach circa sechs Monaten. Die relevanten Änderungsbeurteilungen beziehen sich auf den Ankerpunkt „Zweite Messung bei Anmeldung/Erstgespräch“ und die Ankerpunkte „Messung bei Therapieende“ bzw. „nach sechs Monaten“.
Vergütung
Als gute und nicht unwesentliche Nachricht gilt: Diese insgesamt fünf Messungen werden vergütet. Es zählt dabei der Zeitaufwand des*der Behandelnden. Wie lange der*die Patient*in benötigt, ist hingegen nicht maßgeblich. Näheres regelt für GKV-Patient*innen der Einheitliche Bewertungsmaßstab (EBM; 35600). Für Privatversicherte wurde im vergangenen Jahr initiiert, (nach Jahrzehnten) die GOP-Sätze anzuheben. In der Praxis ist dies bereits, auch ohne noch ausstehende amtliche Letztgenehmigung, relativ breit umgesetzt. Sowohl für die Anfangs- als auch die Schlussphase der Behandlung erwähnt der EBM des Weiteren, dass beliebig viele Verfahren / Messungen eingesetzt werden dürfen. Innerhalb des Rahmens einer Kurzzeittherapie (KZT) hingegen sind es drei Messungen. Dies ist in der Planung – Stichwort: KZT 2 – zu berücksichtigen.
Häufigkeit der Untersuchungen in einer Therapie – ohne Überfrachtung
Fünf Messungen mögen (zu) viel erscheinen, aber weniger Messungen würden unweigerlich zu Einschränkungen bei der angemessenen Bewertung des Therapieerfolgs führen.
Zu viel des Guten
In der klinisch-psychologischen Forschung wird zuweilen aus einer Reihe von Gründen die Messung nach jeder Therapiesitzung durchgeführt, wofür jeweils bis zu 20 Minuten zusätzlich veranschlagt werden (Lutz et al., 2022). Dies ist in der Versorgungspraxis unrealistisch, daher soll diesem Vorgehen auch nicht das Wort geredet werden. Es wäre zu viel des Guten und brächte neben organisatorischen noch andere Probleme mit sich, u. a. die Überinterpretation von Scheinunterschieden oder auf Patient*innenseite die Gefahr unsorgfältig-widerwilliger Bearbeitungen.
Messungen im Verlauf sinnvoll – sie steigern den Therapieerfolg
Andererseits belegen Studien (Fortney et al., 2018), in welchen jeweils eine Therapiebedingung „mit Messungen und Besprechung/Rückmeldung der Ergebnisse während der Behandlung“ einer parallelen Bedingung „ohne Messung“ gegenübergestellt wurde, dass die Bedingung „mit Messungen“ das ersichtlich bessere Therapieergebnis lieferte. Allein der Umstand der Messung als solcher nebst gemeinsamer Besprechung der Befunde während der Behandlung trug zu einer Linderung der Problematik bei – verglichen mit der Bedingung ohne diese. Dabei erweisen sich standardisierte Zwischenuntersuchungen auch zur Identifikation jener Patient*innen als wertvoll, welche bis zu diesem Zeitpunkt nicht genügend von der Behandlung profitiert haben und bei welchen zum Beispiel eine leichte Modifikation des therapeutischen Vorgehens angemessen wäre. Aber auch in dortigen Studien wird keine Messzeitpunkteschwemme gefordert, sondern Erhebungen in bestimmten Zeitabständen (s. u.).
Datenbanken und künstliche Intelligenz
Was jene Forschung anbelangt, die häufige Messungen (z. B. bei jedem Therapietermin) vorsieht, so liegt dort ein Interesse etwa darin, große Datenbanken mit Therapieverläufen anzulegen, mithilfe derer man künftig feststellen könnte, ob zu einem Fall aus der eigenen Praxis ein vergleichbarer, erfolgreich abgeschlossener Fall in der Datenbank existiert. Dessen Störungsausmaß, Behandlungsverlauf und Ergebnis könnte dann herangezogen werden, um einen eigenen Fall vergleichend zu beurteilen. Zum Aufbau solcher Datenbanken werden extrem umfangreiche Datensätze mit vielen Patient*innen, vielen Messpunkten und genügend zahlreichen Indikatoren benötigt. Dies ist ein Grund, warum entsprechende Forscher*innen auch Messungen zu so vielen Zeitpunkten favorisieren.
Vereinzelt befinden sich solche Ansätze im universitären Therapieausbildungskontext im Versuchsstadium. Ausbildungsteilnehmer*innen sollen dort beispielsweise zu ihrem eigenen Fall einen „nearest neighbour“ in der Datenbank ermitteln, prüfen, ob sie sich mit ihrer Arbeit „on track“ oder „not on track“ zu diesem befinden, und bekommen sodann „clinical support tools“ zur Verbesserung (Lutz et al., 2022). Unter dem Stichwort Personalisierung werden darüber hinaus Ansätze erprobt, in welchen erst im weiteren Therapieverlauf entschieden wird, ob Anhaltspunkte für indizierte Unterprogramme vorliegen, denen ein*e Patient*in zugewiesen werden soll. Beides – Datenbanken anlegen und Binnendifferenzierungen implementieren – ist noch in der Entwicklung und bedarf der Klärung inhaltlicher und KI-bezogen auch rechtlicher Aspekte vor einer möglichen breiteren Anwendung im Feld.
Gute Praxis
Zum Thema Häufigkeit der Untersuchungen wird als gute Praxis vorgeschlagen, neben den zuvor erwähnten fünf Zeitpunkten dann eine zusätzliche Messung zu ergänzen, wenn nach KZT 1 weitere 12 Stunden für KZT 2 vorgesehen sind (Messung also auch bereits nach Ende von KZT 1). Schließen sich daran nochmals 36 Termine Langzeittherapie (LZT) an, sollte auch eine weitere Zwischenmessung in der Mitte der LZT-Phase sowie eine Messung an deren Ende stattfinden. Unter dem Strich gilt daher die Empfehlung: (a) KZT 1 allein: fünf Messungen, (b) KZT 1 plus KZT 2: sechs Messungen, (c) KZT 1 plus KZT 2 plus LZT: acht Messungen. Dies ist in der Honorierung – bei LZT auch mit dort nochmals größerer genehmigter Messfrequenz – abgedeckt.
Konkret bedeutet dies über den Daumen gepeilt rund eine Messung pro Quartal während der Behandlung selbst, mit Ausnahme der Zeit vor Therapiebeginn und zur Katamnese. Für die Modalität Akutbehandlung gelten die KZT-1-Empfehlungen analog. (Auf die Modalität Fortführung und dort therapieverfahrensabhängig unterschiedliche Stundenquoten gehen wir hier nicht ein, die Logik entspricht den erwähnten Ausführungen.)
Wenn Werte in der ersten Untersuchung niedrig sind, also nicht im pathologischen Bereich liegen
Wir haben im vorletzten Abschnitt davon gesprochen, dass auf Fragebögen bei Anmeldung bzw. Erstgespräch in der ersten Bearbeitung oft recht extreme Werte resultieren, mit denen Patient*innen die Dringlichkeit ihres Anliegens bereits dort ausdrücken möchten. Dies ist meist der Fall, aber nicht immer. Im Gegenteil kann es durchaus auch vorkommen, dass zum Anmeldezeitpunkt bzw. im Erstgespräch sehr niedrige Werte ermittelt werden, sogar solche, die unterhalb des Bereichs liegen, der als pathologisch gilt.
Neben einer sich hier generell stellenden Frage zu Anliegen und Sinn einer beabsichtigten Psychotherapie werfen nichtpathologische Eingangswerte auch aus auswertungsmethodischer Sicht Probleme auf. Am Ende der Behandlung könnten die Werte zwar möglicherweise nochmals numerisch niedriger liegen, dies wäre aber wenig relevant: Es wurde ja bereits vorab keine klinisch relevante Störungsausprägung gemessen. Eine sonst sich anbietende Intervention würde hier folglich nicht wirksam greifen. Zudem würden Vorher-nachher-Vergleiche auch das wichtige Kriterium des erforderlichen Mindestunterschieds der Messungen kaum erfüllen können – wir gehen darauf im Abschnitt zur kritischen Differenz ein.
Gründe für niedrige Werte
Neben dem Umstand, dass die Person eventuell gar keine Störung aufweist, können auch andere Gründe für solch niedrige Eingangswerte eine Rolle spielen. Hier im Folgenden einige Beispiele für mögliche Ursachen:
-
Das Messinstrument selbst misst nicht valide.
-
Der*die Psychotherapeut*in kommt in einer ersten Exploration zu einem vorläufigen klinischen Urteil und wählt ein zwar valides, aber letztlich nicht gut passendes Instrument aus – erst im Verlauf könnten Aspekte deutlich werden, die dann zu einer präziseren Auswahl und damit relevanten Angaben zur Störung führen.
-
Das Messinstrument hat einen falschen Zuschnitt – siehe aus dem Abschnitt „Auswahl des Instruments“ das Beispiel BAI versus MI des AKV.
-
Itemformulierungen schrecken ab, lösen Scham aus oder werden aus anderen Gründen dissimulierend (z. B. Sucht; z. B. zur Therapie geschickt worden sein) beantwortet.
-
Es bestand Zeitdruck, die Beantwortung schnell zu erledigen.
-
Die Vertraulichkeit der Situation war verletzt, Dritte konnten die Bearbeitung beobachten oder mischten sich mit Kommentaren ein.
Für Therapieerfolgsbestimmung ungeeignet
Nichtpathologische Werte in Eingangsuntersuchungen sind für die Therapieerfolgsbeurteilung nicht verwendbar. Hier muss das Verfahren oder die Methodik (Check, ob anstelle von Fragebögen zur Selbsteinschätzung eventuell Fremdratings besser geeignet wären) auf den Prüfstand. Werden Daten aggregiert, etwa in (Jahres-)Dokumentationen oder bei der Erstellung von Berichten, verwässern Vorher-nachher-Vergleiche die Erfolgsrate, wenn sich Fälle mit nichtpathologischen Werten im Datensatz befinden, die lediglich triviale subklinische Verläufe aufweisen. Dies führt zu einer Unterschätzung des Therapieerfolgs bei den eigentlichen Patient*innen. Daher müssen Fälle mit nichtpathologischen Eingangswerten hier aus der Datenaggregation ausgeschlossen werden.
Rohwerte, Differenzwerte, Norm-/Standardwerte, Richtwerte
Direkt – indirekt
Bei der Beurteilung von Therapieerfolg unterscheidet man die direkte und die indirekte Veränderungsmessung. Indirekte Veränderungsmessung ist heutzutage der Standard. Hier wird das Messinstrument zu den jeweiligen Zeitpunkten vorgegeben und der dabei erzielte Wert festgehalten. Die relevante Messgröße für die Evaluation ist die Differenz zwischen Untersuchungszeitpunkten. Der*die Patient*in muss sich dabei nicht an die Angabe aus vorangegangenen Beantwortungen erinnern, sondern soll spontan so antworten, wie es – „Stand heute“ – seiner*ihrer Lage entspricht.
„Direkt“ ist out
Bei der direkten Veränderungsmessung hingegen soll der*die Patient*in selbst, zum Beispiel unter Nennung eines Bezugspunktes wie „zu Beginn der Therapie“, den Unterschied zwischen damals und dem Bearbeitungszeitpunkt „heute“ angeben. In diesem Fall ist einzuschätzen, wie das Befinden oder das Leiden vorher war. Dies ist mit vielen Erinnerungs- und Beurteilungsfehlern behaftet. Deshalb ist von direkten Veränderungsmessungen abzuraten. Entsprechend basieren auch inzwischen nahezu alle Instrumente zur Therapieerfolgsbeurteilung auf dem Konzept der indirekten Veränderungsmessung.
Addition, Division und Subtraktion
Die Ermittlung der Rohwerte bei der indirekten Veränderungsmessung geschieht pro Messzeitpunkt per Hand oder mittels Computerprogramm, d. h. am besten zeitnah im Anschluss an die jeweilige Vorgabe. Bei den meisten Messinstrumenten erfolgt die Ermittlung von Rohwerten für die spätere Vorher-nachher-Beurteilung durch Aufsummierung der Itemwerte. Solche Summenwerte werden auch als Skalenwerte bezeichnet. Deren Ermittlung ist dann denkbar einfach, wenn sie nur aus einer Dimension bestehen.
Variante 1: Beim Beck Depressions-Inventar (BDI-II) mit 21 Items kann bei den vier Antwortstufen 0 bis 3 eine Summe zwischen 0 und 63 resultieren. Variante 2: Bei der Borderline Symptom Liste (BSL-23) mit Antwortstufen von 0 = „überhaupt nicht“ bis 4 = „sehr stark“ wird zunächst eine Zwischensumme für die 23 Items gebildet. Diese soll gemäß Anweisungstext sodann durch die Anzahl der Items dividiert werden, wenn kein Item ausgelassen wurde, also durch 23. Daher liegt hier der BSL-Gesamtwert in einer Spannbreite zwischen 0 und 4. In beiden Varianten wird zur Evaluation sodann der zweite Wert bei Therapieende oder bei Katamnese vom Wert bei Therapieanmeldung/Erstgespräch subtrahiert.
Dimensionen, Komponenten und (Teil-)Skalen
Manchmal gliedert sich ein Störungsinstrument in mehrere Bereiche, um verschiedene Komponenten oder Dimensionen einer Störung abbilden zu können, so etwa bei der Schmerzempfindungsskala (SES) („sensorischer“ Schmerz versus „affektiver“ Schmerz) oder dem Eating Disorder Inventory (EDI-2). Bei solchen zwei- oder mehrdimensionalen Verfahren – wohlgemerkt zu einem homogenen Thema bzw. einer einzigen Störung – ist zu beachten, dass für jede Dimension ein eigener (Teil-)Skalenwert gebildet werden muss. Ein Gesamtskalenwert, also die Summierung aller Items, ist bei solchen Verfahren hingegen nicht sinnvoll und oft sogar problematisch, weil das differenzierte Konzept „Störung in Form verschiedener Unterbereiche“ dadurch verloren geht.
Als Beispiel für die Sinnhaftigkeit der Auswertung „nach Dimensionen“ kann das EDI-2 dienen. Bei diesem Verfahren könnten Patient*innen mit Magersucht ihre Werte auf für sie sensiblen Dimensionen bewusst durch unproblematisch niedrige Angaben auf anderen, nämlich z. B. bulimiebezogenen Dimensionen kompensieren. Daher würde in diesem Fall eine Aufsummierung aller EDI-2-Items zu einem Gesamtskalenwert ein deutlich abgeschwächtes – „verharmlosendes“ – Ergebnis zur Magersucht anzeigen.
Besonders fragwürdig sind Gesamtskalenwerte bei mehrdimensionalen Instrumenten, deren Messintention anders als bei der SES oder dem EDI-2 in der Erfassung von mehreren, a priori unterschiedlichen Störungen liegt. Bei der Bildung eines Gesamtskalenwertes würde jeglicher Störungsbezug verwischt und ein Therapieerfolg wäre kaum mehr sinnvoll belegbar. Patient*innen würden auf zu vielen Dimensionen niedrige Werte erzielen, so dass ein Gesamtwert ein nicht valides Abbild der eigentlichen Problematik darstellte.
Inverse Polung – gemischte Anordnung
Ein klein wenig aufwändiger, wenn auch nicht grundsätzlich schwieriger, ist die Bildung von Skalenwerten in zwei anderen Fällen:
-
wenn ein Fragbogen auch sogenannte invers gepolte Items enthält, also Items, die gegensinnig zur Störung formuliert sind (solche Items müssen vor der Bildung von Summenwerten umgepolt („invertiert“) werden);
-
wenn in einem mehrdimensionalen Verfahren die Items zu den einzelnen Dimensionen nicht en bloc pro Teilskala, sondern durchmischt vorgegeben werden.
In beiden Fällen kann die Berechnung von Skalenwerten durch Schablonen (z. B. farblich speziell kodierte Folien, die auf den beantworteten Fragebogen aufgelegt werden) bzw. die Verwendung eines digitalen Auswertungsprogramms erleichtert werden. Manchmal erübrigt sich die Anwendung solcher Auswertungshilfen aber bereits nach kurzer Zeit, da sich bei dem*der Psychotherapeut*in Erfahrungswerte dahingehend herausgebildet haben, welches spezifische Item vor der Summenwertbildung zu invertieren ist. Als Beispiel hierfür mag das Penn State Worry Questionnaire (PSWQ) zur Messung der Generalisierten Angststörung mit fünf umzupolenden Items dienen, bei dem sich die Auswertung ohne großen Aufwand gestaltet, da die betreffenden fünf Items rasch ins Auge springen.
Rohwerte und Vergleichswerte
Einfache Rohwerte, wie sie bei Aufsummierung der angekreuzten Itemwerte entstehen, sind zunächst noch wenig aussagekräftig. Dies werden sie erst, wenn man sie den Rohwerten möglichst vieler anderer Personen gegenüberstellt. Hierbei sind zwei Arten von Vergleichen möglich und sinnvoll. Zum einen können die individuellen Rohwerte von Patient*innen zu denen anderer Patient*innen (mit der gleichen Störung) in Beziehung gesetzt werden. Zum anderen können sie mit den Rohwerten von gesunden Personen verglichen werden. Welcher Vergleich sinnvoll ist, hängt letztlich von der Fragestellung ab. Wenn es um die Veränderung der Ausprägung einer Störung nach einer Psychotherapie geht, wären z. B. eher Vergleiche mit anderen Patient*innen ergiebig.
Der große Vorteil von Untersuchungsinstrumenten mit ausführlichen Manualen besteht darin, dass dort die Stichprobenbasis meist umfangreich ist. Instrumente aus Fachzeitschriften oder Buchbeiträgen bzw. auf Homepages der Autor*innen haben dagegen oft eine schmale Stichprobenbasis aus ersten Studien vor Ort. Dies macht die Einordnung von Befunden, die in eigenen Psychotherapien der späteren Anwender*innen gewonnen wurden, weniger verlässlich. Dem Gesichtspunkt einer derzeitigen best practice folgend, gelten sie dennoch als pragmatischer Kompromiss.
Normierte/standardisierte Verfahren optimal
Im Prinzip sollten Instrumente zur Messung von Störungen normiert bzw. standardisiert sein. Dazu müssen Daten aus möglichst großen und repräsentativen Stichproben von Patient*innen (günstigenfalls zusätzlich auch von gesunden Personen) vorliegen, um die Verteilung der Rohwerte möglichst genau bestimmen zu können. Anhand der Verteilungskennwerte können die Rohwerte dann in Standardwerte – am gebräuchlichsten hier z- bzw. T-Werte – transformiert werden. Standardwerte haben im Unterschied zu Rohwerten den Vorteil, dass sie über die verschiedensten Instrumente verglichen werden können und man ihnen, anders als Rohwerten, das Ausmaß einer Störung quasi unmittelbar ansieht. Prozentrangwerte sind ebenfalls gebräuchlich und gelten oft als einfachere Alternative, wenngleich sie nach Normalverteilungsgesichtspunkten weniger exakt sind: Nahe beieinanderliegende Werte der Verteilungsmitte (große Häufigkeiten) erscheinen in Prozenträngen ausgedrückt „künstlich“ gespreizt, extreme Werte (geringe Häufigkeiten) dagegen „großzügig“ zusammengefasst.
Richtwerte ersatzweise
Wenn ein Instrument nicht T-Wert-normiert ist und auch keine Prozentränge dazu vorliegen, können bzw. müssen individuelle Rohwerte mit sogenannten Richtwerten verglichen werden. Dabei handelt es sich um Verteilungskennwerte (Mittelwert und Standardabweichung) einer Stichprobe von Patient*innen mit der gleichen Störung oder einer Stichprobe von gesunden Personen – aus der ursprünglichen Publikation.
Deshalb ist es bei allen psychotherapeutischen Fragestellungen unerlässlich, dass in der Beschreibung eines bestimmten Störungsinstruments die Verteilungskennwerte einer Stichprobe von Patient*innen angegeben sind. Weiterhin ist es unbedingt erforderlich, dass aus den berichteten Studien klar wird, dass das Messinstrument sich genau dort, also bei der betreffenden Störung, bewährt hat. Dies ist erstaunlicherweise nicht immer der Fall. So sind auch (bekannte) klinische Verfahren im Einsatz, die nur an Personen ohne Störung normiert wurden, aber nicht an Patient*innen. Die Einordnung von individuell in der Therapiepraxis erhaltenen Rohwerten ist in diesen Instrumenten nicht aussagekräftig, denn schon mittelgradige Ausprägungen der Störung eines*einer Patient*in können im Vergleich zu einer gesunden Referenzstichprobe absurd hoch erscheinen – die Referenzbasis stimmt dort einfach nicht.
Änderungssensitivität 1: Was sagen Ergebnisse aus publizierten Therapiestudien aus?
Response und Remission
Die wichtigste Information zur Beurteilung des Erfolgs einer Psychotherapie ist die Veränderung der Störungsausprägung. Ist deren Verringerung also so groß, dass die Störung bzw. das Leiden als wirksam behandelt eingestuft werden kann? Oder ist zumindest ein Ausmaß erreicht, mit dem der*die Patient*in „erst einmal zurechtkommt“? Wir unterscheiden bei der Erfolgsbeurteilung zwischen Response, d. h. einer bedeutsamen Abnahme der Störung überhaupt, und Remission, d. h. einer Reduktion, die auch die Symptomfreiheit umfasst. Response bedeutet: Die Therapie „hat angeschlagen“ und zu einer Verbesserung geführt – was die Vorher-nachher-Daten der eingesetzten Messinstrumente aufzeigen. Ist das Störungsausmaß am Ende der Behandlung – bzw. besser noch: auch in der Katamnese – so weit reduziert, dass es im nichtpathologischen Bereich unterhalb eines definierten Wertes liegt, spricht man von „Remission“. Wir gehen nachfolgend unter den Stichpunkten „kritische Differenz“ und „Cut-off“ darauf ein.
Signifikanz und Effektstärke
Was helfen uns bei der Erfolgsbeurteilung des eigenen Tuns Signifikanzen und Effektstärken, wie sie in der Fachliteratur berichtet werden? Effektstärken sind im Prinzip aussagekräftig, da sie die durchschnittliche Veränderung angeben, die in der jeweiligen Studie mit einer Psychotherapie bewirkt werden konnte. Die Veränderung, die in einem Einzelfall (eigene Therapiepraxis) erreicht wurde, kann daher mit diesem durchschnittlichen Therapieeffekt der Studie verglichen werden.
Allerdings: Die Aussagekraft dieses Vergleichs hängt von allen Faktoren ab, die sich auf die Effektstärke auswirken, z. B. der Zusammensetzung der Stichprobe (also ihrer Homogenität, ausgedrückt durch die Standardabweichung im Nenner der Effektstärkenformel – eine große Streubreite reduziert die Effektstärke) oder der Qualität und Intensität der Intervention dieser Studie. Auch gibt die Effektstärke keine Auskunft darüber, ob das Ausmaß der Veränderung eine für die einzelnen Betroffenen spürbare und für die Alltagsfähigkeit relevante Besserung darstellt und ob infolge der Veränderung ein nichtpathologisches Ausmaß der Symptome erreicht wird. Dies sollte bei Vergleichen eigener Therapieergebnisse mithilfe von Effektstärken aus Studien also stets mitbedacht werden.
Die statistische Signifikanz eines Therapieeffekts auf Gruppenebene ist dagegen gar nicht informativ, da sie von der Stichprobengröße abhängt und selbst trivial kleine und praktisch bedeutungslose Therapieeffekte signifikant werden, wenn nur die Stichprobe groß genug war.
Änderungssensitivität 2: Die kritische Differenz
Messfehlerbehaftetheit
Bei der Interpretation von Änderungen bzw. Verbesserungen leisten uns die Messinstrumente unverzichtbare Dienste. Allerdings muss man bei der Interpretation der gemessenen Veränderung beachten, dass individuelle Messwerte nicht fehlerfrei sind. Folglich sind auch die individuellen Veränderungswerte mit Messfehlern behaftet. Wie sehr die Aussagekraft von Messwerten durch mögliche Messfehler eingeschränkt ist, hängt von der Reliabilität oder Zuverlässigkeit eines Instruments ab. Je höher diese ist, desto genauer bilden die Messwerte das wahre Ausmaß der Störung ab. Entsprechend bilden die Veränderungswerte die wahre Veränderung des Ausmaßes einer Störung umso genauer ab, je zuverlässiger das verwendete Instrument ist.
Kritische Differenz / Reliable Change Index
Zur Berücksichtigung von Messfehlern muss deshalb die kritische Differenz eines Instruments berechnet werden. Im Englischen wird die kritische Differenz als Reliable Change Index (RCI) bezeichnet. Dieser Begriff wird zuweilen auch in deutschsprachigen Publikationen verwendet. Die kritische Differenz ist das Vertrauensintervall um individuelle Messwertveränderungen, das den Messfehler berücksichtigt. Ist die gemessene Veränderung kleiner als dieses veränderungsbezogene Vertrauensintervall, also die kritische Differenz, so kann nicht ausgeschlossen werden, dass die gemessene Veränderung lediglich auf Messfehler zurückzuführen ist. Dann würde keine echte Veränderung infolge der Psychotherapie angenommen werden können. Ist die gemessene Differenz größer als die kritische Differenz, kann mit hinreichend großer Sicherheit geschlossen werden, dass eine wahre Veränderung aufgrund von Therapie erreicht wurde.
Geissner et al. (2025) beschreiben, wie die kritische Differenz berechnet wird und erklären ihre psychometrische Grundlage genauer. Für die Beurteilung der Wirksamkeit eigener durchgeführter Psychotherapien kann der entsprechende Wert für verschiedene Instrumente dort unaufwändig nachgeschlagen werden. Die im konkreten Einzelfall erzielte Vorher-Nachher-Differenz des*der Patient*in wird mit diesem Wert verglichen, so ist die Therapieresponse aufgrund der jeweiligen Behandlung rasch beurteilbar.
Änderungssensitivität 3: Cut-off-Werte
Fraglos besteht das vorrangige Ziel einer jeden Krankenbehandlung über eine nachweisbare (Mindest-)Reduktion der Störungsausprägung hinaus in der weitgehenden Remission der Störung oder des Leidens. Psychometrische Instrumente können bei der Bestimmung helfen, ob ein Störungsausmaß im klinisch-pathologischen Bereich rangiert oder aber mithilfe der Psychotherapie eine deutliche Verbesserung der Symptome in Richtung des gesunden Normalbereichs erreicht werden konnte. Zur zuverlässigen Beurteilung benötigen wir hierfür einen Grenzwert, der als Cut-off-Wert bezeichnet wird.
Drei Arten von Cut-off-Werten
Zur Festlegung von Cut-off-Werten verwendet man die Verteilungskennwerte von Stichproben aus empirischen Studien, in denen das Untersuchungsinstrument zuvor eingesetzt wurde. Meistens wurden solche Studien von den Autor*innen des jeweiligen Instruments durchgeführt und berichtet. Bei der Bestimmung von Cut-off-Werten unterscheidet man drei Fälle, die sich aus der Art der vorliegenden Daten ergeben. Fall 1: Es liegen Kennwerte aus einer klinischen Stichprobe („Kranke“) und einer Stichprobe von Personen ohne Störung („Gesunde“) vor. Fall 2: Es existieren nur Kennwerte aus einer Stichprobe ohne Störung, aber keine aus einer klinischen Stichprobe. Fall 3: Es liegen nur Kennwerte einer klinischen Stichprobe vor, aber keine aus einer Stichprobe ohne Störung. Für diese drei Fälle beschreiben wir die Cut-off-Werte – angelehnt an die entsprechende Fachliteratur.
Fall 1 (Cut-off 1)
Liegen Referenzwerte aus Stichproben von Gesunden und Kranken vor, wird der Grenzwert festgesetzt als „Mittelwert (gesund) + Mittelwert (krank) / 2“. Therapieerfolg gilt als erreicht, wenn der individuelle Messwert auf dem Untersuchungsinstrument zwischen dem Mittelwert der kranken und dem Mittelwert der gesunden Referenzstichprobe liegt, konkret sozusagen näher am Mittelwert der gesunden Referenzstichprobe.
Fall 2 (Cut-off 2)
Liegen nur Referenzwerte aus einer Stichprobe gesunder Personen vor, empfiehlt sich als Grenzwert „Mittelwert (gesund) + Standardabweichung (gesund)“. Dieser Cut-off-Wert entspricht einem T-Wert von 60 und einem Prozentrang von 84 – in der Population der Gesunden. Der Wert ist etwas strenger, im Sinne von schwieriger erreichbar, als Grenzwerte, die für diesen Fall von manchen Autor*innen empfohlen, von uns aber als zu milde erachtet werden.
Fall 3 (Cut-off 3)
Liegen nur Referenzwerte einer klinischen Stichprobe vor, wird der Grenzwert definiert als „Mittelwert (krank) – 2 Standardabweichungen (krank)“. Therapieerfolg gilt somit als erreicht, wenn der individuelle Störungswert eines*einer Patient*in mindestens zwei Standardabweichungen unter dem Mittelwert der klinischen Referenzstichprobe liegt. Dieser Cut-off-Wert entspricht einem klinischen T-Wert von 30 bzw. einem Prozentrang von 2 in der Population der Kranken (zur Übersicht: Geissner et al., 2025).
Änderungssensitivität 4: Berücksichtigung des Vertrauensintervalls
Bei der Anwendung der beschriebenen Cut-off-Werte muss – ebenso wie bei der Anwendung der kritischen Differenz – berücksichtigt werden, dass auch individuelle Messwerte fehlerbehaftet sind. Aufgrund des Messfehlers kann die wahre Störungsausprägung im jeweiligen Einzelfall durch den Messwert über- oder unterschätzt werden. Deshalb muss um individuelle Messwerte ein Vertrauensintervall gelegt werden, dessen Breite von der Reliabilität des Störungsinstruments abhängt. Je zuverlässiger das Instrument, desto kleiner ist das Vertrauensintervall und desto näher liegt die gemessene Störungsausprägung an der tatsächlichen Ausprägung.
Um zu beurteilen, ob die individuelle Störungsausprägung einen Cut-off-Wert unter- oder überschreitet, muss dieser also mit der oberen bzw. unteren Grenze des Vertrauensintervalls um den individuellen Messwert verglichen werden, nicht mit dem Messwert selbst. Wir erläutern anderenorts, wie das Vertrauensintervall berechnet und wie es beim Vergleich individueller Messwerte mit Cut-off-Werten berücksichtigt wird. Das Vertrauensintervall ist dort für jedes empfohlene Instrument bzw. für alle entsprechenden Dimensionen dargestellt und von dort ohne größeren Aufwand für die Praxis übernehmbar (Geissner et al., 2025). Die Zusammenführung der einzelnen Gesichtspunkte zur Änderungssensitivität wird im „Beispiel für eine Ergebnisdarstellung …“ (s. Kasten) veranschaulicht.
Interpretation der individuellen Fragebogenergebnisse Schritt für Schritt
Die folgende Darstellung fasst Schritt für Schritt das Vorgehen bei der Interpretation von Testergebnissen für einen konkreten Anwendungsfall der Therapieerfolgsmessung zusammen (vgl. auch Geissner et al., 2025).
Schritt 1 – Bestimmung und Interpretation des Normwerts (T-Wert) bzw. des Prozentrangwerts (PR)
Sofern Normwerttabellen verfügbar sind, wird der mit dem individuellen Messwert (Rohwert) korrespondierende Normwert abgelesen, welcher z. B. Auskunft darüber gibt, ob der individuelle Wert im unterdurchschnittlichen Bereich (PR < 16 bzw. T-Wert < 40), durchschnittlichen Bereich (PR 16 bis 84; T-Wert 40 bis 60) oder überdurchschnittlichen Bereich (PR > 84 bzw. T-Wert > 60) liegt. Sind keine Normwerte verfügbar, so ist der Vergleich mit Referenzwerten wie Mittelwert und Standardabweichung gesunder und klinischer Vergleichsgruppen möglich: Liegt der individuelle Messwert also näher am Mittelwert der gesunden Gruppe oder näher am Mittelwert der Patient*innengruppe?
Schritt 2 – Bestimmung des Vertrauensbereichs um den individuellen Messwert
Für den individuellen Messwert wird der Vertrauensbereich (Konfidenzintervall) bestimmt, z. B. Messwert: 10, Vertrauensbereich: +/- 3. D. h. unter Berücksichtigung des Messfehlers liegt der wahre Messwert des*der Patient*in mit 95%iger Wahrscheinlichkeit innerhalb des individuellen Vertrauensbereichs von 7 bis 13.
Schritt 3 – Bewertung der Veränderung in Bezug auf die kritische Differenz
Fällt die Differenz der individuellen Messwerte z. B. zwischen Anmeldung/Erstgespräch und Abschlussuntersuchung höher aus als die kritische Differenz des Instrumentes, so kann die Veränderung als zuverlässig bewertet werden (Response). Andernfalls ist nicht auszuschließen, dass die beobachtete Veränderung nur durch den Messfehler des Instrumentes oder zufällige Messwertschwankungen bedingt ist.
Schritt 4 – Bewertung des individuellen Messwertes in Bezug auf den Cut-off des Instrumentes
Liegt der individuelle Messwert nach Abschluss der Behandlung über dem Cut-off-Wert des Instruments, d. h. weiter im pathologischen Bereich, oder unterhalb des Cut-offs, d. h. im gesunden Bereich (Remission)? Schließt der individuelle Vertrauensbereich den Cut-off-Wert nicht ein, so kann dies als „gesichert gesunder Wert“ bezeichnet werden (andernfalls sollte von einem „wahrscheinlich gesunden Wert“ gesprochen werden).
Schritt 5 – Zusammenfassende Bewertung
Zusammengefasst kann eine Reduktion des individuellen Messwertes, die größer ist als die kritische Differenz, als statistisch bedeutsame Besserung (Response) auf die Behandlung interpretiert werden.
Das Erreichen eines nichtpathologischen Wertes unterhalb des Cut-off kann als Heilung (Remission) bezeichnet werden.
Beispiel für eine Ergebnisdarstellung (Pat. Herr B., Beck Depressions-Inventar, BDI-II):
„Das Beck Depressions-Inventar erfasst die selbsteingeschätzte Schwere depressiver Symptome anhand eines Gesamtwertes mit einer Wertespanne von 0 bis 63 (Vertrauensbereich +/- 7). Werte höher als ein Cut-off-Wert von 16 können auf weiter bestehende klinisch auffällige depressive Symptomatik hinweisen. Für eine bedeutsame Veränderung muss eine kritische Differenz > 10 erreicht werden.
Ergebnisse vom [Datum]: Bei Anmeldung zur Therapie weist Herr B. einen Gesamtwert von 28 auf (entspricht einem PR für die klinische Gruppe von 65), dies indiziert eine depressive Symptomatik im klinisch auffälligen Bereich.
Ergebnisse vom [Datum]: Bei Therapieende weist Herr B. einen Wert von 8 auf (PR für die klinische Gruppe: 12), was indiziert, dass das Ausmaß an depressiven Symptomen im unauffälligen Bereich liegt.
Wertung: Die Ergebnisse sprechen für eine bedeutsame Besserung bezüglich der bei Anmeldung klinisch auffälligen Werte einer depressiven Störung. Bei Therapieende wird ein unauffälliger Wert erreicht.“
Resümee
Therapieerfolgsbeurteilung wird mittels Vorher-nachher-Vergleichen durchgeführt. Hierzu stehen patientenfreundliche, psychometrisch ausgereifte, änderungssensitive Instrumente für jede Störung zur Verfügung. Die Instrumente werden – je nach Therapiedauer – zu mehreren Zeitpunkten eingesetzt, sind rasch zu bearbeiten und auszuwerten.
Die Ergebnisse dieser Messungen sollten gemeinsam mit den Patient*innen transparent besprochen werden. Bei Zwischenuntersuchungen trägt der Faktor „Messung und Besprechung“ erkennbar stärker zum Therapiefortschritt bei, als wenn keine derartige Messung und Besprechung durchgeführt worden wäre.
Die Dauerhaftigkeit des Therapieerfolgs sollte in einem sinnvollen Zeitabstand nach Therapieende erneut geprüft werden, um eine Stabilisierung und ggf. weitere Verbesserungen zu überprüfen.
Neben der Feststellung, ob die Behandlung prinzipiell anschlägt und psychometrisch abgesichert eine Änderung festgestellt werden kann (Check, ob Messwertveränderungen außerhalb einer „kritischen Differenz“ liegen), kommt dem Cut-off-Kriterium (Check, ob Messwerte am Ende unter einer definierten Schranke „pathologisch versus nichtpathologisch“ liegen) zentrale Bedeutung zu.
Signifikante Effekte aus Therapiestudien helfen in der psychotherapeutischen Einzelfallpraxis nicht, denn sie sind weder direkt übertragbar noch sagen sie etwas über die Stärke der erreichten Therapieeffekte aus.
Effektstärkeangaben dagegen können bei der vergleichenden Einordnung Hinweise liefern, wobei aber Einschränkungen zu beachten sind.
Moderne Ergebnisbeurteilung erfordert Transparenz in der (Abschluss-)Besprechung mit dem*der Patient*in sowie die fachgerechte Darstellung in der schriftlichen Dokumentation. Letzteres dient außerdem als Grundlage für etwaige erneute Behandlungen oder bei einem Settingwechsel (ambulant – stationär – teilstationär).
Die Evaluation eigener Therapien gibt nicht nur dem*der Patient*in Sicherheit und unterstreicht zuverlässig die Qualität der durchgeführten Behandlung, sie gewährt auch dem*der Behandler*in wichtige Informationen i. S. von psychometrisch basierter Bestätigung eigenen Tuns oder aber Hinweisen auf erforderliche Korrekturen in seinem*ihren Vorgehen.
Ausblick
Die hier vorgestellten Hinweise und Überlegungen repräsentieren den aktuellen Stand der psychometrisch basierten Evaluation von Einzelfällen (im Prinzip auch nach bestimmten Gruppen und/oder pro Jahr zusammengefasst durchführbar). Die Anwendung in der täglichen Psychotherapiepraxis ist einfach, schnell und bietet eine fundierte Grundlage, die Erfolge eigener Arbeit zu belegen. Nicht nur sind die Befunde geeignet, sie mit den Patient*innen zu besprechen und zu bilanzieren, auch – freilich anonymisiert – wären sie im öffentlichen Diskurs als Leistungsausweis darstellbar. Durch ihr Psychologiestudium sind Psychologische Psychotherapeut*innen (künftig auch: Fachpsychotherapeut*innen) fachlich gut gerüstet.
Evaluation ist unabhängig vom Kontext möglich, also im ambulanten und stationären Setting, bei akuter oder Rehabilitationsproblematik, in Kombination mit Pharmakotherapie oder allein, ja auch außerhalb der Psychotherapie bei Präventions- und Nachsorgemaßnahmen. Dies gilt im Übrigen für alle Psychotherapierichtungen, da die Untersuchungsinstrumente nicht für eine einzelne davon konzipiert wurden und ihr Einsatz demzufolge auch nicht an diese gebunden wäre. Der Versorgungsauftrag im Sinne der Linderung und Beseitigung psychischer Störungen und damit verbundenen Leidens erfordert auch bei der Evaluation den Störungsbezug. Ergänzende Untersuchungen etwa zu Prädiktoren, Verlaufs- und Interaktionsfaktoren können dies – wo sinnvoll und im Aufwand vertretbar – unterstützen.
Eine offene Frage stellt der Übergang von der ICD-10 zur ICD-11 als Standard für das deutsche Gesundheitssystem dar. Dies wird zu der einen oder anderen Modifikation führen, auch wenn noch ein wenig Zeit ist (nach aktueller Einschätzung mindestens bis 2027). Die instruktiven und sehr zu empfehlenden Beiträge von Alex Hartig in den PTJ-Ausgaben 1/2024 und 2/2024 gehen auf damit verbundene Neuerungen ein. Für eine Reihe in der ICD-11 neu aufgenommene Diagnosen, wie beispielsweise die komplexe Posttraumatische Belastungsstörung (k-PTSD), die Computerspielabhängigkeit oder die Anhaltende Trauerstörung, liegen bereits heute empfehlenswerte Instrumente zur Therapieerfolgsbeurteilung vor (vgl. Geissner & Koch, 2021; Geissner et al., 2025). Darüber hinaus berücksichtigen einige aktuelle Instrumente, etwa zu ADHS im Erwachsenenalter, jetzt schon die Weiterentwicklungen im Zuge der ICD-11. Deutliche Änderungen sind hingegen für den Bereich der Persönlichkeitsstörungen zu erwarten.
Schluss
Für den Moment ist festzuhalten, dass die berufliche und finanzielle Situation der Psychotherapie in Deutschland im weltweiten Vergleich als ausgesprochen gut bezeichnet werden kann (Priebe & Wright, 2006). In den letzten knapp drei Jahrzehnten sind gewaltige Fortschritte erzielt worden. Dies sollte trotz manchmal beklagter Widrigkeiten mitbedacht werden (z. B. zurzeit noch ungeklärte Weiterbildungsfragen; Versorgungsplanung und -struktur; Dauerbrenner Bürokratie). Die Profession leistet erfolgreiche Arbeit auf einem hohen Standard. Möglichkeiten, solche Erfolge zu belegen und darzustellen, wollten wir aufzeigen und Anregungen für deren Umsetzung geben (Berry et al., 2024).