Evaluation
engl. evaluation, outcome measurement, quality management, franz. évaluation f, von lat. valere = »geeignet sein, vermögen, gelten«; bezieht sich auf die Beurteilung der Struktur-, Prozess- und Ergebnisqualität von Beratungs-, Versorgungs- oder Therapiemaßnahmen. Evaluiert und zertifiziert werden Dienstleistungen und/oder Institutionen (z. B. Kliniken), die bestimmte medizinische, therapeutische oder pädagogische Dienstleistungen anbieten. Die klassische, häufigste und zugleich auch minimalistische Anforderung an eine Evaluation besteht in einem Vorher-nachher-Vergleich relevanter Indikatoren oder Kriterien eines Veränderungsprozesses.
Eben hierin besteht eines der zentralen Probleme jeder Evaluation, nämlich die geeigneten Kriterien für eine Veränderung zu bestimmen und auch für die jeweils geeigneten Kriterien dann die validen Messinstrumente zu finden. Die Frage, was ein »Erfolg« in Beratung und Therapie sein soll, ist bis heute nicht abschließend geklärt, zumal die Beantwortung der Frage von den jeweiligen, durchaus sehr individuellen (Individuum) Zielen der Therapie oder Beratung abhängt und zudem von der Komplexität und Operationalisierbarkeit der verwendeten Konstrukte. Eine konkret bestimmbare Verhaltensänderung (z. B. die Anzahl der pro Tag gerauchten Zigaretten) ist leichter zu erkennen oder zu messen als eine Strukturänderung der Persönlichkeit oder eine Veränderung von Beziehungsmustern in einem interpersonellen System. Da Therapien oft den Anspruch erheben, Kognitionen, Emotionen, Verhalten, physiologische Prozesse und interpersonelle Muster zu verändern und zudem die Lebenssituation eines Menschen zu verbessern, sollte auch die Evaluation auf all diesen Ebenen ansetzen. Evaluation sollte also im Sinne einer Mehrebenenmessung multiperspektivisch und multimethodal sein, um die unterschiedlichen Aspekte von menschlichen Veränderungsprozessen oder zumindest des Veränderungseffekts abzubilden. Dies erschiene umso relevanter, als die unterschiedlichen Ebenen und Aspekte nicht unbedingt hoch korrelieren müssen bzw. ihr Synchronisationsgrad über die Zeit hinweg unterschiedlich ausgeprägt sein dürfte. Abgesehen davon, dass die Veränderung von Synchronisationsmustern selbst eine sehr relevante Information darstellt, kann man also nicht davon ausgehen, dass die Erfassung eines Aspekts (z. B. des subjektiven Erlebens) gleichzeitig schon Schlüsse auf andere Aspekte wie beispielsweise physiologische Prozesse, interpersonelle Interaktionsmuster oder Emotionen zulässt.
Außer auf eine Vorher-nachher-Erfassung geeigneter Indikatoren sollte sich eine Evaluation auch auf die Nachhaltigkeit und Stabilität von Veränderungen beziehen und damit katamnestische oder Follow- up-Erfassungen realisieren. Zudem gibt es eine ganze Reihe methodischer Probleme, z. B. die Regression zur Mitte. Wenn man vor einer Behandlung einen stark ausgeprägten Wert (z. B. in der Symptomatik eines Patienten; Symptomträger) vorfindet, der sich nach Behandlung »normalisiert« hat, könnte dies einfach dadurch zustande gekommen sein, dass man vorher gerade einen hohen Wert »erwischt« hat, nachher dann aber einen der häufigeren mittleren Werte misst, ohne dass sich das Symptomniveau oder das zeitliche Muster wirklich geändert hätte. Verschiedene Formeln zur Berechnung von Effektstärken berücksichtigen diesen Regressionseffekt. Auch wiederholte Messungen in der Zeit lassen erkennen, ob man gerade auf einen Ausreißer gestoßen ist oder ob sich ein dynamisches Muster langfristig im Sinne eines Gestaltwandels verändert hat.
In vielen Praxisfeldern ist eine angemessene Evaluation bisher mit viel Aufwand verbunden und wird daher nicht realisiert. In der Sozialen Arbeit läuft eine Diskussion über die Messbarkeit von Effekten und die Evaluation von Projekten gerade erst an, wobei in dieser Diskussion kritische Stimmen bezüglich der Machbarkeit und Zweifel an der Messbarkeit durchaus dominant sind. Einen bedeutenden Schritt in die gewünschte Richtung könnte jedoch der Einsatz von internetbasierten Verfahren darstellen, welche es erlauben, ohne großen Aufwand Daten von Klienten oder Angebotsnutzern zu erheben. Der Zugang zu solchen Methoden ist örtlich und zeitlich flexibel. Verfahren wie das synergetische Navigationssystem (SNS) erlauben es, unterschiedlichste Fragebögen z. B. vor und nach bestimmten Maßnahmen, zu katamnestischen Zeitpunkten oder auch wöchentlich oder sogar täglich vorzulegen und entsprechende Daten zu sammeln, zu speichern und zu analysieren (Schiepek et al. 2011).
Der Mehrwert einer solchen prozessbegleitenden Evaluation ist gut erkennbar, erlaubt sie es doch, noch in den laufenden Prozess einzugreifen, wenn man etwa erkennt, dass bestimmte Maßnahmen sinnvoll wären oder eine Korrektur des Vorgehens angezeigt wäre. Evaluation bekommt damit über den Zweck der Qualitätsdokumentation hinaus die Funktion einer Prozesssteuerung. International bekannt geworden sind in diesem Zusammenhang die Arbeiten von Mike Lambert und seiner Gruppe (z. B. Lambert 2010; Lambert et al. 2005), die zeigen konnten, dass rechtzeitige Hinweise auf ausbleibende Effekte oder gar Verschlechterungen von den Therapeuten sinnvoll genutzt werden können, insbesondere wenn sie auch Strategien dafür an die Hand bekommen (sogenannte Clinical Support Tools), wie sie darauf reagieren können. Eingesetzt wurde in diesen Studien der sogenannter Outcome Questionnaire (OQ45), der die aktuelle Symptomatik, Problembelastung und soziale Passung (Viabilität) erfragt. Sich anbahnende Verschlechterungen können ohne derartige Rückmeldemethoden offenbar auch von erfahrenen Therapeuten nicht (rechtzeitig) erkannt und damit auch nicht therapeutisch berücksichtigt werden.
Ein Routineeinsatz von Prozessfeedback- und Evaluationsmethoden (Feedback) wie des SNS wäre in Zukunft sicher wünschenswert, nicht zuletzt deshalb, weil damit die Praxis der Sozialen Arbeit, aber auch des Coachings und der Beratung (wozu es noch kaum konsequente Evaluationsbemühungen gibt) oder anderer professioneller Angebote (z. B. im Bereich der Jugendhilfe) umfassend und annähernd flächendeckend nach Nutzen und Wirksamkeit eingeschätzt werden könnte. Die Daten kämen aus der Praxis für die Praxis und wären damit hochgradig ökologisch und extern valide. Sie könnten für weitere Planungen und die Anpassung bzw. Weiterentwicklung von Maßnahmen genutzt werden, insbesondere für die Prozesssteuerung von laufenden Programmen und Therapien. Solche flächendeckenden Datensätze könnten die ohnehin nur punktuell und in ganz besonders präparierten Settings realisierbaren Randomized Controlled Trials (RCT; kontrollierte Vergleichsgruppenuntersuchungen mit standardisiertem Vorgehen) ersetzen, die ja in Feldern wie Coaching, Beratung oder Teamentwicklung ohnehin noch nicht eingesetzt wurden. In der Konsequenz wäre auch ein anderer Begriff von Evidenzbasierung notwendig. Evidenzbasiert wären demnach nicht nur Vorgehensweisen, welche Methoden nutzen, deren Wirksamkeit in kontrollierten Vergleichsgruppenstudien nachgewiesen wurde, sondern evidenzbasiert wäre ein konkretes praktisches Vorgehen im Einzelfall dann, wenn es (a) zu seiner Begründung auf Daten aus dem jeweiligen konkreten Verlauf zurückgreifen kann und (b) diese Prozessdaten nach bestimmten Entscheidungsregeln und unter Bezug auf theoretische Modelle zur Planung des Vorgehens nutzt (Schiepek et al. 2011; vgl. das Modell der »relativ rationalen Rechtfertigung« nach Westmeyer 1979, 1984). Dabei kann überlegt werden, ob nicht nur standardisierte Fragebögen und Messinstrumente zum Einsatz kommen sollten, sondern vielmehr auch auf den Einzelfall zugeschnittene Outcome- und Prozesskriterien, wie sie sich etwa einem idiografischen Systemmodell entnehmen lassen (Schiepek 1986; Schiepek et al. 1998).
Eine interessante Frage betrifft vor dem Hintergrund der Theorie komplexer Systeme die Kausalattribution von festgestellter Effektivität. Üblicherweise wird ein positiv evaluierter Effekt auf die eingesetzte Behandlungsmaßnahme, z. B. eine realisierte Intervention, zurückgeführt. Dies muss aber keineswegs schlüssig der Fall sein, wie aktuelle Prozessstudien zeigen. Diskontinuierliche Änderungen von Prozessmustern oder sudden gains in einer Therapie treten erstaunlich häufig bereits vor den eingesetzten Interventionen auf (Stiles et al. 2003; Stulz et al. 2007), zum Teil ohne jeden zeitlichen und inhaltlichen Zusammenhang, was offenbar nach komplexeren Modellen von Veränderungsprozessen verlangt. Diese sollten auf jeden Fall die Eigendynamik, die nichtlineare Resonanzfähigkeit und die Selbstorganisation von komplexen Systemen in Rechnung stellen (Haken u. Schiepek 2010).
Verwendete Literatur
Lambert, Michael J. (2010): »Yes, it is time for clinicians to routinely monitor treatment outcome.« In: Barry L. Duncan, Scott Miller, Bruce Wampold a. Mark Hubble (eds.): The heart and soul of change. Washington, DC (American Psychological Association), 2. ed., pp. 237–266.
Lambert, Michael J., Cory Harmon, Karstin Slade, Jason Whipple a. Eric J. Hawkins (2005): Providing feedback to psychotherapists on their patients’ progress: Clinical results and practice suggestions. Journal of Clinical Psychology 61: 165–174.
Schiepek, Günter (1986): Systemische Diagnostik in der Klinischen Psychologie. Weinheim (Beltz/PVU).
Stiles, Wiliam B., Chris Leach, Michael Barkham, Mike Lucock, Steve Iveson, David A. Shapiro, Michaela Iveson a. Gillian E. Hardy (2003): Early sudden gains in psychotherapy under routine clinic conditions: practice-based evidence. Journal of Consulting and Clinical Psychology 71: 14–21.
Stulz, Niklaus, Wolfgang Lutz, Chris Leach, Mike Lucock a. Michael Barkham (2007): Shapes of early change in psychotherapy under routine outpatient conditions. Journal of Consulting and Clinical Psychology 75: 864–874.
Westmeyer, Hans (1979): Die rationale Rekonstruktion einiger Aspekte psychologischer Praxis. In: Hans Albert u. Kurt H. Stapf (Hrsg.): Theorie und Erfahrung. Beiträge zur Grundlagenproblematik in den Sozialwissenschaften. Stuttgart (Klett).
Westmeyer, Hans (1984): Diagnostik und therapeutische Entscheidung: Begründungsprobleme. In: Gerd Jüttemann (Hrsg.): Neue Aspekte klinisch-psychologischer Diagnostik. Göttingen (Hogrefe), S. 77–101.