Fokusrunde 2: Evaluation und Wirksamkeitsmessung von MINT-Angeboten

Prof. Dr. Elke Wolf, Hochschule München
Layout
Fokusrunde 2 Prof. Wolf

Im Rahmen der Fokusrunde 2 teilte Professorin Elke Wolf von der Hochschule München ihr fundiertes Fachwissen zur Evaluation und Wirksamkeitsmessung von MINT-Angeboten. Dabei ging sie auf die vielfältigen Gründe einer Evaluation ein, adressierte spezifische Herausforderungen der Evaluation von MINT-Projekten, und stellte einen etablierten Evaluationsansatz vor, den die Teilnehmenden in einer praktischen Übung gemeinsam erproben konnten.

Hinweis: Eine ausführlichere Darstellung der Inhalte kann im Werk „Wirkung messen – Handbuch zur Evaluation von MINT-Projekten für Schülerinnen“ (Wolf & Brenning, 2021) gefunden werden. Das kompakte Handbuch begleitet Projektverantwortliche in zehn praxisnahen Schritten durch die Evaluation und steht hier zum kostenlosen Download zur Verfügung.

Funktionen von Evaluation

Eine Evaluation kann verschiedene Funktionen erfüllen. Zum einen trägt sie dazu bei, Wissen zu generieren – beispielsweise über Wirksamkeit und Wirkungsmechanismen einer Maßnahme (Erkenntnisfunktion). Gleichzeitig können Evaluationsergebnisse ein wichtiges Signal für Qualitätsbewusstsein setzen und die kontinuierliche Weiterentwicklung der eigenen Angebote fördern (Optimierungsfunktion). Darüber hinaus helfen sie dabei, Lernen und Austausch der Projektverantwortlichen – auch mit den Verantwortlichen anderer Projekte – zu fördern (Lern- und Dialogfunktion). Und schließlich kann Evaluation helfen, den sinnvollen Einsatz von Ressourcen nachzuweisen (Legitimationsfunktion), denn oft wird auf Basis von Evaluationsergebnissen entschieden, ob eine nachhaltige Verstetigung des Vorhabens chancenreich ist (Entscheidungsfunktion). All diese Motive können eine Evaluation sinnvoll und notwendig machen.

Herausforderungen von Evaluation

Die Evaluation von MINT-Projekten ist mit besonderen Herausforderungen verbunden, denn der langfristige Erfolg ist mitunter erst nach Jahren beobachtbar und eine Evaluation mit einem Fokus auf künftiges Handeln wäre aus mehreren Gründen problematisch. Zum einen ist es aufwändig und kostspielig, langfristige Effekte wie die Wahl eines MINT-Berufs zu messen. Eine weitere Herausforderung ist, dass ein MINT-Projekt nur einer von vielen Faktoren ist, die die spätere Berufswahl beeinflussen. Diese komplexe Wirkrealität sollte jedoch nicht entmutigen. Im Gegenteil: Jede positive Beeinflussung dieser Faktoren kann dazu beitragen, die Entscheidung für einen MINT-Beruf zu fördern. Daher sollten relevante Erfolgsindikatoren – etwa fachliche Defizite oder mangelndes Interesse – mithilfe eines theoretisch fundierten Wirkungsmodells (Logic Chart) gezielt abgeleitet werden. Professorin Wolf betonte dabei die besondere Wichtigkeit, die Erfolgsindikatoren vor und nach Ende des Projekts zu messen, um valide Aussagen über dessen Wirksamkeit treffen zu können.

Wirkungsmodell (Logic Chart)

Das Logic Chart ist ein wirkungsorientiertes Modell, das die verschiedenen Ebenen der Zielerreichung in einem Projekt systematisch abbildet und dadurch die Planung und Evaluation erleichtert. Dabei sollten neben der primären Zielgruppe auch andere relevante Anspruchsgruppen mitgedacht werden. Am Anfang steht der Input – also die eingesetzten Ressourcen wie Personal, Zeit oder finanzielle Mittel, die für die Durchführung eines Projekts notwendig sind.

Die erste Wirkungsebene, der Output, beschreibt die direkten, unmittelbar messbaren Ergebnisse der Aktivitäten. Im Beispiel eines MINT-Projekts wäre das etwa die Akzeptanz des Angebots: Wie bewerten die Teilnehmenden die Veranstaltungen, die Inhalte oder das Gesamtprogramm? Wie schätzen sie die Betreuer*innen und Organisator*innen ein? Und würden sie das Projekt weiterempfehlen oder erneut teilnehmen? Diese Indikatoren zeigen, ob das Angebot grundsätzlich angenommen wird und sind eine wichtige Voraussetzung für weitergehende Effekte.

Die nächste Ebene ist der Outcome, der sich auf kurz- bis mittelfristige Ergebnisse einer Maßnahme bezieht. Hierzu zählen etwa eine gesteigerte Motivation und ein wachsendes Interesse am MINT-Bereich, eine verbesserte Orientierung bei der Studien- und Berufswahl oder eine gestärkte Selbstwirksamkeit. Auch eine Verringerung von Geschlechterstereotypen kann ein Outcome sein. Diese Ebene ist entscheidend, weil sie zeigt, ob das Projekt tatsächlich die Einstellungen und Bewertungen der Zielgruppe positiv beeinflusst. Zudem bilden die Outcomes die notwendige Grundlage, um langfristige Wirkungen (Impacts) zu ermöglichen.

Die höchste Ebene im Logic Chart ist der Impact, der langfristige und nachhaltige Verhaltensänderungen umfasst. Im Kontext von MINT-Projekten bedeutet das zum Beispiel, dass Teilnehmende die Absicht entwickeln, ein MINT-Studium zu beginnen oder einen entsprechenden Beruf zu wählen. Diese Indikatoren sind besonders relevant für die gesellschaftliche Zielsetzung solcher Projekte, stellen die Evaluation jedoch vor die Herausforderung, solche Veränderungen tatsächlich zu erfassen. An dieser Stelle kann man sich in der Praxis eines bewährten Hilfsmittels bedienen: Forschungsbefunde zeigen, dass bereits die Intention, einen MINT-Beruf zu ergreifen, als valider Prädiktor für die tatsächliche Entscheidung gilt und daher sinnvoll als Indikator in Evaluationsbefragungen genutzt werden kann.

Fazit: Durch die klare Zuordnung von Indikatoren zu den einzelnen Ebenen hilft das Logic Chart, die Wirkungskette eines Projekts transparent zu machen. Für die Evaluation bedeutet das: Man kann gezielt überprüfen, an welchen Stellen ein Projekt wirkt, wo es Verbesserungsbedarfe gibt und wie die einzelnen Maßnahmen zur Erreichung der übergeordneten Ziele beitragen.

Qualitätsmerkmale guter Evaluation

Gute Evaluation zeichnet sich vor allem durch ein methodisch sauberes Untersuchungsdesign aus, das belastbare Aussagen über die Wirkung eines Projekts ermöglicht. Je höher die methodische Qualität des Designs, desto zuverlässiger lassen sich Wirkungen nachweisen und Fehlinterpretationen vermeiden.

Das experimentelle Design gilt dabei als Goldstandard und steht daher an der Spitze der Evaluationsmethoden. Hier werden Teilnehmende zufällig auf eine Interventions- und eine Kontrollgruppe verteilt, und es finden sowohl vor als auch nach der Maßnahme Befragungen statt. Nur so lässt sich mit hoher Sicherheit feststellen, ob beobachtete Veränderungen tatsächlich auf das Projekt zurückzuführen sind und nicht auf andere Einflüsse – diese hohe interne Validität macht das Experiment so wertvoll.

Quasi-experimentelle Designs sind etwas weniger aussagekräftig, da die Zuteilung zu den Gruppen nicht zufällig erfolgt. Typisch ist hier eine Vorher-/Nachherbefragung mit Vergleichsgruppen-Design oder eine reine Nachherbefragung mit Vergleichsgruppen-Design. Auch wenn diese Ansätze helfen, Unterschiede zwischen Gruppen sichtbar zu machen, können sie nicht alle Störfaktoren ausschließen.

Am wenigsten belastbar sind vorexperimentelle Designs, wie etwa eine reine Vorher-/ Nachherbefragung ohne Vergleichsgruppe oder sogar nur eine Nachherbefragung. Hier fehlt der direkte Vergleich, sodass Veränderungen nicht eindeutig auf die Maßnahme zurückgeführt werden können.

Um die Qualität ihrer Evaluation sicherzustellen, sollten Projektverantwortliche alle Projektphasen – insbesondere auch die frühen – kontinuierlich mit Datenerhebungen begleiten. Nur so lassen sich Veränderungen und Entwicklungen im Projektverlauf systematisch erfassen, Erfolge und Herausforderungen zeitnah identifizieren und gegebenenfalls Anpassungen im Projektdesign vornehmen.

Praktische Umsetzung

Bei der Durchführung von Befragungen unterscheidet man zwischen synchronen und asynchronen Formen:

  • Synchrone Befragungen (im Rahmen einer Präsenzveranstaltung) bieten den Vorteil, dass die Erhebungsbedingungen kontrolliert werden können und meist ein hoher Rücklauf erzielt wird. Allerdings werden abwesende Personen dabei nicht erfasst.
  • Asynchrone Befragungen (online oder per Post) ermöglichen es den Teilnehmenden, den Fragebogen ortsunabhängig und in ihrem eigenen Tempo zu bearbeiten. Hier ist jedoch die Kontrolle über die Erhebungssituation gering und der Rücklauf fällt tendenziell niedriger aus.

Welche Befragungsform am besten geeignet ist, sollte anhand der eigenen Zielsetzungen, Rahmenbedingungen und Ressourcen sorgfältig abgewogen werden.

Abschließend gab Professorin Wolf den Teilnehmenden wertvolle Tipps für eine gelungene Evaluation ihrer MINT-Projekte:

  • Quantitative Erhebungen sind qualitativen Erhebungen vorzuziehen, da diese leichter auszuwerten und besser zu kommunizieren sind.
  • Bei Fragebogengestaltung gilt der Grundsatz „Weniger ist mehr“ – die Befragung sollte maximal sieben Minuten dauern. Dies erhöht die Akzeptanz bei den Teilnehmenden und begünstigt eine hohe Rücklaufquote.
  • Der Einsatz validierter Fragen trägt dazu bei, die Zuverlässigkeit und Gültigkeit der Ergebnisse zu steigern.