(Künstlich) intelligente Evaluation?
Das Munich Science Communication Lab und die Impact Unit von Wissenschaft im Dialog sind Evaluations-Expert*innen, die bei der Evaluation von Wisskomm-Projekten unterstützen. Im Workshop „(Künstlich) Intelligente Evaluation: Workshop zu Grenzen und Potentialen von KI in der Evaluation“ beim Forum Wissenschaftskommunikation 2025 haben sie mit den Teilnehmer*innen generative KI-Systeme als Unterstützer bei der Evaluation getestet.
von Julia Panzer, Monica Déchène, Bernhard Goodwin, Vincent Schmid-Loertzer
Ein Raum, 20 Anwendungen generativer Künstlicher Intelligenz (KI), 32 Teilnehmer*innen, eine Aufgabe: Ausprobieren, wie generative KI-Systeme für die Evaluation von Wissenschaftskommunikation genutzt werden können. Dazu haben die Impact Unit von Wissenschaft im Dialog und das Munich Science Communication Lab (MSCL) beim Forum Wissenschaftskommunikation 2025 eingeladen.
Das Munich Science Communication Lab und die Impact Unit von Wissenschaft im Dialog sind Evaluations-Expert*innen, die bei der Evaluation von WissKomm-Projekten unterstützen. Im Workshop „(Künstlich) Intelligente Evaluation: Workshop zu Grenzen und Potentialen von KI in der Evaluation“ testen Julia Panzer, Vincent Schmid-Loertzer (WiD), Bernhard Goodwin und Monica Déchène (MSCL) mit Wisskomm-Praktiker*innen, wie und welche generativen KI-Systeme an welchen Stellen im Evaluationsprozess eingesetzt werden können.
Der Ablauf
Bevor die Gruppen starten, wird thematisiert, wofür KI bisher genutzt wird. Meist dient sie im Arbeitsalltag nur der einfachen Text- oder Bildgenerierung, während Evaluation oder komplexere Datenauswertungen bislang kaum eine Rolle spielen. Im Workshop soll genau dieser Einsatzbereich nun erweitert und praktisch erprobt werden.
In insgesamt acht Kleingruppen probieren die Teilnehmenden generative KI-Anwendungen an unterschiedlichen Punkten im Evaluationsprozess fiktiver Wisskomm-Projekte aus. Welche generativen KI-Anwendungen die Gruppen wählen, ist ihnen selbst überlassen. Einführend kurz vorgestellt werden ChatGPT, Claude, Perplexity, Elicit, Semantic Scholar, Scite.ai, Notion AI, Miro AI, Figma AI, R-Plugins, Obsidian AI, Qualtrics AI, SurveyMonkey Genius, MAXQDA AI Assist, MonkeyLearn, Airtable AI, Lucidchart AI, Canva AI, Tableau AI und StableDiffusion. Ihnen werden pro Gruppe verschiedene Rollen und Aufgaben zugewiesen: Zwei Gruppen testen generative KI-Anwendungen als Sparringspartner*in in der Ideenfindungsphase, zwei Gruppen nutzen sie zur Erstellung von Ablaufplänen, zwei Gruppen entwickeln mit ihnen Fragebögen und zwei Gruppen nutzen generative KI-Anwendungen als Datenanalyst*in.
Zuerst probieren die Gruppen die Tools frei aus, formulieren eigene Prompts und geben individuelle Anweisungen ein. Im Anschluss arbeiten sie mit vorbereiteten Prompts, die der jeweiligen Anwendung Hintergrundinformationen geben. Die Prompts lauten zum Beispiel:
„Du bist ein erfahrener Assistent für eine Person, die jahrelange Expertise im Bereich Evaluation von Wissenschaftskommunikation hat. Ich möchte mit dir gemeinsam Erhebungsinstrumente entwickeln – konkret: z. B. einen Fragebogen und einen Leitfaden für Interviews mit Teilnehmenden des Projekts. Bitte stelle mir gezielte Fragen, um bei der Fragebogenentwicklung das Ziel des Instruments zu klären, die Zielgruppe und ihr Sprachniveau einzuschätzen, über die Art der Fragen zu entscheiden und notwendige demografische Angaben zu erheben.“
Im Anschluss an die Gruppenarbeit wird im Plenum gesammelt und reflektiert. Welche Aufgaben kann KI übernehmen? Wo verursacht sie Mehrarbeit? Und in welchen Fällen ist Vorsicht geboten?
Die Ergebnisse
Die Gruppen, die generative KI-Anwendungen als Sparringspartner*in für die Ausarbeitung von Evaluationsvorhaben genutzt haben, sind größtenteils zufrieden. Sie haben ChatGPT und Perplexity verwendet. Das Erstellen von Konzepten habe gut geklappt, Perplexity hat zusätzlich Ressourcenplanung und Material für die Durchführung erstellt, z. B. Designs für Sticker, mit denen die Teilnehmer*innen einfach zu einem Stimmungsbild beitragen können. Beide Anwendungen haben digitale Formen der Evaluation genauso vorgeschlagen und berücksichtigt wie analoge.
Auch die Gruppen, die generative KI-Anwendungen für die Erstellung von Datenerhebungstools genutzt haben, berichten Positives. Eine Gruppe hat verschiedene generative KI-Anwendungen – ChatGPT, Perplexity und die KI einer der vertretenen Institutionen – verglichen und Vor- und Nachteile bewertet. Sie merkt an, dass Perplexity mehr kritische Fragen stelle als die anderen, die interne KI könne insgesamt aber durchaus mithalten.
Die Gruppen, die mit generativen KI-Anwendungen Fragebögen entworfen haben, haben ausschließlich ChatGPT genutzt und sich mit dem Formulieren von Prompts schwer getan. So sei die präzise und zielführende Formulierung zeitaufwendig gewesen. Die in den vorgegebenen Prompts beschriebene Rolle habe zudem auch das Ergebnis merklich beeinflusst. Die vorgegebenen Prompts führten zu zielgruppenspezifischeren, jugendgerechten Frageformulierungen und einer optimierten Anordnung von Eisbrecher- und demografischen Fragen. Am Ende seien dennoch nutzbare Fragebögen herausgekommen.
Sehr kritisch äußerten sich die Gruppen, die mit ChatGPT und Perplexity Daten ausgewertet haben. Die Aufgabe sei zu komplex, um sie KI allein zu überlassen: „Man muss schon wissen, was die Daten überhaupt aussagen können und welche Fragen die ‘richtigen’ an die Daten sind“. Zudem sei für die Gruppen die Bewertung der Ergebnisse schwierig gewesen, auch weil man den Datensatz nicht gut kannte. Offen bleibt für sie auch die Frage, welche zeitlichen und fachlichen Ressourcen man benötigt, um zu belastbaren Ergebnissen zu kommen. Gerade, wenn keine Kenntnisse über Datenauswertungsmethoden vorliegen, müsse hinterfragt werden, ob die Nutzung generativer KI-Anwendungen für Lai*innen effizient und sicher sei. Außerdem diskutieren die Teams, auf welcher Basis von der KI-Anwendung Analysen erstellt wurden. Einige Anwendungen gäben Quellen an, andere verschwiegen sie. Prompting, die schrittweise Abfrage mit generativen KI-Anwendungen und die Überprüfung von Prompts koste zudem viel Zeit.
Das Fazit
Generative KI-Anwendungen, die auf Large-Language-Modellen basieren, überzeugen derzeit besonders bei kreativen oder Brainstorming-Schritten im Evaluationsprozess. Und auch die Übersetzung und die Arbeit mit Daten und Material in unterschiedlichen Sprachen birgt große Vorteile.
Je komplexer die Aufgabe jedoch wird, desto fehleranfälliger werden die Ausführungen. Ohne Kontrolle wollen die Teilnehmenden des Workshops die Lösungen der generativen KI nicht durchwinken und mahnen zu genereller Vorsicht bei der Nutzung. Sie fordern, das Erlernen des Umgangs mit ausgewählten generativen KI-Anwendungen systematisch an Institutionen zu verankern. KI nehme zwar Aufgaben ab, ersetze aber nicht die eigenen Fähigkeiten und Kenntnisse und könne bestenfalls ergänzen.
Künstliche Intelligenz sei vergleichbar mit Praktikant*innen, sagt ein Teilnehmer in der Reflexionsrunde: Man erhoffe sich eine höhere Zeitersparnis als real beobachtbar, der Aufwand für Training und Betreuung werde unterschätzt und die Kenntnisse lägen nach wie vor bei einem selbst. Gleichzeitig zeigt der Workshop, dass KI – so selbstverständlich sie inzwischen zur Text- oder Bildgenerierung im Arbeitsalltag eingesetzt wird – auch in der Evaluation von Wissenschaftskommunikation sinnvoll genutzt werden kann. Voraussetzung dafür ist, dass der Einsatz kontinuierlich geübt, erprobt und kritisch reflektiert wird. Gerade dafür sind der gemeinsame Erfahrungsaustausch und konkrete Anwendungsbeispiele, wie sie in diesem Workshop angewendet wurden, zentral.
Weitere Informationen zu den Projekten und den Angeboten finden Sie auf der Website der Impact Unit und des Munich Science Communication Labs.