VON CHRISTOS SIMIS (BOCHUM)
Dieser Beitrag erscheint im Rahmen des Themenschwerpunkts „Künstliche Intelligenz in der philosophischen Hochschullehre“.
Spätestens seit Ende 2022, seit der Veröffentlichung von ChatGPT für die breite Öffentlichkeit, ist „künstliche Intelligenz“ oder „KI“ zu einem Buzzword geworden. Überall wird nicht nur von „KI“ gesprochen, sondern KI wird auch überall in irgendeiner Form eingesetzt. Nicht überraschend ist es deshalb, dass das Philosophiestudium und die Philosophielehre ebenfalls von diesen Entwicklungen betroffen sind. Allerdings: Was bedeutet es, KI in diesem Kontext einzusetzen? Welche Implikationen kann ein solcher Einsatz haben? Ist er sinnvoll und wünschenswert?
Beginnen möchte ich mit „KI“ als Oberbegriff. Darunter können viele verschiedene Technologien subsumiert werden, von Empfehlungsalgorithmen bis zu generativen Sprachmodellen, Bildgeneratoren und anderem. Daher die Frage: Wenn es um „KI in der Philosophielehre“ gehen soll, welche konkrete Technologie ist damit gemeint? Damit verbunden sind die Fragen, für was und zu welchem (didaktischen) Zweck eine solche Technologie eingesetzt werden soll. Mit anderen Worten: Was sind die konkreten Einsatzszenarien und was soll mit dem Einsatz erreicht werden? Dazu gehört beispielsweise ebenfalls zwischen verschiedenen Akteur*innen zu unterscheiden, wie Studierende oder Lehrende. Die Konkretisierung der Einsatzszenarien und -zwecke ist wichtig für die Frage, ob der Einsatz von KI-Technologien in der Philosophielehre sinnvoll ist oder nicht. Im Folgenden werde ich mich ausschließlich auf die Hochschullehre konzentrieren.
Im Kontext von KI-Technologien in der Hochschullehre ist meist, zumindest in den letzten drei Jahren, von „generativer KI“ die Rede, vor allem von generativen Sprachmodellen wie ChatGPT. Hinsichtlich der Konkretisierung der Einsatzszenarien und -zwecke entsteht bereits die erste große Herausforderung. Bei einem KI-basierten System z.B. zur Plagiatserkennung sind die Einsatzszenarien und -zwecke durch das Design selbst definiert und somit auch limitiert. Bei generativen Technologien, wie großen Sprachmodellen, sieht es jedoch ganz anders aus. Generative Modelle solcher Art haben keine prädefinierte Funktion, sondern generieren lediglich Output in bestimmten Formaten, wie Text, Bild, Audio oder Video. Wenn man dem Marketing von OpenAI glauben soll, kann ChatGPT in Bildungskontexten für vieles eingesetzt werden: nach Informationen suchen, organisieren und planen, Bildungsmaterialien erstellen und natürlich fertige Texte generieren. Für was und zu welchem Zweck ChatGPT eingesetzt werden kann, bleibt den Nutzenden überlassen.
Studierende können generative Sprachmodelle für verschiedene Zwecke nutzen. Im Kontext der Philosophie können Studierende beispielsweise philosophische Theorien durch ChatGPT erklären lassen, nach Informationen über konkrete Philosoph*Innen suchen, Lernpläne zur Prüfungsvorbereitung erstellen lassen, Ideen für Hausarbeiten oder sogar fertige Texte für Schreibaufgaben generieren lassen. Lehrende können durch generative Sprachmodelle Seminarpläne, Aufgaben und sonstige Bildungsmaterialien erstellen lassen und mehr. Die Frage ist allerdings, ob ChatGPT und Co. für die jeweiligen Einsatzszenarien und -zwecke tatsächlich geeignet sind.
Generative Sprachmodelle sind z.B. als Informationsquelle notorisch unzuverlässig. Sie sind bekannt dafür, dass der Output faktisch falsch sein kann. Dieses sogenannte „Halluzinieren“ ist allerdings kein bug im System, sondern wird durch das Design selbst ermöglicht. Denn solche Modelle generieren plausibel klingende Sätze auf Basis von Wahrscheinlichkeitsverteilungen. Wahrheit des Outputs gehört nicht zu den Design-Prinzipien. Insbesondere in Forschung und Lehre, wo faktische Korrektheit und Belegpflicht anhand von Referenzen von grundlegender Bedeutung sind, stellen generative Sprachmodelle, die nicht nur vermeintliche Fakten, sondern auch Referenzen frei erfinden können, eine Gefahr dar.
Zum Teil kann dieses Problem durch eine sogenannte RAG-Erweiterung (Retrieval Augmented Generation) gemindert werden. Diese ermöglicht, dass das Sprachmodell für die Generierung von Textbausteinen (Tokens) zusätzlichen Kontext direkt aus Dokumenten oder einer Datenbank nutzt. Zum Beispiel AnythingLLM ist eine open source Applikation, die Nutzenden ohne Programmierkenntnisse ermöglicht, open source Sprachmodelle mit integrierter RAG-Pipeline zu nutzen. Selbst mit RAG ist jedoch nicht gewährleistet, dass die generierten Inhalte wahr sind. Denn ein Sprachmodell kann nicht den gesamten RAG-Datensatz speichern, sondern nutzt ihn, um Tokens weiterhin durch probabilistische Verteilungen zu generieren. Sind also generative Sprachmodelle als Informationsquelle geeignet? Die Frage lässt sich pauschal nicht beantworten und wäre kontext- und fallspezifisch zu beurteilen. Ich sehe allerdings trotzdem hinreichende Gründe, um skeptisch zu sein, besonders in Bildungskontexten. In anderweitigen „low stakes“ Fällen fände ich es weniger problematisch.
Neben der Halluzinationsproblematik bei generativen Sprachmodellen ist Bias ein weiterer großer Themenkomplex. Das Output kann diverse Verzerrungen enthalten und in manchen Fällen zu Diskriminierungen führen, etwa durch herabwürdigende Bezeichnungen für LGBTQIA+ Personen oder Menschen mit Behinderungen. Das liegt daran, dass einerseits dominante Ansichten in den Trainingsdaten von Sprachmodellen tendenziell überrepräsentiert sind, während marginalisierte Ansichten eher unterrepräsentiert sind. Andererseits tragen generative Sprachmodelle dazu bei, dass bestehende Stereotype und Vorurteile reproduziert, wenn nicht sogar verstärkt werden.
Im Kontext der Philosophie kann dies die Reproduktion des schon bestehenden Diversitätsproblems bedeuten. Mainstream-Philosophie ist überwiegend westlich, weiß und männlich geprägt. Wichtige diversitätsfördernde und diskriminierungsbekämpfende Arbeit, die durch marginalisierte Philosoph*innen in den letzten Jahren geleistet wurde und weiterhin geleistet wird, bleibt leider immer noch am Rande. Der Einsatz von generativen Sprachmodellen in der Philosophielehre kann dieses Phänomen verschärfen, indem dominante philosophische Theorien und Personengruppen beim Output solcher Modelle überrepräsentiert dargestellt werden, während marginalisierte Theorien und Philosoph*innen weiterhin unsichtbar bleiben oder sogar noch stärker marginalisiert werden. Diese Gefahr ist besonders dann groß, wenn generative Sprachmodelle „out of the box“ genutzt werden, ohne konkrete Anti-Bias Maßnahmen, wie diversifizierte Trainingsdaten, eine RAG-Erweiterung, Fine-Tuning oder Ähnliches.
Aus den bisherigen Ausführungen mag der Eindruck erweckt worden sein, dass die Probleme und Gefahren rund um den Einsatz von KI-Technologien in der Hochschullehre allein technischer Natur sind und somit technisch gelöst werden können. Das ist allerdings nur eine Seite der Medaille. Aus einer Mikro- und Mesoperspektive ist es noch weitestgehend ungeklärt, welche konkreten Auswirkungen der Einsatz von generativen Modellen in der Hochschullehre hat bzw. haben kann. Konkret auf die Philosophie bezogen: Wie verändert der Einsatz von Sprachmodellen das Philosophieren als Aktivität, die Philosophielehre als Tätigkeit sowie das Selbstverständnis der Philosophie als Fach? Sind diese Veränderungen wünschenswert? Es gibt schon erste Indizien, dass die Nutzung von generativen Sprachmodellen zu einer Verschlechterung der kritischen Reflexionskompetenz führen kann (Gerlich, 2025; Reinmann et al., 2025). Wenn kritische Reflexion die Kernkompetenz des Philosophierens sein soll, scheint der Einsatz von solchen Technologien, die diese unterminieren, kontraproduktiv zu sein. Ob generative Sprachmodelle auf eine Art und Weise eingesetzt werden können, die das kritische Reflexionsvermögen nicht schwächt oder sogar stärkt, ist unklar.
Des Weiteren ist bei generativen Sprachmodellen eine unfaire Verteilung von Vorteilen und Nachteilen zu beobachten. Aufgrund ihrer statistischen Natur sind diese Technologien für diejenigen, die außerhalb des Mittelwertes fallen, prinzipiell weniger vorteilhaft oder sogar nachteilig. Demnach kann der Einsatz von generativen Modellen im Studium und Lehre zur Verschärfung der Kluft zwischen privilegierten und benachteiligten Studierenden führen. Generative Sprachmodelle generieren beispielsweise qualitativ schlechteren sowie faktisch inkorrekten Output disproportional häufiger für Nicht-Muttersprachler*Innen als für Muttersprachler*innen (Reusens et al., 2024; Poole-Dayan et al., 2024).
Dagegen könnte man argumentieren, dass generative Sprachmodelle aber genau dafür eingesetzt werden können, um Nicht-Muttersprachler*innen dabei zu helfen, fremdsprachige Texte besser zu verstehen oder „bessere“ Texte in einer Fremdsprache zu schreiben. Dies ist allerdings eine Pflaster-Lösung für ein allgemeineres (kein technisches, sondern menschliches) Problem linguistischer Diskriminierung. Aus meiner Sicht wäre es sinnvoller und wünschenswerter, eine Kultur des zugänglichen und barrierefreien Schreibens zu fördern, statt unzugängliche und barrierereiche Texte durch Sprachmodelle simplifizieren zu lassen. Ähnliches gilt für das Generieren oder Redigieren von („besseren“) Texten für Nicht-Muttersprachler*innen. Durch den Einsatz von Sprachmodellen für diesen Zweck wird nicht die unterlegene kognitive Bias adressiert, dass Muttersprachler*innen die inhaltliche Textqualität von Nicht-Muttersprachler*innen geringer einschätzen, je niedriger die Sprachbeherrschung der Autor*in erscheint. Vielmehr werden die Nicht-Muttersprachler*innen aufgefordert, eine Technologie zu nutzen, um linguistische Diskriminierung zu vermeiden. Wünschenswerter wäre es in meinen Augen, dass die Privilegierten (Muttersprachler*innen) ihre eigene Bias bekämpfen, statt die Verantwortung auf die Benachteiligten (Nicht-Muttersprachler*innen) zu verschieben, „bessere“ Texte mit Sprachmodellen zu schreiben, damit sie nicht diskriminiert werden.
Aus einer Makroperspektive ist eines der größten Probleme des Einsatzes von KI-Technologien in der Hochschullehre, dass KI-Technologien als Allheilmittel für jegliche Art von Problemen erscheinen, deren Ursachen eigentlich woanders liegen. Insbesondere für defekte Systeme und Institutionen sind mehr oder weniger raffinierte KI-Scheinlösungen sehr verlockend. Wie der Spruch so schön sagt: Wenn alles, was man hat, ein Hammer ist, dann sehen alle Probleme wie Nägel aus. Für systemisch unterfinanzierte und unterbesetzte Hochschulen erscheinen KI-Tools als ein Rettungsboot. Lehrende können angeblich entlastet werden, indem ein erheblicher Anteil der Studierendenbetreuung an „Intelligent Tutoring Systems“ outgesourcet werden kann. Auch für Studierende kann ein Rund-um-die-Uhr-Studienhilfe-Chatbot als eine Erleichterung wahrgenommen werden, um mit dem hohen Leistungsdruck des Studiums klarzukommen. Diese Problematik wird dann dadurch verstärkt, dass es in der aktuellen Förderlandschaft für Universitäten viel leichter ist, Fördergelder für Chatbots einzuwerben als für Lehrpersonal. Dementsprechend ist der Einsatz von KI-Technologien in der Hochschullehre nicht nur ein didaktisches, sondern auch ein hochschulpolitisches Thema. Eine Fördermentalität ist dann problematisch, wenn KI-Technologien in der Hochschullehre bevorzugt werden, nicht weil sie die didaktisch sinnvollste und geeignetste Lösung sind, sondern bloß im Namen der „Innovation“ und „Digitalisierung“.
Sollen also KI-Technologien, wie generative Sprachmodelle, in der Philosophielehre eingesetzt werden, und wenn ja, wie? Diese Frage lässt sich pauschal nicht beantworten, sondern bedarf einer kontext- und fallspezifischen Reflexion. Welche konkrete Technologie ist mit dem Begriff „KI“ gemeint? Für was und zu welchem (didaktischen) Zweck soll sie eingesetzt werden? Ist diese Technologie für den spezifizierten Fall und Zweck geeignet? Wie verändert der Einsatz die Philosophielehre sowie das Philosophieren im Allgemeinen? Sind diese Veränderungen wünschenswert? Wer profitiert davon und wer wird benachteiligt? Dieser Beitrag konnte hoffentlich Impulse für die eigene Reflexion anbieten.
Literatur
Gerlich, M. (2025). AI Tools in Society: Impacts on Cognitive Offloading and the Future of Critical Thinking. Societies, 15(1), Article 1. https://doi.org/10.3390/soc15010006
Poole-Dayan, E., Roy, D., & Kabbara, J. (2024). LLM Targeted Underperformance Disproportionately Impacts Vulnerable Users (No. arXiv:2406.17737). arXiv. https://doi.org/10.48550/arXiv.2406.17737
Reinmann, G., Watanabe, A., Herzberg, D., & Simon, J. (2025). Selbstbestimmtes Handeln mit KI in der Hochschule: Forschungsdefizit und -perspektiven. Zeitschrift für Hochschulentwicklung, 20 (SH-KI-1), Article SH-KI-1. https://doi.org/10.21240/zfhe/SH-KI-1/03
Reusens, M., Borchert, P., Weerdt, J. D., & Baesens, B. (2024). Native Design Bias: Studying the Impact of English Nativeness on Language Model Performance (No. arXiv:2406.17385). arXiv. https://doi.org/10.48550/arXiv.2406.17385
Zur Person
Christos Simis (they/them) studierte Philosophie und Erziehungswissenschaften in Thessaloniki (GR) und Münster. They spezialisierte sich in diversen Bereichen der angewandten Ethik in Bochum und München. Seit 2021 arbeitet they an der Ruhr Universität Bochum im Bereich KI-Ethik aus feministischer und tugendethischer Perspektive unter besonderer Berücksichtigung von marginalisierten Gruppen. Unter besonderen Interessen von Christos zählen die Themen Disability und Neurodiversität.
Veröffentlicht unter der Creative Commons Lizenz CC BY-NC-SA 4.0.
Kommentare? Gern veröffentlichen wir selbst sehr kurze Repliken als eigene Beiträge. Mehr dazu unter Hinweise für Beitragende.