Generative Künstliche Intelligenz – Stand und Perspektiven

"Wir sind und bleiben wachsam und kritisch im Umgang mit KI." Generative Künstliche Intelligenz Zitat Barbara Budrich

Als frühe generative KIs ihre Arbeit aufnahmen, gab es viel Spott und Häme. Die ersten Versionen halluzinierten auf erfrischend lustige Art und Weise: Salami-Scheiben auf der Pizza mit einem kleinen Tropfen Kleber zu befestigen (Der Standard 24.5.2024 [Zugriff 7.11.2025]), sollte deren Verrutschen verhindern – daran ist leicht zu merken, dass Künstliche Intelligenz selten Pizza isst.

Gar nicht lustig war, wie schnell KI begann, rassistisch, antisemitisch, misogyn und allgemein aggressiv zu werden (Die Welt 25.3.2016 [Zugriff 7.11.2025]) – von der aktuellen Instrumentalisierung von Grok ganz abgesehen (Die Zeit 10.7.2025 [Zugriff 7.11.2025]). Oder wie eine Künstliche Intelligenz als Rekrutierungsunterstützung abgeschaltet werden musste, weil ihr Vielfalt und Gleichstellung nicht beizubringen waren (Die Zeit 18.10.2018 [Zugriff 7.11.2025]).

Die Vorurteile derer, die das Training der KI begleiteten, wie auch die Vorurteile der Texte, die zum Training der KI eingesetzt wurden – also der Input – spiegelt sich im Output.

 

Generative Künstliche Intelligenz: Die Datenbasis

Doch worauf basiert eigentlich das Training der Sprachmodelle, die sich mehr und mehr in unser aller elektronischen Alltag einmischen? Nicht nur vereinzelten Presseberichten zufolge sind massenhaft Texte von Piraterie-Plattformen in das Training eingeflossen (Der Standard 15.1.2025 [Zugriff 7.11.2025].

Zur Erinnerung: Piraterie-Plattformen sind im Internet zugängliche Datenbanken, auf denen urheberrechtlich geschütztes Material ungeschützt und ohne Vergütung für die Rechteinhaber*innen zur weiteren Verwendung angeboten wird. Während Verlage, Autor*innenverbände und viele andere, die sich um den Schutz des Urheberrechts bemühen, daran arbeiten, Piraterie-Plattformen abzuschalten, wurde und wird so manches Large Language Model (LLM) mit dem dort feilgebotenen Material trainiert.

Diese Daten sind gestohlen. Deren Nutzung ist widerrechtlich. (Ich will jetzt gar nicht darauf eingehen, dass manche Wissenschaftler*innen selbst ohne jedes Unrechtsbewusstsein Material von solchen Plattformen nutzen. Und dass ich von Einrichtungen und einzelnen Professor*innen gehört habe, die ihre Studierenden gezielt dort hinschicken. Es bleibt gesetzeswidriges Verhalten!)

Die großen Tech-Konzerne sagen im Übrigen dazu, dass sie große Datenmengen benötigen, um ihre LLMs zu trainieren. Eine Vergütung von Urheber*innen hingegen sei zu aufwändig und zu teuer.

 

Open Access und KI-Training

Zu meiner großen Verwirrung habe ich gelernt, dass eine Open-Access-Veröffentlichung nicht automatisch bedeutet, dass KI-Training damit rechtens betrieben werden darf. Allein schon der Zusatz „BY“ der weit verbreiteten OA-Lizenz CC-BY besagt, dass die Urheber*innen zu benennen sind.

Was beim KI-Output häufig nicht passiert: Die Namen der Autor*innen „verschwinden“ in der großen Datenmasse. Wobei aktuelle KI-Modelle Quellen angeben (können) – die zu prüfen sind, denn manche Quelle ist nach wie vor frei erfunden.

Doch gibt es auch Stimmen, die sagen: Open Access kann und darf nicht verwendet werden, um Zugang in jedweder Form zu erschweren. Denn die Haltung hinter Open Access ist genau dies: Offenheit. Also auch Offenheit gegenüber KI-Trainings.

 

KI-Training als Text and Data Mining

Wie das Training von KI rechtlich zu bewerten ist, ist nicht ganz eindeutig. Ist es eine neue Form der Nutzung? Oder fällt es in den Bereich des „Text and Data Mining“, wie im AI Act der EU festgehalten?

Zur Erinnerung: Der AI Act der EU wurde formuliert, bevor ChatGPT & Co ihren Siegeszug angetreten hatten. Die dort verhandelte Künstliche Intelligenz ist analytische KI, nicht generative KI. Mit anderen Worten: Large Language Models waren gar nicht gemeint. Nun sind sie aber implizit „mitgemeint“. Damit fällt zumindest aktuell das Training von LLMs in den Bereich des TDM. Das hat Konsequenzen.

Dem TDM für wissenschaftliche, nicht-kommerzielle Zwecke kann niemand widersprechen (§ 60g Abs. 1 UrhG). Wissenschaftlich begründetes TDM fällt unter eine sogenannte Schrankenregelung. Das bedeutet: Es ist urheberrechtlich erlaubt und wird über pauschale Vergütungen (vermittelt über die VG Wort) abgegolten.

Da bleibt allen Urheber*innen wenigstens ein (kleines) Geld. Das jüngste einschlägige Gutachten erlaubt wissenschaftlichen Bibliotheken also das KI-Training im Sinne des der Wissenschaft dienenden TDM. Kommerzielle Verlage dürfen dies so zunächst einmal nicht, ohne sich die entsprechenden Rechte von ihren Autor*innen zusichern zu lassen.

Der Gesetzgeber unterscheidet aber das wissenschaftliche TDM vom kommerziellen TDM. Und so ist die Möglichkeit vorgesehen, einen Text aus dem kommerziellen TDM heraushalten zu können (§ 44b Abs. 3 UrhG). Eine entsprechende Formulierung im Impressum und den Metadaten der Publikationen soll dies bewirken. Damit wäre zumindest theoretisch das KI-Training durch diese Art des TDM Opt-out möglich.

Ich sage theoretisch, weil teils vermutet wird, dass Crawler Opt-outs ignorieren. Und zweitens gibt es in den USA den Vergleich um die KI-Firma Anthropic. Der in diesem Verfahren zuständige Richter hat beschieden: KI-Training fällt in den Bereich des sog. Fair Use. Damit ist es in den USA allen und jedem erlaubt, LLMs auf der Basis urheberrechtlich geschützten Materials zu trainieren.

Im angesprochenen Gerichtsverfahren kam es zu einem Vergleich und Anthropic musste den betroffenen Urheber*innen Geld zahlen. Aber nicht wegen des KI-Trainings, sondern weil das KI-Training auf der Basis von urheberrechtlich geschütztem Material stattgefunden hatte, das Anthropic von Piraterie-Plattformen eingesammelt hatte.

 

Generative Künstliche Intelligenz: Wie weiter?

Aktuell scheint in der EU eine Stimmung zu herrschen, die technologische, vor allem KI-Innovation vor den Schutz der Urheberrechte stellt. Das Beschädigen von Urheberrechten erscheint im Vergleich zu den möglichen Milliardengewinnen für Tech-Konzerne im Peanut-Bereich. Kreative schlagen Alarm und sehen ihre Existenzgrundlage bedroht.

Das ist der Hintergrund, vor dem wir als Verlag überlegen, wie wir mit dem Thema umgehen. Es gibt aktuell ein Lizenzierungsfenster: Einzelne Unternehmen aus unserer Branche kommen auf uns zu und möchten mit uns KI-Lizenzen vereinbaren. Und ein Raunen geht durch den virtuellen Raum – ich habe gehört, dass selbst große Tech-Konzerne Lizenzen mit kleineren Verlagen ins Geschäft kommen möchten. Was tun?

Wir haben eine Formulierung zum Thema Künstliche Intelligenz in unsere Verträge aufgenommen: Wir möchten unsere Autor*innen bitten, uns zu erlauben, seriöse Lizenzierungsvereinbarungen einzugehen. (Gegen die Unseriösen war und ist es schwierig vorzugehen. Und gegen das, was aktuell in den USA auf der Fair-Use-Basis passiert, sind wir völlig machtlos.)

Wir planen, unsere eigenen KI-Anwendungen zu entwickeln. Erste kleine Experimente mit einzelnen Lernmodulen zur Entwicklung einer KI-gesteuerten, adaptiven Lernumgebung haben wir gemeinsam mit den jeweiligen Autor*innen unternommen; es wird aber noch dauern, bevor wir „in Serie“ gehen können. Und wir arbeiten daran, mit fachlich orientierten RAG-Systemen Wissenschaft und Praxis zu unterstützen. (Ganz kurz gefasst sind dies Systeme für „Retrieval Augmented Generation“, also spezialisierte KIs, die auf ganz spezifische Kenntnisse und Expertise trainiert werden. Um für die Wissenschaft oder ihre nachgelagerte Praxis nutzbar zu sein, geben sie Quellen an und sind gehalten „ich weiß nicht“ zu sagen, anstatt zu halluzinieren – aber Halluzination gehört in Maßen zum System.)

Anders als Verlagskollegen, denen zweistellige Millionenbeträge oder mehr zur Investition zur Verfügung stehen, arbeiten wir mit Bordmitteln. Und wir sind auf der Suche nach Wissenschaftler*innen aus unseren Fachbereichen, die mit uns über den sinnvollen KI-Einsatz diskutieren und vielleicht sogar Projekte mit uns angehen möchten.

Wir sind und bleiben wachsam und kritisch im Umgang mit KI. Und wir können und wollen uns im Bewusstsein der Risiken die Chancen nicht nehmen, die darin stecken.

 

Die Autorin

Budrich, Barbara 2024 © privat

Barbara Budrich ist Verlegerin und Inhaberin des Verlags Barbara Budrich. Im Umgang mit generativer KI im Verlagsumfeld plädiert sie für kritische Wachsamkeit, seriöse Lizenzierungsvereinbarungen und zukunftsgerichtete Kooperationen mit Autor*innen.

 

 

Sie haben Fragen zum Umgang mit KI im Verlag Barbara Budrich?

Nehmen Sie Kontakt zu uns auf!

 

© Foto Barbara Budrich: privat | Titelbild gestaltet mit canva.com