Grundsatzentscheidung des LG Hamburg zur urheberrechtlichen Zulässigkeit von Data Scraping für das Training von KI-Modellen
Neben einigen großen Verfahren in den USA sind nun auch in Deutschland erste Fälle vor Gericht anhängig, die sich mit interessanten urheberrechtlichen Fragen sowohl auf der Input- als auch auf der Output-Seite von KI-Modellen befassen. Das Landgericht Hamburg hat sich nun als erstes deutsches Gericht mit der urheberrechtlichen Zulässigkeit der automatisierten Sammlung und Nutzung urheberrechtlich geschützter Werke zum Zwecke des KI-Trainings befasst. In unserem Blog besprechen wir das Urteil vom 27. September 2024 (Az. 310 O 227/23), ordnen seine Bedeutung für Sie ein und geben sowohl Urhebern als auch KI-Entwicklern Hinweise für die Praxis.
1. Technischer Hintergrund
Künstliche Intelligenz (KI) hat in den vergangenen Jahren erhebliche Fortschritte erzielt und findet Eingang in immer mehr Bereiche des Alltags und des Berufslebens. Besonders von sich Reden machen große Sprachmodelle (LLMs) wie beispielsweise ChatGPT oder Bild-Generatoren wie Midjourney.
Die Leistungsfähigkeit dieser KI-Systeme hängt maßgeblich von der Qualität und Quantität der Daten ab, mit denen sie trainiert werden. Eine gängige Methode zur Sammlung dieser großen Datenmengen ist das sogenannte „Data-Scraping“. Bei diesem automatisierten Prozess durchsuchen Softwareprogramme (sog. „Bots“ oder „Crawler“) das Internet systematisch und extrahieren Informationen von Webseiten, insbesondere Texte, Bilder, Videos, Programmcodes oder andere digitale Inhalte. Der Prozess läuft dabei folgendermaßen ab: Ein Crawler besucht eine Webseite und liest deren Inhalt aus. Im Anschluss folgt er den auf der Webseite vorhandenen Links zu weiteren Seiten und wiederholt den Vorgang. Auf diese Weise können innerhalb kurzer Zeit große Datenmengen automatisiert gesammelt werden. Die gesammelten Daten werden anschließend auf Datenservern der KI-Anbieter gespeichert, für das Training der KI-Modelle verwendet und anschließend wieder gelöscht.
Data-Scraping ist deshalb besonders attraktiv, weil das freie Internet eine extrem vielfältige und umfangreiche Datenbasis bereithält, die sekündlich weiter anwächst und fortlaufend aktualisiert wird – und dennoch kostenlos zugänglich ist. Zugleich wirft die Methode zahlreiche rechtliche Fragen auf: Denn auch wenn viele Informationen im Internet frei zugänglich sein mögen, gerät ihre Extraktion und Nutzung zum Training von KI-Modellen ohne Zustimmung oder gar Lizenz in einen offensichtlichen Konflikt mit dem Urheberrecht – denn die freie Abrufbarkeit von Inhalten steht ihrem urheberrechtlichen Schutz nicht entgegen.
2. Entscheidung des LG Hamburg
In einem aktuellen Verfahren hatte das Landgericht Hamburg nun als erstes deutsches Gericht Gelegenheit, sich mit den urheberrechtlichen Implikationen solcher Datensammlungen zum KI-Training zu befassen. Das Urteil betrifft also die Input-Seite von KI-Modellen, nicht die Output-Seite (etwa die Frage der urheberrechtlichen Schutzfähigkeit KI-generierter Inhalte).
Sachverhalt
Der Kläger ist ein Produzent und Fotograf von Stockfotos, die er über verschiedene Stockfoto-Plattformen vertreibt. Beklagter ist ein gemeinnütziger Verein mit dem selbsterklärten Ziel, offene Datensätze, Werkzeuge und Modelle zur Verfügung zu stellen und so die Forschung im Bereich des maschinellen Lernens zu fördern. Einer dieser Datensätze beinhaltet ca. 5,8 Milliarden Text- und Bildpaare, die von dem Beklagten durch automatisiertes Data-Scraping aus öffentlich zugänglichen Quellen im Internet gesammelt wurden. Der Datensatz wurde von dem Beklagten anschließend zum Training von KI-Modellen zur Verfügung gestellt.
Der Kläger stellte fest, dass eines seiner Bilder ohne seine Zustimmung in dem Datensatz verwendet wurde. Konkret handelte es sich um ein Bild, das ursprünglich auf einer Plattform für Stockfotos und -videos hochgeladen und in niedriger Auflösung sowie mit einem Wasserzeichen versehen in den Datensatz übernommen wurde. In den Nutzungsbedingungen der Plattform hieß es, dass das automatisierte Herunterladen und die Nutzung der Inhalte durch Bots oder ähnliche Programme untersagt sei.
In der Verwendung sah der Kläger eine Verletzung seines Urheberrechts und verlangte von dem Beklagten die Entfernung seines Bildes aus dem Trainingssatz sowie Auskunft über den Umfang der Verwendung seines Werkes.
Rechtliche Würdigung durch das Gericht
Das Gericht weist die Klage ab. Nachdem es zunächst wenig überraschend eine Vervielfältigung i.S.v. § 16 UrhG bejaht, die grundsätzlich nur mit Zustimmung des Urhebers vorgenommen werden darf, wendet es sich der rechtlichen Kernfrage des Falles zu: Der Prüfung der „Text- und Data-Mining“-Schranken („TDM-Schranken“).
Das Gericht äußert sich zunächst ausführlich zu § 44b UrhG und stellt unter Verweis auf den Wortlaut der Vorschrift fest, dass automatisiertes Data Scraping grundsätzlich als Text- und Data Mining im Sinne der Vorschrift zu qualifizieren sei, da die Vervielfältigung der Gewinnung von Informationen über „Korrelationen“ diene. Eine teleologische Reduktion der Vorschrift, wie sie im Schrifttum teilweise vorgeschlagen wird (s.u.), lehnt das Gericht ab.
Obiter dicens äußert sich das Gericht sodann zu der in § 44b Abs. 3 UrhG geregelten Rückausnahme, wonach Text- und Data-Mining unzulässig ist, wenn der Rechteinhaber einen Nutzungsvorbehalt erklärt hat, der bei im Internet zugänglichen Daten „maschinenlesbar“ sein muss. Der Kläger verwies insoweit auf das in den Nutzungsbedingungen der Plattform enthaltene Verbot des automatisierten Herunterladens und der Nutzung dieser Inhalte durch Bots oder ähnliche Programme (s.o.). Das Gericht lässt hierzu zunächst die Tendenz erkennen, dass sich der Kläger auf diesen von einem Dritten erklärten Nutzungsvorbehalt berufen könne und dieser auch hinreichend klar formuliert sei. Zudem spreche einiges dafür, dass dieser Nutzungsvorbehalt auch den Anforderungen an die „Maschinenlesbarkeit“ genüge. Es sei ein Wertungswiderspruch, KI-Entwicklern über die Schrankenregelung des § 44b UrhG die Entwicklung immer leistungsfähigerer textverstehender KI-Modelle zu ermöglichen, ihnen andererseits aber die Anwendung bereits bestehender KI-Modelle im Rahmen der Rückausnahme nicht zuzumuten. Entscheidend sei damit letztlich, ob zum Zeitpunkt der Vervielfältigungshandlung eine Technologie zur Verfügung stand, die den Inhalt des Nutzungsvorbehalts hätte erfassen können. Im Ergebnis lässt das Gericht jedoch offen, ob die Schrankenschranke eingreift.
Denn der besonderen Konstellation des Falles ist es geschuldet, dass das Gericht die speziellere TDM-Schranke in § 60d UrhG heranziehen konnte. Danach sind Vervielfältigungen für Text- und Data-Mining für Zwecke der wissenschaftlichen Forschung zulässig, sofern sie von nicht-kommerziellen Forschungsorganisationen vorgenommen werden. Eine Rückausnahme hiervon gilt nach § 60d Abs. 2 S. 3 UrhG, wenn ein privates Unternehmen auf die Forschungsorganisation einen bestimmenden Einfluss ausübt und bevorzugten Zugang zu den Ergebnissen der wissenschaftlichen Forschung hat. Das Gericht ging davon aus, dass der Beklagte eine Forschungsorganisation im Sinne der Vorschrift ist. Für das Eingreifen dieser Rückausnahme treffe den Kläger die Beweislast, der er im vorliegenden Fall nicht nachgekommen sei.
Das Urteil ist nicht rechtskräftig. Dem Vernehmen nach sind die Parteien bestrebt, die streitentscheidenden Fragen durch die Instanzen zu tragen und höchstrichterlich klären zu lassen. Da § 44a UrhG und § 60d beide auf Unionsrecht beruhen, ist damit zu rechnen, dass dieser (oder ein vergleichbarer Fall) letztlich vom EuGH entschieden werden muss – bis dahin wird allerdings noch einige Zeit vergehen. Man darf gespannt sein, wie andere deutsche und europäische Gerichte derartige Fälle bis dahin entscheiden werden.
3. Kommentar und Einordnung des Urteils
Die Entscheidung ist, nicht zuletzt durch ihre umfassenden Ausführungen auch zu § 44b UrhG, richtungsweisend und für Technologieunternehmen und Urheber gleichermaßen von Bedeutung. Auch wenn sie sich konkret auf die Nutzung von Bildern bezieht, gilt für Texte, Programmcode, Videos oder Musik nichts anderes – die rechtlichen Fragen sind dieselben. Da §§ 44b, 60d UrhG unionsrechtlich determiniert sind, sollte die Entscheidung auch in anderen Mitgliedstaaten zur Kenntnis genommen werden.
Die Anwendbarkeit der TDM-Schranken auf das automatisierte Data Scraping wurde auch bislang in der (deutschen) rechtswissenschaftlichen Literatur ganz überwiegend bejaht, jüngst aber in einer vielbeachteten und lesenswerten Studie von Dornis/Stober im Auftrag der Initiative Urheberrecht verneint. Während der Wortlaut des § 44b UrhG zwar in der Tat für die Anwendbarkeit der TDM-Schranke auf das KI-Training spricht, stößt das Ergebnis rechtspolitisch durchaus auf Bedenken. Die Vorschrift beruht nämlich auf Art. 4 der DSM-Richtlinie aus dem Jahr 2019 – damals fand KI-Training zwar zweifellos bereits statt; der Gesetzgeber dürfte aber kaum vor Augen gehabt haben, dessen urheberrechtliche Zulässigkeit zu regeln. Darüber hinaus gründet sich die bei Einführung der Vorschrift ausdrücklich gewollte Vergütungsfreiheit letztlich darauf, dass die im Wege des Text- und Data-Mining gewonnenen Erkenntnisse nicht in Konkurrenz zu den Daten bzw. Produkten treten, die ausgelesen werden. Dies ist beim Training generativer KI aber gerade anders: Wie der entschiedene Fall zeigt, werden die KI-Modelle mit (urheberrechtlich geschütztem) Bildmaterial trainiert, um letzten Endes selbst Bilder zu generieren – es entsteht eine Konkurrenzsituation dem Urheber der ausgelesenen Werkes. Anders gewendet: Der Rechteinhaber erhält keine Vergütung für die Nutzung seines Werkes und muss in der Folge auch noch hinnehmen, dass die mit seinem Werk trainierte KI ihm Konkurrenz macht. Ob es wirklich gewollt ist, sich urheberrechtlich geschützter Werke (vergütungs-) frei bedienen zu können, um eine generative KI zu trainieren, die diese Werke ersetzen kann, ist vor diesem Hintergrund durchaus fraglich. Die weiteren Diskussionen hierzu werden, ebenso wie die gesetzgeberischen Aktivitäten und die Bemühungen von Verwertungsgesellschaften um Lizenzierungsmodelle, zu beobachten sein.
Überraschend – weil entgegen der bislang vorherrschenden Auffassung im Schrifttum – ist die obiter dicens geäußerte Tendenz des Gerichts zur vermeintlichen Kernfrage des Falles, dass Nutzungsvorbehalt i.S.v. § 44b Abs. 3 UrhG wirksam erklärt wurde. Es ist sehr fraglich, ob ein in natürlicher Sprache formulierter Nutzungsvorbehalt tatsächlich „maschinenlesbar“ oder eben nur „menschenlesbar“ ist. Dies gilt auch dann, wenn man die zweifellos beeindruckenden Texterkennungsfähigkeiten großer Sprachmodelle berücksichtigt. Hielte man einen Nutzungsvorbehalt in natürlicher Sprache für ausreichend, stellten sich zahlreiche Folgefragen, die von den Anforderungen an die konkrete Formulierung und den Folgen unklarer Formulierungen über die relevanten Sprachen bis hin zur Platzierung auf der Website reichen. „Maschinenlesbar“ dürfte indes richtigerweise nur eine Anweisung an den Crawler sein, die dieser ohne Weiteres als solche identifizieren und eindeutig verstehen kann. Verbreitet – zugegebenermaßen aber keineswegs jedermann bekannt – ist insoweit der Robots Exclusion Standard, bei dem eine einfache Textdatei namens robots.txt im Stammverzeichnis der Webseite hinterlegt wird, die bestimmten Bots und Crawlern die Auslesung der Webseite ganz oder teilweise untersagen kann, dabei aber freilich auch auf die „Mitarbeit“ des Bots angewiesen sind.
4. Praxishinweis
Für die Praxis wirft das Urteil sowohl Licht als auch Schatten. Aus der Sicht von KI-Entwicklern ist zunächst erfreulich, dass das Data Scraping grundsätzlich unter die TDM-Schranke fällt. Dennoch verbleibt ein gehöriges Maß an rechtlicher Unsicherheit, da die Entscheidung die – nur in § 44b Abs. 3 UrhG enthaltene – Rückausnahme des Nutzungsvorbehalts und insbesondere die Anforderungen an die „Maschinenlesbarkeit“ kaum konturiert – im Gegenteil. Dies gilt erst recht, wenn man die Verpflichtung von KI-Entwicklern berücksichtigt, ihre Systeme so zu gestalten, dass sie maschinenlesbare Widersprüche zuverlässig erkennen und beachten (vgl. Art. 53 Abs. 1 lit. c KI-Verordnung).
Urhebern ist demgegenüber zu raten, selbst proaktive Maßnahmen zu ergreifen und bei der Auswahl der Webseiten, auf denen sie ihre Werke einstellen, besondere Vorsicht walten zu lassen, wenn sie ihre online geteilten Werke vor Data Scraping und damit mittelbar vor der Nutzung für das KI-Training schützen wollen. Spätestens wenn sie Werke an Kunden lizenzieren, die diese ihrerseits im Internet nutzen, stoßen Urheber freilich auf praktische Schwierigkeiten, denn dann müssen die Lizenznehmer verpflichtet werden, auf den betroffenen Webseiten einen wirksamen, maschinenlesbaren Nutzungsvorbehalt aufzunehmen. Sofern sich dies überhaupt praktisch durchsetzen lässt, ist wegen der bestehenden Unsicherheiten bei Nutzungsvorbehalten in natürlicher Sprache bis auf Weiteres zur Nutzung der robots.txt zu raten.
Das könnte Sie ebenfalls interessieren
Nicht nur Worte, Bilder und deren Kombination sind Zeichen, die potentiell als Marke eingetragen werden können. § 3 Abs. 1 MarkenG verweist darüber hinaus auf eine Vielzahl weiterer potenziell als Herkunftshinweis fungierende Zeichen, für die eine Eintragung als Marke in Betracht kommt, so etwa Klänge, dreidimensionale Gestaltungen und Farben. Letzteren widmet sich der nachfolgende Beitrag.
The European Union has implemented significant reforms to the Court of Justice of the European Union (CJEU). The changes, which took effect on September 1, 2024, are designed to improve the efficiency of the court system and increase transparency in its operations.
Das Zuständigkeitsrecht bietet gerade im Schnittbereich von vertraglichen und deliktischen Ansprüchen einige Fallstricke, die in der Praxis oftmals unterschätzt werden. In diesem Beitrag besprechen wir eine Entscheidung des Oberlandesgerichts Karlsruhe, das über die Klage eines Journalisten zu entscheiden hatte, der erfolglos gegen die Sperre seines Accounts auf einer Internetplattform vorging und sich dabei auf einen Verstoß gegen Lauterkeitsrecht stützte (OLG Karlsruhe, Urt. v. 8. Mai 2024, Az. 6 U 198/23).
Sogenannte Wiederholungsmarken, die häufig zu dem Zwecke angemeldet werden, die gesetzliche Verpflichtung zur ernsthaften Benutzung der Marke zu umgehen und somit weitere Benutzungsschonfristen für die neu angemeldeten Marken in Anspruch zu nehmen, mögen attraktiv erscheinen, um insbesondere Kosten zu reduzieren. Sie bergen jedoch – zumindest nach EU-Recht – auch das Risiko, dass ihre Anmeldung als bösgläubig eingestuft und die Marke in der Folge gegebenenfalls für nichtig erklärt wird. Der Rechtsbegriff der Bösgläubigkeit ist nicht gesetzlich definiert, sondern wird durch die jeweilige Rechtsprechung geprägt. Die „Monopoly“-Entscheidung des Gerichts der Europäischen Union (EuG) hat insoweit relevante Grundsätze entwickelt und bietet wichtige strategische Wegweiser. Auch die jüngsten Entscheidungen der Nichtigkeitsabteilung des Amts der Europäischen Union für geistiges Eigentum (EUIPO) in Bezug auf die Unionsmarken des berühmten Künstlers Banksy, welche eines seiner bekanntesten Kunstwerke, den ‚Flower Thrower‘ (dt. Blumenwerfer), wiedergeben, verdeutlichen, wie wichtig es ist, Markenanmeldungen auf eine durchdachte Strategie zu stützen. Im Folgenden werden wir diese Fälle näher beleuchten, um mögliche Risiken von Wiederholungsmarken zu veranschaulichen und anschließend Ratschläge für risikominimierende Strategien zu geben.