ADMIN

2025

05

2025-04-29T12:00:00

Künstliche Intelligenz

SCHWERPUNKT

093

Künstliche Intelligenz

KI

Urheberrecht

KI-Bots zwischen Innovation und Urheberrecht

In die Schranken weisen

von David Tofan

Sebastian Hufnagel

Veröffentlicht in Ausgabe 05/2025 - SCHWERPUNKT

Die dynamische Entwicklung von KI-Technologien hat zu einem beachtlichen Anstieg von Webcrawlern geführt. Diese Bots sammeln Daten im Internet für das Training von KI-Modellen. Während auf diese Weise zwar Innovationen voranschreiten, bleibt die Frage nach dem Schutz von Urheberrechten und der Kontrolle der Rechteinhaber über ihre digitalen Inhalte. Die Belastung der Webserver, die zudem deutlich mehr Requests bearbeiten müssen, ist eine weitere Herausforderung. Dieser Beitrag zeigt Lösungsansätze.

Das Ausmaß des KI-Crawlings hat inzwischen beträchtliche Dimensionen angenommen. Netzwerkanalysen von Cloudflare [1] zufolge zählen Bytespider, Amazonbot, ClaudeBot und GPTBot zu den aktivsten Vertretern, die das Internet nach verwertbaren Daten durchforsten. Besorgniserregend ist dabei, dass sich viele Webseitenbetreiber des Ausmaßes dieser Aktivitäten nicht bewusst sind. Denn wie die Analysen weiterhin zeigen, wurden im Juni 2024 rund 39 Prozent der Top-1-Million-Domains gecrawlt, wobei nur 2,98 Prozent dieser Webseiten die Anfragen aktiv blockierten oder filterten. Wertvolle Einblicke in die Aktivitätsmuster der Top-5-KI-Bots und -Crawler bieten die "AI Insights" in Cloudflare Radar [2].
Herausforderungen für Webseitenbetreiber
Die Herausforderungen für Webseitenbetreiber im Kontext der zunehmenden KI-Nutzung sind vielfältig. Eine der größten Hürden ist die fehlende Visibilität seitens der Unternehmen. Die Verantwortlichen haben in vielen Fällen keine Kenntnis darüber, welche KI-Bots ihre Seiten crawlen und welchen Zwecken die gesammelten Daten dienen.
Die Kontrolle über die Nutzung der eigenen Inhalte stellt eine weitere große Herausforderung dar. Webseitenbetreiber sehen sich mit der Tatsache konfrontiert, dass ihre sorgfältig erstellten Inhalte möglicherweise ohne ihr Wissen und ohne eine Vergütung für das Training von KI-Modellen zum Einsatz kommen. Potenzielle Leistungseinbußen durch erhöhten Botverkehr sind eine weitere Herausforderung.
Das Ausmaß des KI-Crawlings hat inzwischen beträchtliche Dimensionen angenommen. Netzwerkanalysen von Cloudflare [1] zufolge zählen Bytespider, Amazonbot, ClaudeBot und GPTBot zu den aktivsten Vertretern, die das Internet nach verwertbaren Daten durchforsten. Besorgniserregend ist dabei, dass sich viele Webseitenbetreiber des Ausmaßes dieser Aktivitäten nicht bewusst sind. Denn wie die Analysen weiterhin zeigen, wurden im Juni 2024 rund 39 Prozent der Top-1-Million-Domains gecrawlt, wobei nur 2,98 Prozent dieser Webseiten die Anfragen aktiv blockierten oder filterten. Wertvolle Einblicke in die Aktivitätsmuster der Top-5-KI-Bots und -Crawler bieten die "AI Insights" in Cloudflare Radar [2].
Herausforderungen für Webseitenbetreiber
Die Herausforderungen für Webseitenbetreiber im Kontext der zunehmenden KI-Nutzung sind vielfältig. Eine der größten Hürden ist die fehlende Visibilität seitens der Unternehmen. Die Verantwortlichen haben in vielen Fällen keine Kenntnis darüber, welche KI-Bots ihre Seiten crawlen und welchen Zwecken die gesammelten Daten dienen.
Die Kontrolle über die Nutzung der eigenen Inhalte stellt eine weitere große Herausforderung dar. Webseitenbetreiber sehen sich mit der Tatsache konfrontiert, dass ihre sorgfältig erstellten Inhalte möglicherweise ohne ihr Wissen und ohne eine Vergütung für das Training von KI-Modellen zum Einsatz kommen. Potenzielle Leistungseinbußen durch erhöhten Botverkehr sind eine weitere Herausforderung.
Die intensive Crawling-Aktivität von KI-Bots kann die Serverressourcen belasten und zu Performanceproblemen führen. Dies kann sich negativ auf die Nutzererfahrung auswirken und im schlimmsten Fall zu einem Rückgang der Besucherzahlen führen. Um diesen Problemen entgegenzuwirken, ist proaktives Handeln seitens der Webseitenbetreiber erforderlich. Die Bewältigung der Herausforderungen durch KI-Bots erfordert dabei einen vielschichtigen Ansatz.
Visibilität und Kontrolle
Die Implementierung von Mechanismen zur Identifizierung und Regelung der Zugriffsrechte von KI-Bots ist ein grundlegender Schritt für Webseitenbetreiber. Dies lässt sich durch den Einsatz fortschrittlicher Botmanagement-Systeme erreichen, die in der Lage sind, das Verhalten von Besuchern in Echtzeit zu analysieren. Solche Systeme nutzen in vielen Fällen eine Kombination aus IP-Adressen-Überprüfung, Verhaltensanalyse und Machine-Learning-Algorithmen, um Bots von menschlichen Besuchern zu unterscheiden.
Zusätzlich sind CAPTCHAs oder ähnliche Herausforderungen denkbar, um die Authentizität von Besuchern zu verifizieren. Es ist jedoch wichtig, eine Balance zu finden, um erwünschte Bots, wie Suchmaschinen-Crawler, nicht zu blockieren. Webseitenbetreiber können beispielsweise auch spezielle HTTP-Header oder robots.txt-Dateien verwenden, um Regeln für Botzugriffe zu definieren. Die kontinuierliche Überwachung und Anpassung dieser Mechanismen ist entscheidend, da sich die Technologien und Strategien von KI-Bots ständig weiterentwickeln.
Die Nutzung erweiterter Analysedaten hilft dabei, Botzugriffe auf verschiedene Webseitenbereiche zu verstehen und zu steuern. Webseitenbetreiber sollten entsprechende Analysetools implementieren, die detaillierte Einblicke in das Verhalten von Bots liefern. Diese Werkzeuge erlauben das Erfassen von Informationen wie Zugriffszeiten, besuchte Seiten, Verweildauer und Datentransfervolumen.
Durch die Analyse der Daten lassen sich Muster identifizieren, die auf spezifische Botaktivitäten hindeuten. Beispiele hierfür sind ungewöhnlich hohe Zugriffszahlen auf bestimmte Inhalte oder auffällige Zugriffszeiten. Basierend auf diesen Erkenntnissen lassen sich dann gezielte Maßnahmen ergreifen, wie das Anpassen von Zugriffsrechten für bestimmte Webseitenbereiche oder das Implementieren von dynamischen Inhaltsschutzmaßnahmen. Wichtig ist außerdem, diese Daten über längere Zeiträume zu analysieren, um langfristige Trends und Veränderungen im Botverhalten zu erkennen und darauf zu reagieren.
Einblicke in die Aktivitätsmuster populärer KI-Bots und -Crawler liefern die "AI Insights" in Cloudflare Radar.
Selektive Zugriffsgewährung
Eine differenzierte Herangehensweise bei der Zugriffsgewährung ist ebenfalls ratsam. Nicht alle Bots verfolgen die gleichen Ziele, und einige können für die Webseite sogar von Nutzen sein. Daher ist es wichtig, Kriterien zu entwickeln, die zwischen nützlichen und unerwünschten Bots unterscheiden. Die Differenzierung zwischen verschiedenen Bots basierend auf deren Verhalten und Zweck erfordert ein nuanciertes Vorgehen.
Webseitenbetreiber können ein Klassifizierungssystem entwickeln, das Bots in Kategorien wie "vertrauenswürdig", "neutral" und "potenziell schädlich" einteilt. Vertrauenswürdige Bots, wie die von bekannten Suchmaschinen, erhalten umfangreicheren Zugriff, während unbekannte oder verdächtige Bots stärker eingeschränkt werden. Die Implementierung von API-Schlüsseln oder Authentifizierungsmechanismen für Botzugriffe ermöglicht eine feinere Kontrolle.
Zudem sind Rate-Limiting-Strategien denkbar, um die Häufigkeit und Intensität von Botzugriffen zu regulieren. Darüber hinaus ist auch sinnvoll, ein Monitoringsystem einzurichten, das das Verhalten von Bots über die Zeit analysiert und automatisch Anpassungen an den Zugriffsrechten vornimmt, basierend auf deren Aktivitäten und Auswirkungen auf die Website-Performance.
Technologische und rechtliche Entwicklungen
Die Entwicklung klarer Nutzungsbedingungen für Webseiteninhalte, insbesondere im Hinblick auf KI-Training, ist von großer Bedeutung. Webseitenbetreiber tun gut daran, sich zu informieren, wie sie gegebenenfalls die Nutzung ihrer Inhalte für KI-Training rechtlich unterbinden oder begrenzen. Zusätzlich bieten sich technische Maßnahmen an, wie maschinenlesbare Lizenzen oder spezielle Meta-Tags, die die Nutzungsbedingungen für Bots direkt kommunizieren. Nicht zu vergessen sind regelmäßige Überprüfungen und Aktualisierungen dieser Bedingungen, damit diese mit den sich entwickelnden rechtlichen Rahmenbedin- gungen und technologischen Entwicklungen Schritt halten.
Die Entwicklung von Technologien zur präziseren Boterkennung und -steuerung schreitet voran. Allerdings gibt es bislang keine einheitlichen Standards für die explizite und verbindliche Formulierung von Crawling-Präferenzen durch Webseitenbetreiber. Internationale Standardisierungsgremien wie IETF arbeiten bereits an Lösungen, die eine differenzierte Steuerung von Crawling-Aktivitäten ermöglichen.
Ein weiterer Schritt in diese Richtung ist die Umsetzung des EU AI Acts, der auch für die Bot- und Crawling-Thematik Relevanz hat. Beispielsweise können Modellanbieter mit der Umsetzung des freiwilligen "General Purpose AI Code of Practice" nachweisen, dass sie die Anforderungen des AI Acts erfüllen, auch im Hinblick auf urheberrechtliche Bestimmungen. Ein weiterer Bestandteil ist die Verpflichtung von Modellanbietern, eine Zusammenfassung ihrer verwendeten Trainingsdaten zu veröffentlichen. Dazu gehören auch Informationen, die Außenstehenden die Identifizierung der eingesetzten Crawler ermöglichen, sowie Angaben über ihre jeweiligen Zwecke und ihr Verhalten, insbesondere in Bezug auf durch Rechteinhaber geäußerte Crawling-Präferenzen.
Für eine effektive Anwendung von Botmanagement-Tools müssen zwei Voraussetzungen gegeben sein: Zum einen sollten Crawler sich eindeutig ausweisen, sodass ihre Identität und ihre Zwecke für Außenstehende klar ersichtlich sind. Zum anderen ist es wichtig, dass für verschiedene Zwecke auch unterschiedliche Crawler zum Einsatz kommen, damit sich das Crawling für bestimmte Anforderungen, wie etwa das KI-Modelltraining, gezielt unterbinden lässt, ohne dabei andere erwünschte Crawler-Funktionen zu beeinträchtigen. Die momentane Praxis einiger großer Anbieter, denselben Crawler für das Training ihrer KI-Modelle und für die Websuche zu nutzen, ist insofern problematisch, da hierdurch keine gezielte Blockierung von Bots möglich ist, ohne negative Auswirkungen auf die Suchergebnisse zu riskieren.
Einnahmen dank neuer Geschäftsmodelle
Die Nutzung von Zugriffsstatistiken als Grundlage für Gespräche mit KI-Modellentwicklern über faire Nutzung und mögliche Kompensation erfordert eine strategische Herangehensweise. Webseitenbetreiber sollten ein robustes System zur Erfassung und Analyse von Zugriffsstatistiken implementieren, das speziell auf die Aktivitäten von KI-Bots ausgerichtet ist.
Diese Daten zeigen detailliert auf, wie intensiv und in welchem Umfang die Onlineinhalte von KI-Modellen genutzt werden. Mit diesen Informationen sind Verantwortliche in der Lage, in Verhandlungen mit KI-Unternehmen zu treten und faktenbasierte Argumente für faire Nutzungsbedingungen oder Kompensationsmodelle vorzulegen. So wäre beispielsweise ein Modell denkbar, das die Intensität der Botnutzung mit einem finanziellen Wert verknüpft.
So können neue Geschäftsmodelle entstehen, in denen Webseitenbetreiber für die Nutzung ihrer Daten durch KI-Systeme angemessen kompensiert werden. Ein Onlinemarktplatz, an dessen Einführung das US-Unternehmen Cloudflare derzeit arbeitet, soll es Verantwortlichen künftig ermöglichen, den Zugriff auf ihre Inhalte direkt an KI-Unternehmen zu verkaufen. Dank eines bereits verfügbaren Monitoring-Tools sind sie in der Lage, die Interaktionen von KI-Modellen auf ihren Seiten zu überwachen.
Diese Initiative sei besonders relevant für kleinere Publisher, die bisher oft ohne Vergütung von KI-Systemen gescrapt wurden, während große Publikationen bereits Lizenzvereinbarungen mit KI-Unternehmen haben. Der geplante Marktplatz soll es Webseitenbetreibern erlauben, ihre eigenen Preise für die KI-Nutzung ihrer Daten festzulegen und so die Kontrolle über ihre digitalen Inhalte zurückzugewinnen. Diese Entwicklung könnte einen Wendepunkt in der Beziehung zwischen KI-Unternehmen und Content-Erstellern markieren, da sie für mehr Fairness und Transparenz im Umgang mit digitalen Inhalten sorgen würde.
Nicht zuletzt sind diese Kooperationen auch für das Internet als Ganzes von Nutzen: Denn durch den Aufstieg von Chatbots und KI-betriebenen Suchmaschinen greifen Internetnutzer immer seltener auf die eigentlichen Webseiten zu. Das hat zur Folge, dass Webseitenbetreibern oft überlebenswichtige Werbeeinnahmen wegbrechen. Indem sie direkt durch die KI-Anbieter vergütet werden, behalten sie weiterhin Anreize, um qualitativ hochwertige Onlineinhalte frei zugänglich bereitzustellen. Das stellt sicher, dass der Zugang zu freien Informationen im Internet nicht nur den Anbietern von KI-Modellen, sondern allen Internetnutzern erhalten bleibt.
Fazit
Die zunehmende Aktivität von KI-Webcrawlern stellt Webseitenbetreiber vor neue Herausforderungen, bietet aber auch Chancen. Um die Kontrolle über ihre Inhalte zu behalten, sind proaktive Maßnahmen wie verbesserte Visibilität durch Botmanagement-Systeme, selektive Zugriffsgewährung und klare rechtliche Rahmenbedingungen unerlässlich. Gleichzeitig eröffnen sich neue Geschäftsmodelle, bei denen Verantwortliche für die Nutzung ihrer Daten durch KI-Systeme angemessen vergütet werden. Letztendlich profitieren von solchen Kooperationen nicht nur die Webseitenbetreiber und KI-Unternehmen, sondern auch das Internet als Ganzes, indem die Bereitstellung qualitativ hochwertiger und frei zugänglicher Online-Inhalte weiterhin gesichert wird.
Die Etablierung von Industriestandards für transparentes Botverhalten, kombiniert mit flexiblen Vergütungsmodellen, könnte so den Grundstein für ein nachhaltiges digitales Ökosystem legen. Solche Standards würden nicht nur die Rechte der Content-Ersteller schützen, sondern auch die Qualität der KI-Trainingsdaten verbessern, was letztlich zu leistungsfähigeren und ethischeren KI-Systemen führen könnte. Für die Webseitenbetreiber wird es daher zunehmend wichtig, sich sowohl technologisch als auch strategisch auf diese neue Realität einzustellen.
(dr)
David Tofan ist Solutions Engineer und Sebastian Hufnagel Senior Public Policy Manager DACH bei Cloudflare.
Link-Codes
[2] AI Insights in Cloudflare Radar: https://radar.cloudflare.com/ai-insights