Urheberrecht und künst­liche Intelligenz Trainings­material für KI? Nicht meine Texte und Bilder!

Urheberrecht und künst­liche Intelligenz - Trainings­material für KI? Nicht meine Texte und Bilder!

KI-Wider­spruch. Ein einfach geschriebenes „Nein!“ auf der Webseite verstehen Maschinen nicht. © Getty Images / galitskaya

Webseiten-Besitzer können einen Wider­spruch formulieren, wenn ihre Texte und Bilder nicht zum Training von KI-Systemen genutzt werden sollen. Eine Anleitung.

Rechts­sicher wider­sprechen

Wer Texte und Bilder auf seiner Webseite veröffent­licht, muss damit rechnen, dass sie in Daten­banken landen, um mit ihnen KI-Systeme zu trainieren. Denn eine künst­liche Intelligenz (KI) kann nur etwas ausgeben, wenn sie zuvor mit Daten gefüttert wurde. Was Verbrauche­rinnen und Verbraucher im Umgang mit Text- und Bild­generatoren - sogenannter generativer KI – beachten sollten, lesen Sie in unserem Special Bilder mit KI erzeugen.

Spezielle Programme – sogenannte Scraper – durch­forsten das Internet und kopieren Inhalte von frei zugäng­lichen Webseiten. Dieses Bilder- und Daten­sammeln im Netz erlaubt der Gesetz­geber, ohne dass die Inhaber des Urheber­rechts explizit zustimmen. Wollen die Rechte­in­haber dem „Text- und Datamining“ wider­sprechen, müssen sie das aktiv in maschinenles­barer Form tun.

Webseiten-Besitzer stellt das vor Heraus­forderungen, da der Wider­spruch in maschinenles­barer Form einiges an IT-Wissen erfordert. So reicht es nicht aus, im Impressum oder auf der Start­seite in einem Satz zu formulieren, dass sie mit dem Scraping ihrer Daten nicht einverstanden sind. Ihren Wider­spruch müssen Webseiten-Besitzer in Form einer robots.txt-Datei ins Stamm­verzeichnis ihrer Seite hoch­laden. Wo das Verzeichnis liegt, hängt vom System ab.

In dem Text­dokument legen sie fest, welchen Programmen sie den Zugang auf ihre Seite gestatten und welche draußen bleiben sollen. In der Regel prüfen Scraper, ob dort eine solche Datei steht. Fehlt sie, haben sie freie Fahrt. Es ist aber nicht ausgeschlossen, dass Scraper trotz Wider­spruchs an der richtigen Stelle die Daten von Ihrer Webseite kopieren.

Dennoch sollten Webseiten-Besitzer die Mühe auf sich nehmen und den Wider­spruch rechts­wirk­sam an richtiger Stelle platzieren. Mit ihm dokumentieren sie als Rechte­in­haber zumindest, dass sie gegen das unerlaubte Kopieren und Nutzen ihres geistigen Eigentums sind.

Schritt 1: robots.txt anlegen

Bei der robots.txt handelt es sich um eine Nur-Text-Datei, für die Sie lediglich ein formatfreies Text­programm wie den Editor, Textedit, Vi oder Emacs benötigen. Wichtig ist, dass Sie der Datei den Namen „robots.txt“ geben. Achten Sie darauf, den Datei­namen klein­zuschreiben.

Nun füllen Sie die Text­datei in den weiteren Schritten, sodass sie am Ende zum Beispiel so aussieht:

Urheberrecht und künst­liche Intelligenz - Trainings­material für KI? Nicht meine Texte und Bilder!

© Stiftung Warentest

Schritt 2: User fest­legen

Legen Sie zu Beginn fest, welchen Programmen Sie den Zutritt auf Ihre Seite gewähren und welchen nicht. Dazu schreiben Sie in die erste Text­zeile „User-agent: “ und dahinter den Namen des jeweiligen Bots, also des Programms.

Damit Ihre Seite über Such­maschinen gefunden werden kann, sollten Sie beispiels­weise Google und Bing erlauben, Ihre Inhalte zu betrachten. Ergänzen Sie in dem Fall hinter „User-agent: “ die Namen „Googlebot“ und „Bingbot“.

Achten Sie auch hier auf Groß- und Klein­schreibung. Wollen Sie mehreren Bots den Zugang gewähren, schreiben Sie einen Bot pro Zeile, jeweils beginnend mit „User-agent: “.

Mit dem Sonderzeichen „*“ legen Sie sich nicht auf einzelne Programme fest. Das Sonderzeichen ist als Variable zu verstehen. Setzen Sie es an den Anfang oder das Ende eines Bot-Namens, beispiels­weise „*Beispielbot“ oder „Beispielbot*“, würden alle Rechte, die Sie diesem Bot gewähren, auch für weitere Varianten dieses Bots gelten, wie etwa „Beispielbot2“.

Schreiben Sie „User-agent: *“ gelten die darunter fest­zulegenden Rechte für sämtliche Bots, die Sie nicht zuvor ausdrück­lich genannt und mit Rechten versehen haben. Damit können Sie also für alle anderen Programme neben den von Ihnen erwünschten Such­maschinen eine gemein­same Regelung treffen.

Schritt 3: Erlaubnis geben oder verwehren

Ergänzen Sie unter jeder Ihrer definierten User-Zeilen den Befehl „Allow:“ oder „Disallow:“. Schreiben Sie das Zeichen „/“ hinter dem Doppel­punkt, ist das für Bots gleichbedeutend mit dem Begriff „alles“. Mit dem Befehl „Allow: /“ erlauben Sie so etwa dem darüber definierten Bot Zugriff auf alle Inhalte Ihrer Seite. Mit dem Befehl „Disallow: /“ verbieten Sie den Zugriff auf die gesamte Seite.

Sie können Zugriffe präzisieren mit Befehlen wie „Disallow: /bilder/“. Damit erlauben Sie dem jeweiligen Bot auf Inhalte Ihrer Webseite zuzugreifen, schließen jedoch die Unterseite „Bilder“ aus.

Schritt 4: Kommentar hinzufügen

Nachdem Sie Ihren Wider­spruch in maschinenles­barer Form formuliert haben, können Sie Ihn für menschliche Leser erweitern. In Ihrem robots.txt kenn­zeichnen Sie Ausschnitte, die sich an Personen richten, über das Zeichen „#“. Wichtig ist, dass jede Zeile mit einem „#“ beginnt, sofern sie sich nicht an Maschinen richtet.

Schritt 5: Über­prüfen

Schauen Sie abschließend, ob Sie alle notwendigen Zeilen hinzugefügt haben. Achten Sie auf Groß- und Klein­schreibung sowie auf die richtigen Befehle.

Sie können bei Bedarf unseren Muster­text kopieren, anpassen und verwenden:

User-agent: Googlebot

Allow: /

User-agent: Bingbot

Allow: /

User-agent: *

Disallow: /

# Recht­licher Hinweis:

# Das auto­matisierte Abrufen, Scrapen oder anderweitige Verarbeiten von Daten dieser Website

# ohne ausdrück­liche Genehmigung ist ausdrück­lich untersagt. Verstöße werden recht­lich verfolgt.

Schritt 6: Hoch­laden

Laden Sie die fertige robots.txt-Datei abschließend in das Stamm­verzeichnis Ihrer Webseite hoch. Je nach System kann sich der Prozess unterscheiden. Ein spezielles Programm benötigen Sie nicht. Baukastensysteme wie Word­press oder Squarespace haben eine robots.txt-Funk­tion hinterlegt, die Sie allerdings manuell akti­vieren müssen. Fragen Sie bei Schwierig­keiten direkt Ihren Hosting-Anbieter.

Tipp: Ob Ihr Wider­spruch öffent­lich zugäng­lich ist, können Sie prüfen, indem Sie versuchen, auf Ihre robots.txt-Datei über ein privates Fenster zuzugreifen. Öffnen Sie dazu die entsprechende Unterseite: IhrWebseiten­name.de/robots.txt

Mehr zum Thema

2 Kommentare Diskutieren Sie mit

Nur registrierte Nutzer können Kommentare verfassen. Bitte melden Sie sich an. Individuelle Fragen richten Sie bitte an den Leserservice.

Kommentarliste

Nutzer­kommentare können sich auf einen früheren Stand oder einen älteren Test beziehen.

  • Profilbild Stiftung_Warentest am 11.03.2025 um 09:49 Uhr
    Dateiname

    @alegra22: Vielen herzlichen Dank für Ihren aufmerksamen Hinweis! Wir haben das gleich korrigiert und bitten um Entschuldigung.

  • alegra22 am 11.03.2025 um 07:33 Uhr
    Dateiname

    Ich möchte Sie höflich darauf hinweisen, dass der Dateiname falsch sein könnte. Meiner Meinung nach sollte der Name "robots.txt" (mit Plural s) lauten.