Zum Inhalt springen

Schutz vor Suchmaschinen und KI-Bots

Für Unternehmerinnen und Unternehmer, die ihre Website-Inhalte schützen möchten.

Worum geht es?

Im Internet lesen nicht nur Menschen, sondern auch Programme („Bots“) Ihre Seiten. Klassische Bots heißen Suchmaschinen-Crawler (z. B. Google), moderne Bots sammeln Inhalte für Künstliche Intelligenz (KI). Manche Betreiber möchten das nicht – etwa um Kopien zu verhindern oder weil Texte/Bilder kostenpflichtig sind.

Was ist realistisch?

Ein 100‑%iger Schutz ist nicht möglich. Ziel ist, das automatische Abgreifen so unattraktiv und aufwendig zu machen, dass sich der Aufwand für „Daten-Sammler“ nicht lohnt. Sie kombinieren dazu mehrere einfache Schritte.

Die 10‑Minuten‑Checkliste

  • robots.txt aktivieren und KI‑Bots/Suchmaschinen dort höflich aussperren.
  • Auf wichtigen Seiten „noindex“ setzen, wenn diese nicht in der Suche auftauchen sollen.
  • RSS‑Feed auf Auszüge („Kurzfassung“) stellen oder deaktivieren.
  • Ein Sicherheits‑Plugin mit Firewall/Bot‑Schutz aktivieren (z. B. WordPress: Wordfence/Sucuri).
  • Rate‑Limit: Viele Aufrufe in kurzer Zeit automatisch bremsen (über Firewall/Hosting).
  • Login‑Bereiche mit starkem Passwort + 2‑Faktor‑Anmeldung absichern.
  • Premium‑Inhalte nur nach Registrierung/Kauf anzeigen (Paywall/Membership).
  • Bilder: Hotlinking unterbinden, bei Bedarf Wasserzeichen setzen.
  • Verdächtigen Traffic in den Server‑Logs beobachten (Spitzen, viele Aufrufe von einer Quelle).
  • In den Rechtstexten (Impressum/AGB) die Nutzung durch Bots untersagen und Opt‑out fürs KI‑Training erklären.

Maßnahmen in Klartext

Signale an Bots

  • Datei „robots.txt“: Hier steht, welche Bereiche Bots bitte nicht besuchen sollen. Seriöse Bots halten sich daran.
  • Meta‑Angaben wie „noindex“: Einzelne Seiten sollen nicht in Suchergebnissen erscheinen.
  • Optional: „noai/noimageai“ als Signal, dass Inhalte nicht fürs KI‑Training genutzt werden sollen.

Zugang regeln

  • Wichtige Inhalte nur für angemeldete Nutzer (Login) oder zahlende Mitglieder (Paywall).
  • RSS‑Feeds nur als Auszug anbieten, nicht den kompletten Artikel.

Verkehr bremsen (optional)

  • Firewall/Bot‑Schutz schaltet sich vor Ihre Seite und blockt verdächtige Aufrufe.
  • Rate‑Limiting: Pro Quelle nur eine begrenzte Zahl an Aufrufen pro Minute.
  • Bei Verdacht: Kurzzeitig Captchas einsetzen (bitte sparsam, sonst stört es echte Besucher).

Inhalt schützen

  • Bilder mit Wasserzeichen kennzeichnen; Hotlinking verhindern, damit fremde Seiten Ihre Bilder nicht direkt einbinden.
  • Sehr sensible Texte als PDF anbieten (Abwägung Barrierefreiheit/SEO).

Überwachen

  • Server‑Protokolle und Sicherheits‑Dashboard regelmäßig prüfen. Ungewöhnliche Spitzen sind ein Alarmzeichen.

Warum lässt sich vieles trotzdem umgehen?

Professionelle Scraper verhalten sich wie echte Besucher: Sie wechseln IP‑Adressen, nutzen echte Browser im Hintergrund und können sogar Captchas lösen. Darum ist die Kombination mehrerer Hürden entscheidend.

Recht: Was darf ich verlangen – und was nicht? (Kurz & klar)

  • Urheberrecht: Ihre Texte/Bilder sind grundsätzlich geschützt. Kopieren und weiterverwenden ist ohne Erlaubnis unzulässig. KI‑Training kann unter die europäische „Text‑ und Datamining“-Regel fallen – Sie können dem widersprechen (Opt‑out).
  • Datenbankrecht: Große, systematische Datenabzüge aus strukturierten Sammlungen (z. B. Kataloge) sind verboten.
  • Wettbewerbsrecht: Öffentlich zugängliche Infos dürfen oft verglichen werden – wer aber Schutzmechanismen umgeht, kann unlauter handeln.
  • DSGVO: Personenbezogene Daten sind besonders heikel. Treffen Sie angemessene technische und organisatorische Maßnahmen (Passwörter, Firewalls, Logs).
  • Vertragsrecht/AGB: Formulieren Sie klare Nutzungsbedingungen. Am stärksten wirken sie, wenn Nutzer ihnen aktiv zustimmen (z. B. bei Registrierung).

WordPress: So setzen Sie es sofort um

  • robots.txt: Über SEO‑Plugin (z. B. Yoast/RankMath) bearbeiten; KI‑Bots (z. B. „GPTBot“, „Google‑Extended“) per „Disallow“ ausschließen.
  • RSS‑Feed: Unter „Einstellungen > Lesen“ auf „Kurzfassung“ stellen.
  • Sicherheits‑Plugin: Firewall/Bot‑Schutz aktivieren; Anmeldeversuche begrenzen; 2‑Faktor‑Anmeldung einschalten.
  • Medien: Hotlink‑Schutz beim Hoster/Plugin aktivieren; optional Wasserzeichen.
  • Premium‑Bereiche: Membership/Paywall‑Plugin nutzen – Inhalte erst nach Login zeigen.
  • Rechtstexte: Impressum/AGB um Nutzungsverbote und Opt‑out erweitern (siehe Baustein unten).

Beispiel für robots.txt (Auszug)

User-agent: GPTBot

Disallow: /

User-agent: Google-Extended

Disallow: /

Impressum: Textbaustein gegen Scraping & KI-Training

Nutzung unserer Inhalte

Die auf dieser Website veröffentlichten Texte, Bilder und sonstigen Inhalte sind urheberrechtlich geschützt. Eine automatisierte Auslese (Scraping, Crawler, Bots), Wiederveröffentlichung, Weitergabe oder Nutzung unserer Inhalte für Trainingszwecke Künstlicher Intelligenz (Text- und Datamining) ist ohne unsere vorherige schriftliche Zustimmung nicht gestattet. Wir widersprechen hiermit ausdrücklich einer Verwendung unserer Inhalte zu Zwecken des KI-Trainings im Sinne von Art. 4 der Richtlinie (EU) 2019/790 (DSM-Richtlinie) bzw. der entsprechenden nationalen Umsetzung (§ 44b UrhG). Maschinenlesbare Signale (z. B. robots.txt, Meta-Angaben) auf dieser Website dienen der Klarstellung dieses Opt‑out.

Erlaubnisse & Lizenzen

Für Nutzungsanfragen (z. B. Zitate, Lizenzen) kontaktieren Sie uns bitte unter: [Ihre E-Mail-Adresse]. Registrierten Nutzer:innen ist das automatisierte Auslesen ebenfalls untersagt; Zuwiderhandlungen können zivil- und strafrechtlich verfolgt werden.

Hinweis: Diese Hinweise sind eine praxisnahe Orientierung und ersetzen keine Rechtsberatung. Für Einzelfälle wenden Sie sich bitte an eine Rechtsanwältin/einen Rechtsanwalt.