Robots.txt-Generator 2026

So funktioniert der Robots.txt-Generator

Der Generator setzt aus einer Vorlage und Ihrer Sitemap-URL eine valide robots.txt zusammen. Die Vorlagen decken die häufigsten Szenarien ab: komplett offen für die meisten Marketing-Sites, Blog-Setup mit typischen WordPress-Pfad-Sperren, Shop-Setup mit Schutz für Cart/Checkout/Filter, sowie ein Komplettausschluss für Staging-Umgebungen.

Im Custom-Modus können Sie eigene Regeln direkt eingeben. Die Sitemap-Direktive wird automatisch ans Ende angehängt. Die fertige Datei laden Sie als TXT-Datei herunter und legen sie im Root-Verzeichnis Ihrer Domain ab.

Robots Exclusion Protocol

Das Protokoll wurde 1994 informell eingeführt und 2022 als RFC 9309 offiziell standardisiert. Spezifikation und Erweiterungen sind in der RFC und auf robotstxt.org dokumentiert. Google, Bing, Yandex und alle seriösen Crawler folgen dem Standard.

Wichtige Direktiven: User-agent, Disallow, Allow, Sitemap, Crawl-delay (von Google ignoriert, von Bing/Yandex respektiert). Wildcards (*) und End-Anker ($) sind nicht im Original-RFC, aber von Google unterstützt.

Anwendungsfälle

Staging-Schutz: Komplettausschluss verhindert Indexierung von Test-Servern.
Crawl-Budget: Bei großen Sites unwichtige Bereiche sperren, damit Crawler sich auf Content fokussieren.
Suchergebnis-Hygiene: Interne Suchergebnisse, Filter-URLs und Druckansichten ausschließen.
KI-Crawler-Steuerung: GPTBot, ClaudeBot und andere LLM-Crawler gezielt blockieren oder zulassen.
Sitemap-Discovery: Crawler entdecken die Sitemap automatisch via Sitemap-Direktive.

Datenschutz: Client-Side

Der Generator läuft komplett im Browser. Es findet keine Server-Verarbeitung statt. Sie können auch sensitive Pfadstrukturen (interne URLs) bedenkenlos eingeben, sie verlassen den Rechner nicht.

Damit ist die Nutzung DSGVO-konform ohne weitere Maßnahmen. Die heruntergeladene Datei landet lokal bei Ihnen.

Typische Fehler

robots.txt als Sicherheit nutzen: Sperrt seriöse Crawler, nicht aber Angreifer. Sensible Daten gehören hinter Authentication.
Disallow + indexierte Seite: Bestehende Index-Einträge verschwinden nicht. Erst noindex setzen, dann sperren.
CSS/JS blockieren: Google muss CSS/JS rendern können, um die Seite zu verstehen. Nicht blockieren.
Falscher Pfad: Disallow: /admin/ blockiert /admin/, aber nicht /admin (ohne Slash). Beide Varianten testen.
Tippfehler: 'Disalow' statt 'Disallow' wird ignoriert. robots.txt-Tester der Search Console nutzen.

Häufige Fragen

robots.txt ist eine Textdatei im Root einer Website (https://example.com/robots.txt), die Suchmaschinen-Crawlern mitteilt, welche Bereiche sie crawlen dürfen. Die Datei folgt dem Robots Exclusion Protocol (REP) und wird seit 1994 von praktisch allen seriösen Crawlern beachtet. Wichtig: Sie ist kein Sicherheitsmechanismus – nur eine Bitte.

User-agent: * gilt für alle Crawler, oder spezifisch User-agent: Googlebot. Disallow: /pfad/ verbietet den Zugriff. Allow: /pfad/ erlaubt explizit (überschreibt Disallow). Mehrere Regeln werden zeilenweise geschrieben. Reihenfolge spielt bei modernen Crawlern keine Rolle – die spezifischste Regel gewinnt.

Im Root-Verzeichnis Ihrer Domain als robots.txt. Beispiel: https://example.com/robots.txt. Subdomains brauchen eigene robots.txt. Die URL muss exakt und mit Statuscode 200 erreichbar sein – sonst gehen Crawler von keinen Beschränkungen aus.

User-agent: GPTBot\nDisallow: / blockiert OpenAIs Web-Crawler. Andere prominente: User-agent: CCBot (Common Crawl), User-agent: ClaudeBot (Anthropic), User-agent: PerplexityBot. Wichtig: Nur seriöse Crawler beachten robots.txt – Spam-Bots ignorieren sie meistens.

robots.txt verhindert das Crawling – die Seite wird gar nicht erst geladen. noindex (Meta-Tag) erlaubt Crawling, verhindert aber die Indexierung. Wichtig: Eine per robots.txt blockierte Seite kann trotzdem im Index landen, wenn sie extern verlinkt ist – Google kennt dann nur den Link, nicht den Inhalt. Für sicheren Ausschluss noindex statt robots.txt nutzen.

Ja, mit Wildcards: Disallow: /*?session= blockiert URLs mit ?session=. Disallow: /*.pdf$ alle PDF-Dateien (nicht alle Crawler unterstützen Wildcards). Bessere Lösung für Parameter: Search Console Parameter-Tool oder canonical-Tags.

Ja, Sitemap: https://example.com/sitemap.xml am Ende der Datei. Crawler entdecken so die Sitemap automatisch, ohne dass Sie sie in Search Console anmelden. Mehrere Sitemaps können nebeneinander stehen.

Crawler gehen davon aus, dass alles crawlbar ist – kein Problem für offene Sites. Nur wenn Sie Bereiche schützen wollen, ist die Datei nötig. Eine 404 auf /robots.txt ist also unkritisch, eine 5xx hingegen problematisch (Crawler vermuten temporäres Problem).

Nein. Bereits indexierte Seiten verschwinden nicht durch eine neue Disallow-Regel – Google darf sie nicht mehr crawlen, behält aber den Index-Eintrag. Für Entfernung: noindex setzen, Crawl zulassen, dann nach De-Indexierung optional in robots.txt blockieren. Search Console URL-Removal hilft kurzfristig.