# ============================================================== # robots.txt – spreewald-info.de # Zuletzt aktualisiert: 2026-05 # ============================================================== # Struktur: # 1. Standard-Suchmaschinen # 2. KI-Suchmaschinen (GEO – erlaubt) # 3. KI-Trainingscrawler (blockiert) # 4. Aggressive/irrelevante Bots (blockiert) # 5. Sitemap # ============================================================== # ── 1. STANDARD-SUCHMASCHINEN ───────────────────────────────── User-agent: * # Backend & Admin Disallow: /cp/ Disallow: /admin/ Disallow: /filament/ Disallow: /_/ Disallow: /api/ # Statamic-interne Routen Disallow: /!/ Disallow: /livewire/ # Duplicate-Content-Quellen Disallow: /search Disallow: /*?sort= Disallow: /*?filter= Disallow: /*?page= Disallow: /*?preview= Disallow: /*?token= # Technische Dateien Disallow: /*.json$ Disallow: /*.xml$ Allow: /sitemap.xml Allow: / # ── Google ──────────────────────────────────────────────────── User-agent: Googlebot Allow: / Disallow: /cp/ Disallow: /admin/ Disallow: /filament/ Disallow: /!/ Disallow: /api/ # Google-Extended = Gemini-Training (kein Suchtraffic → blockiert) User-agent: Google-Extended Disallow: / # ── Bing / Microsoft ────────────────────────────────────────── User-agent: bingbot Allow: / Crawl-delay: 5 # Bingbot-adcrawler (Werbecrawler – kein Nutzen für organische Suche) User-agent: adidxbot Disallow: / # ── 2. KI-SUCHMASCHINEN (GEO – ERLAUBT) ────────────────────── # Diese Bots speisen KI-Antwortmaschinen mit Suchergebnissen. # Blockieren = Ausschluss aus ChatGPT Search, Perplexity, Claude.ai # OpenAI – ChatGPT Search & Browsing User-agent: GPTBot Allow: / Disallow: /cp/ Disallow: /admin/ Disallow: /filament/ Disallow: /api/ User-agent: ChatGPT-User Allow: / User-agent: OAI-SearchBot Allow: / # Perplexity AI User-agent: PerplexityBot Allow: / Crawl-delay: 5 # Anthropic (Claude.ai Web Search) User-agent: anthropic-ai Allow: / User-agent: ClaudeBot Allow: / # Apple (Siri, Apple Intelligence) User-agent: Applebot Allow: / User-agent: Applebot-Extended Allow: / # You.com User-agent: YouBot Allow: / # Brave Search User-agent: Brave-Search-Bot Allow: / # ── 3. KI-TRAININGSCRAWLER (BLOCKIERT) ──────────────────────── # Reine Trainingsdaten-Crawler ohne Suchreferral-Nutzen. # Common Crawl (Trainingsbasis vieler KI-Modelle) User-agent: CCBot Disallow: / # ByteDance / TikTok User-agent: Bytespider Disallow: / # Meta AI Training User-agent: Meta-ExternalAgent Disallow: / User-agent: FacebookBot Disallow: / # Cohere User-agent: cohere-ai Disallow: / # Omgili / Webz.io (Medienmonitoring-Daten) User-agent: omgili Disallow: / User-agent: omgilibot Disallow: / # Diffbot (Data-Mining) User-agent: Diffbot Disallow: / # Amazon Alexa Crawl (Training) User-agent: Amazonbot Disallow: / # Timpibot (unbekannte KI-Crawler) User-agent: Timpibot Disallow: / # ── 4. AGGRESSIVE / IRRELEVANTE BOTS (BLOCKIERT) ────────────── User-agent: AhrefsBot Disallow: / User-agent: SemrushBot Disallow: / User-agent: MJ12bot Disallow: / User-agent: DotBot Disallow: / User-agent: DataForSeoBot Disallow: / User-agent: PetalBot Disallow: / User-agent: SeznamBot Crawl-delay: 10 # ── 5. SITEMAP ──────────────────────────────────────────────── Sitemap: https://www.spreewald-info.de/sitemap.xml