Crawler Timer Runner

Geplante DACH-Checks mit sichtbaren Grenzen

Crawler-Timer-Runner: systemd alle 30 Minuten, maximal 8 Hosts pro Lauf, 724 DACH-/DE-Checks, Queue 596, letzter Batch 8 Host(s), Fehlerquote 2,97%.

Dieser Nachweis zeigt Timervertrag, Runner-State, Queue, letzte Reports und Betriebsregeln. Er veroeffentlicht keine Secrets, keine internen IPs, keine Rohpayloads und keine personenbezogenen Besucherlogs.

operationalStatus 11/11Gates bestanden 30minKadenz 8Hosts pro Lauf 2parallel 86Seed-Hosts 596Queue 36Reportlinks 2.97%Fehlerquote

Seedquelle

Kontrollierter Ausbau für den deutschsprachigen Raum

Versioned DACH seed file plus recent public checks; bounded timer batch keeps discovery controlled.

Ops-Export
Dateiconfig/dach-seed-domains.txt Datei-Hosts86 Seed gesamt110 neu0 in Queue0 Genericnicht einbezogen

Timer-Vertrag

Was systemd ausführen soll

Der öffentliche Nachweis beschreibt den Deploy-Vertrag; Live-Timerstatus wird auf dem Server per systemctl geprüft, nicht aus PHP heraus ausgeführt.

Bot-Transparenz
Timer

saferpage-crawler.timer · 30min after previous unit activation · RandomizedDelay 8min

Persistent: ja · Start nach Boot: 10min

Service

saferpage-crawler.service

python3 scripts/crawl-german-sites.py --from-recent --seed-file config/dach-seed-domains.txt --refresh-days 7 --refresh-limit 2000 --max 8 --concurrency 2 --timeout 90 --delay 1
Schonung

Nice=10 und IO-Scheduling im systemd-Service; kleine Batches statt breiter Crawls.

Headless Chromium nur fuer Screenshot-, Cookie-, Storage- und Consent-Nachweise, nicht fuer jeden Link blind.

User-Agent SaferPageCrawler/0.3 (+https://saferpage.de/bot; schedules passive DACH website checks; report examples: https://saferpage.de/tests)

SaferPageCrawler respektiert robots.txt; Betreiber finden Opt-out und Zweck unter /bot.

Readiness-Gates

Was vor höherer Crawl-Leistung stimmen muss

Matrix-Evidence
Runner-State erreichbar passed

Die lokale Crawler-API liefert Queue, Laufhistorie und Fehlerstatus.

Gate
state_available
Aktion
Bei blocked: API-Service, Port 8092 und Crawler-State prüfen.
Letzter Lauf protokolliert passed

finished_at=2026-06-09T22:34:41+00:00

Gate
recent_run_recorded
Aktion
Timer manuell prüfen und nach dem nächsten Lauf erneut abrufen.
systemd-Timer-Vertrag vorhanden passed

saferpage-crawler.timer: OnBootSec=10min, OnUnitActiveSec=30min, RandomizedDelaySec=8min, Persistent=true.

Gate
schedule_contract_present
Aktion
Nach Deploy mit systemctl list-timers saferpage-crawler.timer verifizieren.
Batch und Parallelität begrenzt passed

max=8, concurrency=2, timeout=90s.

Gate
bounded_batch
Aktion
Grenzen nur nach Last-, Fehler- und robots.txt-Auswertung erhöhen.
Versionierte DACH-Seedquelle passed

config/dach-seed-domains.txt: 86 Host(s), 0 neu in der Queue.

Gate
versioned_seed_source
Aktion
Timer mit --seed-file config/dach-seed-domains.txt laufen lassen und Runner-State erneut prüfen.
User-Agent mit Betreiberlink passed

SaferPageCrawler/0.3 (+https://saferpage.de/bot; schedules passive DACH website checks; report examples: https://saferpage.de/tests)

Gate
public_user_agent
Aktion
User-Agent muss /bot und Beispielreports nennen.
robots.txt-Respekt passed

Runner nutzt einen eigenen SaferPageCrawler und dokumentiert Opt-out unter /bot und /crawler.

Gate
robots_policy
Aktion
Bei erhöhter Skiprate Seed-Liste und robots.txt-Regeln prüfen.
Fehlerquote unter Stop-Schwelle passed

2,97% bei 29 Fehlern.

Gate
error_rate_guard
Aktion
Über 20 Prozent: Timeout, DNS, API-Log und robots.txt-Skiprate prüfen, Parallelität nicht erhöhen.
Queue-Druck kontrolliert passed

596 Hosts in der Queue.

Gate
queue_pressure_guard
Aktion
Bei hoher Queue zusätzliche Seeds priorisieren und Batchgröße erst nach Lastprüfung erhöhen.
Zuletzt geprüfte Reports verlinkt passed

36 direkte Kurz-URL-Links im Export.

Gate
recent_reports_linked
Aktion
Recent-Checks und Sitemap prüfen, wenn keine Links erscheinen.
No-Secret-/No-Visitor-Log-Export passed

Der Timer-Runner-Export enthält Betriebsdaten, Reportlinks und Runbook, aber keine Secrets oder Besucherlogs.

Gate
no_secret_export
Aktion
Neue Felder vor Veröffentlichung auf Rohpayloads, IPs und Tokens prüfen.

Letzter Lauf

Runner-State und Batchgrenzen

Monitoring-Feed
Start09.06.2026 22:33 UTC Ende09.06.2026 22:34 UTC gescannt8 Host(s) refreshed0 Host(s) Queue danach601 Host(s) Fehler29
Operator-Sequenz Nachweis fuer geplante, begrenzte und datenschutzschonende DACH-Recrawls mit direkter Report-Verlinkung.

Der Ausbau bleibt kontrolliert: zuerst Evidence prüfen, dann Seeds erweitern, dann erst Lastgrenzen ändern.

Schritt 1
Vor Seed-Ausbau /crawler/timer-runner-json und /crawler/ops-json pruefen.
Schritt 2
Versionierte DACH-Seedliste pflegen, dann mit kleiner Batchgroesse starten und Queue-/Fehlerquote beobachten.
Schritt 3
Parallelitaet nur erhoehen, wenn API-Latenz, Fehlerquote und robots.txt-Skiprate stabil bleiben.
Schritt 4
Alle gespeicherten Checks muessen in /tests, A-Z-Sitemaps und unter /{domain} erreichbar sein.
Schritt 5
Endnutzertexte im Report priorisieren Datenschutzrisiko, Tracking, Consent, Betreiberfix und Re-Scan-Link.
Stop-Bedingungen nicht weiter skalieren

Diese Signale stoppen Seed-Ausbau, Parallelitätserhöhung oder produktive Crawl-Ausweitung.

Stop 1
Fehlerquote ueber 20 Prozent oder wiederholte DNS-/Timeout-Fehler.
Stop 2
Queue ueber 5000 ohne Priorisierung oder ohne Betreiber-/Seed-Plan.
Stop 3
robots.txt-Skiprate steigt sichtbar nach Seed-Import.
Stop 4
Headless-Chromium-/Screenshot-Worker blockiert API-Antwortzeiten.
Stop 5
Oeffentliche Exports enthalten Rohpayloads, interne Pfade, Tokens, IPs oder Besucherlogs.
Stop 6
Reports sind nicht mehr ueber die kanonische Kurz-URL /{domain} erreichbar.

Zuletzt geprüft

Direkte Links zu aktuellen Datenschutz-Checks

Die Links führen direkt zur kanonischen Kurz-URL des jeweiligen Reports.

Sitemap
abavo.de 0

Nur mit Vorsicht nutzen

09.06.2026 23:06 UTC
eco.de 0

Nur mit Vorsicht nutzen

09.06.2026 23:02 UTC
dzl.de 0

Nur mit Vorsicht nutzen

09.06.2026 23:01 UTC
dzd-ev.de 0

Nur mit Vorsicht nutzen

09.06.2026 23:01 UTC
dvka.de 0

Nur mit Vorsicht nutzen

09.06.2026 23:01 UTC
dtb-shop.de 0

Nur mit Vorsicht nutzen

09.06.2026 23:00 UTC
dtb.de 0

Nur mit Vorsicht nutzen

09.06.2026 23:00 UTC
dsj.de 0

Nur mit Vorsicht nutzen

09.06.2026 23:00 UTC
dsg.dlrg.de 0

Nur mit Vorsicht nutzen

09.06.2026 23:00 UTC
d-s-e-e.de 0

Nur mit Vorsicht nutzen

09.06.2026 23:00 UTC
dsc.bund.de 0

Nur mit Vorsicht nutzen

09.06.2026 22:55 UTC
drk.de 0

Nur mit Vorsicht nutzen

09.06.2026 22:55 UTC

Queue

Vorschau auf kommende Hosts

voller Ops-Export