In het kort:
De storing ontstond door een probleem in het Bot Management-systeem dat bepaalt welke geautomatiseerde crawlers websites mogen bezoeken via Cloudflare's netwerk.
- CEO Matthew Prince bevestigt dat ongeveer 20 procent van het web door Cloudflare's netwerk loopt, waardoor de impact enorm was.
- Websites die Cloudflare's bot-regels gebruikten, blokkeerden ten onrechte echt verkeer door valse positieven.
- Klanten die geen gebruik maakten van de bot-detectie bleven wel online tijdens de storing.
Achter de schermen:
Het probleem lag dieper dan aanvankelijk gedacht. Een wijziging in de ClickHouse-database zorgde ervoor dat het configuratiebestand van het machine learning-model duplicaten ging genereren.
- Het bestand groeide zo snel dat het de geheugenlimieten overschreed en het kernproxysysteem deed crashen.
- Cloudflare dacht eerst aan een cyberaanval of DDoS-aanval, maar het bleek een interne databasefout.
- Het bedrijf heeft vier specifieke maatregelen aangekondigd om herhaling te voorkomen, hoewel de groeiende centralisatie van internetdiensten dergelijke storingen mogelijk onvermijdelijk maakt.


