In het kort:
Common Crawl fungeert als een controversiële tussenpersoon die AI-bedrijven helpt om paywalled content te verzamelen voor hun trainingsdata, ondanks officiële ontkenningen.
- De nonprofit beheert een database van meerdere petabytes aan webinhoud en heeft donaties ontvangen van OpenAI, Anthropic en andere AI-bedrijven.
- Uitgevers zoals The New York Times en Washington Post ontdekken dat hun betaalde content wordt gebruikt zonder toestemming.
- Verzoeken om content te verwijderen worden volgens het onderzoek niet uitgevoerd, ondanks beloftes van Common Crawl.
Achter de schermen:
De werkelijke omvang van Common Crawl's activiteiten blijft grotendeels verborgen door misleidende zoekresultaten in hun publieke database. Directeur Richard Skrenta verdedigt de praktijk met de opvallende uitspraak: "The robots are people too."
- Het archief gebruikt een "onveranderlijk" bestandsformaat, waardoor content niet kan worden verwijderd zodra het is toegevoegd.
- Common Crawl ontkent krachtig dat ze paywalls omzeilen, maar helpt wel bij het samenstellen en distribueren van AI-trainingsdatasets.
- De controverse past in een bredere juridische strijd, waarbij uitgevers zoals Ziff Davis en The New York Times rechtszaken hebben aangespannen tegen AI-bedrijven.



