Common Crawl opent achterdeurtje voor AI-training

In het kort:

Common Crawl fungeert als een controversiële tussenpersoon die AI-bedrijven helpt om paywalled content te verzamelen voor hun trainingsdata, ondanks officiële ontkenningen.

De nonprofit beheert een database van meerdere petabytes aan webinhoud en heeft donaties ontvangen van OpenAI, Anthropic en andere AI-bedrijven.
Uitgevers zoals The New York Times en Washington Post ontdekken dat hun betaalde content wordt gebruikt zonder toestemming.
Verzoeken om content te verwijderen worden volgens het onderzoek niet uitgevoerd, ondanks beloftes van Common Crawl.

Achter de schermen:

De werkelijke omvang van Common Crawl's activiteiten blijft grotendeels verborgen door misleidende zoekresultaten in hun publieke database. Directeur Richard Skrenta verdedigt de praktijk met de opvallende uitspraak: "The robots are people too."

Het archief gebruikt een "onveranderlijk" bestandsformaat, waardoor content niet kan worden verwijderd zodra het is toegevoegd.
Common Crawl ontkent krachtig dat ze paywalls omzeilen, maar helpt wel bij het samenstellen en distribueren van AI-trainingsdatasets.
De controverse past in een bredere juridische strijd, waarbij uitgevers zoals Ziff Davis en The New York Times rechtszaken hebben aangespannen tegen AI-bedrijven.

Common Crawl opent achterdeurtje voor AI-training

Een onderzoek van The Atlantic onthult hoe AI-bedrijven via de Common Crawl Foundation stiekem toegang krijgen tot betaalde nieuwscontent van grote uitgevers.

In het kort:

Achter de schermen:

Bronnen

Het belangrijkste nieuws gratis in je mailbox

Meer business

Google's Gemini 3.1 Pro verslaat ChatGPT en Claude

Google's nieuwste denkmodel Gemini 3.1 Pro overtreft ChatGPT en Claude op cruciale benchmarks, waaronder de beruchte 'Humanity's Last Exam' die menselijke intelligentie test.

OpenAI brengt AI-zoeken naar Indiase streamingdienst

OpenAI slaat de handen ineen met Reliance om JioHotstar uit te rusten met slimme zoekfuncties die werken met spraak en tekst in meerdere talen.