Logo van Mashable

-Business

Common Crawl opent achterdeurtje voor AI-training

Copyright mashable
Foto: VandaagAI.nl

Een onderzoek van The Atlantic onthult hoe AI-bedrijven via de Common Crawl Foundation stiekem toegang krijgen tot betaalde nieuwscontent van grote uitgevers.

In het kort:

Common Crawl fungeert als een controversiële tussenpersoon die AI-bedrijven helpt om paywalled content te verzamelen voor hun trainingsdata, ondanks officiële ontkenningen.

  • De nonprofit beheert een database van meerdere petabytes aan webinhoud en heeft donaties ontvangen van OpenAI, Anthropic en andere AI-bedrijven.
  • Uitgevers zoals The New York Times en Washington Post ontdekken dat hun betaalde content wordt gebruikt zonder toestemming.
  • Verzoeken om content te verwijderen worden volgens het onderzoek niet uitgevoerd, ondanks beloftes van Common Crawl.

Achter de schermen:

De werkelijke omvang van Common Crawl's activiteiten blijft grotendeels verborgen door misleidende zoekresultaten in hun publieke database. Directeur Richard Skrenta verdedigt de praktijk met de opvallende uitspraak: "The robots are people too."

  • Het archief gebruikt een "onveranderlijk" bestandsformaat, waardoor content niet kan worden verwijderd zodra het is toegevoegd.
  • Common Crawl ontkent krachtig dat ze paywalls omzeilen, maar helpt wel bij het samenstellen en distribueren van AI-trainingsdatasets.
  • De controverse past in een bredere juridische strijd, waarbij uitgevers zoals Ziff Davis en The New York Times rechtszaken hebben aangespannen tegen AI-bedrijven.

Bronnen

Het belangrijkste nieuws gratis in je mailbox

Elke week een korte e-mail met de meest relevante verhalen.

Meer business