Logo van The VergeLogo van Engadget

-Tools

Wikipedia biedt AI-bedrijven alternatief voor massaal datascrapen

Copyright theverge
Foto: VandaagAI.nl

Wikipedia komt met een strategische zet tegen de toenemende serverbelasting door AI-scraping: een geoptimaliseerde dataset die speciaal is ontwikkeld voor het trainen van AI-modellen.

In het kort:

De Wikimedia Foundation lanceert in samenwerking met Google's Kaggle een gestructureerde dataset die AI-ontwikkelaars een beter alternatief biedt voor het scrapen van de Wikipedia-website.

  • De dataset bevat Engelstalige en Franstalige content die specifiek is geoptimaliseerd voor machine learning.
  • Het pakket omvat onderzoekssamenvattingen, beschrijvingen, afbeeldingslinks en infobox-gegevens in JSON-formaat.
  • De content is vrij beschikbaar en wordt aangeboden via Kaggle's platform voor data science.

Het grote plaatje:

Deze stap komt op een cruciaal moment nu AI-bots steeds meer bandbreedte van Wikipedia's servers verbruiken. De nieuwe aanpak moet vooral kleinere bedrijven en onafhankelijke onderzoekers helpen.

  • De dataset biedt een gestructureerd alternatief voor het handmatig scrapen van ruwe artikeltekst.
  • Het initiatief sluit aan bij bestaande samenwerkingen met grote techbedrijven zoals Google.
  • Kaggle's platform maakt de data toegankelijker voor de hele machine learning gemeenschap.

Vooruitkijkend:

Het project bevindt zich momenteel in de bètafase en kan uitgroeien tot een belangrijke bron voor AI-training, waarbij Wikipedia's kennis op een duurzame manier beschikbaar wordt gesteld aan AI-ontwikkelaars.

Bronnen

Het belangrijkste nieuws gratis in je mailbox

Elke week een korte e-mail met de meest relevante verhalen.

Meer tools