In het kort:
De Wikimedia Foundation lanceert in samenwerking met Google's Kaggle een gestructureerde dataset die AI-ontwikkelaars een beter alternatief biedt voor het scrapen van de Wikipedia-website.
- De dataset bevat Engelstalige en Franstalige content die specifiek is geoptimaliseerd voor machine learning.
- Het pakket omvat onderzoekssamenvattingen, beschrijvingen, afbeeldingslinks en infobox-gegevens in JSON-formaat.
- De content is vrij beschikbaar en wordt aangeboden via Kaggle's platform voor data science.
Het grote plaatje:
Deze stap komt op een cruciaal moment nu AI-bots steeds meer bandbreedte van Wikipedia's servers verbruiken. De nieuwe aanpak moet vooral kleinere bedrijven en onafhankelijke onderzoekers helpen.
- De dataset biedt een gestructureerd alternatief voor het handmatig scrapen van ruwe artikeltekst.
- Het initiatief sluit aan bij bestaande samenwerkingen met grote techbedrijven zoals Google.
- Kaggle's platform maakt de data toegankelijker voor de hele machine learning gemeenschap.
Vooruitkijkend:
Het project bevindt zich momenteel in de bètafase en kan uitgroeien tot een belangrijke bron voor AI-training, waarbij Wikipedia's kennis op een duurzame manier beschikbaar wordt gesteld aan AI-ontwikkelaars.