Wikipedia biedt AI-bedrijven alternatief voor massaal datascrapen

In het kort:

De Wikimedia Foundation lanceert in samenwerking met Google's Kaggle een gestructureerde dataset die AI-ontwikkelaars een beter alternatief biedt voor het scrapen van de Wikipedia-website.

De dataset bevat Engelstalige en Franstalige content die specifiek is geoptimaliseerd voor machine learning.
Het pakket omvat onderzoekssamenvattingen, beschrijvingen, afbeeldingslinks en infobox-gegevens in JSON-formaat.
De content is vrij beschikbaar en wordt aangeboden via Kaggle's platform voor data science.

Het grote plaatje:

Deze stap komt op een cruciaal moment nu AI-bots steeds meer bandbreedte van Wikipedia's servers verbruiken. De nieuwe aanpak moet vooral kleinere bedrijven en onafhankelijke onderzoekers helpen.

De dataset biedt een gestructureerd alternatief voor het handmatig scrapen van ruwe artikeltekst.
Het initiatief sluit aan bij bestaande samenwerkingen met grote techbedrijven zoals Google.
Kaggle's platform maakt de data toegankelijker voor de hele machine learning gemeenschap.

Vooruitkijkend:

Het project bevindt zich momenteel in de bètafase en kan uitgroeien tot een belangrijke bron voor AI-training, waarbij Wikipedia's kennis op een duurzame manier beschikbaar wordt gesteld aan AI-ontwikkelaars.

Wikipedia biedt AI-bedrijven alternatief voor massaal datascrapen

Wikipedia komt met een strategische zet tegen de toenemende serverbelasting door AI-scraping: een geoptimaliseerde dataset die speciaal is ontwikkeld voor het trainen van AI-modellen.

In het kort:

Het grote plaatje:

Vooruitkijkend:

Bronnen

Het belangrijkste nieuws gratis in je mailbox

Meer tools

Google lanceert Lyria 3 muziekgenerator gratis

Google rolt een nieuwe AI-muziekgenerator uit die in 30 seconden complete nummers kan maken, inclusief teksten en albumhoezen.

Google brengt AI-muziekmaker naar Gemini-app

Google integreert DeepMind's Lyria 3 in de Gemini-app, waarmee gebruikers nu 30-seconde muziekfragmenten kunnen genereren vanuit tekst, afbeeldingen en video's.