In het kort:
Meta's interne documenten tonen aan dat het bedrijf 'ablatie-experimenten' uitvoerde om de waarde van specifieke trainingsdata te bepalen. Door boeken uit de piratenbibliotheek LibGen toe te voegen, verbeterden de prestaties van Llama aanzienlijk.
- Het toevoegen van wetenschappelijke en fictie boeken leidde tot 4,5% betere prestaties
- Alleen fictie toevoegen resulteerde in 6% verbetering
- Deze resultaten werden zorgvuldig geheim gehouden om mogelijke juridische claims te voorkomen
Het grote plaatje:
Deze onthullingen hebben verstrekkende gevolgen voor de AI-industrie en contentmakers. De experimenten bewijzen dat specifieke content meetbare waarde heeft voor AI-modellen, wat vragen oproept over compensatie en auteursrecht.
- Meta voerde honderden van deze tests uit tijdens de ontwikkeling van Llama
- Techbedrijven delen steeds minder details over gebruikte trainingsdata
- De resultaten kunnen worden gebruikt als bewijs in lopende rechtszaken over auteursrecht
De andere kant:
Meta ontkent de beschuldigingen en stelt dat hun AI-modellen innovatie en creativiteit bevorderen. Het bedrijf belooft zich "krachtig te blijven verdedigen" tegen claims over onrechtmatig gebruik van content.