Logo van TechCrunch

-Mens & Impact

Experts uiten zorgen over crowdsourced AI-benchmarking

Copyright techcrunch
Foto: VandaagAI.nl

AI-labs gebruiken steeds vaker crowdsourced benchmarking om hun modellen te testen, maar experts waarschuwen voor de beperkingen en ethische problemen van deze aanpak.

In het kort:

Platforms zoals Chatbot Arena laten vrijwilligers AI-modellen testen, maar de validiteit en betrouwbaarheid van deze methode staat ter discussie.

  • Emily Bender, taalkundige aan de Universiteit van Washington, stelt dat de benchmarks geen duidelijk meetbaar doel hebben
  • Meta's recente Llama 4 Maverick-controverse toont aan hoe labs de benchmarks kunnen manipuleren
  • Experts pleiten voor betaalde evaluaties en meer gevarieerde testmethoden

De andere kant:

De industrie verdedigt het gebruik van crowdsourcing als waardevolle aanvulling op het evaluatieproces. Wei-Lin Chiang van LMArena benadrukt dat hun platform een open en transparante ruimte biedt voor collectieve feedback.

Vooruitkijkend:

Experts adviseren een meer holistische benadering van AI-evaluatie met:

  • Dynamische benchmarks verspreid over verschillende onafhankelijke organisaties
  • Specifieke tests voor verschillende toepassingsgebieden
  • Eerlijke compensatie voor evaluatoren
  • Combinatie van publieke en private evaluatiemethoden

Bronnen

Het belangrijkste nieuws gratis in je mailbox

Elke week een korte e-mail met de meest relevante verhalen.

Meer mens & impact