22 april 2025 -Mens & Impact

Experts uiten zorgen over crowdsourced AI-benchmarking

Foto: VandaagAI.nl

AI-labs gebruiken steeds vaker crowdsourced benchmarking om hun modellen te testen, maar experts waarschuwen voor de beperkingen en ethische problemen van deze aanpak.

In het kort:

Platforms zoals Chatbot Arena laten vrijwilligers AI-modellen testen, maar de validiteit en betrouwbaarheid van deze methode staat ter discussie.

Emily Bender, taalkundige aan de Universiteit van Washington, stelt dat de benchmarks geen duidelijk meetbaar doel hebben
Meta's recente Llama 4 Maverick-controverse toont aan hoe labs de benchmarks kunnen manipuleren
Experts pleiten voor betaalde evaluaties en meer gevarieerde testmethoden

De andere kant:

De industrie verdedigt het gebruik van crowdsourcing als waardevolle aanvulling op het evaluatieproces. Wei-Lin Chiang van LMArena benadrukt dat hun platform een open en transparante ruimte biedt voor collectieve feedback.