In het kort:
Scale AI's nieuwe Seal Showdown wil de gebreken van bestaande AI-benchmarks aanpakken door zich te richten op echte gebruikerservaringen in plaats van synthetische tests.
- De tool gebruikt feedback van gebruikers uit meer dan 100 landen, 70 talen en 200 professionele domeinen.
- Anders dan LMArena biedt Seal Showdown gedetailleerde segmentatie op basis van land, leeftijd, opleiding en beroep van gebruikers.
- Scale AI verzamelt data via hun Outlier-platform, waardoor ze kunnen tonen welke modellen populair zijn bij specifieke doelgroepen.
Achter de schermen:
Scale AI's kritiek richt zich op de vermeende beperkingen van LMArena's gebruikersbase en methodologie. CEO Jason Droege stelt dat hun platform "echte voorkeuren vastlegt van een platform dat door echte mensen wordt gebruikt," terwijl LMArena volgens hen te veel afhangt van hobbyisten en synthetische tests zoals programmeerraadsels en wiskundeproblemen.
De andere kant:
De eerste resultaten van Seal Showdown tonen een opvallend contrast met LMArena's rankings. Waar Google's Gemini 2.5 Pro, 2.5 Flash en Veo 3 de meeste categorieën op LMArena leiden, scoort OpenAI's nieuwste model het hoogst op alle Seal Showdown-categorieën - wat mogelijk meer gebruikersvoorkeur dan objectieve prestaties weergeeft.