Scale AI lanceert nieuwe AI-benchmark tegen LMArena

In het kort:

Scale AI's nieuwe Seal Showdown wil de gebreken van bestaande AI-benchmarks aanpakken door zich te richten op echte gebruikerservaringen in plaats van synthetische tests.

De tool gebruikt feedback van gebruikers uit meer dan 100 landen, 70 talen en 200 professionele domeinen.
Anders dan LMArena biedt Seal Showdown gedetailleerde segmentatie op basis van land, leeftijd, opleiding en beroep van gebruikers.
Scale AI verzamelt data via hun Outlier-platform, waardoor ze kunnen tonen welke modellen populair zijn bij specifieke doelgroepen.

Achter de schermen:

Scale AI's kritiek richt zich op de vermeende beperkingen van LMArena's gebruikersbase en methodologie. CEO Jason Droege stelt dat hun platform "echte voorkeuren vastlegt van een platform dat door echte mensen wordt gebruikt," terwijl LMArena volgens hen te veel afhangt van hobbyisten en synthetische tests zoals programmeerraadsels en wiskundeproblemen.

De andere kant:

De eerste resultaten van Seal Showdown tonen een opvallend contrast met LMArena's rankings. Waar Google's Gemini 2.5 Pro, 2.5 Flash en Veo 3 de meeste categorieën op LMArena leiden, scoort OpenAI's nieuwste model het hoogst op alle Seal Showdown-categorieën - wat mogelijk meer gebruikersvoorkeur dan objectieve prestaties weergeeft.

Scale AI lanceert nieuwe AI-benchmark tegen LMArena

Scale AI daagt de dominante LMArena uit met Seal Showdown, een benchmarktool die beweert beter te weerspiegelen hoe gewone gebruikers over AI-modellen denken.

In het kort:

Achter de schermen:

De andere kant:

Bronnen

Het belangrijkste nieuws gratis in je mailbox

Meer business

Google's Gemini 3.1 Pro verslaat ChatGPT en Claude

Google's nieuwste denkmodel Gemini 3.1 Pro overtreft ChatGPT en Claude op cruciale benchmarks, waaronder de beruchte 'Humanity's Last Exam' die menselijke intelligentie test.

OpenAI brengt AI-zoeken naar Indiase streamingdienst

OpenAI slaat de handen ineen met Reliance om JioHotstar uit te rusten met slimme zoekfuncties die werken met spraak en tekst in meerdere talen.