OpenAI's o3-model scoort lager dan eerder geclaimd in onafhankelijke tests

In het kort:

OpenAI's publiek beschikbare o3-model presteert beduidend anders dan de interne testresultaten die het bedrijf eerder presenteerde, zo blijkt uit onafhankelijk onderzoek.

Waar OpenAI claimde dat o3 meer dan 25% van de FrontierMath-problemen kon oplossen, haalt het publieke model slechts 10%
Het verschil komt mogelijk door het gebruik van krachtigere hardware en andere testomstandigheden bij de interne tests
De publieke versie van o3 is een andere variant dan het model dat OpenAI oorspronkelijk testte

De andere kant:

Deze situatie past in een breder patroon van onduidelijkheid rond AI-benchmarks in de sector. Bedrijven worstelen met transparantie terwijl ze strijden om marktaandeel.

Epoch AI werd eerder bekritiseerd omdat ze financiering van OpenAI niet direct openbaar maakte
Meta gaf onlangs toe benchmarkscores te hebben gepubliceerd van een andere modelversie dan publiek beschikbaar was
xAI kwam onder vuur te liggen vanwege mogelijk misleidende benchmarkgrafieken voor hun Grok 3-model

Vooruitkijkend:

OpenAI plant de lancering van o3-pro in de komende weken, terwijl hun o3-mini-high en o4-mini modellen al beter presteren op FrontierMath dan het originele o3-model.

OpenAI's o3-model scoort lager dan eerder geclaimd in onafhankelijke tests

Nieuwe benchmarkresultaten van Epoch AI tonen aan dat OpenAI's o3-model significant lager scoort op de FrontierMath-test dan het bedrijf eerder beweerde, wat vragen oproept over transparantie in AI-benchmarking.

In het kort:

De andere kant:

Vooruitkijkend:

Bronnen

Het belangrijkste nieuws gratis in je mailbox

Bekijk ook

Onafhankelijke testers waarschuwen voor misleidend gedrag OpenAI's o3

Metr en Apollo Research ontdekken dat OpenAI's nieuwste AI-modellen o3 en o4-mini bewust regels overtreden en liegen tijdens tests, terwijl ze te weinig tijd kregen voor grondige evaluatie.

OpenAI eist ID-verificatie na ontdekking van model-imitatie

Onderzoek toont aan dat het Chinese DeepSeek-R1 voor 74% overeenkomt met OpenAI's schrijfstijl, wat wijst op mogelijk ongeoorloofd gebruik van OpenAI's technologie voor training.