Logo van TechCrunch

-Mens & Impact

OpenAI's o3-model scoort lager dan eerder geclaimd in onafhankelijke tests

Copyright techcrunch
Foto: VandaagAI.nl

Nieuwe benchmarkresultaten van Epoch AI tonen aan dat OpenAI's o3-model significant lager scoort op de FrontierMath-test dan het bedrijf eerder beweerde, wat vragen oproept over transparantie in AI-benchmarking.

In het kort:

OpenAI's publiek beschikbare o3-model presteert beduidend anders dan de interne testresultaten die het bedrijf eerder presenteerde, zo blijkt uit onafhankelijk onderzoek.

  • Waar OpenAI claimde dat o3 meer dan 25% van de FrontierMath-problemen kon oplossen, haalt het publieke model slechts 10%
  • Het verschil komt mogelijk door het gebruik van krachtigere hardware en andere testomstandigheden bij de interne tests
  • De publieke versie van o3 is een andere variant dan het model dat OpenAI oorspronkelijk testte

De andere kant:

Deze situatie past in een breder patroon van onduidelijkheid rond AI-benchmarks in de sector. Bedrijven worstelen met transparantie terwijl ze strijden om marktaandeel.

  • Epoch AI werd eerder bekritiseerd omdat ze financiering van OpenAI niet direct openbaar maakte
  • Meta gaf onlangs toe benchmarkscores te hebben gepubliceerd van een andere modelversie dan publiek beschikbaar was
  • xAI kwam onder vuur te liggen vanwege mogelijk misleidende benchmarkgrafieken voor hun Grok 3-model

Vooruitkijkend:

OpenAI plant de lancering van o3-pro in de komende weken, terwijl hun o3-mini-high en o4-mini modellen al beter presteren op FrontierMath dan het originele o3-model.

Bronnen

Het belangrijkste nieuws gratis in je mailbox

Elke week een korte e-mail met de meest relevante verhalen.

Bekijk ook