In het kort:
OpenAI's publiek beschikbare o3-model presteert beduidend anders dan de interne testresultaten die het bedrijf eerder presenteerde, zo blijkt uit onafhankelijk onderzoek.
- Waar OpenAI claimde dat o3 meer dan 25% van de FrontierMath-problemen kon oplossen, haalt het publieke model slechts 10%
- Het verschil komt mogelijk door het gebruik van krachtigere hardware en andere testomstandigheden bij de interne tests
- De publieke versie van o3 is een andere variant dan het model dat OpenAI oorspronkelijk testte
De andere kant:
Deze situatie past in een breder patroon van onduidelijkheid rond AI-benchmarks in de sector. Bedrijven worstelen met transparantie terwijl ze strijden om marktaandeel.
- Epoch AI werd eerder bekritiseerd omdat ze financiering van OpenAI niet direct openbaar maakte
- Meta gaf onlangs toe benchmarkscores te hebben gepubliceerd van een andere modelversie dan publiek beschikbaar was
- xAI kwam onder vuur te liggen vanwege mogelijk misleidende benchmarkgrafieken voor hun Grok 3-model
Vooruitkijkend:
OpenAI plant de lancering van o3-pro in de komende weken, terwijl hun o3-mini-high en o4-mini modellen al beter presteren op FrontierMath dan het originele o3-model.