In het kort:
De prestaties van AI op USAMO 2025-problemen vallen tegen vergeleken met eerdere resultaten op eenvoudigere wiskundetests. Google's Gemini 2.5 Pro kwam niet verder dan 24 procent van de maximale score.
- De meeste modellen scoorden tussen 1 en 2 punten van de 42 mogelijke punten
- Geen enkel AI-model wist een perfect score te behalen op ook maar één vraagstuk
- OpenAI's nieuwere modellen presteerden beter met scores rond 20%, maar deze resultaten zijn mogelijk vertekend
Het grote plaatje:
De tegenvallende resultaten leggen fundamentele zwakheden bloot in het wiskundig redeneren van AI-systemen. De modellen maken herhaaldelijk dezelfde soort fouten in hun bewijsvoeringen.
- Logische gaten in wiskundige argumentatie
- Onbewezen aannames in bewijsvoeringen
- Vasthouden aan foutieve benaderingen ondanks tegenstrijdige resultaten
- Incorrecte interpretaties van probleemstellingen
De onderste regel:
De resultaten tonen aan dat er nog een grote kloof bestaat tussen menselijk en kunstmatig wiskundig redeneren, vooral bij complexe bewijsvoeringen die verder gaan dan het vinden van numerieke antwoorden.