AI-modellen worstelen met complexe wiskundeproblemen USAMO 2025

In het kort:

De prestaties van AI op USAMO 2025-problemen vallen tegen vergeleken met eerdere resultaten op eenvoudigere wiskundetests. Google's Gemini 2.5 Pro kwam niet verder dan 24 procent van de maximale score.

De meeste modellen scoorden tussen 1 en 2 punten van de 42 mogelijke punten
Geen enkel AI-model wist een perfect score te behalen op ook maar één vraagstuk
OpenAI's nieuwere modellen presteerden beter met scores rond 20%, maar deze resultaten zijn mogelijk vertekend

Het grote plaatje:

De tegenvallende resultaten leggen fundamentele zwakheden bloot in het wiskundig redeneren van AI-systemen. De modellen maken herhaaldelijk dezelfde soort fouten in hun bewijsvoeringen.

Logische gaten in wiskundige argumentatie
Onbewezen aannames in bewijsvoeringen
Vasthouden aan foutieve benaderingen ondanks tegenstrijdige resultaten
Incorrecte interpretaties van probleemstellingen

De onderste regel:

De resultaten tonen aan dat er nog een grote kloof bestaat tussen menselijk en kunstmatig wiskundig redeneren, vooral bij complexe bewijsvoeringen die verder gaan dan het vinden van numerieke antwoorden.

AI-modellen worstelen met complexe wiskundeproblemen USAMO 2025

Recente tests op de Amerikaanse Wiskunde Olympiade (USAMO) tonen aan dat zelfs de meest geavanceerde AI-modellen moeite hebben met het oplossen van complexe wiskundige vraagstukken die complete bewijsvoeringen vereisen.

In het kort:

Het grote plaatje:

De onderste regel:

Bronnen

Het belangrijkste nieuws gratis in je mailbox

Bekijk ook

AI-modellen falen bij het oplossen van complexe programmeerproblemen

Nieuw onderzoek van Microsoft Research toont aan dat zelfs geavanceerde AI-modellen zoals Claude 3.7 Sonnet en OpenAI's o3-mini worstelen met het debuggen van software, ondanks grootse beloftes van techbedrijven.