Logo van Ars Technica

-Onderzoek

AI-modellen worstelen met complexe wiskundeproblemen USAMO 2025

Copyright arstechnica
Foto: VandaagAI.nl

Recente tests op de Amerikaanse Wiskunde Olympiade (USAMO) tonen aan dat zelfs de meest geavanceerde AI-modellen moeite hebben met het oplossen van complexe wiskundige vraagstukken die complete bewijsvoeringen vereisen.

In het kort:

De prestaties van AI op USAMO 2025-problemen vallen tegen vergeleken met eerdere resultaten op eenvoudigere wiskundetests. Google's Gemini 2.5 Pro kwam niet verder dan 24 procent van de maximale score.

  • De meeste modellen scoorden tussen 1 en 2 punten van de 42 mogelijke punten
  • Geen enkel AI-model wist een perfect score te behalen op ook maar één vraagstuk
  • OpenAI's nieuwere modellen presteerden beter met scores rond 20%, maar deze resultaten zijn mogelijk vertekend

Het grote plaatje:

De tegenvallende resultaten leggen fundamentele zwakheden bloot in het wiskundig redeneren van AI-systemen. De modellen maken herhaaldelijk dezelfde soort fouten in hun bewijsvoeringen.

  • Logische gaten in wiskundige argumentatie
  • Onbewezen aannames in bewijsvoeringen
  • Vasthouden aan foutieve benaderingen ondanks tegenstrijdige resultaten
  • Incorrecte interpretaties van probleemstellingen

De onderste regel:

De resultaten tonen aan dat er nog een grote kloof bestaat tussen menselijk en kunstmatig wiskundig redeneren, vooral bij complexe bewijsvoeringen die verder gaan dan het vinden van numerieke antwoorden.

Bronnen

Het belangrijkste nieuws gratis in je mailbox

Elke week een korte e-mail met de meest relevante verhalen.

Bekijk ook