Google's AlphaProof behaalt zilver op wiskundeolympiade

In het kort:

AlphaProof presteerde op het niveau van zilveren medaillewinnaars bij de International Mathematical Olympiad 2024, wat een mijlpaal betekent voor AI-redenering.

Het systeem behaalde 28 van de 42 punten door samen te werken met AlphaGeometry 2 voor geometrieproblemen.
Voor het eerst kan AI complexe wiskundige bewijzen opstellen die absolute zekerheid vereisen, niet alleen statistische gissingen.
Van de zes olympiadeproblemen loste AlphaProof er vijf op, inclusief het beruchte zesde probleem dat slechts zes menselijke deelnemers oplosten.

Achter de schermen:

Het geheim ligt in een revolutionaire aanpak die wiskundige bewijzen behandelt als een spel dat te winnen valt. DeepMind gebruikte de Lean-programmeertaal om 80 miljoen wiskundige stellingen te formaliseren, waarna AlphaProof leerde door trial-and-error zoals AlphaZero deed bij schaak en Go.

De andere kant:

AlphaProof's prestatie komt met belangrijke kanttekeningen die de echte impact relativeren. Op zichzelf scoorde het systeem slechts 21 punten - technisch gezien brons - en had dagen nodig waar menselijke deelnemers 4,5 uur per sessie kregen, met kosten van honderden TPU-dagen per probleem.

Google's AlphaProof behaalt zilver op wiskundeolympiade

DeepMind's AlphaProof scoorde slechts één punt onder goud bij de meest prestigieuze wiskundewedstrijd ter wereld. Dit markeert een doorbraak waarbij AI eindelijk logisch redeneren beheerst, niet alleen rekenen.

In het kort:

Achter de schermen:

De andere kant:

Bronnen

Het belangrijkste nieuws gratis in je mailbox

Meer onderzoek

AI-startup lost eeuwenoude wiskundeproblemen op

Axiom's AxiomProver heeft meerdere wiskundige raadsels opgelost die experts jarenlang hebben dwarsgezeten, waaronder een probleem met formules uit de 19e eeuw.

OpenAI lanceert Prism voor wetenschappelijk onderzoek

OpenAI introduceert Prism, een gratis AI-werkruimte die wetenschappers helpt bij het schrijven en onderzoeken van papers door diep geïntegreerd te zijn met GPT-5.2.