In het kort:
Het Absolute Zero Reasoner (AZR) systeem markeert een fundamentele verschuiving in hoe AI kan leren. In plaats van alleen menselijke voorbeelden na te bootsen, stelt het systeem zichzelf uitdagende vragen en leert van eigen successen en fouten.
- Het systeem gebruikt een taalmodel om Python-programmeerproblemen te genereren, lost deze zelf op en controleert het resultaat door de code uit te voeren.
- Tests tonen aan dat zowel 7 als 14 miljard parameter versies van het Qwen-model significant verbeterden in programmeer- en redeneervaardigheden.
- Het model presteerde zelfs beter dan sommige systemen die getraind waren met door mensen geselecteerde data.
Het grote plaatje:
Deze 'self-play' benadering lijkt op menselijk leren, waarbij we uiteindelijk onze eigen vragen stellen en onze leraren kunnen overtreffen. Andrew Zhao van Tsinghua University legt uit: "In het begin imiteer je je ouders en docenten, maar uiteindelijk moet je je eigen vragen stellen."
- Grote AI-labs zoals Salesforce, Meta en Stanford experimenteren al met vergelijkbare technieken voor softwareontwikkeling en algemene redeneertaken.
- De moeilijkheidsgraad van problemen groeit automatisch mee met de capaciteiten van het model, wat theoretisch tot superintelligentie zou kunnen leiden.
Vooruitkijkend:
Met conventionele trainingsdata steeds schaarser wordend, biedt deze methode een veelbelovend alternatief. Het systeem werkt vooralsnog alleen bij controleerbare problemen zoals wiskunde en programmeren, maar uitbreiding naar complexere taken zoals webbrowsing ligt in het verschiet.



