In het kort:
Claude Opus 4.6 doorbreekt de beruchte 'context rot' door een miljoen tokens in één gesprek te verwerken. Dat komt neer op ongeveer 750.000 woorden of tien tot vijftien gemiddelde boeken.
- Het model plant zorgvuldiger voordat het aan een taak begint en kan langer zelfstandig doorwerken zonder fouten te maken.
- Op Terminal-Bench 2.0, een test voor programmerende AI-agents, behaalt Opus 4.6 volgens Anthropic de hoogste score van alle modellen.
- Ook op complexe redeneertests zoals Humanity's Last Exam en BrowseComp presteert het model naar eigen zeggen het beste.
Het grote plaatje:
De doorbraak zit vooral in het oplossen van een fundamenteel probleem dat alle AI-modellen plagt. Programmeurs kunnen nu hele codebases uploaden zonder dat het model halverwege belangrijke informatie 'vergeet', terwijl nieuwe functies zoals 'adaptive thinking' het model zelf laten bepalen wanneer het langer moet nadenken over complexe vragen.



