In het kort:
Claude 4 komt in twee varianten: Opus en Sonnet, waarbij beide modellen nieuwe mijlpalen bereiken in coderingsvaardigheden en langdurige taakuitvoering.
- Opus 4 kan tot 24 uur lang coherent functioneren, terwijl eerdere versies na 1-2 uur vastliepen
- De modellen leiden de industrie met scores van 72,5% op SWE-bench en 43,2% op Terminal-bench
- GitHub kiest Claude Sonnet 4 als basis voor zijn nieuwe Copilot-codeerassistent
Het grote plaatje:
De nieuwe modellen introduceren baanbrekende functionaliteiten die AI-assistentie naar een hoger niveau tillen. Ze kunnen externe bestanden bijhouden voor langdurige sessies en combineren actief denken met het gebruik van tools zoals webzoekopdrachten.
- Het systeem kan zelfstandig bepalen wanneer het bruikbare conclusies heeft bereikt
- Anthropic heeft ongewenst gedrag met 80% verminderd door verbeterde training
- De prijsstructuur blijft ongewijzigd: Opus 4 kost $15/75 per miljoen tokens, Sonnet 4 $3/15
De andere kant:
Ondanks de vooruitgang blijft menselijke supervisie cruciaal. Het niet-deterministische karakter van AI-systemen vraagt om een nieuwe aanpak in softwareontwikkeling, waarbij codereview belangrijker wordt dan ooit.