In het kort:
Anthropic zet vol in op 'mechanistic interpretability' - het doorgronden van AI-besluitvorming. Dit wordt steeds urgenter nu AI-systemen een centrale rol krijgen in economie en maatschappij.
- Recent onderzoek toont aan dat zelfs makers van AI-systemen vaak niet weten waarom hun modellen bepaalde keuzes maken
- Anthropic heeft eerste doorbraken bereikt in het traceren van AI-denkpatronen via zogenaamde 'circuits'
- Het bedrijf schat dat er miljoenen van deze circuits zijn, waarvan er nog maar enkele zijn ontdekt
Het grote plaatje:
Amodei's zorgen komen niet uit de lucht vallen. Recente AI-modellen zoals OpenAI's o3 en o4-mini presteren beter maar vertonen ook meer onverklaarbare hallucinations.
- AI-modellen worden volgens Anthropic meer 'gekweekt' dan 'gebouwd', wat het begrip ervan bemoeilijkt
- Het bedrijf streeft ernaar om binnen 5-10 jaar een soort 'MRI-scans' van AI-modellen te kunnen maken
- Deze scans moeten problemen zoals liegen of machtsmisbruik door AI kunnen identificeren
Vooruitkijkend:
Anthropic roept andere techgiganten en overheden op tot actie. Het bedrijf pleit voor regelgeving die transparantie afdwingt en exportcontroles op chips naar China om een ongecontroleerde AI-race te voorkomen.