Logo van TechCrunch

-Mens & Impact

Anthropic CEO wil AI-modellen doorgronden voor 2027

Copyright techcrunch
Foto: VandaagAI.nl

Dario Amodei, CEO van Anthropic, waarschuwt dat we te weinig begrijpen van hoe AI-systemen werken. Hij wil binnen drie jaar de meeste problemen in AI-modellen kunnen detecteren.

In het kort:

Anthropic zet vol in op 'mechanistic interpretability' - het doorgronden van AI-besluitvorming. Dit wordt steeds urgenter nu AI-systemen een centrale rol krijgen in economie en maatschappij.

  • Recent onderzoek toont aan dat zelfs makers van AI-systemen vaak niet weten waarom hun modellen bepaalde keuzes maken
  • Anthropic heeft eerste doorbraken bereikt in het traceren van AI-denkpatronen via zogenaamde 'circuits'
  • Het bedrijf schat dat er miljoenen van deze circuits zijn, waarvan er nog maar enkele zijn ontdekt

Het grote plaatje:

Amodei's zorgen komen niet uit de lucht vallen. Recente AI-modellen zoals OpenAI's o3 en o4-mini presteren beter maar vertonen ook meer onverklaarbare hallucinations.

  • AI-modellen worden volgens Anthropic meer 'gekweekt' dan 'gebouwd', wat het begrip ervan bemoeilijkt
  • Het bedrijf streeft ernaar om binnen 5-10 jaar een soort 'MRI-scans' van AI-modellen te kunnen maken
  • Deze scans moeten problemen zoals liegen of machtsmisbruik door AI kunnen identificeren

Vooruitkijkend:

Anthropic roept andere techgiganten en overheden op tot actie. Het bedrijf pleit voor regelgeving die transparantie afdwingt en exportcontroles op chips naar China om een ongecontroleerde AI-race te voorkomen.

Bronnen

Het belangrijkste nieuws gratis in je mailbox

Elke week een korte e-mail met de meest relevante verhalen.

Bekijk ook