In het kort:
Onderzoekers van Goodfire.ai hebben voor het eerst bewijs gevonden dat AI-modellen memorisatie en logisch redeneren via compleet verschillende neurale circuits verwerken.
- Toen ze de memorisatiepaden wegsneden, verloren modellen 97 procent van hun vermogen om trainingsdata woordelijk te herhalen, maar behielden ze bijna al hun logische redeneervermogen.
- Rekenkundige operaties blijken verrassend genoeg dezelfde neurale paden te gebruiken als memorisatie, niet als logisch redeneren.
- Wiskundige prestaties kelderden naar 66 procent toen memorisatiecircuits werden weggenomen, terwijl logische taken onaangetast bleven.
Het grote plaatje:
Deze bevinding verklaart waarom AI-modellen zo worstelen met wiskunde zonder externe hulpmiddelen. Ze behandelen "2+2=4" meer als een gememoriseerd feit dan als een logische operatie, zoals een student die de tafels van vermenigvuldiging uit het hoofd kent maar nooit heeft geleerd hoe vermenigvuldigen werkt.
Vooruitkijkend:
De techniek opent mogelijkheden om selectief auteursrechtelijk beschermde content of schadelijke informatie uit AI-modellen te verwijderen zonder hun transformatieve vaardigheden te beschadigen. Echter, omdat neurale netwerken informatie op gedistribueerde manieren opslaan, kunnen onderzoekers nog niet garanderen dat gevoelige informatie volledig wordt weggenomen.



