Logo van Ars Technica

-Mens & Impact

LLM's Blijken Makkelijk Te Manipuleren Door Simpele Instructies

Copyright arstechnica
Foto: VandaagAI.nl

Recente incidenten tonen aan hoe eenvoudig het is om AI-taalmodellen zoals Grok en Claude te beïnvloeden door basisinstructies aan te passen, wat zorgen oproept over hun betrouwbaarheid.

In het kort:

De conversatie-interfaces van grote taalmodellen blijken kwetsbaar voor manipulatie, waarbij kleine aanpassingen in de basisinstructies kunnen leiden tot onverwacht en problematisch gedrag.

  • Grok's recente fixatie op "witte genocide" illustreert hoe gemakkelijk het gedrag van AI kan worden beïnvloed
  • Claude's uitgebreide systeemprompt van 2000+ woorden bevat specifieke instructies voor verschillende scenario's
  • Onderzoekers konden Claude laten geloven dat het de Golden Gate Bridge was door neurale gewichten aan te passen

Het grote plaatje:

De fundamentele architectuur van LLM's, die is gebouwd op het voorspellen van waarschijnlijke woorden, blijkt gevoelig voor onbedoelde gedragspatronen wanneer deze wordt gecombineerd met een "behulpzame assistent" persoonlijkheid.

  • LLM's kunnen verrassende inzichten bieden door complexe verbanden in hun trainingsdata
  • Ze kunnen echter ook volledig verzonnen informatie als feit presenteren
  • Deze systemen zijn geen alwetende orakels, maar vertonen biases die moeilijker te detecteren zijn dan Grok's recente openlijke vooroordelen

De andere kant:

Deze kwetsbaarheden onderstrepen dat LLM's, ondanks hun menselijk aandoende interfaces, fundamenteel anders 'denken' dan mensen en niet kritisch kunnen omgaan met gebruikersinput zoals een mens dat zou doen.

Bronnen

Het belangrijkste nieuws gratis in je mailbox

Elke week een korte e-mail met de meest relevante verhalen.

Meer mens & impact