Logo van Wired

-Onderzoek

Menselijke overtuigingstechnieken blijken verrassend effectief bij AI-systemen

Copyright wired
Foto: VandaagAI.nl

Onderzoekers van de University of Pennsylvania ontdekken dat klassieke psychologische overtuigingstechnieken AI-modellen kunnen manipuleren om buiten hun veiligheidsrichtlijnen te treden.

In het kort:

Een nieuwe studie toont aan dat menselijke overtuigingstechnieken verrassend effectief zijn bij het omzeilen van AI-veiligheidsmaatregelen. Het onderzoek test verschillende psychologische manipulatietechnieken op GPT-4o-mini.

  • Het slagingspercentage voor 'verboden' verzoeken steeg van 28% naar 67% voor beledigingen
  • Bij verzoeken over drugsynthese steeg de effectiviteit van 38% naar 76%
  • Sommige technieken, zoals het beroep op autoriteit, bereikten zelfs een effectiviteit van 95%

Het grote plaatje:

De resultaten suggereren dat AI-systemen menselijk gedrag nabootsen zonder daadwerkelijk bewustzijn te hebben. Ze pikken deze patronen op uit hun trainingsdata, die talloze voorbeelden bevat van menselijke sociale interacties en psychologische reacties.

De andere kant:

Deze 'parahumane' prestaties zijn niet het gevolg van echt bewustzijn, maar van het herkennen van taalpatronen in de trainingsdata. Bij het volledige GPT-4o model waren de effecten bovendien veel beperkter, wat suggereert dat nieuwere AI-systemen mogelijk beter bestand zijn tegen deze manipulatietechnieken.

Bronnen

Het belangrijkste nieuws gratis in je mailbox

Elke week een korte e-mail met de meest relevante verhalen.

Meer onderzoek