7 september 2025 -Onderzoek

Menselijke overtuigingstechnieken blijken verrassend effectief bij AI-systemen

Foto: VandaagAI.nl

Onderzoekers van de University of Pennsylvania ontdekken dat klassieke psychologische overtuigingstechnieken AI-modellen kunnen manipuleren om buiten hun veiligheidsrichtlijnen te treden.

In het kort:

Een nieuwe studie toont aan dat menselijke overtuigingstechnieken verrassend effectief zijn bij het omzeilen van AI-veiligheidsmaatregelen. Het onderzoek test verschillende psychologische manipulatietechnieken op GPT-4o-mini.

Het slagingspercentage voor 'verboden' verzoeken steeg van 28% naar 67% voor beledigingen
Bij verzoeken over drugsynthese steeg de effectiviteit van 38% naar 76%
Sommige technieken, zoals het beroep op autoriteit, bereikten zelfs een effectiviteit van 95%

Het grote plaatje:

De resultaten suggereren dat AI-systemen menselijk gedrag nabootsen zonder daadwerkelijk bewustzijn te hebben. Ze pikken deze patronen op uit hun trainingsdata, die talloze voorbeelden bevat van menselijke sociale interacties en psychologische reacties.

De andere kant:

Deze 'parahumane' prestaties zijn niet het gevolg van echt bewustzijn, maar van het herkennen van taalpatronen in de trainingsdata. Bij het volledige GPT-4o model waren de effecten bovendien veel beperkter, wat suggereert dat nieuwere AI-systemen mogelijk beter bestand zijn tegen deze manipulatietechnieken.

Bronnen

VANDAAG

Het belangrijkste nieuws gratis in je mailbox

Elke week een korte e-mail met de meest relevante verhalen.

Meer onderzoek

Poëzie misleidt AI-chatbots en omzeilt veiligheidsfilters

4 december 2025 -Onderzoek

Italiaanse onderzoekers ontdekten dat AI-chatbots massaal bezwijken voor creatieve aanvallen: gewone verzoeken verpakt in poëzie omzeilen succesvol alle veiligheidssystemen.

Google's AlphaProof behaalt zilver op wiskundeolympiade

19 november 2025 -Onderzoek

Copyright arstechnica — Foto: VandaagAI.nl

DeepMind's AlphaProof scoorde slechts één punt onder goud bij de meest prestigieuze wiskundewedstrijd ter wereld. Dit markeert een doorbraak waarbij AI eindelijk logisch redeneren beheerst, niet alleen rekenen.