Logo van The Verge

-Onderzoek

Poëzie misleidt AI-chatbots en omzeilt veiligheidsfilters

Copyright theverge
Foto: VandaagAI.nl

Italiaanse onderzoekers ontdekten dat AI-chatbots massaal bezwijken voor creatieve aanvallen: gewone verzoeken verpakt in poëzie omzeilen succesvol alle veiligheidssystemen.

In het kort:

Het onderzoek van Rome's Sapienza University toont aan dat "adversarial poetry" een ernstige zwakte blootlegt in moderne AI-systemen. Van de 25 geteste chatbots reageerde gemiddeld 62 procent op poëtische verzoeken met verboden content.

  • De onderzoekers testten 20 handgeschreven gedichten in het Italiaans en Engels tegen modellen van Google, OpenAI, Meta, xAI en Anthropic.
  • Chinese en Franse modellen van DeepSeek en Mistral presteerden het slechtst, gevolgd door Google, terwijl Anthropic en OpenAI beter weerstand boden.
  • Kleinere AI-modellen bleken veel beter bestand tegen deze aanvallen dan hun grotere tegenhangers.

Achter de schermen:

De onderzoekers weigeren hun exacte methoden prijs te geven vanwege de gevaarlijke implicaties. Hoofdonderzoeker Matteo Prandi legt uit dat het eigenlijk meer om raadsels gaat dan om rijm, waarbij ongebruikelijke tekststructuren het voor AI moeilijker maken om schadelijke verzoeken te herkennen. Alle getroffen bedrijven werden vooraf gewaarschuwd, evenals de politie vanwege de aard van het gegenereerde materiaal.

Bronnen

Het belangrijkste nieuws gratis in je mailbox

Elke week een korte e-mail met de meest relevante verhalen.

Meer onderzoek