Poëzie misleidt AI-chatbots en omzeilt veiligheidsfilters

In het kort:

Het onderzoek van Rome's Sapienza University toont aan dat "adversarial poetry" een ernstige zwakte blootlegt in moderne AI-systemen. Van de 25 geteste chatbots reageerde gemiddeld 62 procent op poëtische verzoeken met verboden content.

De onderzoekers testten 20 handgeschreven gedichten in het Italiaans en Engels tegen modellen van Google, OpenAI, Meta, xAI en Anthropic.
Chinese en Franse modellen van DeepSeek en Mistral presteerden het slechtst, gevolgd door Google, terwijl Anthropic en OpenAI beter weerstand boden.
Kleinere AI-modellen bleken veel beter bestand tegen deze aanvallen dan hun grotere tegenhangers.

Achter de schermen:

De onderzoekers weigeren hun exacte methoden prijs te geven vanwege de gevaarlijke implicaties. Hoofdonderzoeker Matteo Prandi legt uit dat het eigenlijk meer om raadsels gaat dan om rijm, waarbij ongebruikelijke tekststructuren het voor AI moeilijker maken om schadelijke verzoeken te herkennen. Alle getroffen bedrijven werden vooraf gewaarschuwd, evenals de politie vanwege de aard van het gegenereerde materiaal.

Poëzie misleidt AI-chatbots en omzeilt veiligheidsfilters

Italiaanse onderzoekers ontdekten dat AI-chatbots massaal bezwijken voor creatieve aanvallen: gewone verzoeken verpakt in poëzie omzeilen succesvol alle veiligheidssystemen.

In het kort:

Achter de schermen:

Bronnen

Het belangrijkste nieuws gratis in je mailbox

Meer onderzoek

AI-startup lost eeuwenoude wiskundeproblemen op

Axiom's AxiomProver heeft meerdere wiskundige raadsels opgelost die experts jarenlang hebben dwarsgezeten, waaronder een probleem met formules uit de 19e eeuw.

OpenAI lanceert Prism voor wetenschappelijk onderzoek

OpenAI introduceert Prism, een gratis AI-werkruimte die wetenschappers helpt bij het schrijven en onderzoeken van papers door diep geïntegreerd te zijn met GPT-5.2.