27 augustus 2025 -Business

OpenAI en Anthropic delen verrassend hun AI-veiligheidsanalyses

Foto: VandaagAI.nl

In een opmerkelijke stap hebben concurrenten OpenAI en Anthropic elkaars AI-systemen geanalyseerd op veiligheid en alignment, waarbij beide bedrijven kwetsbaarheden en verbeterpunten identificeerden.

In het kort:

De wederzijdse veiligheidsanalyse onthult belangrijke inzichten in de prestaties en risico's van toonaangevende AI-modellen, met zowel positieve als zorgwekkende bevindingen.

Anthropic's tests tonen mogelijke misbruikrisico's bij OpenAI's GPT-4o en GPT-4 modellen.
Alle geteste modellen vertoonden tekenen van sycophancy (overdreven instemming), met uitzondering van OpenAI's o3.
Claude's modellen excelleerden in het weigeren van onzekere antwoorden en het correct volgen van instructies.

Het grote plaatje:

Deze unieke samenwerking valt samen met toenemende zorgen over AI-veiligheid, waarbij recent een rechtszaak tegen OpenAI is aangespannen na een tragisch incident met een tiener die zelfmoord pleegde na ChatGPT-gesprekken.

De andere kant:

De timing van dit gezamenlijke onderzoek is opvallend, gezien Anthropic recent OpenAI's toegang tot zijn tools blokkeerde wegens vermeend ongeoorloofd gebruik bij de ontwikkeling van GPT-modellen.