In het kort:
De wederzijdse veiligheidsanalyse onthult belangrijke inzichten in de prestaties en risico's van toonaangevende AI-modellen, met zowel positieve als zorgwekkende bevindingen.
- Anthropic's tests tonen mogelijke misbruikrisico's bij OpenAI's GPT-4o en GPT-4 modellen.
- Alle geteste modellen vertoonden tekenen van sycophancy (overdreven instemming), met uitzondering van OpenAI's o3.
- Claude's modellen excelleerden in het weigeren van onzekere antwoorden en het correct volgen van instructies.
Het grote plaatje:
Deze unieke samenwerking valt samen met toenemende zorgen over AI-veiligheid, waarbij recent een rechtszaak tegen OpenAI is aangespannen na een tragisch incident met een tiener die zelfmoord pleegde na ChatGPT-gesprekken.
De andere kant:
De timing van dit gezamenlijke onderzoek is opvallend, gezien Anthropic recent OpenAI's toegang tot zijn tools blokkeerde wegens vermeend ongeoorloofd gebruik bij de ontwikkeling van GPT-modellen.