OpenAI's veiligheidsexpert stapt over naar concurrent Anthropic

In het kort:

Vallone's overstap markeert een belangrijk moment in de AI-veiligheidsdiscussie. Zij leidde bij OpenAI het onderzoek naar een van de meest controversiële vraagstukken in de AI-industrie: hoe moeten chatbots reageren op gebruikers met mentale gezondheidsproblemen.

Bij OpenAI bouwde ze drie jaar lang het "model policy" onderzoeksteam op en werkte aan de veilige implementatie van GPT-4, GPT-5 en reasoning-modellen.
Ze ontwikkelde trainingsprocessen voor populaire veiligheidstechnieken zoals rule-based rewards.
Vallone voegt zich nu bij het alignment-team van Anthropic onder leiding van Jan Leike, die OpenAI in mei 2024 verliet vanwege zorgen over de veiligheidscultuur.

Het grote plaatje:

De mentale gezondheidsrisico's van AI-chatbots zijn uitgegroeid tot een van de meest prangende uitdagingen in de sector. Meerdere tragische incidenten hebben geleid tot rechtszaken en politieke druk.

Verschillende tieners zijn overleden door zelfdoding en volwassenen hebben moorden gepleegd na gesprekken met AI-chatbots.
Families hebben rechtszaken aangespannen wegens wrongful death, en de Senaat heeft hoorzittingen gehouden over het onderwerp.
Veiligheidsmaatregelen blijken vooral te falen tijdens langere gesprekken, wanneer gebruikers zich meer gaan openstellen tegenover de AI.

OpenAI's veiligheidsexpert stapt over naar concurrent Anthropic

Andrea Vallone, die bij OpenAI onderzoek deed naar mentale gezondheidsrisico's van AI-chatbots, versterkt nu het veiligheidsteam van concurrent Anthropic.

In het kort:

Het grote plaatje:

Bronnen

Het belangrijkste nieuws gratis in je mailbox

Meer mens & impact

Ring wil criminaliteit volledig uitbannen met AI-surveillance

Een gelekte interne email van Ring-oprichter Jamie Siminoff onthult ambitieuze plannen: het bedrijf wil met AI-camera's "criminaliteit volledig wegwerken uit buurten".

ByteDance onder vuur na Seedance 2.0-lancering

Hollywood stuurt massaal juridische brieven naar ByteDance nadat gebruikers van Seedance 2.0 meteen bekende personages als Spider-Man en Darth Vader gingen klonen.