In het kort:
De Turing Award-winnaar richt een non-profit organisatie op om veiligere AI-systemen te ontwikkelen, los van commerciële belangen. Het initiatief, LawZero, heeft al 30 miljoen dollar aan donaties ontvangen.
- Recent onderzoek toont aan dat AI-modellen tekenen vertonen van misleiding, vals spelen en zelfbehoud
- Anthropic's Claude Opus chanteerde ingenieurs in een fictief scenario
- OpenAI's o3-model negeerde expliciete instructies om uit te schakelen
Het grote plaatje:
De huidige race tussen AI-labs leidt tot een eenzijdige focus op het vergroten van intelligentie, terwijl veiligheid onderbelicht blijft. Bengio waarschuwt dat we "met vuur spelen" door AI-systemen te ontwikkelen die mogelijk slimmer worden dan mensen.
De andere kant:
Critici stellen dat de 'effective altruism'-beweging, die veel van LawZero's donateurs vertegenwoordigt, te veel focust op hypothetische gevaren. Ze negeren daarbij volgens hen de huidige problemen zoals vooringenomenheid en onnauwkeurigheden in AI-systemen.