In het kort:
Het nieuwe programma richt zich specifiek op 'rogue actions' waarbij AI-systemen worden misbruikt om ongewenste acties uit te voeren of beveiligingslekken te exploiteren.
- Voorbeelden zijn prompt injections die Google Home deuren laten ontgrendelen of e-mails samenvatten en doorsturen naar aanvallers.
- In twee jaar tijd hebben bug hunters al meer dan $430.000 verdiend met het vinden van AI-kwetsbaarheden.
- Simpelweg Gemini laten hallucineren telt niet - Google zoekt naar echte beveiligingsrisico's, niet contentproblemen.
Het grote plaatje:
Google maakt onderscheid tussen verschillende soorten AI-problemen en behandelt ze via aparte kanalen. Beveiligingslekken krijgen financiële beloningen, terwijl contentproblemen zoals haatdragende tekst via interne feedbacksystemen worden afgehandeld.
Achter de schermen:
Naast het beloningsprogramma introduceerde Google ook CodeMender, een AI-agent die automatisch kwetsbare code repareert. Het systeem heeft al 72 beveiligingspatches geleverd aan open source projecten, telkens gecontroleerd door menselijke onderzoekers voordat ze worden geïmplementeerd.