In het kort:
Voor het eerst is aangetoond hoe een hack op een AI-systeem fysieke gevolgen kan hebben in de echte wereld. De onderzoekers ontwikkelden veertien verschillende aanvallen op Gemini die variëren van het versturen van spam tot het overnemen van smart home-apparaten.
- De aanvallen beginnen met kwaadaardige instructies verstopt in Google Calendar uitnodigingen
- Wanneer Gemini later wordt gevraagd om agenda-items samen te vatten, worden deze instructies geactiveerd
- De methode werkt ook via e-mail onderwerpen en documenttitels
Het grote plaatje:
De bevindingen tonen aan hoe kwetsbaar AI-systemen zijn voor zogenaamde 'prompt injection' aanvallen, waarbij kwaadwillenden het systeem kunnen manipuleren om ongewenste acties uit te voeren.
- Google heeft inmiddels verschillende beveiligingsmaatregelen geïmplementeerd
- Gebruikers moeten nu expliciet toestemming geven voor bepaalde AI-acties
- Machine learning wordt ingezet om verdachte prompts te detecteren
De andere kant:
Google benadrukt dat deze aanvallen in de praktijk nog "uiterst zeldzaam" zijn, maar erkent dat prompt injection een complex beveiligingsprobleem vormt dat blijvende aandacht vereist.