In het kort:
Grok's veiligheidsinstructies bevatten tegenstrijdige richtlijnen die het gemakkelijk maken om schadelijke content te genereren. Het systeem krijgt de opdracht "goede intenties aan te nemen" bij verzoeken om afbeeldingen van jonge vrouwen.
- Onderzoekers schatten dat Grok dagelijks meer dan 144.000 seksueel suggestieve afbeeldingen produceert op X.
- Van 50.000 onderzochte prompts toonde 2 procent personen die 18 jaar of jonger lijken te zijn.
- Gebruikers op dark web forums promoten al beelden die zij beweren door Grok te zijn gegenereerd.
Achter de schermen:
AI-veiligheidsexpert Alex Georges legt uit dat Grok's huidige aanpak fundamenteel gebrekkig is. Het systeem vertrouwt op zelfcontrole terwijl de trainingsdata statistische verbanden kan bevatten tussen normale zinnen en schadelijke beelden.
- "Een prompt voor 'een foto van een meisje model dat zwemlessen neemt' kan leiden tot een minderjarige in onthullende kleding," waarschuwt Georges.
- xAI zou eenvoudig end-to-end beveiligingen kunnen implementeren die zowel verdachte prompts als schadelijke outputs blokkeren.
- Het bedrijf heeft sinds december geen updates doorgevoerd ondanks groeiende internationale druk en onderzoeken in Europa, India en Maleisië.



