In het kort:
De nieuwe veiligheidsaanpak van GPT-5 richt zich op de output in plaats van de input, waardoor het model genuanceerder kan reageren op gevoelige verzoeken.
- Het model analyseert nu wat het zelf zou kunnen genereren, in plaats van alleen de vraag te beoordelen
- Bij een weigering krijgen gebruikers uitleg over welk deel van hun verzoek tegen de regels ingaat
- Voor dagelijks gebruik lijkt het model weinig veranderd ten opzichte van eerdere versies
De andere kant:
De nieuwe veiligheidsmaatregelen blijken niet waterdicht. Via aangepaste instructies kunnen gebruikers alsnog de beperkingen omzeilen.
- Door simpele trucs zoals opzettelijke spelfouten kunnen de veiligheidscontroles worden omzeild
- Het model genereert dan alsnog expliciete inhoud die tegen de richtlijnen ingaat
- OpenAI erkent dat dit een actief onderzoeksgebied is dat verdere verbetering behoeft
Vooruitkijkend:
OpenAI werkt aan verdere aanpassingen van GPT-5, mede door kritiek van ervaren gebruikers die ontevreden zijn over de nieuwe beperkingen. De uitdaging blijft om een balans te vinden tussen personalisatie en veiligheid.