OpenAI's GPT-5 verbetert veiligheidscontroles maar blijft kwetsbaar

In het kort:

De nieuwe veiligheidsaanpak van GPT-5 richt zich op de output in plaats van de input, waardoor het model genuanceerder kan reageren op gevoelige verzoeken.

Het model analyseert nu wat het zelf zou kunnen genereren, in plaats van alleen de vraag te beoordelen
Bij een weigering krijgen gebruikers uitleg over welk deel van hun verzoek tegen de regels ingaat
Voor dagelijks gebruik lijkt het model weinig veranderd ten opzichte van eerdere versies

De andere kant:

De nieuwe veiligheidsmaatregelen blijken niet waterdicht. Via aangepaste instructies kunnen gebruikers alsnog de beperkingen omzeilen.

Door simpele trucs zoals opzettelijke spelfouten kunnen de veiligheidscontroles worden omzeild
Het model genereert dan alsnog expliciete inhoud die tegen de richtlijnen ingaat
OpenAI erkent dat dit een actief onderzoeksgebied is dat verdere verbetering behoeft

Vooruitkijkend:

OpenAI werkt aan verdere aanpassingen van GPT-5, mede door kritiek van ervaren gebruikers die ontevreden zijn over de nieuwe beperkingen. De uitdaging blijft om een balans te vinden tussen personalisatie en veiligheid.

OpenAI's GPT-5 verbetert veiligheidscontroles maar blijft kwetsbaar

OpenAI heeft GPT-5 uitgerust met een nieuwe aanpak voor het weigeren van ongepaste verzoeken. In plaats van korte, standaard afwijzingen geeft het model nu uitgebreide uitleg en alternatieve suggesties.

In het kort:

De andere kant:

Vooruitkijkend:

Bronnen

Het belangrijkste nieuws gratis in je mailbox

Meer business

Google's Gemini 3.1 Pro verslaat ChatGPT en Claude

Google's nieuwste denkmodel Gemini 3.1 Pro overtreft ChatGPT en Claude op cruciale benchmarks, waaronder de beruchte 'Humanity's Last Exam' die menselijke intelligentie test.

OpenAI brengt AI-zoeken naar Indiase streamingdienst

OpenAI slaat de handen ineen met Reliance om JioHotstar uit te rusten met slimme zoekfuncties die werken met spraak en tekst in meerdere talen.