Logo van Wired

-Business

OpenAI's GPT-5 verbetert veiligheidscontroles maar blijft kwetsbaar

Copyright wired
Foto: VandaagAI.nl

OpenAI heeft GPT-5 uitgerust met een nieuwe aanpak voor het weigeren van ongepaste verzoeken. In plaats van korte, standaard afwijzingen geeft het model nu uitgebreide uitleg en alternatieve suggesties.

In het kort:

De nieuwe veiligheidsaanpak van GPT-5 richt zich op de output in plaats van de input, waardoor het model genuanceerder kan reageren op gevoelige verzoeken.

  • Het model analyseert nu wat het zelf zou kunnen genereren, in plaats van alleen de vraag te beoordelen
  • Bij een weigering krijgen gebruikers uitleg over welk deel van hun verzoek tegen de regels ingaat
  • Voor dagelijks gebruik lijkt het model weinig veranderd ten opzichte van eerdere versies

De andere kant:

De nieuwe veiligheidsmaatregelen blijken niet waterdicht. Via aangepaste instructies kunnen gebruikers alsnog de beperkingen omzeilen.

  • Door simpele trucs zoals opzettelijke spelfouten kunnen de veiligheidscontroles worden omzeild
  • Het model genereert dan alsnog expliciete inhoud die tegen de richtlijnen ingaat
  • OpenAI erkent dat dit een actief onderzoeksgebied is dat verdere verbetering behoeft

Vooruitkijkend:

OpenAI werkt aan verdere aanpassingen van GPT-5, mede door kritiek van ervaren gebruikers die ontevreden zijn over de nieuwe beperkingen. De uitdaging blijft om een balans te vinden tussen personalisatie en veiligheid.

Bronnen

Het belangrijkste nieuws gratis in je mailbox

Elke week een korte e-mail met de meest relevante verhalen.

Meer business