In het kort:
GPT-5 zet een belangrijke stap voorwaarts in het verminderen van hallucinaties, maar worstelt nog steeds met het consistent genereren van feitelijk correcte informatie.
- Het model halluceert in 9,6% van de gevallen, vergeleken met 12,9% bij GPT-4o
- Met toegang tot internet presteert GPT-5 aanzienlijk beter dan zonder
- De 'thinking'-variant van GPT-5 scoort het beste met slechts 4,5% hallucinaties
De andere kant:
Zonder internettoegang stijgt het percentage hallucinaties dramatisch naar 47% bij de Simple QA-test, wat fundamentele beperkingen van het model blootlegt.
- Zelfs met verbeteringen blijft ongeveer één op de tien antwoorden onbetrouwbaar
- Een demo onthulde een pijnlijke fout in de uitleg over vliegtuigaerodynamica
- Sommige onderzoekers stellen dat hallucinaties een inherent kenmerk zijn van taalmodellen
Vooruitkijkend:
De resultaten tonen aan dat betrouwbare AI-systemen voorlopig afhankelijk blijven van internettoegang voor accurate informatie. Voor kritieke toepassingen, zoals medisch advies, blijft menselijke verificatie essentieel.