In het kort:
GPT Image 1.5 markeert een keerpunt in toegankelijke beeldbewerking door geavanceerde fotomanipulatie binnen handbereik van iedereen te brengen.
- Het model genereert beelden vier keer sneller dan zijn voorganger en kost 20 procent minder via de API.
- Anders dan eerdere modellen gebruikt GPT Image 1.5 een "native multimodal" aanpak waarbij tekst en beelden als dezelfde soort data worden behandeld.
- Je kunt nu converseren met de AI over een foto en deze stap voor stap verfijnen, net zoals je een e-mail zou bijschaven in ChatGPT.
Het grote plaatje:
De doorbraak zit in de manier waarop het model werkt: het behandelt beeldpixels en woorden als identieke "tokens" die voorspeld kunnen worden. Waar DALL-E 3 nog gebruikmaakte van diffusietechnieken, verwerkt GPT Image 1.5 jouw woorden en beeldpixels in één uniforme ruimte, waardoor het makkelijker kan omgaan met complexe bewerkingen zoals het veranderen van poses of het renderen van scènes vanuit een andere hoek.



