In het kort:
Naarmate AI-modellen groeien, wordt het steeds lastiger om kwalitatief goede trainingsdata te vinden zonder privacyrisico's. Google's nieuwe aanpak moet voorkomen dat modellen gevoelige informatie kunnen 'lekken'.
- Taalmodellen kunnen soms exacte fragmenten uit hun trainingsdata reproduceren, wat problematisch is bij persoonlijke of auteursrechtelijk beschermde content.
- Door 'differential privacy' toe te passen wordt ruis toegevoegd tijdens het trainen, waardoor het model minder specifieke data onthoudt.
- Deze techniek vereist wel meer rekenkracht of trainingsdata om dezelfde prestaties te behalen.
Het grote plaatje:
Google's onderzoeksteam heeft voor het eerst in kaart gebracht hoe deze privacy-verbeterende technieken de schaalbaarheid van AI-modellen beïnvloeden. Ze ontdekten dat de verhouding tussen toegevoegde ruis en de omvang van de trainingsdata cruciaal is.
- De onderzoekers hebben wiskundige formules ontwikkeld die de relatie beschrijven tussen rekenkracht, privacybudget en de hoeveelheid trainingsdata.
- Deze 'scaling laws' helpen ontwikkelaars bij het vinden van de optimale balans tussen privacy en prestaties.