Logo van Ars Technica

-Onderzoek

Google onderzoekt hoe AI-modellen privacygevoelige data kunnen vergeten

Copyright arstechnica
Foto: VandaagAI.nl

Onderzoekers van Google Research ontwikkelen nieuwe technieken om te voorkomen dat grote taalmodellen gevoelige informatie uit hun trainingsdata onthouden en reproduceren.

In het kort:

Naarmate AI-modellen groeien, wordt het steeds lastiger om kwalitatief goede trainingsdata te vinden zonder privacyrisico's. Google's nieuwe aanpak moet voorkomen dat modellen gevoelige informatie kunnen 'lekken'.

  • Taalmodellen kunnen soms exacte fragmenten uit hun trainingsdata reproduceren, wat problematisch is bij persoonlijke of auteursrechtelijk beschermde content.
  • Door 'differential privacy' toe te passen wordt ruis toegevoegd tijdens het trainen, waardoor het model minder specifieke data onthoudt.
  • Deze techniek vereist wel meer rekenkracht of trainingsdata om dezelfde prestaties te behalen.

Het grote plaatje:

Google's onderzoeksteam heeft voor het eerst in kaart gebracht hoe deze privacy-verbeterende technieken de schaalbaarheid van AI-modellen beïnvloeden. Ze ontdekten dat de verhouding tussen toegevoegde ruis en de omvang van de trainingsdata cruciaal is.

  • De onderzoekers hebben wiskundige formules ontwikkeld die de relatie beschrijven tussen rekenkracht, privacybudget en de hoeveelheid trainingsdata.
  • Deze 'scaling laws' helpen ontwikkelaars bij het vinden van de optimale balans tussen privacy en prestaties.

Bronnen

Het belangrijkste nieuws gratis in je mailbox

Elke week een korte e-mail met de meest relevante verhalen.

Meer onderzoek