Studenten ontwikkelen AI-model voor het genereren van podcasts

In het kort:

Het nieuwe model Dia biedt indrukwekkende mogelijkheden voor het genereren van natuurlijke dialogen en spraak. Het model is ontwikkeld door Nari Labs en is vrij beschikbaar via Hugging Face en GitHub.

Het model is getraind op Google's TPU Research Cloud en bevat 1,6 miljard parameters
Gebruikers kunnen stemtonen aanpassen en non-verbale elementen zoals hoesten en lachen toevoegen
Het model kan draaien op moderne PC's met minimaal 10GB VRAM

De andere kant:

De toegankelijkheid van het model roept zorgen op over mogelijk misbruik. Nari Labs waarschuwt tegen misleiding en imitatie, maar neemt geen verantwoordelijkheid voor misbruik.

De herkomst van de trainingsdata is onduidelijk, mogelijk is er copyrightmateriaal gebruikt
Er zijn weinig veiligheidsmaatregelen ingebouwd tegen misbruik
Een gebruiker merkte op dat sommige samples lijken op NPR's "Planet Money" hosts

Vooruitkijkend:

Nari Labs wil een synthetisch spraakplatform bouwen met sociale functies, het model uitbreiden naar andere talen en een technisch rapport publiceren. De timing is gunstig: vorig jaar werd er volgens PitchBook $398 miljoen geïnvesteerd in spraak-AI startups.

Studenten ontwikkelen AI-model voor het genereren van podcasts

Twee Koreaanse studenten hebben zonder AI-expertise een open source spraakmodel ontwikkeld dat kan wedijveren met Google's NotebookLM, terwijl de markt voor synthetische spraak blijft groeien.

In het kort:

De andere kant:

Vooruitkijkend:

Bronnen

Het belangrijkste nieuws gratis in je mailbox

Bekijk ook

Google's AI-tool transformeert documenten tot interactieve podcasts

Google's NotebookLM zet geschreven documenten om in podcastachtige gesprekken, waarbij AI-hosts de inhoud bespreken en gebruikers vragen kunnen stellen tijdens het luisteren.