In het kort:
Het nieuwe model Dia biedt indrukwekkende mogelijkheden voor het genereren van natuurlijke dialogen en spraak. Het model is ontwikkeld door Nari Labs en is vrij beschikbaar via Hugging Face en GitHub.
- Het model is getraind op Google's TPU Research Cloud en bevat 1,6 miljard parameters
- Gebruikers kunnen stemtonen aanpassen en non-verbale elementen zoals hoesten en lachen toevoegen
- Het model kan draaien op moderne PC's met minimaal 10GB VRAM
De andere kant:
De toegankelijkheid van het model roept zorgen op over mogelijk misbruik. Nari Labs waarschuwt tegen misleiding en imitatie, maar neemt geen verantwoordelijkheid voor misbruik.
- De herkomst van de trainingsdata is onduidelijk, mogelijk is er copyrightmateriaal gebruikt
- Er zijn weinig veiligheidsmaatregelen ingebouwd tegen misbruik
- Een gebruiker merkte op dat sommige samples lijken op NPR's "Planet Money" hosts
Vooruitkijkend:
Nari Labs wil een synthetisch spraakplatform bouwen met sociale functies, het model uitbreiden naar andere talen en een technisch rapport publiceren. De timing is gunstig: vorig jaar werd er volgens PitchBook $398 miljoen geïnvesteerd in spraak-AI startups.