Dia
UltraDialogorienterede TTS med stemmekloning og nonverbale lyde
Om Dia
Dia by Nari Labs er en 1.6B parameter dialog-fokuseret tekst-til-tale model. Det udmærker sig ved at generere naturlig samtaletale med støtte til nonverbale lyde som latter, sukker og hoste. Dia understøtter multi-højtaler dialog generation og stemme kloning fra 5-10 sekunders reference audio, hvilket gør den ideel til at skabe realistiske samtaler og karakter stemmer.
Nøglefunktioner
Dialogskabelse
Generer naturlige multi-højttaler samtaler med forskellige stemmer og turn-taking.
Ikke-verbale lyde
Tilføj [griner], [suk], [hoste], (gisp) for naturlige parallingvistisk udtryk.
Stemmekløvning
Klon enhver stemme fra 5-10 sekunders reference audio til personlig tale.
Naturlig samtale
1.6B parametre producere meget naturlig samtaleform og intonation.
Brugstilfælde
Hvordan man bruger Dia
-
1
Tilmeld dig gratis eller åbn demoen
Opret en gratis TextToSpeechAI konto til at gøre krav på dine startkreditter, eller åbne no-signup demo for at prøve Dia dialog med det samme.
-
2
Vælg Dia- motoren
I TTS dashboard vælge Dia fra motorlisten. Dia er den dialogorienterede, ultra-tier model med multi-højttaler og voice-cloning support.
-
3
Skriv et dialogscript med tags
Komponere din samtale ved hjælp af [S1] og [S2] at markere hver taler dreje, og falde i nonverbale tags såsom [griner], [suk], [hoste], eller (gisp), hvor du ønsker naturlige reaktioner.
-
4
Generér lyden
Klik på generere for at sende dit Dia script til vores hosted GPU'er. Dia gør to-højttaler dialog med turn-taking og dine nonverbal tags til en enkelt lydfil.
-
5
Download eller ring til API'en
Download den færdige dialog i dit valgte format, eller automatiser den ved at sende det samme [S1] / [S2] script til TextToSpeechAI API med din konto token.
Dia API
Generer tale programmatisk ved hjælp af TextToSpeechAI REST API.
curl -X POST "https://api.texttospeechai.com/v1/generate/" \
-H "Authorization: Bearer YOUR_API_TOKEN" \
-H "Content-Type: application/json" \
-d '{
"text": "Hvordan har du det i dag?",
"voice": "en_US-lessac-medium"
}'
Ofte stillede spørgsmål
Technical Specs
- Generation Speed Medium
- Output Quality Excellent
- Voice Cloning Supported
- Languages 1
- GPU VRAM 10GB
- Credits/1000 chars 50