Diabetes

Ultra

Dialogorienterad TTS med röstkloning och icke-verbala ljud

Medium Varvtal
Excellent Kvalitet
- Ja, det är jag. Kloning
1 Språk

Om jag inte kan Diabetes

Dia by Nari Labs är en 1,6B parameter dialog-fokuserad text-till-tal modell. Den utmärker sig på att generera naturligt konversationstal med stöd för ickeverbala ljud som skratt, suckar, och hosta. Dia stöder flertalsdialog generation och röst kloning från 5-10 sekunder av referensljud, vilket gör det idealiskt för att skapa realistiska samtal och karaktärsröster.

Viktiga egenskaper

Dialoggenerering

Skapa naturliga flertalssamtal med tydliga röster och turn-taking.

Icke-verbala ljud

Lägg till [skrattar], [suckar], (gasps) för naturliga paralinguistiska uttryck.

Röstklappning

Clone någon röst från 5-10 sekunder av referensljud för personligt tal.

Naturligt samtal

1.6B parametrar producerar mycket naturliga konversation prosody och intonation.

Användningsfall

Dialog- och samtalsgenerering Ljudboksproduktion med flera tecken Spelkaraktärsröster Podcast och skapande av innehåll

Hur du använder Diabetes

  1. 1

    Registrera dig gratis eller öppna demo

    Skapa ett gratis TextToSpeechAI konto för att kräva dina startpoäng, eller öppna demo utan registreringskod för att försöka Dia dialog direkt.

  2. 2

    Välj Dia- motor

    I TTS-panelen väljer Dia från motorlistan. Dia är dialogorienterad, ultra-tier-modell med multi-högtalare och röst-kloning stöd.

  3. 3

    Skriv ett dialogskript med taggar

    Komponera ditt samtal med [S1] och [S2] för att markera varje högtalare sväng, och släpp in ickeverbal taggar som [skrattar], [suckar], [suckar], eller (gasper) där du vill ha naturliga reaktioner.

  4. 4

    Skapa ljudet

    Klicka på generera för att skicka ditt Dia-skript till våra värd GPU:er. Dia återger två-talare dialog med turn-taking och dina icke-verbal taggar till en enda ljudfil.

  5. 5

    Ladda ner eller ring API:et

    Ladda ner den färdiga dialogen i ditt valda format, eller automatisera den genom att posta samma [S1] / [S2] skript till TextToSpeechAI API med ditt konto token.

Diabetes API: er

Skapa talprogrammatiskt med TextToSpeechAI REST API.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Jag mår bra, tack för att du frågar!",
    "voice": "en_US-lessac-medium"
  }'

Vanliga frågor

Dia är en 1,6B parameter dialog-orienterad text-till-tal modell från Nari Labs. Den specialiserar sig på att generera naturligt konversationstal med stöd för flera högtalare, ickeverbala ljud, och röst kloning.

Ja, Dia är fullt Apache 2.0 licensierad - både kod och modellvikter. Den kan användas fritt i kommersiella applikationer.

För närvarande Dia stöder endast engelska. Modellen är optimerad för naturligt engelskt samtalstal.

Dia kräver ca 10 GB VRAM för sin 1,6B parametermodell. En GPU med minst 12 GB rekommenderas för bekväm drift. På TextToSpeechAI körs allt detta på våra värd GPU, så du behöver inte någon egen hårdvara.

Ja - dialog är precis vad Dia är byggd för. Genom att växla [S1] och [S2] vänder i ditt manus, Dia TTS producerar en flödande två-talare samtal med tydliga röster och realistiska turn-taking, vilket är svårare att uppnå med single-talare TTS modeller.

Prefixa varje rad i ditt skript med [S1] eller [S2] för att markera vem som talar. Dia tilldelar en konsekvent röst till varje tagg och växlar mellan dem när samtalet rör sig, så [S1] och [S2] fungerar som de två tecknen i din dialog.

Ja. Dia stöder röstkloning från ungefär 5-10 sekunder av rent referensljud, så att du kan återanvända en specifik röst för en högtalare. Du kan kombinera kloning med taggarna [S1]/[S2] så att varje karaktär i en dialog låter som den röst du klonade.

Dia återger [skrattar], [suckar], [suckar], och (gasper) som naturliga paralinguistiska ljud invävda i talet snarare än talade ord. Placera en tagg där du vill ha reaktionen - till exempel "[S1] Det är lustigt [skrattar]" - för att få dialogen att kännas mer mänsklig.

Både Dia och Bark stöder uttrycksfulla ickeverbala ljud, men Dia är specialbyggda för flertalsdialog med [S1]/[S2] tur-taking och röst kloning. Välj Dia för realistiska tvåpersoners samtal och karaktärsarbete; Bark är en bättre passform när du behöver bredare språktäckning i enröstsberättande.

Dia är en ultra-tier motor, så det kostar 50 krediter per 1000 tecken genererat tal. Den ultra nivå speglar den större 1,6B-modellen och ~10GB GPU minne som används för hög kvalitet dialog.

Ja. Nya TextToSpeechAI konton inkluderar fri startpoäng, och det finns en demo du kan köra utan att registrera dig. Det räcker för att skapa en kort Dia dialog med [S1] / [S2] taggar innan du beslutar om en betald plan.

Ja. När du har en API-symbol från din kontosida kan du skicka Dia dialogskript - inklusive [S1] / [S2] vänder och taggar som [skrattar] - till TextToSpeechAI REST API och ladda ner resulterande ljud programmatiskt.

Technical Specs

  • Generation Speed Medium
  • Output Quality Excellent
  • Voice Cloning Supported
  • Languages 1
  • GPU VRAM 10GB
  • Credits/1000 chars 50

Try Diabetes Now

Generate your first audio free. No credit card required.

Start Free