Dia

Ultra

TTS met dialooggerichte stemklonen en nonverbale geluiden

Medium Snelheid
Excellent Kwaliteit
Ja. Klonen
1 Talen

Info Dia

Dia by Nari Labs is een 1,6B parameter dialoog-gerichte tekst-tot-spraak model. Het blinkt uit in het genereren van natuurlijke conversatie toespraak met ondersteuning voor nonverbale geluiden zoals lachen, zuchten en hoesten. Dia ondersteunt multi-luidspreker dialoog generatie en stem klonen van 5-10 seconden referentie audio, waardoor het ideaal voor het creëren van realistische gesprekken en karakter stemmen.

Belangrijkste kenmerken

Dialooggeneratie

Genereer natuurlijke multi-spreker gesprekken met verschillende stemmen en draai-taking.

Nonverbale geluiden

Voeg [lacht], [zucht], [hoesten], (hapt) voor natuurlijke parale taaluitdrukking toe.

Stemklonen

Kloon elke stem van 5-10 seconden referentie audio voor persoonlijke spraak.

Natuurlijke gesprekken

1.6B parameters produceren zeer natuurlijke conversatie prosody en intonatie.

Gebruik kasten

Dialoog en conversatie generatie Audioboekproductie met meerdere karakters Speltekenstemmen Podcast en inhoud aanmaken

Hoe gebruikt u dit middel? Dia

  1. 1

    Gratis aanmelden of de demo openen

    Maak een gratis TextToSpeechAI-account aan om je startercredits op te eisen, of open de no-signup demo om Dia dialoog meteen uit te proberen.

  2. 2

    Selecteer de Dia-motor

    In het TTS dashboard kiest u Dia uit de motorlijst. Dia is het dialooggerichte, ultra-tier model met multi-luidspreker en stemklonering ondersteuning.

  3. 3

    Een dialoogscript schrijven met tags

    Stel uw gesprek samen met [S1] en [S2] om elke speaker draaien te markeren, en laat in nonverbale tags zoals [lacht], [zucht], [hoesten], of (haasjes) waar je natuurlijke reacties wilt.

  4. 4

    Het audio-bestand aanmaken

    Klik op genereren om uw Dia script naar onze gehoste GPU's te sturen. Dia maakt de dialoog met twee luidsprekers met turn-taking en uw nonverbale tags in één enkel audiobestand.

  5. 5

    Download of bel de API

    Download de voltooide dialoog in uw gekozen formaat, of automatiseer het door hetzelfde [S1]/[S2] script te plaatsen naar de TextToSpeechAI API met uw account token.

Dia API

Genereer spraakprogrammamatisch met behulp van de TextToSpeechAI REST API.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Hallo daar, hoe gaat het vandaag?",
    "voice": "en_US-lessac-medium"
  }'

Veelgestelde vragen

Dia is een 1.6B parameter dialoog-georiënteerd tekst-tot-spraak model van Nari Labs. Het is gespecialiseerd in het genereren van natuurlijke conversatie spraak met ondersteuning voor meerdere luidsprekers, nonverbale geluiden, en stem klonen.

Ja, Dia is volledig Apache 2.0 gelicentieerd - zowel code als modelgewichten. Het kan vrij worden gebruikt in commerciële toepassingen.

Momenteel ondersteunt Dia alleen Engels. Het model is geoptimaliseerd voor natuurlijke Engelse conversatie spraak.

Dia vereist ongeveer 10GB VRAM voor zijn 1.6B parameter model. Een GPU met ten minste 12GB wordt aanbevolen voor een comfortabele bediening. Op TextToSpeechAI draait dit allemaal op onze gehoste GPU's, zodat u geen hardware van uw eigen nodig hebt.

Ja - dialoog is precies waarvoor Dia is gebouwd. Door afwisseling [S1] en [S2] draait Dia TTS in je script een stromend gesprek met twee luidsprekers met verschillende stemmen en realistische draai-vorming, wat moeilijker te bereiken is met enkelspreker TTS-modellen.

Prefixeer elke regel van je script met [S1] of [S2] om te markeren wie er aan het praten is. Dia wijst een consistente stem toe aan elke tag en schakelt er tussenin als het gesprek beweegt, dus [S1] en [S2] fungeren als de twee tekens in je dialoog.

Dia ondersteunt het klonen van stemmen vanaf ongeveer 5-10 seconden van clean referentie audio, zodat je een specifieke stem voor een spreker kunt hergebruiken. Je kunt klonen combineren met de [S1]/[S2] tags zodat elk personage in een dialoog klinkt als de stem die je gekloond hebt.

Dia rendert [lacht], [zucht], [hoesten] en (hapt) als natuurlijke paralinguïstische geluiden die in de toespraak worden geweven in plaats van gesproken woorden. Plaats een tag waar je de reactie wilt - bijvoorbeeld "[S1] Dat is hilarisch [lacht] - om de dialoog menselijker te laten voelen.

Zowel Dia als Bark ondersteunen expressieve nonverbale geluiden, maar Dia is speciaal gebouwd voor multi-speaker dialoog met [S1]/[S2] draai- en stemklonen. Kies Dia voor realistische tweepersoonsgesprekken en karakterwerk; Bast is een betere pasvorm wanneer je een bredere taaldekking nodig hebt in single-voice vertelling.

Dia is een ultra-tier motor, dus kost het 50 credits per 1.000 tekens gegenereerde spraak. De ultra tier weerspiegelt het grotere 1.6B model en de ~ 10GB GPU geheugen gebruikt voor een hoogwaardige dialoog.

Ja. Nieuwe TextToSpeechAI accounts bevatten gratis starter credits, en er is een demo die je kunt uitvoeren zonder je aan te melden. Dat is genoeg om een korte Dia dialoog met [S1]/[S2] tags te genereren voordat je een betaald plan besluit.

Ja. Zodra u een API token van uw account pagina hebt kunt u Dia dialoog scripts - inclusief [S1]/[S2] draait en tags zoals [lacht] - naar de TextToSpeechAI REST API verzenden en de resulterende audio programmatisch downloaden.

Technical Specs

  • Generation Speed Medium
  • Output Quality Excellent
  • Voice Cloning Supported
  • Languages 1
  • GPU VRAM 10GB
  • Credits/1000 chars 50

Try Dia Now

Generate your first audio free. No credit card required.

Start Free