Dia

Ultra

TTS orienté dialogue avec clonage vocal et sons non verbaux

Medium Vitesse
Excellent Qualité
Oui Clonage
1 Langues

À propos Dia

Dia by Nari Labs est un modèle de dialogue texte-à-parleur de 1,6B. Il excelle dans la génération de discours conversationnels naturels avec support pour les sons non verbaux comme le rire, les soupirs et la toux. Dia supporte la génération de dialogue multi-parleurs et le clonage de la voix à partir de 5-10 secondes de référence audio, ce qui le rend idéal pour créer des conversations réalistes et des voix de caractère.

Caractéristiques principales

Génération du dialogue

Générer des conversations multi-parleurs naturelles avec des voix distinctes et des prises de tour.

Sons non verbaux

Ajouter [rires], [soupires], [toux], (goutte) pour l'expression paralinguistique naturelle.

Clonage de la voix

Clone toute voix de 5-10 secondes de son de référence pour une parole personnalisée.

Conversation naturelle

1.6B paramètres produisent prosody conversationnelle très naturelle et l'intonation.

Cas d'utilisation

Génération de dialogue et de conversation Production de livres audio avec plusieurs caractères Voix de personnages de jeu Podcast et création de contenu

Comment utiliser Dia

  1. 1

    Inscrivez-vous gratuitement ou ouvrez la démo

    Créez un compte gratuit TextToSpeechAI pour réclamer vos crédits de démarrage, ou ouvrez la démo sans signature pour essayer le dialogue Dia immédiatement.

  2. 2

    Sélectionnez le moteur Dia

    Dans le tableau de bord TTS, choisissez Dia dans la liste des moteurs. Dia est le modèle de dialogue, ultra-tier avec multi-enceinte et support de fermeture vocale.

  3. 3

    Écrire un script de dialogue avec des balises

    Composez votre conversation en utilisant [S1] et [S2] pour marquer chaque tour d'enceinte, et déposez des étiquettes non verbales telles que [rires], [soupirs], [toux] ou (gouttes) où vous voulez des réactions naturelles.

  4. 4

    Générer l'audio

    Cliquez sur générer pour envoyer votre script Dia à nos GPU hébergés. Dia rend le dialogue à deux haut-parleurs avec tour-prise et vos balises non verbales dans un seul fichier audio.

  5. 5

    Télécharger ou appeler l'API

    Téléchargez le dialogue terminé dans le format choisi, ou automatisez-le en affichant le même script [S1]/[S2] dans l'API TextToSpeechAI avec votre jeton de compte.

Dia API

Générer des discours programmatiques en utilisant l'API TextToSpeechAI REST.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "[S1] Bonjour! Comment allez\u002Dvous aujourd\u0027hui? [rires] [S2] Je fais très bien, merci de demander!",
    "voice": "en_US-lessac-medium"
  }'

Foire aux questions

Dia est un modèle de dialogue texte-à-discours de la part de Nari Labs, basé sur un paramètre 1.6B. Il est spécialisé dans la production de discours conversationnels naturels avec support pour plusieurs haut-parleurs, des sons non verbaux et du clonage vocal.

Oui, Dia est entièrement sous licence Apache 2.0 - à la fois le code et le poids du modèle. Il peut être utilisé librement dans des applications commerciales.

Actuellement Dia prend en charge l'anglais seulement. Le modèle est optimisé pour la conversation en anglais naturel.

Dia nécessite environ 10 Go de VRAM pour son modèle de paramètre 1.6B. Un GPU d'au moins 12 Go est recommandé pour une utilisation confortable. Sur TextToSpeechAI tout cela fonctionne sur nos GPU hébergés, vous n'avez donc pas besoin de votre propre matériel.

Oui - le dialogue est exactement ce pour quoi Dia est construit. En alternant [S1] et [S2] tourne dans votre script, Dia TTS produit une conversation à deux haut-parleurs fluide avec des voix distinctes et un tour-prise réaliste, ce qui est plus difficile à réaliser avec des modèles TTS à haut-parleur unique.

Préfixez chaque ligne de votre script avec [S1] ou [S2] pour marquer qui parle. Dia attribue une voix cohérente à chaque balise et bascule entre eux au fur et à mesure que la conversation se déplace, [S1] et [S2] agissent comme les deux caractères dans votre dialogue.

Oui. Dia prend en charge le clonage vocal à partir d'environ 5-10 secondes d'audio de référence propre, vous permettant de réutiliser une voix spécifique pour un haut-parleur. Vous pouvez combiner le clonage avec les balises [S1]/[S2] afin que chaque personnage dans un dialogue sonne comme la voix que vous avez clonée.

Dia rend [rires], [soupires], [toux] et (goutte) comme des sons paralinguistiques naturels tissés dans le discours plutôt que comme des mots parlés. Placez une étiquette où vous voulez la réaction - par exemple « [S1] C'est hilarant [rires] » - pour faire sentir le dialogue plus humain.

Dia et Bark supportent les sons non verbaux expressifs, mais Dia est conçu pour un dialogue multi-parleurs avec [S1]/[S2] tour à tour et clonage de la voix. Choisissez Dia pour des conversations réalistes avec deux personnes et travail de caractère; Bark est un meilleur ajustement lorsque vous avez besoin d'une couverture plus large de la langue dans la narration à voix unique.

Dia est un moteur ultra-tier, donc il coûte 50 crédits par 1000 caractères de parole générée. Le niveau ultra reflète le modèle 1.6B plus grand et ~10 Go de mémoire GPU qu'il utilise pour un dialogue de haute qualité.

Oui. Les nouveaux comptes TextToSpeechAI incluent des crédits de démarrage gratuits, et il y a une démo que vous pouvez exécuter sans vous inscrire. Cela suffit pour générer un dialogue court Dia avec les balises [S1]/[S2] avant de décider d'un plan payé.

Oui. Une fois que vous avez un jeton API de votre page de compte, vous pouvez soumettre des scripts de dialogue Dia - y compris [S1]/[S2] tourne et tags comme [rires] - à l'API REST TextToSpeechAI et télécharger le résultat audio programmatiquement.

Technical Specs

  • Generation Speed Medium
  • Output Quality Excellent
  • Voice Cloning Supported
  • Languages 1
  • GPU VRAM 10GB
  • Credits/1000 chars 50

Try Dia Now

Generate your first audio free. No credit card required.

Start Free