Dia

Ultra

Dialogorientiertes TTS mit Stimme klonen und nonverbalen Klängen

Medium Geschwindigkeit
Excellent Qualität
Nein Klonen
1 Sprachen

Über Dia

Dia von Nari Labs ist ein 1,6B-Parameter dialogorientiertes Text-zu-Speech-Modell. Es zeichnet sich durch natürliche Konversationssprache mit Unterstützung für nonverbale Klänge wie Lachen, Seufzen und Husten aus. Dia unterstützt Multi-Speaker Dialog Erzeugung und Stimme Klonen von 5-10 Sekunden Referenz-Audio, so dass es ideal für realistische Gespräche und Charakter Stimmen erstellen.

Hauptmerkmale

Dialog-Generierung

Generieren Sie natürliche Multi-Sprecher-Gespräche mit unterschiedlichen Stimmen und Turn-Take.

Nonverbale Geräusche

Fügen Sie [lacht], [seufzt], [soughs], (schnappen) für natürlichen paralinguistischen Ausdruck hinzu.

Stimme Klonen

Klonen Sie jede Stimme von 5-10 Sekunden Referenz-Audio für personalisierte Sprache.

Natürliche Gespräche

1.6B-Parameter erzeugen sehr natürliche Konversationsprosodie und Intonation.

Anwendungsfälle

Dialog und Gesprächsgenerierung Hörbuchproduktion mit mehreren Zeichen Stimmen des Spielzeichens Podcast und Content-Erstellung

Verwendung Dia

  1. 1

    Melde dich kostenlos an oder öffne die Demo

    Erstellen Sie ein kostenloses TextToSpeechAI-Konto, um Ihre Starter-Gutschriften zu beanspruchen, oder öffnen Sie die No-Signup-Demo, um Dia-Dialog sofort zu versuchen.

  2. 2

    Wählen Sie die Dia-Engine

    Im TTS-Dashboard wählen Sie Dia aus der Motorenliste. Dia ist das dialogorientierte, ultra-tier Modell mit Multi-Lautsprecher und Sprach-Klon-Unterstützung.

  3. 3

    Schreiben eines Dialogskripts mit Tags

    Komponieren Sie Ihr Gespräch mit [S1] und [S2], um jeden Lautsprecherzug zu markieren und fallen Sie in nonverbale Tags wie [lacht], [seufzt], [müde] oder (schnappen) wo Sie natürliche Reaktionen wollen.

  4. 4

    Erzeugen des Audios

    Klicken Sie auf Generieren, um Ihr Dia-Skript an unsere gehosteten GPUs zu senden. Dia rendert den Zwei-Lautsprecher-Dialog mit Turn-Take und Ihren nonverbalen Tags in eine einzige Audiodatei.

  5. 5

    API herunterladen oder aufrufen

    Laden Sie den abgeschlossenen Dialog in Ihrem gewählten Format herunter oder automatisieren Sie ihn, indem Sie das gleiche [S1]/[S2] Skript mit Ihrem Konto-Token in die TextToSpeechAI API eingeben.

Dia API

Erzeugen Sie Sprache programmatisch mit der TextToSpeechAI REST API.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "[S1] Hallo da! Wie geht es dir heute? [lacht] [S2] Ich mache es großartig, danke für die Frage!",
    "voice": "en_US-lessac-medium"
  }'

Häufig gestellte Fragen

Dia ist ein dialogorientiertes Text-zu-Speech-Modell mit 1.6B-Parametern von Nari Labs. Es ist spezialisiert auf die Erzeugung natürlicher Konversationssprache mit Unterstützung für mehrere Lautsprecher, nonverbale Sounds und Sprachklonen.

Ja, Dia ist vollständig Apache 2.0 lizenziert - sowohl Code- als auch Modellgewichte. Es kann frei in kommerziellen Anwendungen verwendet werden.

Derzeit unterstützt Dia nur Englisch. Das Modell ist für natürliche englische Konversationssprache optimiert.

Dia benötigt für sein 1.6B-Parametermodell ca. 10 GB VRAM. Für eine komfortable Bedienung wird eine GPU mit mindestens 12 GB empfohlen. Auf TextToSpeechAI läuft das alles auf unseren gehosteten GPUs, sodass Sie keine eigene Hardware benötigen.

Ja - Dialog ist genau das, wofür Dia gebaut ist. Durch abwechselnde [S1] und [S2] Drehungen in Ihrem Skript erzeugt Dia TTS ein fließendes Zwei-Lautsprecher-Gespräch mit deutlichen Stimmen und realistischer Drehung, was bei Single-Lautsprecher-TTS-Modellen schwieriger zu erreichen ist.

Präfixen Sie jede Zeile Ihres Skripts mit [S1] oder [S2], um zu markieren, wer spricht. Dia weist jedem Tag eine konsistente Stimme zu und wechselt zwischen ihnen, während sich die Konversation bewegt, so dass [S1] und [S2] als die beiden Zeichen in Ihrem Dialog fungieren.

Ja. Dia unterstützt das Klonen von ungefähr 5-10 Sekunden sauberen Referenz-Audios, sodass Sie eine bestimmte Stimme für einen Lautsprecher wiederverwenden können. Sie können Klonen mit den [S1]/[S2]-Tags kombinieren, so dass jedes Zeichen in einem Dialog wie die Stimme klingt, die Sie geklont haben.

Dia rendert [lacht], [seufzt], [seufzt], und (schnappen) als natürliche paralinguistische Klänge, die in die Rede eingewoben sind, anstatt gesprochene Worte. Stellen Sie einen Tag, an dem Sie die Reaktion - zum Beispiel "[S1] Das ist urkomisch [lacht]" - wollen, damit der Dialog sich menschlicher anfühlt.

Sowohl Dia als auch Bark unterstützen ausdrucksstarke nonverbale Sounds, aber Dia ist für den Dialog mit mehreren Sprechern mit [S1]/[S2] Turn-Takeing und Voice-Kloning vorgesehen. Wählen Sie Dia für realistische Zwei-Personen-Gespräche und Charakterarbeit; Bark ist eine bessere Passform, wenn Sie eine breitere Sprachabdeckung in Single-Voice-Erzählung benötigen.

Dia ist ein ultra-Tier-Engine, so kostet es 50 Credits pro 1.000 Zeichen generierte Sprache. Die ultra-Tier spiegelt das größere 1,6B-Modell und die ~10GB GPU-Speicher verwendet es für hochwertige Dialog.

Ja. Neue TextToSpeechAI Konten beinhalten kostenlose Starter-Gutschriften, und es gibt eine Demo, die Sie ohne Anmeldung laufen können. Das reicht, um einen kurzen Dia-Dialog mit [S1]/[S2]-Tags zu erzeugen, bevor Sie sich für einen bezahlten Plan entscheiden.

Ja. Sobald Sie ein API-Token von Ihrer Kontoseite haben, können Sie Dia Dialogskripte - einschließlich [S1]/[S2] Drehungen und Tags wie [lacht] - an die TextToSpeechAI REST API senden und die daraus resultierenden Audioprogramme herunterladen.

Technical Specs

  • Generation Speed Medium
  • Output Quality Excellent
  • Voice Cloning Supported
  • Languages 1
  • GPU VRAM 10GB
  • Credits/1000 chars 50

Try Dia Now

Generate your first audio free. No credit card required.

Start Free