Dia

Ultra

Dialogowe TTS z klonowaniem głosu i dźwiękami niewerbalnymi

Medium Prędkość
Excellent Jakość
Tak. Klonowanie
1 Języki

O tematie Dia

Dia by Nari Labs to model oparty na dialogu 1.6B. Wyróżnia się w generowaniu naturalnej mowy konwersacyjnej z wsparciem dla niewerbalnych dźwięków jak śmiech, wzdycha i kaszel. Dia wspiera wytwarzanie wielodźwiękowe dialog i klonowanie głosu od 5-10 sekund odwrotnego audio, co sprawia, że jest idealne dla tworzenia realistycznych rozmów i głosów charakterystycznych.

Kluczowe cechy

Tworzenie dialogów

Generować naturalne rozmowy wielogłośników z odrębnymi głosami i przekształceniem.

Dźwięki niewerbalne

Dodajcie [śmiech], [wzdycha], [kaszel], (wzdycha) dla naturalnego paralinguistycznego wyrażenia.

Klonowanie głosu

Klonuj głos z 5-10 sekund odnośnika do specjalizowanego mowy.

Konwersacja naturalna

1.6B parametry produkują bardzo naturalną prozję konwersacyjną i intonację.

Przypadki użytkowania

Tworzenie dialogu i rozmowy Produkcja audiobooku z wieloma znakami Głosy charakterów gry Podcast i stworzenie treści

Jak stosować lek Dia

  1. 1

    Zapisz się za darmo lub otwórz demo

    Stwórz bezpłatne TextToSpeechAI konto, aby uzyskać kredyty starterowe, lub otworzyć demo bez podpisu, aby natychmiast spróbować Dia dialog.

  2. 2

    Wybierz silnik Dia

    W panelu TTS wybierz Dia z listy silników. Dia jest ukierunkowanym na dialog, ultra-tyer modelem z wielogłośnikiem i klonowaniem głosu.

  3. 3

    Napisz skrypt dialogowy z znacznikami

    Składasz rozmowy za pomocą [S1] i [S2], aby zaznaczyć każdy skręt głośnika, a następnie wrzucić niewerbalne tagi, takie jak [śmiech], [wzdycha], [kaszel], lub (wzdycha) gdzie chcesz naturalnych reakcji.

  4. 4

    Wygeneruj dźwięk

    Kliknij, aby wysłać skrypt Dia do naszego hostowanego GPUs. Dia przetwarza okno dwudźwięcznikowe z przemianą i tworzy nieverbalne tagi do jednego pliku audio.

  5. 5

    Pobierz lub zadzwoń do API

    Pobierz zakończone okno w wybranym formacie lub automatyzuj go, delegując ten sam skrypt [S1] /[S2] na TextToSpeechAI API z żetonem konta.

Dia API

Generuj mowy w programie, używając TextToSpeechAI REST API.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Cześć, jak się masz?",
    "voice": "en_US-lessac-medium"
  }'

Często zadawane pytania

Dia jest parametrem 1.6B zorientowanym na dialog tekst-to-speech model z Nari Labs. Specjalizuje się w generowaniu naturalnej mowy konwersacyjnej przy wsparciu dla wielu głośników, niewerbalnych dźwięków i klonowania głosu.

Tak, Dia jest w pełni licencjonowana Apache 2.0 - zarówno kod, jak i wagi modelowe. Można ją swobodnie używać w aplikacjach handlowych.

Obecnie Dia obsługuje tylko angielski. Model jest optymalizowany dla naturalnego angielskiego wypowiedzenia konwersacyjnego.

Dia wymaga około 10GB VRAM dla modelu parametrów 1.6B. GPU z co najmniej 12GB jest zalecane do komfortowego działania. W TextToSpeechAI wszystkich tych prądów na naszych GPU, więc nie potrzebujesz żadnego sprzętu własnego.

Tak - dialog jest dokładnie dla tego, do czego jest zbudowana Dia. Przez przemienne [S1] i [S2] skręca się w skryptie, Dia TTS produkuje płynącą dwumówicową rozmowę z odrębnymi głosami i realistycznymi przechwytami, co trudniej jest osiągnąć w modelach TTS jednogłośniczych.

Poprzefiksować każdy wiersz skryptu [S1] lub [S2], aby zaznaczyć kto mówi. Dia przypisuje do każdego tagu spójny głos i przełącza między nimi podczas rozmowy, więc [S1] i [S2] działają jako dwa znaki w oknie.

Tak. Dia obsługuje klonowanie głosu z około 5-10 sekund czystego dźwięku referencyjnego, pozwalając na ponowne wykorzystanie określonego głosu dla głośnika. Możesz łączyć klonowanie z znacznikami [S1] / [S2], tak aby każdy znak w dialogu brzmiał jak głos, który klonowałeś.

Dia przekłada [śmiech], [wzdycha], [kaszla] i (wzdycha) jako naturalne dźwięki paralinguistyczne w przemówienie, a nie słowa wypowiedziane. Umieścić tag, gdzie chcesz reakcji - na przykład "[S1] To jest zabawne [śmiech]" - aby dialog czuć się bardziej ludzki.

Obydwa dźwięki Dia i Bark wspierają wyrażające się niewerbalne, ale Dia jest zbudowana w celu dialogu wielodźwiękowego z [S1] /[S2] przechwycanie i klonowanie głosu. Wybierz Dia do realistycznych rozmów dwuosobowych i pracy charakterowej; Bark jest lepszym dopasowaniem, gdy potrzebujesz szerszego pokrycia języka w przysłudze jednoosobowej.

Dia jest silnikiem ultra-tyerowym, więc kosztuje 50 kredytów na 1000 znaków wygenerowanego mowy. Ultra-typ odzwierciedla większy model 1,6B oraz ~10GB pamięci GPU, który używa do wysokiej jakości dialogu.

Tak. Nowe TextToSpeechAI konta obejmują darmowe kredyty starter, a jest demo można uruchomić bez wpisywania się do systemu. Wystarczy, aby wygenerować krótki dialog Dia z [S1] / [S2] przed decyzją o planie płaconym.

Tak. Po uzyskaniu API tokenu ze strony konta możesz przekazać skrypty dialogu Dia - w tym [S1] / [S2] okręty i tagi jak [śmiech] - do TextToSpeechAI REST API i pobrać wyniki audio programematyczny.

Technical Specs

  • Generation Speed Medium
  • Output Quality Excellent
  • Voice Cloning Supported
  • Languages 1
  • GPU VRAM 10GB
  • Credits/1000 chars 50

Try Dia Now

Generate your first audio free. No credit card required.

Start Free