Dia

Ultra

Dialogowe TTS z klonowaniem głosu i dźwiękami niewerbalnymi

Spróbuj za darmo Dia Przeglądaj głosy (0)

Medium Prędkość

Excellent Jakość

Tak. Klonowanie

1 Języki

O tematie Dia

Dia by Nari Labs to model oparty na dialogu 1.6B. Wyróżnia się w generowaniu naturalnej mowy konwersacyjnej z wsparciem dla niewerbalnych dźwięków jak śmiech, wzdycha i kaszel. Dia wspiera wytwarzanie wielodźwiękowe dialog i klonowanie głosu od 5-10 sekund odwrotnego audio, co sprawia, że jest idealne dla tworzenia realistycznych rozmów i głosów charakterystycznych.

Kluczowe cechy

Tworzenie dialogów

Generować naturalne rozmowy wielogłośników z odrębnymi głosami i przekształceniem.

Dźwięki niewerbalne

Dodajcie [śmiech], [wzdycha], [kaszel], (wzdycha) dla naturalnego paralinguistycznego wyrażenia.

Klonowanie głosu

Klonuj głos z 5-10 sekund odnośnika do specjalizowanego mowy.

Konwersacja naturalna

1.6B parametry produkują bardzo naturalną prozję konwersacyjną i intonację.

Przypadki użytkowania

Tworzenie dialogu i rozmowy Produkcja audiobooku z wieloma znakami Głosy charakterów gry Podcast i stworzenie treści

Jak stosować lek Dia

1

Zapisz się za darmo lub otwórz demo

Stwórz bezpłatne TextToSpeechAI konto, aby uzyskać kredyty starterowe, lub otworzyć demo bez podpisu, aby natychmiast spróbować Dia dialog.
2

Wybierz silnik Dia

W panelu TTS wybierz Dia z listy silników. Dia jest ukierunkowanym na dialog, ultra-tyer modelem z wielogłośnikiem i klonowaniem głosu.
3

Napisz skrypt dialogowy z znacznikami

Składasz rozmowy za pomocą [S1] i [S2], aby zaznaczyć każdy skręt głośnika, a następnie wrzucić niewerbalne tagi, takie jak [śmiech], [wzdycha], [kaszel], lub (wzdycha) gdzie chcesz naturalnych reakcji.
4

Wygeneruj dźwięk

Kliknij, aby wysłać skrypt Dia do naszego hostowanego GPUs. Dia przetwarza okno dwudźwięcznikowe z przemianą i tworzy nieverbalne tagi do jednego pliku audio.
5

Pobierz lub zadzwoń do API

Pobierz zakończone okno w wybranym formacie lub automatyzuj go, delegując ten sam skrypt [S1] /[S2] na TextToSpeechAI API z żetonem konta.

Dia API

Generuj mowy w programie, używając TextToSpeechAI REST API.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Cześć, jak się masz?",
    "voice": "en_US-lessac-medium"
  }'

Czytaj API Docs Pobierz klucz API

Często zadawane pytania

Dia jest parametrem 1.6B zorientowanym na dialog tekst-to-speech model z Nari Labs. Specjalizuje się w generowaniu naturalnej mowy konwersacyjnej przy wsparciu dla wielu głośników, niewerbalnych dźwięków i klonowania głosu.

Tak, Dia jest w pełni licencjonowana Apache 2.0 - zarówno kod, jak i wagi modelowe. Można ją swobodnie używać w aplikacjach handlowych.

Obecnie Dia obsługuje tylko angielski. Model jest optymalizowany dla naturalnego angielskiego wypowiedzenia konwersacyjnego.

Dia wymaga około 10GB VRAM dla modelu parametrów 1.6B. GPU z co najmniej 12GB jest zalecane do komfortowego działania. W TextToSpeechAI wszystkich tych prądów na naszych GPU, więc nie potrzebujesz żadnego sprzętu własnego.

Tak - dialog jest dokładnie dla tego, do czego jest zbudowana Dia. Przez przemienne [S1] i [S2] skręca się w skryptie, Dia TTS produkuje płynącą dwumówicową rozmowę z odrębnymi głosami i realistycznymi przechwytami, co trudniej jest osiągnąć w modelach TTS jednogłośniczych.

Poprzefiksować każdy wiersz skryptu [S1] lub [S2], aby zaznaczyć kto mówi. Dia przypisuje do każdego tagu spójny głos i przełącza między nimi podczas rozmowy, więc [S1] i [S2] działają jako dwa znaki w oknie.

Tak. Dia obsługuje klonowanie głosu z około 5-10 sekund czystego dźwięku referencyjnego, pozwalając na ponowne wykorzystanie określonego głosu dla głośnika. Możesz łączyć klonowanie z znacznikami [S1] / [S2], tak aby każdy znak w dialogu brzmiał jak głos, który klonowałeś.

Dia przekłada [śmiech], [wzdycha], [kaszla] i (wzdycha) jako naturalne dźwięki paralinguistyczne w przemówienie, a nie słowa wypowiedziane. Umieścić tag, gdzie chcesz reakcji - na przykład "[S1] To jest zabawne [śmiech]" - aby dialog czuć się bardziej ludzki.

Obydwa dźwięki Dia i Bark wspierają wyrażające się niewerbalne, ale Dia jest zbudowana w celu dialogu wielodźwiękowego z [S1] /[S2] przechwycanie i klonowanie głosu. Wybierz Dia do realistycznych rozmów dwuosobowych i pracy charakterowej; Bark jest lepszym dopasowaniem, gdy potrzebujesz szerszego pokrycia języka w przysłudze jednoosobowej.

Dia jest silnikiem ultra-tyerowym, więc kosztuje 50 kredytów na 1000 znaków wygenerowanego mowy. Ultra-typ odzwierciedla większy model 1,6B oraz ~10GB pamięci GPU, który używa do wysokiej jakości dialogu.

Tak. Nowe TextToSpeechAI konta obejmują darmowe kredyty starter, a jest demo można uruchomić bez wpisywania się do systemu. Wystarczy, aby wygenerować krótki dialog Dia z [S1] / [S2] przed decyzją o planie płaconym.

Tak. Po uzyskaniu API tokenu ze strony konta możesz przekazać skrypty dialogu Dia - w tym [S1] / [S2] okręty i tagi jak [śmiech] - do TextToSpeechAI REST API i pobrać wyniki audio programematyczny.

Technical Specs

Generation Speed Medium
Output Quality Excellent
Voice Cloning Supported
Languages 1
GPU VRAM 10GB
Credits/1000 chars 50

Try Dia Now

Generate your first audio free. No credit card required.

Start Free

Other TTS Engines

Dia

O tematie Dia

Kluczowe cechy

Tworzenie dialogów

Dźwięki niewerbalne

Klonowanie głosu

Konwersacja naturalna

Przypadki użytkowania

Jak stosować lek Dia

Zapisz się za darmo lub otwórz demo

Wybierz silnik Dia

Napisz skrypt dialogowy z znacznikami

Wygeneruj dźwięk

Pobierz lub zadzwoń do API

Dia API

Często zadawane pytania

Co to jest Dia TTS?

Czy Dia może korzystać z reklamy?

Jakie języki wspiera Dia?

Ile GPU pamięci potrzebuje Dia?

Czy Dia może stworzyć dialog między wieloma znakami?

Jak działają Dia głośnik [S1] i [S2]?

Czy Dia klonuje głosy?

Jak niewerbalne tagi jak [śmiech] i [wzdycha] brzmi w Dia?

Dia vs Bark: do którego mam użyć?

Ile kredytów Dia kosztuje TextToSpeechAI?

Mogę spróbować Dia TTS za darmo?

Mogę użyć Dia przez TextToSpeechAI API?

Technical Specs

Try Dia Now

Other TTS Engines

Korek

Pole rozmowy

Przytulny głosowy2