Dia
UltraDialogowe TTS z klonowaniem głosu i dźwiękami niewerbalnymi
O tematie Dia
Dia by Nari Labs to model oparty na dialogu 1.6B. Wyróżnia się w generowaniu naturalnej mowy konwersacyjnej z wsparciem dla niewerbalnych dźwięków jak śmiech, wzdycha i kaszel. Dia wspiera wytwarzanie wielodźwiękowe dialog i klonowanie głosu od 5-10 sekund odwrotnego audio, co sprawia, że jest idealne dla tworzenia realistycznych rozmów i głosów charakterystycznych.
Kluczowe cechy
Tworzenie dialogów
Generować naturalne rozmowy wielogłośników z odrębnymi głosami i przekształceniem.
Dźwięki niewerbalne
Dodajcie [śmiech], [wzdycha], [kaszel], (wzdycha) dla naturalnego paralinguistycznego wyrażenia.
Klonowanie głosu
Klonuj głos z 5-10 sekund odnośnika do specjalizowanego mowy.
Konwersacja naturalna
1.6B parametry produkują bardzo naturalną prozję konwersacyjną i intonację.
Przypadki użytkowania
Jak stosować lek Dia
-
1
Zapisz się za darmo lub otwórz demo
Stwórz bezpłatne TextToSpeechAI konto, aby uzyskać kredyty starterowe, lub otworzyć demo bez podpisu, aby natychmiast spróbować Dia dialog.
-
2
Wybierz silnik Dia
W panelu TTS wybierz Dia z listy silników. Dia jest ukierunkowanym na dialog, ultra-tyer modelem z wielogłośnikiem i klonowaniem głosu.
-
3
Napisz skrypt dialogowy z znacznikami
Składasz rozmowy za pomocą [S1] i [S2], aby zaznaczyć każdy skręt głośnika, a następnie wrzucić niewerbalne tagi, takie jak [śmiech], [wzdycha], [kaszel], lub (wzdycha) gdzie chcesz naturalnych reakcji.
-
4
Wygeneruj dźwięk
Kliknij, aby wysłać skrypt Dia do naszego hostowanego GPUs. Dia przetwarza okno dwudźwięcznikowe z przemianą i tworzy nieverbalne tagi do jednego pliku audio.
-
5
Pobierz lub zadzwoń do API
Pobierz zakończone okno w wybranym formacie lub automatyzuj go, delegując ten sam skrypt [S1] /[S2] na TextToSpeechAI API z żetonem konta.
Dia API
Generuj mowy w programie, używając TextToSpeechAI REST API.
curl -X POST "https://api.texttospeechai.com/v1/generate/" \
-H "Authorization: Bearer YOUR_API_TOKEN" \
-H "Content-Type: application/json" \
-d '{
"text": "Cześć, jak się masz?",
"voice": "en_US-lessac-medium"
}'
Często zadawane pytania
Technical Specs
- Generation Speed Medium
- Output Quality Excellent
- Voice Cloning Supported
- Languages 1
- GPU VRAM 10GB
- Credits/1000 chars 50