Dia
UltraTTS orientado para diálogo com clonagem de voz e sons não verbais
Sobre Dia
Dia by Nari Labs é um modelo de diálogo de parâmetro de 1.6B focado em texto a voz. Excele na geração de falas conversacionais naturais com apoio para sons não verbais como risada, suspiros e tosse. Dia suporta a geração de diálogo multi-falantes e clonagem de voz de 5-10 segundos de áudio de referência, tornando-o ideal para criar conversas realistas e vozes de personagem.
Características-chave
Geração de Diálogo
Gere conversas multi-falantes naturais com vozes distintas e com tomada de turnos.
Sons não verbais
Adicionar [risos], [Suspira], [tumas], (gasps) para expressão natural paralinguística.
Clonagem Voz
Clone qualquer voz de 5-10 segundos de áudio de referência para fala personalizada.
Conversa natural
Os parâmetros 1.6B produzem prósodia e entonação conversacional altamente naturais.
Casos de utilização
Como Utilizar Dia
-
1
Inscreva-se livre ou abra a demo
Crie uma conta TextToSpeechAI gratuita para reclamar seus créditos de início, ou abra a demo sem sinal para tentar o diálogo Dia imediatamente.
-
2
Selecione o motor Dia
No painel de TTS escolher Dia da lista de motores. Dia é o modelo de diálogo, ultra-título, com suporte multi-falante e cloning de voz.
-
3
Escreva um script de diálogo com tags
Compor a conversa usando [S1] e [S2] para marcar cada falante virar, e cair em tags não verbais como [risos], [suspira], [tumos], ou (gasps) onde você quer reações naturais.
-
4
Gerar o áudio
Clique em gerar para enviar o seu script Dia para as nossas GPUs hospedadas. Dia rende o diálogo de dois falantes com a tomada de turnos e suas etiquetas não verbais num único arquivo de áudio.
-
5
Baixe ou ligue para a API
Baixe o diálogo terminado no seu formato escolhido, ou automatize-o publicando o mesmo script [S1]/[S2] para a API TextToSpeechAI com o token da sua conta.
Dia API
Gerar a fala programática usando a API TextToSpeechAI REST.
curl -X POST "https://api.texttospeechai.com/v1/generate/" \
-H "Authorization: Bearer YOUR_API_TOKEN" \
-H "Content-Type: application/json" \
-d '{
"text": "Olá! Como está hoje? [risos] Estou a fazer ótimo, obrigado por perguntar!",
"voice": "en_US-lessac-medium"
}'
Perguntas Frequentes
Technical Specs
- Generation Speed Medium
- Output Quality Excellent
- Voice Cloning Supported
- Languages 1
- GPU VRAM 10GB
- Credits/1000 chars 50