Dia

Ultra

TTS orientado para diálogo com clonagem de voz e sons não verbais

Medium Velocidade
Excellent Qualidade
Sim Enchimento
1 Línguas

Sobre Dia

Dia by Nari Labs é um modelo de diálogo de parâmetro de 1.6B focado em texto a voz. Excele na geração de falas conversacionais naturais com apoio para sons não verbais como risada, suspiros e tosse. Dia suporta a geração de diálogo multi-falantes e clonagem de voz de 5-10 segundos de áudio de referência, tornando-o ideal para criar conversas realistas e vozes de personagem.

Características-chave

Geração de Diálogo

Gere conversas multi-falantes naturais com vozes distintas e com tomada de turnos.

Sons não verbais

Adicionar [risos], [Suspira], [tumas], (gasps) para expressão natural paralinguística.

Clonagem Voz

Clone qualquer voz de 5-10 segundos de áudio de referência para fala personalizada.

Conversa natural

Os parâmetros 1.6B produzem prósodia e entonação conversacional altamente naturais.

Casos de utilização

Geração de diálogo e conversa Produção de audiolivro com múltiplos caracteres Vozes de personagens de jogo Criação de Podcast e conteúdo

Como Utilizar Dia

  1. 1

    Inscreva-se livre ou abra a demo

    Crie uma conta TextToSpeechAI gratuita para reclamar seus créditos de início, ou abra a demo sem sinal para tentar o diálogo Dia imediatamente.

  2. 2

    Selecione o motor Dia

    No painel de TTS escolher Dia da lista de motores. Dia é o modelo de diálogo, ultra-título, com suporte multi-falante e cloning de voz.

  3. 3

    Escreva um script de diálogo com tags

    Compor a conversa usando [S1] e [S2] para marcar cada falante virar, e cair em tags não verbais como [risos], [suspira], [tumos], ou (gasps) onde você quer reações naturais.

  4. 4

    Gerar o áudio

    Clique em gerar para enviar o seu script Dia para as nossas GPUs hospedadas. Dia rende o diálogo de dois falantes com a tomada de turnos e suas etiquetas não verbais num único arquivo de áudio.

  5. 5

    Baixe ou ligue para a API

    Baixe o diálogo terminado no seu formato escolhido, ou automatize-o publicando o mesmo script [S1]/[S2] para a API TextToSpeechAI com o token da sua conta.

Dia API

Gerar a fala programática usando a API TextToSpeechAI REST.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Olá! Como está hoje? [risos] Estou a fazer ótimo, obrigado por perguntar!",
    "voice": "en_US-lessac-medium"
  }'

Perguntas Frequentes

Dia é um modelo de diálogo de parâmetro 1.6B orientado ao texto à voz da Nari Labs. Especializado na geração de falas de conversa natural com suporte para múltiplos alto-falantes, sons não verbais e clonagem de voz.

Sim, o Dia é totalmente licenciado Apache 2.0 - tanto o código como os pesos do modelo. Pode ser utilizado livremente em aplicações comerciais.

Atualmente, o Dia suporta apenas o Inglês. O modelo é otimizado para o discurso natural do Inglês.

Dia requer aproximadamente 10GB de VRAM para o seu modelo de parâmetro 1.6B. Uma GPU com pelo menos 12GB é recomendada para operação confortável. Em TextToSpeechAI tudo isso funciona em nossas GPU hospedadas, por isso você não precisa de hardware próprio.

Sim - diálogo é exatamente para que Dia é construído. Por alternar [S1] e [S2] gira no seu script, Dia TTS produz uma conversa fluente de dois falantes com vozes distintas e uma tomada realista de turnos, o que é mais difícil de alcançar com modelos de um único falante TTS.

Prefixar cada linha do seu script com [S1] ou [S2] para marcar quem está falando. Dia atribui uma voz consistente a cada marca e interruptores entre eles como a conversação se move, assim [S1] e [S2] atuam como os dois caracteres do seu diálogo.

Sim. Dia suporta clonagem de voz de aproximadamente 5-10 segundos de áudio de referência limpa, permitindo que você reutilizar uma voz específica para um alto-falante. Você pode combinar clonagem com as etiquetas [S1]/[S2] de modo que cada personagem em um diálogo soa como a voz que você clonou.

Dia rende [risos], [suspira], [tumas], e (gasps) como sons paralinguísticos naturais tecidos no discurso em vez de palavras faladas. Coloque uma tag onde você quer a reação - por exemplo "[S1] Isso é hilaroso [risos]" - para fazer o diálogo se sentir mais humano.

Tanto Dia como Bark suportam sons expressivos não verbais, mas Dia é construído com propósito para o diálogo multi-falante com [S1]/[S2] a toque de turnos e clonagem de voz. Escolha Dia para conversas realistas de duas pessoas e trabalho de personagem; Bark é um ajuste melhor quando você precisa de uma cobertura de linguagem mais ampla em narração de voz única.

Dia é um motor ultra-tíner, então custa 50 créditos por 1.000 caracteres de fala gerada. A ultra nível reflete o modelo 1.6B maior e a ~10GB de memória GPU que usa para diálogo de alta qualidade.

Sim. Novas contas TextToSpeechAI incluem créditos de início livre, e há uma demo que você pode executar sem se inscrever. Isso é suficiente para gerar um breve diálogo Dia com [S1]/[S2] tags antes de decidir sobre um plano pago.

Sim. Uma vez que você tem um token API da sua página de conta, você pode enviar scripts de diálogo Dia - incluindo [S1]/[S2] viradas e tags como [risos] - para a API TextToSpeechAI REST e baixar o áudio resultante programáticamente.

Technical Specs

  • Generation Speed Medium
  • Output Quality Excellent
  • Voice Cloning Supported
  • Languages 1
  • GPU VRAM 10GB
  • Credits/1000 chars 50

Try Dia Now

Generate your first audio free. No credit card required.

Start Free