Dia

Ultra

TTS orientato al dialogo con clonazione vocale e suoni non verbali

Medium Velocità
Excellent Qualità
Clonazione
1 Lingue

Informazioni Dia

Dia by Nari Labs è un modello di dialogo testuale con parametri 1.6B. Eccelle nel generare un discorso di conversazione naturale con il supporto di suoni non verbali come risate, sospiri e tosse. Dia supporta la generazione di dialogo multi-altoparlanti e la clonazione vocale da 5-10 secondi di audio di riferimento, rendendolo ideale per creare conversazioni realistiche e voci di carattere.

Caratteristiche chiave

Generazione del dialogo

Generare conversazioni multi-altoparlanti naturali con voci distinte e turn-taking.

Suoni non verbali

Aggiungi [ride], [sospira], [tosse], (sbrina) per l'espressione paralinguistica naturale.

Clonazione vocale

Clona qualsiasi voce da 5-10 secondi di audio di riferimento per il discorso personalizzato.

Conversazione naturale

1.6B parametri producono prosodia e intonazione conversazioni altamente naturale.

Casi di utilizzo

Dialogo e generazione di conversazioni Produzione audiobook con caratteri multipli Voci dei personaggi del gioco Creazione di podcast e contenuti

Come usare Dia

  1. 1

    Iscriviti gratis o apri la demo

    Crea un account gratuito di TextToSpeechAI per richiedere i tuoi crediti di avviamento, o apri la demo senza registrazione per provare Dia dialogue subito.

  2. 2

    Selezionare il motore Dia

    Nel cruscotto TTS scegliere Dia dalla lista dei motori. Dia è il modello dialogato, ultra-tier con supporto multi-altoparlante e cloning vocale.

  3. 3

    Scrivi uno script di dialogo con tag

    Componi la conversazione usando [S1] e [S2] per contrassegnare ogni turno di altoparlante, e cala in tag non verbali come [ride], [sospira], [tosse], o (gaspe) dove si desidera reazioni naturali.

  4. 4

    Genera l'audio

    Cliccare su Genera per inviare lo script Dia alle nostre GPU ospitate. Dia rende il dialogo a due altoparlanti con tag turn-tag e non verbali in un singolo file audio.

  5. 5

    Scarica o chiama l'API

    Scarica il dialogo finito nel formato scelto, o automatizzalo pubblicando lo stesso script [S1]/[S2] all'API TextToSpeechAI con il token del tuo account.

Dia API

Generare la parola programmaticamente usando l'API TextToSpeechAI REST.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "[S1] Ciao! Come stai oggi? [ride] [S2] Sto andando alla grande, grazie per avermelo chiesto!",
    "voice": "en_US-lessac-medium"
  }'

Domande frequenti

Dia è un modello di Nari Labs orientato al dialogo con parametri 1.6B. Si specializza nella generazione di discorsi conversazionali naturali con supporto per più altoparlanti, suoni non verbali e clonazione vocale.

Sì, Dia è completamente autorizzato da Apache 2.0 - sia i pesi di codice che quelli di modello. Può essere utilizzato liberamente nelle applicazioni commerciali.

Attualmente Dia supporta solo l'inglese. Il modello è ottimizzato per la conversazione inglese naturale.

Dia richiede circa 10GB di VRAM per il suo modello di parametro 1.6B. Per un funzionamento confortevole è consigliata una GPU con almeno 12GB. Su TextToSpeechAI tutto questo funziona sulle nostre GPU ospitate, quindi non hai bisogno di hardware tuo.

Sì - il dialogo è esattamente ciò che Dia è costruito per. Alternando [S1] e [S2] gira nel vostro script, Dia TTS produce una conversazione a due altoparlanti fluente con voci distinte e un'assunzione realistica di giri, che è più difficile da ottenere con i modelli TTS monoaltoparlanti.

Prefissa ogni riga del tuo script con [S1] o [S2] per indicare chi sta parlando. Dia assegna una voce coerente a ogni tag e passa tra di loro mentre la conversazione si muove, così [S1] e [S2] agiscono come i due caratteri nel dialogo.

Sì. Dia supporta la clonazione vocale da circa 5-10 secondi di audio di riferimento pulito, permettendo di riutilizzare una voce specifica per un altoparlante. È possibile combinare la clonazione con i tag [S1]/[S2] in modo che ogni personaggio in un dialogo suoni come la voce clonata.

Dia rende [ride], [sospira], [tosse], e (sbrina) come suoni naturali paralinguistici intrecciati nel discorso piuttosto che nelle parole pronunciate. Posiziona un tag dove vuoi che la reazione - per esempio "[S1] Questo è divertente [ride]" - faccia sentire il dialogo più umano.

Sia Dia che Bark supportano suoni espressivi non verbali, ma Dia è appositamente costruito per il dialogo multi-altoparlanti con [S1]/[S2] turn-taking e cloning vocale. Scegli Dia per conversazioni realistiche in due persone e lavoro di carattere; Bark è una soluzione migliore quando hai bisogno di una copertura linguistica più ampia nella narrazione vocale.

Dia è un motore ultra-tier, quindi costa 50 crediti per 1.000 caratteri di parola generata. L'ultra tier riflette il modello 1.6B più grande e la memoria GPU ~10GB che utilizza per un dialogo di alta qualità.

Sì. I nuovi TextToSpeechAI account includono crediti di avviamento gratuiti, e c'è una demo che puoi eseguire senza firmare. Basta generare un breve dialogo Dia con [S1]/[S2] tag prima di decidere un piano a pagamento.

Sì. Una volta che hai un token API dalla pagina del tuo account puoi inviare script di dialogo Dia - inclusi [S1]/[S2] giri e tag come [ride] - all'API TextToSpeechAI REST e scaricare l'audio risultante programmaticamente.

Technical Specs

  • Generation Speed Medium
  • Output Quality Excellent
  • Voice Cloning Supported
  • Languages 1
  • GPU VRAM 10GB
  • Credits/1000 chars 50

Try Dia Now

Generate your first audio free. No credit card required.

Start Free