Dia

Ultra

TTS orientato al dialogo con clonazione vocale e suoni non verbali

Medium Velocità

Excellent Qualità

Sì Clonazione

1 Lingue

Informazioni Dia

Dia by Nari Labs è un modello di dialogo testuale con parametri 1.6B. Eccelle nel generare un discorso di conversazione naturale con il supporto di suoni non verbali come risate, sospiri e tosse. Dia supporta la generazione di dialogo multi-altoparlanti e la clonazione vocale da 5-10 secondi di audio di riferimento, rendendolo ideale per creare conversazioni realistiche e voci di carattere.

Caratteristiche chiave

Generazione del dialogo

Generare conversazioni multi-altoparlanti naturali con voci distinte e turn-taking.

Suoni non verbali

Aggiungi [ride], [sospira], [tosse], (sbrina) per l'espressione paralinguistica naturale.

Clonazione vocale

Clona qualsiasi voce da 5-10 secondi di audio di riferimento per il discorso personalizzato.

Conversazione naturale

1.6B parametri producono prosodia e intonazione conversazioni altamente naturale.

Casi di utilizzo

Dialogo e generazione di conversazioni Produzione audiobook con caratteri multipli Voci dei personaggi del gioco Creazione di podcast e contenuti

Come usare Dia

1

Iscriviti gratis o apri la demo

Crea un account gratuito di TextToSpeechAI per richiedere i tuoi crediti di avviamento, o apri la demo senza registrazione per provare Dia dialogue subito.
2

Selezionare il motore Dia

Nel cruscotto TTS scegliere Dia dalla lista dei motori. Dia è il modello dialogato, ultra-tier con supporto multi-altoparlante e cloning vocale.
3

Scrivi uno script di dialogo con tag

Componi la conversazione usando [S1] e [S2] per contrassegnare ogni turno di altoparlante, e cala in tag non verbali come [ride], [sospira], [tosse], o (gaspe) dove si desidera reazioni naturali.
4

Genera l'audio

Cliccare su Genera per inviare lo script Dia alle nostre GPU ospitate. Dia rende il dialogo a due altoparlanti con tag turn-tag e non verbali in un singolo file audio.
5

Scarica o chiama l'API

Scarica il dialogo finito nel formato scelto, o automatizzalo pubblicando lo stesso script [S1]/[S2] all'API TextToSpeechAI con il token del tuo account.

Dia API

Generare la parola programmaticamente usando l'API TextToSpeechAI REST.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "[S1] Ciao! Come stai oggi? [ride] [S2] Sto andando alla grande, grazie per avermelo chiesto!",
    "voice": "en_US-lessac-medium"
  }'

Leggi i documenti API Ottieni la tua chiave API

Domande frequenti

Dia è un modello di Nari Labs orientato al dialogo con parametri 1.6B. Si specializza nella generazione di discorsi conversazionali naturali con supporto per più altoparlanti, suoni non verbali e clonazione vocale.

Sì, Dia è completamente autorizzato da Apache 2.0 - sia i pesi di codice che quelli di modello. Può essere utilizzato liberamente nelle applicazioni commerciali.

Attualmente Dia supporta solo l'inglese. Il modello è ottimizzato per la conversazione inglese naturale.

Dia richiede circa 10GB di VRAM per il suo modello di parametro 1.6B. Per un funzionamento confortevole è consigliata una GPU con almeno 12GB. Su TextToSpeechAI tutto questo funziona sulle nostre GPU ospitate, quindi non hai bisogno di hardware tuo.

Sì - il dialogo è esattamente ciò che Dia è costruito per. Alternando [S1] e [S2] gira nel vostro script, Dia TTS produce una conversazione a due altoparlanti fluente con voci distinte e un'assunzione realistica di giri, che è più difficile da ottenere con i modelli TTS monoaltoparlanti.

Prefissa ogni riga del tuo script con [S1] o [S2] per indicare chi sta parlando. Dia assegna una voce coerente a ogni tag e passa tra di loro mentre la conversazione si muove, così [S1] e [S2] agiscono come i due caratteri nel dialogo.

Sì. Dia supporta la clonazione vocale da circa 5-10 secondi di audio di riferimento pulito, permettendo di riutilizzare una voce specifica per un altoparlante. È possibile combinare la clonazione con i tag [S1]/[S2] in modo che ogni personaggio in un dialogo suoni come la voce clonata.

Dia rende [ride], [sospira], [tosse], e (sbrina) come suoni naturali paralinguistici intrecciati nel discorso piuttosto che nelle parole pronunciate. Posiziona un tag dove vuoi che la reazione - per esempio "[S1] Questo è divertente [ride]" - faccia sentire il dialogo più umano.

Sia Dia che Bark supportano suoni espressivi non verbali, ma Dia è appositamente costruito per il dialogo multi-altoparlanti con [S1]/[S2] turn-taking e cloning vocale. Scegli Dia per conversazioni realistiche in due persone e lavoro di carattere; Bark è una soluzione migliore quando hai bisogno di una copertura linguistica più ampia nella narrazione vocale.

Dia è un motore ultra-tier, quindi costa 50 crediti per 1.000 caratteri di parola generata. L'ultra tier riflette il modello 1.6B più grande e la memoria GPU ~10GB che utilizza per un dialogo di alta qualità.

Sì. I nuovi TextToSpeechAI account includono crediti di avviamento gratuiti, e c'è una demo che puoi eseguire senza firmare. Basta generare un breve dialogo Dia con [S1]/[S2] tag prima di decidere un piano a pagamento.

Sì. Una volta che hai un token API dalla pagina del tuo account puoi inviare script di dialogo Dia - inclusi [S1]/[S2] giri e tag come [ride] - all'API TextToSpeechAI REST e scaricare l'audio risultante programmaticamente.

Technical Specs

Generation Speed Medium
Output Quality Excellent
Voice Cloning Supported
Languages 1
GPU VRAM 10GB
Credits/1000 chars 50

Try Dia Now

Generate your first audio free. No credit card required.

Start Free

Other TTS Engines

Dia

Informazioni Dia

Caratteristiche chiave

Generazione del dialogo

Suoni non verbali

Clonazione vocale

Conversazione naturale

Casi di utilizzo

Come usare Dia

Iscriviti gratis o apri la demo

Selezionare il motore Dia

Scrivi uno script di dialogo con tag

Genera l'audio

Scarica o chiama l'API

Dia API

Domande frequenti

Che cos'è Dia TTS?

Dia è libero di usare commercialmente?

Quali lingue supporta Dia?

Di che memoria GPU ha bisogno Dia?

Dia può generare dialogo tra più caratteri?

Come funzionano i tag degli altoparlanti Dia [S1] e [S2]?

La voce del clone di Dia?

Come suonano le etichette non verbali come [ride] e [sospira] a Dia?

Dia vs Bark: quale devo usare?

Quanti crediti Dia costa TextToSpeechAI?

Posso provare Dia TTS gratuitamente?

Posso usare Dia attraverso le TextToSpeechAI API?

Technical Specs

Try Dia Now

Other TTS Engines

Corteccia

Cassetta delle conversazioni

CosyVoice2