Cassetta delle conversazioni

Premium

Clonazione vocale a zero colpi con discorso espressivo in 23 lingue

Fast Velocità
Very Good Qualità
Clonazione
23 Lingue

Informazioni Cassetta delle conversazioni

Chatterbox è un potente modello TTS per la clonazione vocale di Resemble AI. Esegue la clonazione vocale a zero colpi da pochi secondi di audio di riferimento, supportando 23 lingue con espressione naturale. Chatterbox include tag paralinguistici per aggiungere suoni naturali come risate e tosse al discorso generato.

Caratteristiche chiave

Clonazione della voce a zero colpi

Clona qualsiasi voce da pochi secondi di audio - non è richiesto alcun allenamento.

23 Lingue

Dall'arabo al cinese, coprendo la maggior parte delle lingue mondiali.

Etichette espressive

Aggiungi [ride], [tosse], [ridacchia] per suoni naturali paralinguistici.

Inferenza rapida

Latenza sub-200m con la variante Turbo per applicazioni in tempo reale.

Casi di utilizzo

Clonazione vocale per la creazione di contenuti Applicazioni vocali multilingue Carattere voce design per i giochi Assistenti vocali personalizzati

Come usare Cassetta delle conversazioni

  1. 1

    Iscriviti o apri la demo

    Crea un account gratuito di TextToSpeechAI per richiedere 200 crediti di avviamento, o utilizzare la demo in-page per provare Chatterbox senza accedere.

  2. 2

    Seleziona Chatterbox e aggiungi un clip di riferimento

    Scegliere il motore Chatterbox, quindi caricare un breve (pochi secondi) clip audio della voce che si desidera clonare. Chatterbox zero-shot clona istantaneamente - nessun allenamento richiesto.

  3. 3

    Inserisci il tuo testo con tag opzionali

    Digitare o incollare il testo per parlare in una delle 23 lingue supportate, e cadere in [ride], [tosse], o [ridacchia] tag ovunque si desidera naturale suoni paralinguistici.

  4. 4

    Genera il discorso

    Cliccare su genera e TextToSpeechAI rende il testo nella voce clonata Chatterbox sull'infrastruttura GPU ospitata, spendendo 25 crediti per 1.000 caratteri.

  5. 5

    Scarica o utilizza l'API

    Scarica il file audio finito, o automatizzare la generazione attraverso TextToSpeechAI API REST su api.textospeechai.com utilizzando il token del tuo account.

Cassetta delle conversazioni API

Generare la parola programmaticamente usando l'API TextToSpeechAI REST.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Chatterbox può clonare la tua voce da pochi secondi di audio e parlare in 23 lingue.",
    "voice": "en_US-lessac-medium"
  }'

Domande frequenti

Chatterbox è un modello di cloning vocale a zero colpi di Resemble AI. Può replicare qualsiasi voce da pochi secondi di audio di riferimento e generare un discorso naturale ed espressivo in 23 lingue, il tutto senza alcun training per voce.

Sì, Chatterbox è completamente autorizzato MIT - sia il codice che i pesi del modello - in modo da poterlo utilizzare liberamente nei prodotti commerciali. L'audio generato include una filigrana neurale opzionale che può essere disabilitata, e non ci sono royalties di utilizzo.

Si fornisce un breve clip di riferimento di qualsiasi voce (pochi secondi sono sufficienti) e Chatterbox estrae il timbro e lo stile della voce in un diffusore che incorpora. Poi genera un discorso nuovo di zecca in quella voce senza alcun passo di messa a punto o di allenamento, che è ciò che "zero-shot" significa.

Chatterbox legge speciali tag in linea nel testo per aggiungere suoni naturali non verbali: [ride] inserisce risate, [tosse] inserisce una tosse, e [ridacchia] inserisce una risatina morbida. Basta inserire un tag dove si desidera il suono, per esempio "Questo è divertente [ride] ma seriamente...."

Digitare il tag direttamente all'interno del testo di input nel punto in cui dovrebbe verificarsi il suono, circondato dal resto della frase. Chatterbox rende il suono paralinguistico nella voce clonata, mescolandolo nel linguaggio circostante in modo che suoni spontaneo piuttosto che duplicato.

Chatterbox supporta 23 lingue, tra cui arabo, danese, tedesco, greco, inglese, spagnolo, finlandese, francese, ebraico, hindi, italiano, giapponese, coreano, malese, olandese, norvegese, polacco, portoghese, russo, svedese, swahili, turco e cinese. Una voce clonata può parlare in tutte queste lingue.

Chatterbox genera velocemente il discorso su una GPU, e la variante Turbo raggiunge la latenza sub-200m per un utilizzo in tempo reale. La qualità è molto buona, con prosodia naturale e riproduzione vocale fedele da clip di riferimento anche brevi.

Chatterbox ha bisogno di circa 4-8GB di VRAM a seconda della variante, con il modello Turbo che funziona comodamente in circa 4GB. Su TextToSpeechAI non avete bisogno di GPU locale - la generazione funziona sulla nostra infrastruttura ospitata.

Chatterbox è un motore di livello premium che costa 25 crediti per 1.000 caratteri. Nuovi account ricevono 200 crediti gratuiti per provare la clonazione vocale, e si spende solo crediti sul testo che si genera effettivamente.

Entrambi supportano la clonazione vocale a zero colpi, ma Chatterbox copre molto più lingue (23 vs 2) e aggiunge tag espressivi paralinguistici. F5-TTS può estromettere la prosodia inglese leggermente più naturale, quindi scegli Chatterbox per la clonazione multilingue e suoni espressivi, e F5-TTS per la fedeltà solo inglese.

Entrambi offrono clonatura vocale di alta qualità. Chatterbox supporta 23 lingue e tag espressivi in linea, mentre OpenVoice aggiunge controlli in stile tono (amichevoli, tristi, arrabbiati e altro ancora) che Chatterbox manca. Scegli Chatterbox per una vasta copertura linguistica e OpenVoice quando hai bisogno di esplicito stile tono emotivo.

Yes. Sign up for a free TextToSpeechAI account to receive 200 starter credits, or use the on-page demo to hear Chatterbox without signing in. Upload a short reference clip, type your text, and generate a cloned voice in seconds.

Technical Specs

  • Generation Speed Fast
  • Output Quality Very Good
  • Voice Cloning Supported
  • Languages 23
  • GPU VRAM 4-8GB
  • Credits/1000 chars 25

Try Cassetta delle conversazioni Now

Generate your first audio free. No credit card required.

Start Free