Boîte à dialogue

Premium

Closonnage voix zéro avec discours expressif en 23 langues

Fast Vitesse
Very Good Qualité
Oui Clonage
23 Langues

À propos Boîte à dialogue

Chatterbox est un modèle puissant de clonage de voix TTS de Resemble AI. Il effectue le clonage de voix zéro-shot à partir de quelques secondes de référence audio, soutenant 23 langues avec expression naturelle. Chatterbox comprend des balises paralinguistiques pour ajouter des sons naturels comme le rire et la toux à la parole générée.

Caractéristiques principales

Clonage de voix à chaud zéro

Cloner n'importe quelle voix de quelques secondes de son - aucun entraînement requis.

23 langues

De l'arabe au chinois, couvrant la plupart des langues principales du monde.

Étiquettes expressives

Ajoutez [rires], [toux], [pouce] pour les sons paralinguistiques naturels.

Inférence rapide

Latence sous-200ms avec la variante Turbo pour les applications en temps réel.

Cas d'utilisation

Closonnage vocal pour la création de contenu Applications vocales multilingues Design de la voix de caractère pour les jeux Assistants téléphoniques personnalisés

Comment utiliser Boîte à dialogue

  1. 1

    Inscrivez-vous ou ouvrez la démo

    Créez un compte gratuit TextToSpeechAI pour réclamer 200 crédits de démarrage, ou utilisez la démo sur la page pour essayer Chatterbox sans vous connecter.

  2. 2

    Sélectionnez Chatterbox et ajoutez un clip de référence

    Choisissez le moteur Chatterbox, puis téléchargez un court (quelques secondes) clip audio de la voix que vous voulez cloner. Chatterbox clones zéro-shot il instantanément - aucune formation requise.

  3. 3

    Saisissez votre texte avec des balises optionnelles

    Tapez ou collez le texte pour parler dans l'une des 23 langues prises en charge, et déposez-le dans [rire], [toux] ou [chuckle] tags où vous voulez des sons paralinguistiques naturels.

  4. 4

    Générer le discours

    Cliquez sur générer et TextToSpeechAI rend votre texte dans la voix de Chatterbox clonée sur l'infrastructure GPU hébergée, dépensant 25 crédits par 1000 caractères.

  5. 5

    Télécharger ou utiliser l'API

    Téléchargez le fichier audio fini, ou automatisez la génération à travers l'API REST TextToSpeechAI sur api.texttospeechai.com en utilisant votre jeton de compte.

Boîte à dialogue API

Générer des discours programmatiques en utilisant l'API TextToSpeechAI REST.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Chatterbox peut cloner votre voix à partir de quelques secondes d\u0027audio et parler en 23 langues.",
    "voice": "en_US-lessac-medium"
  }'

Foire aux questions

Chatterbox est un modèle de clonage vocal à zéro de texte à parole de Resemble AI. Il peut reproduire n'importe quelle voix à partir de quelques secondes de référence audio et générer une parole naturelle et expressive en 23 langues, le tout sans aucune formation par voix.

Oui, Chatterbox est entièrement sous licence MIT - à la fois le code et le poids du modèle - afin que vous puissiez l'utiliser librement dans les produits commerciaux.

Vous fournissez un court clip de référence de n'importe quelle voix (quelques secondes suffisent) et Chatterbox extrait le timbre et le style de la voix dans un haut-parleur intégré. Il génère ensuite un tout nouveau discours dans cette voix sans pas de réglage ou d'entraînement précis, ce qui signifie « zéro-shot ».

Chatterbox lit des étiquettes spéciales en ligne dans votre texte pour ajouter des sons non verbaux naturels : [rire] insère des rires, [toux] insère une toux, et [rire] insère un mandrin doux. Il suffit de placer une étiquette où vous voulez le son, par exemple "C'est hilarant [rire] mais sérieusement...".

Tapez la balise directement dans votre texte d'entrée à l'endroit où le son doit se produire, entouré du reste de votre phrase. Chatterbox rend le son paralinguistique dans la voix clonée, le mélangeant dans la parole environnante, donc il semble spontané plutôt que s'y épris.

Chatterbox prend en charge 23 langues, y compris l'arabe, le danois, l'allemand, le grec, l'anglais, l'espagnol, le finnois, le français, l'hébreu, le hindi, l'italien, le japonais, le coréen, le malais, le néerlandais, le norvégien, le polonais, le portugais, le russe, le suédois, le swahili, le turc et le chinois.

Chatterbox génère rapidement la parole sur un GPU, et la variante Turbo atteint la latence sous-200ms pour une utilisation conversationnelle en temps réel. La qualité est très bonne, avec la prosody naturelle et la reproduction vocale fidèle à partir de clips de référence même courts.

Chatterbox a besoin d'environ 4-8 Go de VRAM selon la variante, avec le modèle Turbo fonctionnant confortablement dans environ 4 Go. Sur TextToSpeechAI vous n'avez pas besoin de GPU - génération locale fonctionne sur notre infrastructure hébergée.

Chatterbox est un moteur de premier ordre qui coûte 25 crédits par 1000 caractères. De nouveaux comptes obtiennent 200 crédits gratuits pour essayer le clonage vocal, et vous ne dépensez que des crédits sur le texte que vous générez réellement.

Les deux supportent le clonage vocal à zéro, mais Chatterbox couvre beaucoup plus de langues (23 vs 2) et ajoute des balises paralinguistiques expressives. F5-TTS peut sortir un peu plus naturel prosody anglais, donc choisissez Chatterbox pour le clonage multilingue et les sons expressifs, et F5-TTS pour la fidélité en anglais seulement.

Chatterbox prend en charge 23 langues et des étiquettes expressives en ligne, tandis qu'OpenVoice ajoute des contrôles toniques (friendly, triste, en colère, et plus) que Chatterbox manque. Choisissez Chatterbox pour une large couverture linguistique et OpenVoice lorsque vous avez besoin d'un style toné émotionnel explicite.

Oui. Inscrivez-vous gratuitement à un compte TextToSpeechAI pour recevoir 200 crédits de démarrage, ou utilisez la démo sur la page pour entendre Chatterbox sans vous connecter. Téléchargez un court clip de référence, tapez votre texte et générer une voix clonée en quelques secondes.

Technical Specs

  • Generation Speed Fast
  • Output Quality Very Good
  • Voice Cloning Supported
  • Languages 23
  • GPU VRAM 4-8GB
  • Credits/1000 chars 25

Try Boîte à dialogue Now

Generate your first audio free. No credit card required.

Start Free