VITES

Standard

TTS de bout en bout avec un discours naturel

Essayez gratuitement VITES Parcourir les voix (109)

Very Fast Vitesse

Good Qualité

Numéro Clonage

10 Langues

À propos VITES

VITS (Variational Inférence with adversarial learning for bout-to-end Text-to-Speech) est un modèle TTS neuronal rapide et de bout en bout qui génère des paroles sonores naturelles. Il combine des auto-encodeurs variationnels avec une formation adversaire pour une synthèse efficace. VITS est excellent pour le traitement par lots et les applications nécessitant à la fois qualité et vitesse.

Caractéristiques principales

Synthèse rapide

Architecture de bout en bout pour une génération rapide de la parole.

Traitement par lots

Traiter efficacement plusieurs textes simultanément.

Discours naturel

La formation VAE+GAN produit la prosodie et le rythme naturels.

Haut-parleur multi-parleurs

Un modèle unique prend en charge plusieurs voix de haut-parleurs.

Efficacité

Faible empreinte mémoire avec de bonnes performances.

Source ouverte

MIT autorisé pour tout cas d'utilisation.

Cas d'utilisation

Génération audio par lots Plateformes d'apprentissage en ligne Lecteurs de nouvelles Annonces automatisées Systèmes IVR Teneur élevée en volume

VITES Voices

View All 109

LJSpeech (English Female)

VCTK Speaker 225 (English Female)

VCTK Speaker 226 (English Male)

VCTK Speaker 227 (English Male)

VCTK Speaker 228 (English Female)

VCTK Speaker 229

VCTK Speaker 230

VCTK Speaker 231

VCTK Speaker 232

VCTK Speaker 233

VCTK Speaker 234

VCTK Speaker 236

Comment utiliser VITES

1

Inscrivez-vous gratuitement ou essayez la démo

Créez un compte gratuit TextToSpeechAI pour obtenir des crédits de démarrage, ou utilisez la démo sur la page pour entendre VITS avant de vous inscrire.
2

Choisissez une voix ou un haut-parleur VITS

Parcourez la bibliothèque vocale et choisissez une voix marquée avec le badge VITS. La bibliothèque VITS multi-parleurs, y compris le jeu de haut-parleurs VCTK, vous permet de sélectionner parmi de nombreuses voix distinctes.
3

Saisissez votre texte

Tapez ou collez le texte que vous voulez parler dans l'éditeur. VITS gère bien les longs passages et est idéal pour le contenu en lots et en volume élevé.
4

Générer l'audio

Cliquez sur générer pour synthétiser la parole avec VITS. Parce que VITS est très rapide et standard (10 crédits par 1000 caractères), les résultats reviennent rapidement à faible coût.
5

Télécharger ou utiliser l'API

Téléchargez l'audio fini en MP3, WAV ou OGG, ou appelez la même voix VITS via l'API REST TextToSpeechAI pour automatiser la génération dans votre propre application.

VITES API

Générer des discours programmatiques en utilisant l'API TextToSpeechAI REST.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "VITS offre une parole rapide et naturelle pour des applications à grand volume.",
    "voice": "vits-ljspeech"
  }'

Lire les documents API Obtenez votre clé API

Foire aux questions

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is an end-to-end neural TTS model that combines a variational autoencoder with adversarial GAN training. It generates natural-sounding speech in a single pass, which makes it fast and efficient. You can try VITS free on TextToSpeechAI.

Oui, VITS est open-source sous licence MIT, donc il supporte l'utilisation commerciale complète sans restrictions. Il est largement utilisé dans les produits et services commerciaux. Sur TextToSpeechAI, VITS coûte 10 crédits par 1000 caractères sur le niveau Standard.

TextToSpeechAI offre une grande bibliothèque VITS multi-parleurs, y compris la voix VCTK avec des dizaines de haut-parleurs anglais distincts. Un modèle VITS unique peut accueillir de nombreux haut-parleurs, vous pouvez donc choisir parmi de nombreuses voix différentes sans changer de moteur.

Les modèles VITS communs couvrent l'anglais, le chinois, le japonais, le coréen, l'allemand, le français et d'autres langues principales, avec une couverture en anglais multi-parleurs de l'ensemble de données VCTK.

VITS est très rapide, générant la parole en temps réel ou plus rapidement sur un GPU. Son architecture de bout en bout évite les multiples étapes de traitement d'autres modèles, ce qui explique pourquoi VITS est bien adapté pour la synthèse par lots et en grand volume.

Non, VITS ne supporte pas le clonage vocal. Il utilise des modèles de multi-parleurs pré-formés plutôt que de copier une voix cible à partir d'un échantillon. Pour le clonage vocal sur TextToSpeechAI, utilisez plutôt F5-TTS ou GPT-SOVITS.

VITS produit un son de bonne qualité avec une prosody et un rythme naturels. Bien qu'il ne soit pas au niveau de StyleTTS 2 ou de Tortoise, il offre une excellente qualité pour sa vitesse, notamment pour le traitement par lots.

VITS est efficace en mémoire, n'ayant généralement besoin que de quelques Go de VRAM (environ 4 Go). Il fonctionne confortablement sur les GPUs de consommation, et sur TextToSpeechAI tous les rendus se produisent sur nos serveurs afin que vous n'ayez pas besoin de votre propre matériel.

VITS et Piper sont deux moteurs de type standard à licence MIT rapides sur TextToSpeechAI. Piper est l'option la plus légère et la plus rapide, tandis que VITS offre une grande bibliothèque multi- haut-parleurs (y compris VCTK) avec une prosodie légèrement plus naturelle. Ni supporte le clonage vocal.

VITS est un moteur de type standard, coûtant 10 crédits par 1000 caractères. C'est notre niveau de prix le plus bas grâce à la nature efficace et rapide du modèle VITS.

VITS génère de l'audio à 22050Hz nativement. Au cours de TextToSpeechAI, vous pouvez demander des formats MP3, WAV ou OGG, avec conversion automatique gérée pour vous.

Inscrivez-vous à TextToSpeechAI pour recevoir des crédits de démarrage gratuits, puis choisissez une voix VITS, entrez votre texte et générer de l'audio. Vous pouvez également utiliser la démo pour entendre VITS avant de créer un compte, et accéder à VITS via notre API REST une fois que vous vous inscrivez.

Technical Specs

Generation Speed Very Fast
Output Quality Good
Voice Cloning Not Supported
Languages 10
GPU VRAM 1-2GB
Credits/1000 chars 10

Try VITES Now

Generate your first audio free. No credit card required.

Start Free

Other TTS Engines

VITES

À propos VITES

Caractéristiques principales

Synthèse rapide

Traitement par lots

Discours naturel

Haut-parleur multi-parleurs

Efficacité

Source ouverte

Cas d'utilisation

VITES Voices

LJSpeech (English Female)

VCTK Speaker 225 (English Female)

VCTK Speaker 226 (English Male)

VCTK Speaker 227 (English Male)

VCTK Speaker 228 (English Female)

VCTK Speaker 229

VCTK Speaker 230

VCTK Speaker 231

VCTK Speaker 232

VCTK Speaker 233

VCTK Speaker 234

VCTK Speaker 236

Comment utiliser VITES

Inscrivez-vous gratuitement ou essayez la démo

Choisissez une voix ou un haut-parleur VITS

Saisissez votre texte

Générer l'audio

Télécharger ou utiliser l'API

VITES API

Foire aux questions

Qu'est-ce que VITS TTS?

VITS est-il gratuit pour un usage commercial?

Combien de voix VITS y a-t-il?

Quelles langues le VITS prend-il en charge?

À quelle vitesse est VITS?

VITS soutient-il le clonage vocal?

Quelle est la qualité audio de VITS?

Combien de mémoire GPU est-ce que VITS a besoin?

VITS vs Piper: que dois-je utiliser?

Combien de crédits VITS coûte-t-il sur TextToSpeechAI?

Quels formats audio sortent VITS?

Comment puis-je essayer VITS gratuitement?

Technical Specs

Try VITES Now

Other TTS Engines

Barre

Boîte à dialogue

CosyVoice2