Tortue TTS

Ultra

Expression ultra-haute qualité avec une naturelité inégalée

Very Slow Vitesse
Exceptional Qualité
Oui Clonage
1 Langues

À propos Tortue TTS

Tortoise TTS est un modèle autorégressif texte-à-discours qui privilégie la qualité audio avant tout. Grâce à une combinaison de transformateurs autorégressifs et de modèles de diffusion, Tortoise génère une parole extrêmement naturelle qui capture des nuances subtiles de la voix humaine.

Caractéristiques principales

Ultra-haute qualité

La sortie TTS la plus naturelle disponible.

Clonage de la voix

Voix clonées avec une fidélité et une nuance exceptionnelles.

Prosodie naturelle

Capture les motifs de langage subtils et les micro-expressions.

Préréglages de qualité

Choisissez entre un traitement ultra_rapide et un traitement de haute qualité.

Profondeur émotionnelle

Génére le discours avec une résonance émotionnelle authentique.

Source ouverte

Apache 2.0 sous licence avec droits d'utilisation commerciale.

Cas d'utilisation

Livres audio de qualité supérieure Production cinématographique Narration documentaire Voix sur les professionnels Projets d'archives Contenu haut de gamme

Tortue TTS Voices

View All 18
Tortoise Angie
EN
Tortoise Deniro
EN
Tortoise Freeman
EN
Tortoise Geralt
EN
Tortoise Halle
EN
Tortoise Jlaw
EN
Tortoise Lj
EN
Tortoise Mol
EN
Tortoise Myself
EN
Tortoise Pat
EN
Tortoise Pat2
EN
Tortoise Snakes
EN

Comment utiliser Tortue TTS

  1. 1

    Inscrivez-vous ou essayez la démo gratuite

    Créez un compte gratuit TextToSpeechAI pour obtenir des crédits de démarrage, ou utilisez la démo de la page d'accueil pour essayer Tortoise sans vous connecter. Tortoise est un moteur ultra-tier (50 crédits par 1000 caractères), de sorte que les crédits gratuits sont parfaits pour un premier court test.

  2. 2

    Choisissez Tortoise et ajouter une voix au clone

    Pour cloner une personne spécifique, téléchargez un clip de référence (idéalement quelques échantillons propres de 5 à 10 secondes) et Tortoise reproduirea cette voix avec une grande fidélité. Sinon, choisissez l'une des voix Tortoise intégrées.

  3. 3

    Saisissez votre texte

    Tapez ou collez le texte que vous voulez narré. Parce que la tortue est lente, commencez par un court passage pour confirmer la voix et le ton avant d'envoyer un chapitre complet de livre audio ou un long script.

  4. 4

    Choisissez un préréglage de qualité et générer

    Choisissez un préréglage de qualité Tortoise : ultra_rapide pour des tests rapides, rapide pour un bon équilibre vitesse/qualité (par défaut recommandé), standard ou haute_qualité pour un réalisme maximum. Puis cliquez sur générer et être patient - Tortoise peut prendre de 30 secondes à plusieurs minutes par clip, en particulier dans les préréglages plus élevés.

  5. 5

    Télécharger ou utiliser l'API

    Lorsque la génération se termine, téléchargez votre audio en MP3, WAV ou OGG, ou récupérez-le de votre historique. Pour automatiser les tâches de Tortoise, appelez l'API TextToSpeechAI et passez votre préréglage de qualité choisi - rappelez-vous d'autoriser des temps plus longs puisque Tortoise rend lentement.

Tortue TTS API

Générer des discours programmatiques en utilisant l'API TextToSpeechAI REST.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "La tortue prend son temps, mais les résultats valent la peine d\u0027être attendus.",
    "voice": "tortoise-angie"
  }'

Foire aux questions

Tortoise TTS est un modèle autorégressif de texte à parole créé par James Betker qui privilégie la qualité audio avant tout. Il combine la modélisation de langage basée sur un transformateur et le décodage de diffusion pour générer la parole avec une naturelité inégalée, profondeur émotionnelle et prosody humaine. Il est largement considéré comme l'un des moteurs TTS open source les plus réalistes disponibles.

Oui. Tortoise TTS est open-source sous la licence permissive Apache 2.0, qui permet une utilisation commerciale, des modifications et une redistribution. Sur TextToSpeechAI, Tortoise est situé dans le niveau Ultra à 50 crédits par 1000 caractères en raison de ses exigences de calcul lourdes et de la qualité de sortie exceptionnelle.

La tortoise est lente par son design : elle génère plusieurs clips candidats autorégressivement et raffine ensuite le meilleur avec un modèle de diffusion et un nouveau classement CLVP. Ce premier pipeline de qualité signifie qu'un seul clip peut prendre de 30 secondes à plusieurs minutes selon la longueur du texte et la qualité préréglée.

Tortoise offers four presets that trade speed for quality: ultra_fast (~10x faster, good for testing), fast (~4x faster, the production default), standard (balanced), and high_quality (maximum quality, slowest). Higher presets sample more candidates and run more diffusion steps before selecting the best result. On TextToSpeechAI you can pick a preset before generating.

Oui, Tortoise TTS soutient le clonage vocal avec une fidélité exceptionnelle. Fournissez quelques courts clips de référence de la voix cible (idéalement 3-10 échantillons de 5-10 secondes chacun), et Tortoise capture le timbre, l'accent, le pacing et les micro-expressions subtiles de l'orateur. C'est l'un des moteurs de clonage zéro-coup le plus précis, bien que le clonage ajoute au temps de génération déjà longue.

Pour les projets multilingues qui nécessitent un réalisme similaire, il faut considérer F5-TTS ou CosyVoice2 sur TextToSpeechAI, qui soutiennent plus de langues tout en offrant toujours le clonage vocal.

Tortuise produit un son exceptionnel, souvent indistinct, issu de l'homme. Il capte la respiration, l'hésitation, l'intonation et la résonance émotionnelle véritable que les modèles plus légers manquent. C'est pourquoi il reste un favori pour les livres audio premium, la narration de films et le travail de voix off haut de gamme où le réalisme est primordial.

La tortoise nécessite généralement 12-24 Go de VRAM en fonction de la qualité préréglée et de la taille du lot, de sorte que les GPU haut de gamme comme le RTX 3090, 4090 ou A100 sont recommandés pour une utilisation locale. L'inférence CPU est techniquement possible mais extrêmement lente. Sur TextToSpeechAI le modèle fonctionne sur notre infrastructure GPU, de sorte que vous n'avez pas besoin de votre propre matériel.

Tortoise rend nativement audio WAV 24kHz de haute qualité. Au cours de TextToSpeechAI, vous pouvez demander MP3, WAV ou OGG, et nous transcode avec l'encodage de préservation de la qualité afin que vous conserviez les détails du modèle dans n'importe quel format dont votre projet a besoin.

Tortoise est dans le niveau de prix Ultra à 50 crédits par 1000 caractères, reflétant le temps GPU son pipeline de qualité-première consommation. Nouveaux comptes obtenir des crédits de démarrage gratuits, de sorte que vous pouvez tester Tortoise avant de s'engager. Le niveau Ultra couvre également StyleTTS2, OpenVoice, Dia, et Zonos.

Les deux sont des moteurs ultra-tier, mais ils échangent différemment. Tortoise TTS atteint le pic absolu de la naturalité et de la profondeur émotionnelle, mais est de loin le moteur le plus lent. StyleTTS2 offre une qualité proche de Tortoise avec une génération beaucoup plus rapide, ce qui en fait le meilleur choix lorsque vous avez besoin de nombreux clips ou un retournement plus rapide.

Oui. Inscrivez-vous à TextToSpeechAI pour recevoir des crédits de démarrage gratuits, ou utilisez la démo sur la page d'accueil, et sélectionnez une voix Tortoise pour générer un clip sans rien installer. Parce que Tortoise est lent, commencez par une phrase courte et le préréglage "rapide" pour voir la qualité avant de courir des travaux plus longs.

Technical Specs

  • Generation Speed Very Slow
  • Output Quality Exceptional
  • Voice Cloning Supported
  • Languages 1
  • GPU VRAM 12-24GB
  • Credits/1000 chars 50

Try Tortue TTS Now

Generate your first audio free. No credit card required.

Start Free