Tortoise TTS

Ultra

Discorso di alta qualità con naturalezza senza pari

Very Slow Velocità
Exceptional Qualità
Clonazione
1 Lingue

Informazioni Tortoise TTS

Tortoise TTS è un modello autoregressivo test-to-speech che dà priorità alla qualità audio soprattutto. Utilizzando una combinazione di trasformatori autoregressivi e modelli di diffusione, Tortoise genera un linguaggio estremamente naturale che cattura sottili sfumature di voce umana. Mentre più lento rispetto ad altri modelli, Tortoise produce l'uscita TTS più naturale-suono disponibile.

Caratteristiche chiave

Alta qualità

L'uscita TTS più naturale disponibile.

Clonazione vocale

Voci di clone con eccezionale fedeltà e sfumatura.

Prosodia naturale

Cattura sottili schemi di linguaggio e micro-espressioni.

Preimpostazioni di qualità

Scegliere da ultra_veloce a elaborazione di alta qualità.

Profondità emotiva

Genera discorso con genuina risonanza emotiva.

Open Source

Apache 2.0 con licenza commerciale.

Casi di utilizzo

Audiolibri premium Produzione di film Narrazione documentaria Voiceover professionali Progetti archivistici Contenuto di fine alta

Tortoise TTS Voices

View All 18
Tortoise Angie
EN
Tortoise Deniro
EN
Tortoise Freeman
EN
Tortoise Geralt
EN
Tortoise Halle
EN
Tortoise Jlaw
EN
Tortoise Lj
EN
Tortoise Mol
EN
Tortoise Myself
EN
Tortoise Pat
EN
Tortoise Pat2
EN
Tortoise Snakes
EN

Come usare Tortoise TTS

  1. 1

    Iscriviti o prova la demo gratuita

    Crea un account gratuito TextToSpeechAI per ottenere crediti di avviamento, o utilizzare la demo homepage per provare Tortoise senza accedere. Tortoise è un motore Ultra-tier (50 crediti per 1000 caratteri), quindi i crediti gratuiti sono perfetti per un primo test breve.

  2. 2

    Scegliere Tortoise e aggiungere opzionalmente una voce al clone

    Selezionare una voce Tortoise dal browser vocale. Per clonare una persona specifica, caricare un clip di riferimento (idealmente alcuni campioni puliti 5-10 secondi) e Tortoise riprodurre quella voce con alta fedeltà. Altrimenti scegliere una delle voci Tortoise incorporato.

  3. 3

    Inserisci il tuo testo

    Digitare o incollare il testo che si desidera narrare. Poiché la tartaruga è lenta, iniziare con un breve passaggio per confermare la voce e il tono prima di inviare un capitolo audiolibro completo o uno script lungo.

  4. 4

    Scegli una qualità preimpostata e genera

    Scegliere un set di qualità Tortoise: ultra_veloce per test rapidi, veloce per un buon equilibrio velocità/qualità (predefinito), standard o alta qualità per il massimo realismo. Quindi fare clic su generare ed essere pazienti - Tortoise può richiedere da 30 secondi a diversi minuti per clip, soprattutto a preset più elevati.

  5. 5

    Scarica o utilizza l'API

    Quando la generazione finisce, scarica l'audio come MP3, WAV o OGG o recuperalo dalla tua storia. Per automatizzare i lavori di Tortoise, chiama le TextToSpeechAI API e passa il tuo preset di qualità scelto - ricordati di consentire tempi più lunghi dal momento che Tortoise rende lentamente.

Tortoise TTS API

Generare la parola programmaticamente usando l'API TextToSpeechAI REST.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "La tartaruga richiede tempo, ma i risultati sono da aspettare.",
    "voice": "tortoise-angie"
  }'

Domande frequenti

Tortoise TTS è un modello autoregressivo di testo a bocca creato da James Betker che dà priorità alla qualità audio soprattutto. Combina la modellazione del linguaggio basato su trasformatori con la decodifica della diffusione per generare un linguaggio con naturalezza, profondità emotiva e prosodia umana senza pari. È ampiamente considerato uno dei motori TTS open-source più realistici disponibili.

Sì. Tortoise TTS è open-source sotto la licenza Apache 2.0 permissiva, che permette l'uso commerciale, la modifica e la ridistribuzione. Su TextToSpeechAI, Tortoise si trova nel livello Ultra a 50 crediti per 1000 caratteri a causa dei suoi requisiti di calcolo pesanti e qualità di uscita eccezionale.

La tartaruga è lenta dal design: genera diverse clip candidate in modo autoregressivo e poi affina la migliore con un modello di diffusione e un passo di riranking CLVP. Questa pipeline di qualità-primo significa che un unico clip può richiedere da 30 secondi a diversi minuti a seconda della lunghezza del testo e della qualità preimpostata. Il tradeoff è che Tortoise produce alcuni dei discorsi più naturali di qualsiasi motore TTS.

Tortoise offre quattro preset che commerciano velocità per qualità: ultra_veloce (~10x più veloce, buona per i test), veloce (~4x più veloce, il default di produzione), standard (equilibrato), e alta qualità (qualità massima, più lenta). Preset più elevati campionano più candidati e fanno più passi di diffusione prima di selezionare il risultato migliore. Su TextToSpeechAI è possibile scegliere un preset prima di generare.

Sì, Tortoise TTS supporta la clonazione vocale con fedeltà eccezionale. Fornire alcuni brevi clip di riferimento della voce di destinazione (idealmente 3-10 campioni di 5-10 secondi ciascuno), e Tortoise cattura il timbro, l'accento, il ritmo e le micro-espressioni sottili. Si tratta di uno dei motori di clonazione a zero colpi più accurati, anche se la clonazione aggiunge al tempo di generazione già lungo.

La Tortoise è stata formata principalmente su dataset di discorso inglese, quindi l'inglese è dove la sua qualità è più forte. Per progetti multilingue che hanno bisogno di realismo simile, considerare F5-TTS o CosyVoice2 su TextToSpeechAI, che supportano più lingue pur offrendo ancora la clonazione vocale.

La tartaruga produce audio eccezionale, spesso indistinguibile dall'uomo. Riesce a catturare respiro, esitazione, intonazione e genuina risonanza emotiva che i modelli più leggeri perdono. Per questo rimane un preferito per audiolibri premium, narrazione di film e lavoro di voce fuori campo dove il realismo è fondamentale.

La torta richiede tipicamente 12-24GB di VRAM a seconda della qualità preimpostata e delle dimensioni del batch, quindi le GPU di fascia alta come RTX 3090, 4090 o A100 sono consigliate per uso locale. L'inferenza della CPU è tecnicamente possibile ma estremamente lenta. Su TextToSpeechAI il modello funziona sulla nostra infrastruttura GPU, quindi non hai bisogno di hardware tuo.

Tortoise rende audio WAV 24kHz di alta qualità. Attraverso TextToSpeechAI è possibile richiedere MP3, WAV o OGG, e noi transcodificare con codifica di qualità-preservando in modo da mantenere il dettaglio fine del modello in qualsiasi formato il vostro progetto ha bisogno.

La tortoise è nella categoria Ultra pricing a 50 crediti per 1000 caratteri, riflettendo il tempo della GPU che consuma la sua prima pipeline di qualità. I nuovi account ottengono crediti di avviamento gratuiti, in modo da poter testare Tortoise prima di commetterlo. La Ultra tier copre anche StyleTTS2, OpenVoice, Dia e Zonos.

Entrambi sono Ultra-tier motori, ma essi commercio diverso. Tortoise TTS raggiunge il picco assoluto di naturalezza e profondità emotiva, ma è di gran lunga il motore più lento. StyleTTS2 offre la qualità quasi-Tortoise con generazione molto più veloce, rendendola la scelta migliore quando si hanno bisogno di molti clip o più veloce turnaround. Scegli Tortoise quando la qualità non è negoziabile e il tempo non è un vincolo.

Sì. Iscriviti a TextToSpeechAI per ricevere i crediti di avviamento gratuiti, o utilizzare la demo sulla homepage, e selezionare una voce Tortoise per generare un clip senza installare nulla. Poiché Tortoise è lento, iniziare con una breve frase e il preimpostato "veloce" per vedere la qualità prima di eseguire lavori più lunghi.

Technical Specs

  • Generation Speed Very Slow
  • Output Quality Exceptional
  • Voice Cloning Supported
  • Languages 1
  • GPU VRAM 12-24GB
  • Credits/1000 chars 50

Try Tortoise TTS Now

Generate your first audio free. No credit card required.

Start Free