Tortoise TTS

Ultra

Discurso de Ultra-Alta Qualidade com Naturalidade Incomparável

Very Slow Velocidade
Exceptional Qualidade
Sim Enchimento
1 Línguas

Sobre Tortoise TTS

Tortoise TTS é um modelo autorregressivo de texto a voz que prioriza a qualidade de áudio acima de tudo. Usando uma combinação de transformadores autoregressivos e modelos de difusão, Tortoise gera fala extremamente natural que capta nuances sutis da voz humana. Enquanto mais lenta do que outros modelos, Tortoise produz a saída TTS mais natural-sonante disponível.

Características-chave

Ultra-Alta qualidade

A saída TTS mais natural disponível.

Clonagem Voz

Clone vozes com fidelidade e nuance excepcional.

Prosodia natural

Capta padrões de fala sutis e micro-expressão.

Predefinições de qualidade

Escolha entre o processamento ultra_rápido e o processamento de alta_qualidade.

Profundidade emocional

Gera a fala com uma verdadeira ressonância emocional.

Fonte Aberta

Apache 2.0 licenciado com direitos de uso comercial.

Casos de utilização

Audiobooks Premium Produção de filmes Narração Documental Vozes Profissional Projectos de arquivo Conteúdo de alto fim

Tortoise TTS Voices

View All 18
Tortoise Angie
EN
Tortoise Deniro
EN
Tortoise Freeman
EN
Tortoise Geralt
EN
Tortoise Halle
EN
Tortoise Jlaw
EN
Tortoise Lj
EN
Tortoise Mol
EN
Tortoise Myself
EN
Tortoise Pat
EN
Tortoise Pat2
EN
Tortoise Snakes
EN

Como Utilizar Tortoise TTS

  1. 1

    Inscreva-se ou tente a demo gratuita

    Crie uma conta TextToSpeechAI gratuita para obter créditos de início do evento, ou use a homepage demo para tentar Tortoise sem se assinar. Tortoise é um motor ultra-tíger (50 créditos por 1000 caracteres), por isso os créditos gratuitos são perfeitos para um primeiro teste curto.

  2. 2

    Escolha Tortoise e opcionalmente adicionar uma voz para clonar

    Selecione uma voz Tortoise do navegador de voz. Para clonar uma pessoa específica, carregue um clipe de referência (idealmente algumas amostras limpas de 5-10 segundos) e Tortoise reproduzirá essa voz com alta fidelidade. Caso contrário, escolha uma das vozes Tortoise incorporadas.

  3. 3

    Insira o seu texto

    Digite ou cole o texto que você quer narrado. Como a Tortoise é lenta, comece com uma passagem curta para confirmar a voz e o tom antes de enviar um capítulo completo do audiobook ou um script longo.

  4. 4

    Escolha uma qualidade predefinida e gerar

    Escolha uma configuração de qualidade de Tortoise: ultra_rápido para testes rápidos, rápido para um bom equilíbrio de velocidade/qualidade (predefinido recomendado), padrão, ou alta_qualidade para o realismo máximo. Em seguida, clique em gerar e ser paciente - Tortoise pode levar de 30 segundos a vários minutos por clipe, especialmente em predefinições mais altas.

  5. 5

    Baixe ou use a API

    Quando a geração termina, baixe o seu áudio como MP3, WAV, ou OGG, ou obtê-lo da sua história. Para automatizar tarefas Tortoise, ligue para a API TextToSpeechAI e passe a sua qualidade escolhida predefinida - lembre-se de permitir tempos de tempo mais longos desde Tortoise rende lentamente.

Tortoise TTS API

Gerar a fala programática usando a API TextToSpeechAI REST.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "A Tortoise leva o seu tempo, mas os resultados valem a pena esperar.",
    "voice": "tortoise-angie"
  }'

Perguntas Frequentes

Tortoise TTS é um modelo autorregressivo de texto a voz criado por James Betker que prioriza a qualidade do áudio acima de tudo. Combina a modelagem de linguagem baseada em transformadores com a decodificação de difusão para gerar fala com naturalidade incomparável, profundidade emocional e prósodia semelhante ao humano. É amplamente considerado como um dos motores TTS de código aberto mais realista disponível.

Sim. A Tortoise TTS é open-source sob a licença permissiva Apache 2.0, que permite o uso, modificação e redistribuição comerciais. Em TextToSpeechAI, a Tortoise fica na nível Ultra a 50 créditos por 1000 caracteres por causa de seus requisitos de computação pesados e qualidade de saída excepcional.

A Tortoise é lenta pelo design: gera vários clipes candidatos autoregressivemente e depois refina o melhor com um modelo de difusão e um passo de re-râncalo CLVP. Este pipeline de qualidade-primeiro significa que um único clipe pode levar de 30 segundos a vários minutos dependendo do comprimento do texto e da qualidade predefinida. O comércio é que a Tortoise produz uma parte da fala mais natural de qualquer motor TTS.

A Tortoise oferece quatro presets que marcam a velocidade de qualidade: ultra_rápido (~10x mais rápido, bom para testes), rápido (~4x mais rápido, padrão de produção padrão (equilibrado) e alta_qualidade (qualidade máxima, mais lento).Pretests mais altos amostram mais candidatos e executam mais passos de difusão antes de selecionar o melhor resultado. Em TextToSpeechAI você pode escolher um predefinido antes de gerar.

Sim, Tortoise TTS suporta clonagem de voz com fidelidade excepcional. Forneça alguns clipes de referência curtos da voz alvo (idealmente 3-10 amostras de 5-10 segundos cada), e Tortoise captura o timbre, o accento, o pacing e micro-expressão sutil. É um dos motores de clonagem de zero-hot mais precisos, embora clonagem acrescenta ao tempo de geração já longo.

A Tortoise foi treinada principalmente em conjuntos de dados de fala em inglês, então o inglês é onde a sua qualidade é mais forte. Para projetos multilingue que necessitam de realismo semelhante, considere F5-TTS ou CosyVoice2 em TextToSpeechAI, que suportam mais línguas, enquanto ainda oferecem clonagem de voz.

A Tortoise produz áudio excepcional, muitas vezes indistinguível do humano. Capta respiração, hesitação, entonação e ressonância emocional genuína que os modelos mais leves faltam. É por isso que permanece um favorito para os audiobooks premium, narração de filmes e trabalhos de alta gama de voz onde o realismo é primordial.

A Tortoise normalmente requer 12-24GB de VRAM dependendo da qualidade predefinida e tamanho de lote, por isso GPU de alta qualidade como a RTX 3090, 4090 ou A100 são recomendados para uso local. Inferência CPU é tecnicamente possível, mas extremamente lenta. Em TextToSpeechAI o modelo funciona em nossa infraestrutura GPU, por isso você não precisa de hardware próprio.

Tortoise torna áudio WAV de alta qualidade 24kHz. Através de TextToSpeechAI você pode solicitar MP3, WAV ou OGG, e nós transcodificamos com codificação de qualidade preservando para que você mantenha o bom detalhe do modelo em qualquer formato que seu projeto precise.

Tortoise está na classe de preços Ultra a 50 créditos por 1000 caracteres, refletindo o tempo GPU seu primeiro gasoduto qualidade. Novas contas recebem créditos de início gratuito, para que você possa testar Tortoise antes de cometer. O nível Ultra também cobre StyleTTS2, OpenVoice, Dia e Zonos.

Ambos são motores ultra-tíger, mas eles trocam diferente. Tortoise TTS atinge o pico absoluto da naturalidade e profundidade emocional, mas é de longe o motor mais lento. StyleTTS2 oferece qualidade próxima ao Tortoise com geração muito mais rápida, tornando a melhor escolha quando você precisa de muitos clips ou viragem mais rápida. Escolha Tortoise quando a qualidade não é negociable e o tempo não é uma constrangimento.

Sim. Inscreva-se em TextToSpeechAI para receber créditos de início gratuito, ou use a demo na página inicial, e selecione uma voz Tortoise para gerar um clipe sem instalar nada. Porque Tortoise é lento, comece com uma frase curta e a "rápida" predefinida para ver a qualidade antes de executar trabalhos mais longos.

Technical Specs

  • Generation Speed Very Slow
  • Output Quality Exceptional
  • Voice Cloning Supported
  • Languages 1
  • GPU VRAM 12-24GB
  • Credits/1000 chars 50

Try Tortoise TTS Now

Generate your first audio free. No credit card required.

Start Free