Tortuga TTS

Ultra

Discurso de alta calidad con una naturalidad inigualable

Very Slow Velocidad
Exceptional Calidad
Clonación
1 Idiomas

Acerca de Tortuga TTS

Tortoise TTS es un modelo de texto a voz autorregresivo que prioriza la calidad de audio sobre todo. Utilizando una combinación de transformadores autorregresivos y modelos de difusión, Tortoise genera un habla extremadamente natural que captura matices sutiles de voz humana. Mientras que más lento que otros modelos, Tortoise produce la salida TTS más natural disponible.

Características principales

Alta calidad

La salida TTS más natural disponible.

Clonación de voz

Voces clonadas con excepcional fidelidad y matices.

Prosodia natural

Captura patrones de habla sutiles y micro-expresiones.

Presets de calidad

Elija entre procesamiento ultra_rápido y de alta calidad.

Profundidad emocional

Genera habla con una resonancia emocional genuina.

Código abierto

Apache 2.0 licenciado con derechos de uso comercial.

Casos de uso

Audiolibros premium Producción cinematográfica Narración documental Voiceovers profesionales Proyectos de archivo Contenido de gama alta

Tortuga TTS Voices

View All 18
Tortoise Angie
EN
Tortoise Deniro
EN
Tortoise Freeman
EN
Tortoise Geralt
EN
Tortoise Halle
EN
Tortoise Jlaw
EN
Tortoise Lj
EN
Tortoise Mol
EN
Tortoise Myself
EN
Tortoise Pat
EN
Tortoise Pat2
EN
Tortoise Snakes
EN

Cómo usar Tortuga TTS

  1. 1

    Regístrese o pruebe la demostración gratuita

    Crear una cuenta gratuita TextToSpeechAI para obtener créditos de arranque, o utilizar la demo página de inicio para probar Tortoise sin iniciar sesión. Tortoise es un motor de Ultra-tier (50 créditos por 1000 caracteres), por lo que los créditos gratuitos son perfectos para una primera prueba corta.

  2. 2

    Elija Tortuga y opcionalmente agregue una voz a clonar

    Seleccione una voz Tortuga desde el navegador de voz. Para clonar una persona específica, suba un clip de referencia (idealmente unas pocas muestras limpias de 5-10 segundos) y Tortuga reproducirá esa voz con alta fidelidad. De lo contrario, elija una de las voces Tortuga incorporadas.

  3. 3

    Introduzca su texto

    Escriba o pegue el texto que desee narrar. Debido a que Tortuga es lenta, comience con un pasaje corto para confirmar la voz y el tono antes de enviar un capítulo completo de audiolibro o script largo.

  4. 4

    Seleccione un preset de calidad y generar

    Elija un preset de calidad Tortoise: ultra_rápido para pruebas rápidas, rápido para un buen balance de velocidad/calidad (predeterminado recomendado), estándar o alta_calidad para un máximo realismo. Luego haga clic en generar y ser paciente - Tortoise puede tomar de 30 segundos a varios minutos por clip, especialmente en presets más altos.

  5. 5

    Descargue o utilice la API

    Cuando termine la generación, descargue su audio como MP3, WAV o OGG, o retírela de su historial. Para automatizar trabajos de Tortoise, llame a la API TextToSpeechAI y pase el preset de calidad elegido - recuerde permitir tiempos de espera más largos ya que Tortoise se renderiza lentamente.

Tortuga TTS API

Generar voz programáticamente usando la API de TextToSpeechAI REST.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Tortuga toma su tiempo, pero los resultados son dignos de esperar.",
    "voice": "tortoise-angie"
  }'

Preguntas frecuentes

Tortoise TTS es un modelo de texto a voz autorregresivo creado por James Betker que prioriza la calidad de audio sobre todo. Combina el modelado de lenguaje basado en transformadores con la decodificación de difusión para generar voz con naturalidad inigualable, profundidad emocional y prosodia humana. Es ampliamente considerado como uno de los motores TTS de código abierto más realistas disponibles.

Sí. Tortoise TTS es de código abierto bajo la licencia permisiva Apache 2.0, que permite el uso comercial, la modificación y la redistribución. En TextToSpeechAI, Tortoise se sienta en el nivel Ultra a 50 créditos por 1000 caracteres debido a sus requisitos de cálculo pesados y calidad de salida excepcional.

Tortoise es lenta por diseño: genera varios clips candidatos de forma autorregresiva y luego refina el mejor con un modelo de difusión y un paso de reordenamiento CLVP. Esta tubería de primera calidad significa que un solo clip puede tomar de 30 segundos a varios minutos dependiendo de la longitud del texto y la calidad preestablecida. La compensación es que Tortoise produce parte del habla más natural de cualquier motor TTS.

Tortoise ofrece cuatro presets que cambian la velocidad de calidad: ultra_rápido (~10x más rápido, bueno para las pruebas), rápido (~4x más rápido, el defecto de producción), estándar (equilibrado), y de alta calidad (calidad máxima, más lento). Presets más altos muestrean más candidatos y ejecuten más pasos de difusión antes de seleccionar el mejor resultado. En TextToSpeechAI puede elegir un preset antes de generar.

Sí, Tortoise TTS es compatible con la clonación de voz con una fidelidad excepcional. Proporcione unos breves clips de referencia de la voz objetivo (idealmente 3-10 muestras de 5-10 segundos cada una), y Tortoise captura el timbre, el acento, el ritmo y las microexpresiones sutiles del altavoz. Es uno de los motores de clonación con cero disparos más precisos, aunque la clonación se suma al tiempo de generación ya largo.

Para proyectos multilingües que necesitan realismo similar, considere F5-TTS o CosyVoice2 en TextToSpeechAI, que soportan más idiomas mientras que todavía ofrecen clonación de voz.

Tortuga produce audio excepcional, a menudo indistinguible-de-humano. Captura la respiración, la vacilación, la entonación, y la resonancia emocional genuina que los modelos más ligeros pierden. Es por eso que sigue siendo un favorito para audiolibros premium, narración de películas, y trabajo de alta gama de voz en off donde el realismo es primordial.

Tortuga típicamente requiere 12-24 GB de VRAM dependiendo de la calidad preestablecida y el tamaño del lote, por lo que GPU de alta gama como el RTX 3090, 4090, o A100 se recomiendan para el uso local. inferencia de CPU es técnicamente posible pero extremadamente lento. En TextToSpeechAI el modelo se ejecuta en nuestra infraestructura GPU, por lo que no necesita ningún hardware propio.

Tortoise representa de forma nativa audio WAV de alta calidad de 24 kHz. A través de TextToSpeechAI puede solicitar MP3, WAV u OGG, y transcodificamos con codificación de conservación de calidad para mantener el detalle fino del modelo en cualquier formato que su proyecto necesite.

Tortoise está en el nivel de precios Ultra a 50 créditos por 1000 caracteres, lo que refleja el tiempo que consume la GPU en su primera tubería de calidad. Nuevas cuentas obtienen créditos de arranque gratis, por lo que puede probar Tortoise antes de comprometerse. El nivel Ultra también cubre StyleTTS2, OpenVoice, Dia, y Zonos.

Ambos son motores ultra-tier, pero comercian de manera diferente. Tortuga TTS alcanza el pico absoluto de naturalidad y profundidad emocional, pero es por lejos el motor más lento. StyleTTS2 ofrece calidad de casi-Tortuga con generación mucho más rápida, por lo que es la mejor opción cuando necesita muchos clips o giros más rápidos. Pick Tortoise cuando la calidad es no negociable y el tiempo no es una restricción.

Sí. Regístrese en TextToSpeechAI para recibir créditos de arranque gratuitos, o utilice la demo en la página principal, y seleccione una voz Tortoise para generar un clip sin instalar nada. Debido a que Tortoise es lento, comience con una frase corta y el preset "rápido" para ver la calidad antes de ejecutar trabajos más largos.

Technical Specs

  • Generation Speed Very Slow
  • Output Quality Exceptional
  • Voice Cloning Supported
  • Languages 1
  • GPU VRAM 12-24GB
  • Credits/1000 chars 50

Try Tortuga TTS Now

Generate your first audio free. No credit card required.

Start Free