토토이스 TTS

Ultra

탁월한 자연스러움을 갖춘 초고품질 음성

Very Slow 속도
Exceptional 품질
복제
1 언어

정보 토토이스 TTS

s available. Tortoise TTS is a

주요 기능

초고품질

가장 자연스럽게 들리는 TTS 출력.

음성 복제

뛰어난 충실도와 뉘앙스로 음성을 복제합니다.

자연 음운

미묘한 음성 패턴과 미세한 표현을 캡처합니다.

품질 사전 설정

초고속에서 고품질 처리까지 선택할 수 있습니다.

감정적 깊이

진정한 감정적 공명을 가진 음성을 생성합니다.

오픈 소스

아파치 2.0은 상업적 사용권을 허용합니다.

사용 사례

프리미엄 오디오북 영화 제작 다큐멘터리 내레이션 전문적인 보이스오버 아카이브 프로젝트 하이엔드 콘텐츠

토토이스 TTS Voices

View All 18
Tortoise Angie
EN
Tortoise Deniro
EN
Tortoise Freeman
EN
Tortoise Geralt
EN
Tortoise Halle
EN
Tortoise Jlaw
EN
Tortoise Lj
EN
Tortoise Mol
EN
Tortoise Myself
EN
Tortoise Pat
EN
Tortoise Pat2
EN
Tortoise Snakes
EN

사용 방법 토토이스 TTS

  1. 1

    가입하거나 무료 데모를 시도하십시오.

    무료 TextToSpeechAI 계정을 만들어서 시작 크레딧을 받거나 홈페이지 데모를 사용하여 로그인하지 않고 Tortoise를 시도하십시오. Tortoise는 Ultra-tier 엔진입니다 (1000 문자 당 50 크레딧), 그래서 무료 크레딧은 첫 번째 짧은 테스트에 완벽합니다.

  2. 2

    Tortoise를 선택하고 클론할 음성을 추가하십시오.

    음성 브라우저에서 Tortoise 음성을 선택합니다. 특정한 사람을 복제하려면 참조 클립(최적의 경우 5-10초의 샘플)을 업로드하면 Tortoise가 고품질로 그 음성을 재생합니다. 그렇지 않으면 Tortoise 내장 음성 중 하나를 선택합니다.

  3. 3

    텍스트 입력

    Tortoise는 느리기 때문에 전체 오디오북 장 또는 긴 스크립트를 보내기 전에 목소리와 톤을 확인하기 위해 짧은 구절로 시작하세요.

  4. 4

    품질 사전 설정을 선택하고 생성

    Tortoise 품질 사전 설정을 선택하세요: 빠른 테스트를 위해 ultra_fast, 좋은 속도/품질 균형을 위해 fast(기본적으로 권장), standard, 최대의 현실감을 위해 high_quality. 그런 다음 generate 를 클릭하고 인내하세요. Tortoise는 클립당 30초에서 몇 분까지 걸릴 수 있습니다. 특히 높은 사전 설정에서 더 걸릴 수 있습니다.

  5. 5

    API 다운로드 또는 사용

    생성이 끝나면 오디오를 MP3, WAV, OGG로 다운로드하거나 히스토리에서 가져옵니다. Tortoise 작업을 자동화하려면 TextToSpeechAI API를 호출하고 선택한 품질 사전설정을 전달하십시오. Tortoise가 느리게 렌더링하기 때문에 시간이 좀 더 걸리도록 허용하십시오.

토토이스 TTS API

TextToSpeechAI REST API를 사용하여 프로그래밍 방식으로 음성을 생성합니다.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "거북이는 시간이 걸리지만 결과는 기다릴 가치가 있습니다.",
    "voice": "tortoise-angie"
  }'

자주 묻는 질문

Tortoise TTS는 James Betker가 만든 자기회귀 텍스트-음성 모델로서, 오디오 품질을 우선시합니다. 변환기 기반 언어 모델링과 확산 디코딩을 결합하여 탁월한 자연스러움, 감정적 깊이, 인간과 같은 음운을 갖춘 음성을 생성합니다. 이 모델은 가장 현실적인 오픈 소스 TTS 엔진 중 하나로 널리 인정받고 있습니다.

Tortoise TTS는 상업적 사용, 수정 및 재배포를 허용하는 허용적인 Apache 2.0 라이선스 하에 오픈 소스입니다. TextToSpeechAI에서 Tortoise는 엄청난 컴퓨팅 요구 사항과 뛰어난 출력 품질 때문에 1000 문자당 50 크레딧으로 Ultra 계층에 있습니다.

Tortoise는 자동 회귀로 여러 후보 클립을 생성한 다음, 확산 모델과 CLVP 재순위 계획을 통해 최상의 클립을 선택합니다. 이러한 품질 우선 파이프라인은 단일 클립을 생성하는 데 텍스트 길이와 품질 사전 설정에 따라 30초에서 몇 분까지 걸릴 수 있습니다. 그러나 Tortoise는 TTS 엔진 중 가장 자연스러운 음성을 생성합니다.

Tortoise는 속도와 품질을 균형 잡힌 4가지 사전 설정을 제공합니다: ultra_fast (~10배 빠르고 테스트에 좋음), fast (~4배 빠르고, 프로덕션 기본값), standard (균형), high_quality (최대 품질, 가장 느리다). 높은 사전 설정은 더 많은 후보를 샘플링하고 최상의 결과를 선택하기 전에 더 많은 확산 단계를 실행합니다. TextToSpeechAI에서는 생성하기 전에 사전 설정을 선택할 수 있습니다.

Tortoise TTS는 뛰어난 충실도로 음성 복제를 지원합니다. 대상 음성의 짧은 참조 클립을 제공하면(이를 위해 5-10초의 샘플 3-10개를 제공하는 것이 이상적입니다) Tortoise는 발음자의 음색, 억양, 페이스, 미세한 미세 표현을 캡처합니다. Tortoise TTS는 가장 정확한 제로 샷 복제 엔진 중 하나입니다.

Tortoise는 주로 영어 음성 데이터셋을 기반으로 훈련되었으므로 영어가 가장 품질이 좋습니다. 비슷한 현실성을 필요로 하는 다국어 프로젝트에 대해서는, 음성 복제를 제공하면서 더 많은 언어를 지원하는 TextToSpeechAI의 F5-TTS 또는 CosyVoice2를 고려해 보세요.

Tortoise는 종종 인간과 구분할 수 없는 뛰어난 오디오를 생성합니다. 호흡, 주저함, 음조, 진정한 감정적 공명을 포착합니다. 이는 가벼운 모델이 놓치는 부분입니다. 이것이 Tortoise가 현실성이 가장 중요한 프리미엄 오디오북, 영화 내레이션, 고급 음성 작업에 좋은 이유입니다.

Tortoise는 일반적으로 품질 사전 설정 및 배치 크기에 따라 12-24GB의 VRAM이 필요하므로 로컬 사용을 위해 RTX 3090, 4090 또는 A100과 같은 고급 GPU를 권장합니다. CPU 추론은 기술적으로 가능하지만 매우 느립니다. TextToSpeechAI에서는 모델이 GPU 인프라에서 실행되므로 귀하만의 하드웨어가 필요하지 않습니다.

Tortoise는 고품질 24kHz WAV 오디오를 네이티브로 렌더링합니다. TextToSpeechAI을 통해 MP3, WAV 또는 OGG를 요청할 수 있으며, 품질 보존 인코딩으로 트랜스코딩하여 프로젝트가 필요로 하는 형식에 관계없이 모델의 세부 사항을 유지할 수 있습니다.

Tortoise는 1000자당 50크레딧으로 Ultra 가격 계층에 속하며, 이는 품질 우선 파이프라인이 소비하는 GPU 시간을 반영합니다. 새 계정은 무료로 시작 크레딧을 받아 Tortoise를 커밋하기 전에 테스트할 수 있습니다. Ultra 계층에는 StyleTTS2, OpenVoice, Dia, Zonos도 포함됩니다.

둘 다 Ultra-tier 엔진이지만, 각기 다른 엔진입니다. Tortoise TTS는 자연스러움과 감정적 깊이의 절대적 정점에 도달하지만, 가장 느린 엔진입니다. StyleTTS2는 훨씬 빠른 생성 속도로 거의 Tortoise 품질을 제공하므로 많은 클립이 필요하거나 빠른 처리 시간이 필요할 때 더 나은 선택입니다. 품질이 협상할 수 없고 시간이 제약이 아닌 경우 Tortoise를 선택하십시오.

네, TextToSpeechAI으로 가입하여 무료로 시작 크레딧을 받거나 홈페이지의 데모를 사용하여 Tortoise 음성을 선택하여 설치 없이 클립을 생성할 수 있습니다. Tortoise는 느리기 때문에 짧은 문장과 "빠른" 사전 설정으로 시작하여 긴 작업을 실행하기 전에 품질을 확인하십시오.

Technical Specs

  • Generation Speed Very Slow
  • Output Quality Exceptional
  • Voice Cloning Supported
  • Languages 1
  • GPU VRAM 12-24GB
  • Credits/1000 chars 50

Try 토토이스 TTS Now

Generate your first audio free. No credit card required.

Start Free