빈티지

Standard

자연어를 사용한 빠른 엔드투엔드 TTS

Very Fast 속도
Good 품질
아니오 복제
10 언어

정보 빈티지

-efficient, and highly-efficient TTS model. It is a

주요 기능

빠른 합성

빠른 음성 생성을 위한 엔드 투 엔드 아키텍처.

일괄 처리

동시에 여러 개의 텍스트를 효율적으로 처리합니다.

자연어 음성

VAE+GAN 훈련은 자연스러운 음조와 리듬을 생성합니다.

다중 스피커

단일 모델은 여러 스피커 음성을 지원합니다.

효율적

낮은 메모리 점유율과 뛰어난 성능.

오픈 소스

모든 사용 사례에 대해 MIT 라이선스.

사용 사례

일괄 오디오 생성 전자 학습 플랫폼 뉴스 리더Name 자동 발표 IVR 시스템 대용량 콘텐츠

빈티지 Voices

View All 109
LJSpeech (English Female)
EN
VCTK Speaker 225 (English Female)
EN
VCTK Speaker 226 (English Male)
EN
VCTK Speaker 227 (English Male)
EN
VCTK Speaker 228 (English Female)
EN
VCTK Speaker 229
EN
VCTK Speaker 230
EN
VCTK Speaker 231
EN
VCTK Speaker 232
EN
VCTK Speaker 233
EN
VCTK Speaker 234
EN
VCTK Speaker 236
EN

사용 방법 빈티지

  1. 1

    무료로 가입하거나 데모를 시도하십시오.

    무료 TextToSpeechAI 계정을 만들어 시작 크레딧을 얻을 수, 또는 가입하기 전에 VITS를 듣고 페이지 데모를 사용합니다.

  2. 2

    VITS 음성 또는 스피커 선택

    음성 라이브러리를 탐색하고 VITS 배지가 표시된 음성을 선택합니다. VCTK 스피커 세트를 포함한 멀티 스피커 VITS 라이브러리는 여러 개의 독특한 음성 중에서 선택할 수 있습니다.

  3. 3

    텍스트 입력

    에디터에 말하기를 원하는 텍스트를 입력하거나 붙여넣습니다. VITS는 긴 구절을 잘 처리하며 일괄 및 대용량 콘텐츠에 이상적입니다.

  4. 4

    오디오 생성

    VITS는 매우 빠르고 표준 계층(1000자당 10 크레딧)이기 때문에 결과를 낮은 비용으로 빠르게 반환할 수 있습니다.

  5. 5

    API 다운로드 또는 사용

    완성된 오디오를 MP3, WAV 또는 OGG로 다운로드하거나 TextToSpeechAI REST API를 통해 동일한 VITS 음성을 호출하여 자신의 애플리케이션에서 생성을 자동화할 수 있습니다.

빈티지 API

TextToSpeechAI REST API를 사용하여 프로그래밍 방식으로 음성을 생성합니다.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "VITS는 대용량 애플리케이션을 위해 빠르고 자연스러운 음성을 제공합니다.",
    "voice": "vits-ljspeech"
  }'

자주 묻는 질문

VITS(Variation Inference with adversarial learning for end-to-end Text-to-Speech)는 변형 자동 인코더와 대립 GAN 훈련을 결합한 엔드투엔드 신경 TTS 모델입니다. 단일 패스에서 자연스럽게 들리는 음성을 생성하여 빠르고 효율적으로 처리합니다. TextToSpeechAI에서 VITS를 무료로 사용해 볼 수 있습니다.

VITS는 MIT 라이선스 하에 오픈 소스이므로 제한 없이 상업적 사용을 지원합니다. 상업용 제품 및 서비스에 널리 사용됩니다. TextToSpeechAI에서 VITS는 Standard 레벨에서 1000자당 10 크레딧이 소요됩니다.

TextToSpeechAI은 수십 개의 영어 스피커가 있는 VCTK 음성 세트를 포함한 대규모 다중 스피커 VITS 라이브러리를 제공합니다. 단일 VITS 모델은 여러 스피커를 호스팅할 수 있으므로 엔진을 전환하지 않고도 여러 가지 음성 중에서 선택할 수 있습니다.

일반적인 VITS 모델은 영어, 중국어, 일본어, 한국어, 독일어, 프랑스어 및 기타 주요 언어를 포함하며 VCTK 데이터셋에서 다중 사용자 영어 커버리지를 제공합니다.

VITS는 매우 빠르며 GPU에서 실시간 또는 그보다 빠른 속도로 음성을 생성합니다. 엔드 투 엔드 아키텍처는 다른 모델의 여러 처리 단계를 피할 수 있으므로 VITS는 일괄 및 대용량 합성에 적합합니다.

아니요, VITS는 음성 복제를 지원하지 않습니다. 샘플에서 대상 음성을 복사하는 대신 미리 훈련된 다중 스피커 모델을 사용합니다. TextToSpeechAI에서 음성 복제를 하려면 F5-TTS 또는 GPT-SoVITS를 사용합니다.

VITS는 자연스러운 음운과 리듬으로 품질 좋은 오디오를 생성합니다. StyleTTS 2 또는 Tortoise의 수준에 있지 않지만, 특히 일괄 처리를 위해 빠른 속도로 뛰어난 품질을 제공합니다.

VITS는 메모리 효율적이며, 일반적으로 몇 GB의 VRAM (4GB 정도)만 필요합니다. 소비자용 GPU에서 편안하게 실행되며, TextToSpeechAI에서는 모든 렌더링이 우리 서버에서 이루어지므로 귀하의 하드웨어가 필요하지 않습니다.

VITS와 파이퍼는 TextToSpeechAI에서 빠른 MIT 라이선스 표준 엔진입니다. 파이퍼는 가장 가볍고 빠른 옵션이며, VITS는 좀 더 자연스러운 음운을 가진 큰 다중 스피커 라이브러리(VCTK 포함)를 제공합니다.

VITS는 1000자당 10 크레딧이 소요되는 표준 계층 엔진입니다. VITS 모델의 효율적이고 빠른 성질 덕분에 가장 저렴한 가격으로 제공됩니다.

VITS는 22050Hz의 오디오를 네이티브로 생성합니다. TextToSpeechAI을 통해 MP3, WAV 또는 OGG 형식을 요청할 수 있으며 자동 변환이 처리됩니다.

TextToSpeechAI으로 가입하여 무료 시작 크레딧을 받은 다음 VITS 음성을 선택하고 텍스트를 입력하고 오디오를 생성하십시오. 계정을 만들기 전에 데모를 사용하여 VITS를 들을 수 있으며 가입 후 REST API를 통해 VITS에 액세스할 수 있습니다.

Technical Specs

  • Generation Speed Very Fast
  • Output Quality Good
  • Voice Cloning Not Supported
  • Languages 10
  • GPU VRAM 1-2GB
  • Credits/1000 chars 10

Try 빈티지 Now

Generate your first audio free. No credit card required.

Start Free