오픈보이스

Ultra

입자형 톤 제어를 통한 즉각적인 음성 복제

Moderate 속도
Very Good 품질
복제
10 언어

정보 오픈보이스

of the voice and apply different tones - cheerful, sad, angry, excited, or whispering - without new reference audio. OpenVoice is a versatile instant voice cloning model that allows fine-grained control over speaking style, allowing you to take a look at the voice and apply different tones - cheerful, sad, angry, excited, or whispering - without new reference audio.

주요 기능

즉각적인 복제

오디오의 단지 몇 초에서 어떤 목소리를 복제.

톤 제어

즐거운, 슬픈, 화난, 흥분, 또는 속삭이는 톤을 적용합니다.

스타일 전송

유연성을 위해 음성 정체성을 말하기 스타일과 분리합니다.

언어간 번역

다른 언어에서 복제된 음성을 사용합니다.

빠른 처리

신속한 음성 생성을 위한 효율적인 추론.

오픈 소스

MIT는 상업용으로 라이선스를 허가했다.

사용 사례

감정적인 내용 문자 애니메이션 대화형 게임 오디오북 내레이션 마케팅 비디오 클립 가상 보조자Name

사용 방법 오픈보이스

  1. 1

    무료로 가입하거나 데모를 시도하십시오.

    무료 TextToSpeechAI 계정을 만들어 시작 크레딧을 받거나 페이지 데모를 사용하여 커밋하기 전에 OpenVoice를 듣습니다. 로컬 GPU 또는 설치가 필요하지 않습니다 - 모든 것이 우리의 서버에서 실행됩니다.

  2. 2

    OpenVoice를 선택하고 참조 클립을 업로드합니다.

    OpenVoice 엔진을 선택한 다음 몇 초의 깨끗한 참조 오디오를 업로드하여 대상 음성을 즉시 복제합니다. OpenVoice는 발음자 정체성을 캡처하여 모든 텍스트와 톤에서 재사용할 수 있습니다.

  3. 3

    텍스트 입력

    클론된 음성에서 말할 스크립트를 입력하거나 붙여넣습니다. OpenVoice는 약 10개의 언어와 크로스 언어 전송을 지원하므로 참조 클립과 다른 언어로 작성할 수 있습니다.

  4. 4

    톤 스타일을 선택하고 생성

    기본, 친절, 즐거움, 흥분, 슬픔, 화, 겁, 소리, 또는 속삭임 - 9 개의 OpenVoice 톤 스타일 중 하나를 선택하고 생성. 같은 복제 음성은 감정적 인 전달과 함께 말할 것입니다.

  5. 5

    API 다운로드 또는 사용

    MP3, WAV, OGG로 오디오를 다운로드하거나 각 요청에 복제된 음성과 톤 스타일을 전달하여 TextToSpeechAI API를 통해 생성을 자동화합니다.

오픈보이스 API

TextToSpeechAI REST API를 사용하여 프로그래밍 방식으로 음성을 생성합니다.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "OpenVoice는 행복, 슬픔, 심지어 속삭임과 같은 어떤 음색으로도 말할 수 있습니다.",
    "voice": "en_US-lessac-medium"
  }'

자주 묻는 질문

OpenVoice는 음성 정체성과 말하기 스타일을 고유하게 분리하는 고급 텍스트-음성 및 음성 복제 모델입니다. 이를 통해 음성을 복제하고 각 감정에 대해 새로운 참조 오디오를 필요로 하지 않고도 다른 감정 톤을 적용할 수 있습니다.

OpenVoice는 몇 초의 참조 오디오로부터 즉각적인 음성 복제를 수행합니다. 훈련이 필요하지 않습니다. 음성이 캡처되면 OpenVoice는 선택한 텍스트와 톤 스타일에 걸쳐 이러한 정체성을 재사용할 수 있습니다.

OpenVoice는 음성 변환에서 기본 음성 합성을 분리하는 2단계 아키텍처를 사용합니다. 음성을 복제한 후 기본, 친절, 즐거움, 흥분, 슬픔, 분노, 겁, 소리, 속삭임 등 9가지 음성 스타일 중 하나를 적용할 수 있으며, 동일한 복제 음성은 재녹음 없이 선택한 음성에 따라 다르게 말합니다.

OpenVoice는 기본, 친절, 즐거움, 흥분, 슬픔, 분노, 겁먹음, 소리지르기, 속삭임 등 9가지의 말하기 스타일을 지원합니다. 각 스타일은 복제된 스피커 정체성을 유지하면서 감정 전달을 재구성하여 줄을 읽는 방법에 대한 미세한 제어를 제공합니다.

오픈보이스는 MIT 라이선스 하에 오픈 소스이므로 상업적 사용을 위해 무료로 제공됩니다. 다른 복제 모델과 마찬가지로 상업적 프로젝트를 위해 복제하는 음성에 대한 적절한 권리를 보유하고 있는지 확인하십시오.

OpenVoice는 영어, 중국어, 일본어, 한국어, 유럽어를 포함한 약 10개의 언어를 지원합니다. 또한 언어간 복제 기능을 제공하므로 한 언어의 음성을 복제하여 다른 언어로 자연스럽게 말할 수 있습니다.

OpenVoice는 적당한 생성 속도를 가지고 있으며, 일반적으로 GPU에서 문장을 2-4초 안에 렌더링합니다. 출력 품질은 매우 좋으며, 명확한 음성 재생과 톤 전송으로 스피커의 정체성을 그대로 유지하면서도 감정적 전달을 설득력 있게 변화시킵니다.

OpenVoice는 일반적으로 배치 크기와 톤 변환 부하에 따라 6-8GB의 VRAM이 필요합니다. 중간급에서 중간급 이상의 GPU에서 편안하게 실행되며, TextToSpeechAI에서는 이 모든 것이 우리 서버에서 처리되므로 로컬 하드웨어가 필요하지 않습니다.

OpenVoice는 1000자당 50크레딧으로 가격이 정해진 Ultra-tier 엔진입니다. Ultra-tier는 고급 톤 제어 및 클론링과 스타일 변환 파이프라인에 필요한 추가 컴퓨팅을 반영합니다.

OpenVoice는 음색과 스타일 제어에 있어서 독특합니다. 복제된 음성을 즐거운 음성, 슬픈 음성, 화난 음성, 속삭이는 음성으로 재생할 수 있습니다. F5-TTS는 더 빠르며 자연스럽고 중립적인 음성을 위한 기본 복제 엔진입니다. 감정적인 스타일 제어가 필요할 때 OpenVoice를 선택하고 가장 빠른 자연스러운 복제를 원할 때 F5-TTS를 선택하십시오.

참조 오디오를 업로드하여 클론된 음성을 생성한 다음 API 요청에서 톤 스타일을 지정합니다. API는 선택한 감정 톤을 클론된 음성에 자동으로 적용하고 MP3, WAV 또는 OGG 형식으로 오디오를 반환합니다.

네. 무료 TextToSpeechAI 계정에 가입하여 시작 크레딧을 받고 OpenVoice 클론 및 톤 제어를 시도하거나 먼저 온라인 데모를 사용할 수 있습니다. 로컬 설정이 없습니다. 참조 클립을 업로드하고 톤을 선택하고 브라우저에서 생성합니다.

Technical Specs

  • Generation Speed Moderate
  • Output Quality Very Good
  • Voice Cloning Supported
  • Languages 10
  • GPU VRAM 3-6GB
  • Credits/1000 chars 50

Try 오픈보이스 Now

Generate your first audio free. No credit card required.

Start Free