편안한 목소리 2

Premium

스트리밍 지원을 통한 제로 샷 다국어 음성 복제

Fast 속도
Very Good 품질
복제
5 언어

정보 편안한 목소리 2

[Translation temporarily unavailable. Please try again.]

주요 기능

제로 샷 음성 복제

3-10초의 참조 오디오에서 고품질로 어떤 목소리든 복제합니다.

다국어

중국어, 영어, 일본어, 한국어, 광둥어를 지원하며 언어간 합성이 가능합니다.

스트리밍 지원

실시간 애플리케이션 및 대화형 시스템을 위한 저지연 스트리밍 모드.

자연 음운

고급 음운 모델링은 적절한 억양으로 자연스럽게 들리는 음성을 생성합니다.

사용 사례

다국어 콘텐츠 생성 실시간 음성 보조 크로스 언어 더빙 개인화된 음성 애플리케이션

사용 방법 편안한 목소리 2

  1. 1

    가입하고 무료 크레딧을 받으세요

    무료 TextToSpeechAI 계정을 만들어 시작 크레딧을 요구하거나 데모를 먼저 시도하십시오. GPU 또는 로컬 CosyVoice2 설치가 필요하지 않습니다 - 모든 것이 우리의 인프라에서 실행됩니다.

  2. 2

    CosyVoice2를 선택하고 참조 클립을 추가합니다.

    엔진으로 CosyVoice2를 선택한 다음 클론화할 목소리의 깨끗한 3-10초 참조 녹음을 업로드하십시오. CosyVoice2는 제로 샷 다국어 클론화를 위해 스피커 특성을 추출합니다.

  3. 3

    지원되는 모든 언어로 텍스트 입력

    중국어, 영어, 일본어, 한국어 또는 광둥어로 스크립트를 입력하거나 붙여넣습니다. CosyVoice2는 언어간 합성을 지원하므로 복제된 음성은 참조 클립과 다른 언어로 말할 수 있습니다.

  4. 4

    연설을 생성합니다

    생성을 클릭하면 CosyVoice2가 짧은 텍스트의 경우 보통 몇 초 내에 복제된 음성에서 자연스러운 다국어 음성을 합성합니다. 프리미엄 계층 사용은 1,000 문자당 25 크레딧이 소요됩니다.

  5. 5

    API 다운로드 또는 사용

    완성된 오디오를 MP3 또는 WAV로 다운로드하거나 TextToSpeechAI REST API를 통해 규모에 맞게 CosyVoice2 음성 복제를 자동화할 수 있습니다.

편안한 목소리 2 API

TextToSpeechAI REST API를 사용하여 프로그래밍 방식으로 음성을 생성합니다.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "CosyVoice2는 제로 샷 음성 복제 기능으로 자연스러운 다국어 음성을 제공합니다.",
    "voice": "en_US-lessac-medium"
  }'

자주 묻는 질문

CosyVoice2는 FunAudioLLM(Alibaba)에서 개발한 차세대 텍스트-음성 및 음성 복제 모델입니다. 몇 초의 참조 오디오로부터 제로 샷 음성 복제를 지원하며 중국어, 영어, 일본어, 한국어, 광둥어로 자연스러운 음성을 합성할 수 있습니다. TextToSpeechAI에서는 로컬 설정 없이 브라우저에서 CosyVoice2를 실행할 수 있습니다.

네, CosyVoice2는 코드와 모델 가중치 모두 아파치 2.0 라이선스를 받았습니다. 이로 인해 라이선스 비용이나 비상업적 제한 없이 상업용 제품, 유료 콘텐츠, 클라이언트 작업에 안전하게 사용할 수 있습니다.

CosyVoice2는 중국어(만다린), 영어, 일본어, 한국어, 광둥어의 5개 언어를 지원하며, 언어간 합성을 처리하여 한 언어로 녹음된 음성을 복제하여 다른 언어로 음성을 생성할 수 있습니다.

목표 스피커의 3-10초 깨끗한 참조 오디오를 제공합니다. CosyVoice2는 유한 스칼라 양자화 접근 방식을 사용하여 스피커 특성을 추출한 다음 지원되는 모든 언어에서 복제된 음성으로 새로운 음성을 생성합니다. 모델 트레이닝이나 미세 조정이 필요하지 않습니다.

CosyVoice2는 강력한 다국어 클론 모델 중 하나로서, 참조 클립과 다른 언어로 음성을 생성할 때에도 발음자 정체성을 보존합니다. 자연스러운 음운과 음조를 생성하여 크로스 언어 더빙 및 현지화 콘텐츠에 적합합니다.

CosyVoice2는 빠른 모델이며, 음성 보조 및 대화형 응용 프로그램에 적합한 낮은 지연 시간으로 오디오를 생성하는 스트리밍 모드를 포함합니다. TextToSpeechAI에서는 짧은 텍스트를 위해 일반적으로 몇 초 안에 생성이 완료됩니다.

CosyVoice2는 0.5B 파라미터 모델에 4-6GB의 VRAM이 필요하므로, 6GB 이상의 GPU가 권장됩니다. TextToSpeechAI에서는 모델이 GPU 인프라에서 실행되므로, 귀하의 하드웨어가 필요하지 않습니다.

CosyVoice2는 프리미엄 계층 모델이며 텍스트의 1,000 문자 당 25 크레딧이 소요됩니다. 모든 새로운 계정은 무료로 시작 크레딧을 얻을 수 있으므로 유료 계획을 결정하기 전에 CosyVoice2 음성 복제를 시도 할 수 있습니다.

두 엔진 모두 프리미엄 음성 복제 엔진입니다. GPT-SoVITS는 단일 대상 음성에 대해 가장 높은 원시 유사도를 달성하는 반면, CosyVoice2는 다국어 및 크로스 언어 복제에 강력하고 낮은 지연 시간 스트리밍 모드를 추가합니다. 여러 언어를 말할 수 있는 하나의 복제 음성이 필요할 때 CosyVoice2를 선택하십시오.

둘 다 고품질의 제로 샷 음성 복제를 제공합니다. CosyVoice2는 더 많은 언어(2 대 5)를 지원하고 실시간 사용을 위한 스트리밍을 추가하며, F5-TTS는 영어 전용 워크로드에서 조금 더 빠를 수 있습니다. 다국어 프로젝트의 경우 CosyVoice2가 일반적으로 더 적합합니다.

TextToSpeechAI은 MP3 및 WAV와 같은 일반적인 형식으로 CosyVoice2 세대를 내보낼 수 있도록 합니다. 히스토리 페이지에서 직접 파일을 다운로드하거나 TextToSpeechAI API를 통해 프로그래밍으로 검색할 수 있습니다.

네, 무료 데모와 무료 스타터 크레딧을 사용하여 TextToSpeechAI에서 무엇이든 설치하지 않고 CosyVoice2를 테스트할 수 있습니다. 등록하고 짧은 참조 클립을 업로드하고 지원되는 언어로 텍스트를 입력하고 생성하십시오.

Technical Specs

  • Generation Speed Fast
  • Output Quality Very Good
  • Voice Cloning Supported
  • Languages 5
  • GPU VRAM 4-6GB
  • Credits/1000 chars 25

Try 편안한 목소리 2 Now

Generate your first audio free. No credit card required.

Start Free