Medium
속도
Excellent
품질
네
복제
5
언어
정보 영역
s.
주요 기능
감정 제어
컨트롤 음성 감정: 행복, 슬픔, 분노, 두려움, 놀라움, 혐오, 중립.
음성 복제
5-30초의 참조 오디오에서 고품질로 어떤 목소리든 복제합니다.
표현적인 연설
1.6B 파라미터는 뉘앙스가 있는 감정적 전달과 함께 매우 표현적인 연설을 생성합니다.
다국어
영어, 일본어, 중국어, 프랑스어, 독일어 지원.
사용 사례
감정적으로 표현적인 콘텐츠 제작
감정과 게임 캐릭터 음성
분위기와 오디오북 내레이션
대화형 음성 경험
사용 방법 영역
-
1
가입하거나 데모를 열기
무료 TextToSpeechAI 계정을 만들어 스타터 크레딧을 얻거나 Zonos를 바로 시도하기 위해 가입 데모를 사용하십시오.
-
2
Zonos 엔진 선택
음성을 복제하려면 Zonos가 스피커와 일치하도록 5-30초의 깨끗한 참조 오디오를 업로드하십시오.
-
3
텍스트 입력
음성으로 듣고 싶은 스크립트를 입력하거나 붙여넣습니다. Zonos는 영어, 일본어, 중국어, 프랑스어, 독일어로 작동합니다.
-
4
감정을 선택하고 생성
중립, 행복, 슬픔, 분노, 두려움, 놀람, 혐오 등 일곱 가지 Zonos 감정 중 하나를 선택한 다음 생성을 클릭하여 해당 분위기에 맞는 표현적인 음성을 렌더링합니다.
-
5
API 다운로드 또는 사용
완성된 오디오를 재생하고 다운로드하거나 자동화된 워크플로우를 위해 TextToSpeechAI REST API를 통해 동일한 Zonos 엔진을 프로그래밍으로 호출할 수 있습니다.
영역 API
TextToSpeechAI REST API를 사용하여 프로그래밍 방식으로 음성을 생성합니다.
curl -X POST "https://api.texttospeechai.com/v1/generate/" \
-H "Authorization: Bearer YOUR_API_TOKEN" \
-H "Content-Type: application/json" \
-d '{
"text": "Zonos는 미세한 감정 제어로 놀라울 정도로 표현력 있는 음성을 생성합니다.",
"voice": "en_US-lessac-medium"
}'
자주 묻는 질문
Zonos는 Zyphra의 1.6B 파라미터 텍스트-음성 모델입니다. 이 모델은 미세한 감정 제어와 고품질 음성 복제를 통해 표현적인 음성 생성을 전문으로 합니다. TextToSpeechAI에서 Zonos는 가장 미묘하고 감정적으로 풍부한 오디오를 위한 울트라-티어 엔진으로 실행됩니다.
Zonos는 코드와 모델 가중치 모두에 대해 아파치 2.0 라이선스 하에 출시되므로 크레딧이나 비상업적 제한 없이 상업용 제품에서 자유롭게 사용할 수 있습니다. 이는 유료 앱, 클라이언트 작업 및 수익성 콘텐츠에 안전하게 사용할 수 있도록 해줍니다.
Zonos는 생성하기 전에 선택한 중립, 행복, 슬픔, 분노, 두려움, 놀라움, 혐오의 일곱 가지 감정 상태를 노출합니다. 모델은 선택한 감정에 따라 전달을 조건화하고 톤, 페이스, 음조를 변경하여 동일한 문장이 즐겁거나 화가 나도록 합니다. 이로 인해 Zonos는 특정한 분위기가 필요한 캐릭터 목소리와 대화에 이상적입니다.
Zonos는 중립, 행복, 슬픔, 분노, 두려움, 놀람, 혐오 등 7가지 감정 옵션을 지원합니다. 전체 클립의 감정 톤을 설정하기 위해 세대당 하나씩 선택할 수 있습니다.
Zonos는 5-30초의 참조 오디오로부터 목소리를 복제하여 스피커의 특성을 추출하고 새로운 음성으로 재생합니다. 7가지 감정 중 하나와 복제를 결합하여 복제된 목소리가 행복하거나, 화가 나거나, 두려워하는 소리가 나도록 할 수 있습니다.
영어, 일본어, 중국어, 프랑스어, 독일어 5개 언어를 지원하며, 감정 제어 및 음성 복제 기능이 이 언어들을 모두 지원합니다.
Zonos는 1.6B 파라미터 크기 때문에 중간 속도로 실행되며, 원시 처리량을 뛰어난 표현력이 뛰어난 출력으로 교환합니다. 감정적이고 복제된 음성에 대한 품질은 최고 중 하나이므로 대량 실시간 생성 대신 최종 제작 오디오에 적합합니다.
Zonos는 1.6B 파라미터 모델을 위해 8GB 이상의 VRAM을 필요로 합니다. 음성 복제와 감정 제어를 결합할 때 편안한 작동을 위해 최소 10GB의 GPU가 권장됩니다. TextToSpeechAI에서는 이 모든 것이 우리의 GPU 백엔드에서 실행되므로, 귀하 자신의 하드웨어가 필요하지 않습니다.
Zonos는 1,000자당 50 크레딧으로 청구되는 울트라 계층 엔진입니다. 울트라 계층은 StyleTTS2, Tortoise, OpenVoice와 동일한 높은 모델과 고급 감정 및 복제 기능을 반영합니다.
Zonos는 7개의 이산적인 감정 상태와 현대적인 1.6B 아키텍처를 제공하며 OpenVoice는 친절, 즐거움, 속삭임과 같은 톤 스타일을 매우 빠른 즉각적인 클론화로 제공합니다. 명확한 감정 선택과 최대의 표현력을 원할 때 Zonos를 선택하십시오. 가볍고 빠른 톤 시프트를 원할 때 OpenVoice를 선택하십시오.
Bark는 [웃음]과 [탄식]과 같은 표현 마커를 추가하지만 제한된 클론을 제공하며 Dia는 비언어적 소리를 가진 다중 스피커 대화에 초점을 맞춥니다. Zonos는 명확한 감정 선택과 강력한 단일 음성 클론을 중심으로 각 클립의 분위기를 정확하게 제어할 수 있습니다. 이모티콘 태그, 대화 턴, 선택 가능한 감정이 필요하든 필요하지 않든 엔진을 선택하십시오.
네, 새로운 TextToSpeechAI 계정은 무료로 시작 크레딧을 받으며, 데모는 가입하지 않고도 샘플 오디오를 생성할 수 있습니다. 추가 크레딧을 구입하기 전에 Zonos의 감정 제어 및 음성 복제를 테스트하기에 충분합니다.
Technical Specs
- Generation Speed Medium
- Output Quality Excellent
- Voice Cloning Supported
- Languages 5
- GPU VRAM 8GB+
- Credits/1000 chars 50