날씨

Ultra

음성 복제 및 비언어적 소리를 사용한 대화 중심 TTS

Medium 속도
Excellent 품질
복제
1 언어

정보 날씨

ing the most accurate text-to-speech results for the most complex texts. Dia is a 1.6B parameter text-to-speech model that is designed to generate natural conversational speech with support for nonverbal sounds like laughter, sighs, and coughs. It excels at generating the most accurate text-to-speech results for the most complex texts. Dia is a 1.6B parameter text-to-speech model that

주요 기능

대화상자 생성

독특한 음성과 턴테이킹으로 자연스러운 다중 스피커 대화를 생성합니다.

비언어적 소리

자연스러운 언어적 표현을 위해 [웃음], [탄식], [기침], (숨을 들이마신다)를 추가합니다.

음성 복제

개인화된 음성을 위해 5-10초의 참조 오디오에서 모든 음성을 복제합니다.

자연스러운 대화

1.6B 파라미터는 매우 자연스러운 대화 음운과 억양을 생성합니다.

사용 사례

대화 및 대화 생성 여러 문자를 사용한 오디오북 제작 게임 캐릭터 목소리 Podcast 및 콘텐츠 제작

사용 방법 날씨

  1. 1

    무료로 가입하거나 데모를 열어보세요

    무료 TextToSpeechAI 계정을 만들어 시작 크레딧을 주장하거나 Dia dialogue를 바로 시도하기 위해 가입 없는 데모를 엽니 다.

  2. 2

    Dia 엔진 선택

    TTS 대시보드에서 엔진 목록에서 Dia를 선택합니다. Dia는 다중 스피커 및 음성 복제 지원을 갖춘 대화 지향적이고 울트라 계층 모델입니다.

  3. 3

    태그를 사용한 대화상자 스크립트 작성

    [S1]와 [S2]를 사용하여 각 스피커 턴을 표시하고 [웃음], [탄식], [기침] 또는 (숨을 쉬는)과 같은 비언어적 태그를 자연스러운 반응을 원하는 곳에 드롭하여 대화를 작성하십시오.

  4. 4

    오디오 생성

    생성 을 클릭하여 Dia 스크립트를 호스팅된 GPU로 보냅니다. Dia는 턴테이킹과 비언어적 태그를 포함한 두 스피커 대화를 단일 오디오 파일로 렌더링합니다.

  5. 5

    API 다운로드 또는 호출

    선택한 형식으로 완성된 대화 상자를 다운로드하거나, 계정 토큰을 사용하여 TextToSpeechAI API에 동일한 [S1]/[S2] 스크립트를 게시하여 자동화합니다.

날씨 API

TextToSpeechAI REST API를 사용하여 프로그래밍 방식으로 음성을 생성합니다.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "[S1] 안녕하세요! 오늘은 어떠세요? [웃음] [S2] 괜찮아요, 질문해 주셔서 감사합니다!",
    "voice": "en_US-lessac-medium"
  }'

자주 묻는 질문

Dia는 Nari Labs의 1.6B 파라미터 대화 중심 텍스트 음성 모델로, 다중 스피커, 비언어적 소리, 음성 복제를 지원하는 자연스러운 대화 음성을 생성하는 것을 전문으로 합니다.

네, Dia는 코드와 모델 가중치 모두 아파치 2.0 라이선스를 받았으며 상업적 응용 프로그램에서 자유롭게 사용할 수 있습니다.

현재 Dia는 영어만 지원합니다. 이 모델은 자연스러운 영어 대화에 최적화되어 있습니다.

Dia는 1.6B 파라미터 모델을 위해 약 10GB의 VRAM이 필요합니다. 편안한 작동을 위해 최소 12GB의 GPU가 권장됩니다. TextToSpeechAI에서는 이 모든 것이 우리의 호스팅 GPU에서 실행되므로, 귀하의 하드웨어가 필요하지 않습니다.

네, Dia는 대화를 위해 만들어졌습니다. 스크립트에서 [S1]와 [S2] 턴을 교대로 변경함으로써 Dia TTS는 독특한 목소리와 현실적인 턴테이킹을 통해 두 스피커의 대화를 생성합니다. 단일 스피커 TTS 모델에서는 이러한 효과를 얻기가 어렵습니다.

스크립트의 각 줄에 [S1] 또는 [S2] 를 앞에 붙여서 누가 말하는지를 표시합니다. Dia는 각 태그에 일관된 목소리를 할당하고 대화가 진행됨에 따라 그 목소리를 전환합니다. [S1] 과 [S2] 는 대화에서 두 캐릭터로 작동합니다.

Dia는 5-10초의 깨끗한 참조 오디오로부터 음성 클론을 지원하므로, 특정 음성을 스피커에 재사용할 수 있습니다. 클론을 [S1]/[S2] 태그와 결합하여 대화의 각 문자가 클론한 음성과 같이 들리도록 할 수 있습니다.

Dia는 [웃음], [탄식], [기침], (숨을 헐떡이는 소리)를 말하는 단어가 아닌 자연스러운 언어와 관련된 소리로 렌더링합니다. 대화를 더 인간적으로 느끼기 위해 반응을 원하는 곳에 태그를 붙여보세요. 예를 들어 "[S1] That is hilarious [laughs]" 라고 붙여보세요.

Dia와 Bark 모두 표현적인 비언어적 소리를 지원하지만 Dia는 [S1]/[S2] 턴테이킹 및 음성 복제 기능을 갖춘 다중 스피커 대화를 위해 특별히 제작되었습니다. 현실적인 2인 대화 및 캐릭터 작업을 위해 Dia를 선택하십시오. Bark는 단일 음성 내레이션에서 광범위한 언어 커버리지가 필요할 때 더욱 적합합니다.

Dia는 울트라 계층 엔진으로 생성된 음성 1,000자당 50 크레딧이 소요됩니다. 울트라 계층은 더 큰 1.6B 모델과 고품질 대화를 위해 사용하는 ~10GB의 GPU 메모리를 반영합니다.

네, 새로운 TextToSpeechAI 계정에는 무료 시작 크레딧이 포함되어 있으며, 가입하지 않고도 실행할 수 있는 데모가 있습니다. 유료 계획을 결정하기 전에 [S1]/[S2] 태그를 사용하여 짧은 Dia 대화 상자를 생성하는 데 충분합니다.

예. 계정 페이지에서 API 토큰을 얻으면 [S1]/[S2] 턴과 [laughs]와 같은 태그를 포함한 Dia 대화 스크립트를 TextToSpeechAI REST API에 제출하고 프로그래밍 방식으로 결과 오디오를 다운로드할 수 있습니다.

Technical Specs

  • Generation Speed Medium
  • Output Quality Excellent
  • Voice Cloning Supported
  • Languages 1
  • GPU VRAM 10GB
  • Credits/1000 chars 50

Try 날씨 Now

Generate your first audio free. No credit card required.

Start Free