दिन

Ultra

आवाज क्लोनिङ र गैर-मौखिक ध्वनिसँग संवाद-उन्मुख TTS

Medium गति
Excellent गुणस्तर
हो क्लोनिङ
1 भाषा

यसका बारेमा दिन

ing the most accurate text-to-speech model for the most accurate text-to-speech results. Dia is the only text-to-speech model that can be used to generate natural conversational speech. Dia is the only text-to-speech model that can be used to generate natural conversational speech. Dia is the only text-to-speech model that can be used to generate natural conversational speech. Dia is the only text-to-speech model that can be used to generate natural conversational speech.

कुञ्जी विशेषताहरू

संवाद सिर्जना

विशिष्ट आवाज र टर्न-लिने संग प्राकृतिक बहु-स्पीकर कुराकानी सिर्जना गर्नुहोस्।

मौखिक नभएको ध्वनि

प्राकृतिक पारभाषा अभिव्यक्तिका लागि [हस्य], [सिँगान], [खोकी], (गास) थप्नुहोस् ।

आवाज क्लोनिङ

व्यक्तिगत भाषण लागि सन्दर्भ अडियो को 5-10 सेकेन्ड देखि कुनै पनि आवाज क्लोन।

प्राकृतिक कुराकानी

यसको क्षेत्रफल ६६.६६ वर्गकिलोमिटर रहेको छ ।

केस प्रयोग गर्नुहोस्

संवाद र वार्तालाप सिर्जना बहुविध क्यारेक्टरहरूसँग अडियो पुस्तक उत्पादन खेल क्यारेक्टर आवाज पोडकास्ट र सामग्री सिर्जना

कसरी प्रयोग गर्ने दिन

  1. 1

    नि: शुल्क दर्ता गर्नुहोस् वा डेमो खोल्नुहोस्

    आफ्नो सुरुआत क्रेडिट दाबी गर्न एक निःशुल्क TextToSpeechAI खाता सिर्जना गर्नुहोस्, वा डाय संवाद तुरुन्तै प्रयास गर्न कुनै-साइन अप डेमो खोल्नुहोस्।

  2. 2

    डाय इन्जिन चयन गर्नुहोस्

    TTS डैशबोर्डमा इन्जिन सूचीबाट Dia चयन गर्नुहोस्। Dia संवाद-उन्मुख, बहु-स्पीकर र आवाज-क्लोनिङ समर्थन संग अल्ट्रा-तह मोडेल हो।

  3. 3

    ट्यागसँग संवाद स्क्रिप्ट लेख्नुहोस्

    प्रत्येक वक्ता घुमाउन चिन्ह [S1] र [S2] प्रयोग गरेर आफ्नो कुराकानी रचना, र [हसी], [सहिष्णु], [खोकी], वा (gasps) जहाँ तपाईं प्राकृतिक प्रतिक्रिया चाहनुहुन्छ जस्तै गैर-मौखिक ट्याग मा गिर.

  4. 4

    अडियो सिर्जना गर्नुहोस्

    हाम्रो होस्ट GPUs मा तपाईँको डाय स्क्रिप्ट पठाउन सिर्जना गर्नुहोस् क्लिक गर्नुहोस् । डायले एकल अडियो फाइलमा घुमाइ- लिने र तपाईँको गैर-मौखिक ट्यागसँग दुई वक्ता संवाद रेन्डर गर्दछ ।

  5. 5

    API डाउनलोड गर्नुहोस् वा कल गर्नुहोस्

    आफ्नो रोजेको ढाँचामा समाप्त संवाद डाउनलोड, वा आफ्नो खाता टोकन संग TextToSpeechAI एपीआई गर्न एउटै [S1] / [S2] स्क्रिप्ट पोस्ट गरेर स्वचालित यो.

दिन एपीआई

Generate speech programmatically using the TextToSpeechAI REST API.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "[S1] नमस्ते! आज तपाईँ कस्तो हुनुहुन्छ? [हसी] [S2] म राम्रो गरिरहेको छु, सोध्नु भएकोमा धन्यवाद!",
    "voice": "en_US-lessac-medium"
  }'

प्राय सोधिने प्रश्न

डाय नारी ल्याबबाट १. ६ बी परिमिति संवाद- उन्मुख पाठ- देखि- बोली मोडेल हो । यो बहुविध वक्ताहरू, अव्यक्त ध्वनिहरू र आवाज क्लोनिङका लागि समर्थनको साथ प्राकृतिक संवादात्मक भाषण उत्पन्न गर्न विशेषज्ञ छ ।

हो, Dia पूर्णतया Apache 2.0 लाइसेन्स गरिएको छ - दुवै कोड र नमूना वजन। यो व्यावसायिक अनुप्रयोगहरूमा स्वतन्त्र रूपमा प्रयोग गर्न सकिन्छ।

हाल डायले अंग्रेजी मात्र समर्थन गर्दछ । नमूना प्राकृतिक अंग्रेजी संवादात्मक भाषणका लागि अनुकूलित छ ।

डायले यसको 1.6B परिमिति मोडेलको लागि VRAM को लगभग 10GB आवश्यक पर्दछ। कम्तिमा 12GB संग GPU को आरामदायक सञ्चालनको लागि सिफारिस गरिन्छ। TextToSpeechAI मा यो सबै हाम्रो होस्ट GPUs मा चल्छ, त्यसैले तपाईलाई आफ्नो कुनै पनि हार्डवेयरको आवश्यकता पर्दैन।

हो - संवाद डायका लागि निर्माण गरिएको हो । तपाईँको स्क्रिप्टमा [S1] र [S2] घुमाइहरू बदली गरेर, डाय TTS ले फरक आवाजहरू र वास्तविक घुमाइ- लिनेसँग प्रवाहित दुई वक्ता संवाद उत्पादन गर्दछ, जुन एकल वक्ता TTS मोडेलहरूसँग प्राप्त गर्न कठिन छ ।

[S1] वा [S2] संग तपाईँको स्क्रिप्टको प्रत्येक लाइनमा प्रीफिक्स चिन्ह जो कुरा गर्दै छ. Dia प्रत्येक ट्याग एक निरन्तर आवाज मानाङ्कन र वार्तालाप सार्दा तिनीहरू बीच स्विच, त्यसैले [S1] र [S2] आफ्नो संवाद मा दुई क्यारेक्टर रूपमा कार्य.

हो । डायले तपाईँलाई वक्ताका लागि विशिष्ट आवाज पुन: प्रयोग गर्न अनुमति दिने, सफा सन्दर्भ अडियोको लगभग ५-१० सेकेन्डबाट आवाज क्लोनिङ समर्थन गर्दछ । तपाईँले [S1]/[S2] ट्यागहरूसँग क्लोनिङ संयोजन गर्न सक्नुहुन्छ ताकि संवादमा प्रत्येक क्यारेक्टरले तपाईँले क्लोन गरेको आवाज जस्तै आवाज सुन्दछ ।

डायले [हस्य], [सिँगान], [खोकी], र (गास) लाई बोलिएका शब्दको सट्टामा भाषणमा बुनिएको प्राकृतिक पारलिङ्गुस्टिक ध्वनिको रूपमा रेन्डर गर्दछ । संवादलाई मानवीय बनाउन तपाईँले प्रतिक्रिया चाहनु भएको ठाउँमा ट्याग राख्नुहोस् - उदाहरणका लागि "[S1] That is hilarious [laughs]" - ।

दुवै डाय र बार्कले अभिव्यक्तिमूलक गैर-मौखिक ध्वनि समर्थन गर्दछ, तर डाय [S1] / [S2] टर्न-टेकिङ र आवाज क्लोनिङको साथ बहु-स्पीकर संवादका लागि उद्देश्य-बनाएको छ। यथार्थवादी दुई-व्यक्ति कुराकानी र क्यारेक्टर कामका लागि डाय चयन गर्नुहोस्; बार्क एकल-स्वर वर्णनमा तपाईँलाई व्यापक भाषा कवरेज आवश्यक पर्दा राम्रो फिट हो।

डाय एक अल्ट्रा-तह इन्जिन हो, त्यसैले यो खर्च 50 प्रति 1,000 वर्ण उत्पन्न भाषण को प्रति 1000 क्रेडिट. अल्ट्रा तह ठूलो 1.6B मोडेल र ~ 10GB GPU स्मृति उच्च गुणवत्ता संवाद लागि प्रयोग गर्दछ प्रतिबिम्बित.

हो। नयाँ TextToSpeechAI खाताहरू निःशुल्क सुरु क्रेडिट समावेश, र त्यहाँ एक डेमो छ तपाईं साइन अप बिना चलाउन सक्नुहुन्छ। कि एक भुक्तानी योजना मा निर्णय अघि [S1] / [S2] ट्याग संग एक छोटो डाय संवाद उत्पन्न गर्न पर्याप्त छ।

हो। एक पटक तपाईं आफ्नो खाता पृष्ठबाट एक एपीआई टोकन छ तपाईं Dia संवाद स्क्रिप्ट पेश गर्न सक्नुहुन्छ - सहित [S1] / [S2] घुम्छ र [हसी] जस्तै ट्याग - TextToSpeechAI REST एपीआई र परिणाम अडियो प्रोग्रामेटिक डाउनलोड.

Technical Specs

  • Generation Speed Medium
  • Output Quality Excellent
  • Voice Cloning Supported
  • Languages 1
  • GPU VRAM 10GB
  • Credits/1000 chars 50

Try दिन Now

Generate your first audio free. No credit card required.

Start Free