कोकोरो

Standard

प्राकृतिक गुणस्तर संग चम्किलो- छिटो, हल्का TTS

Very Fast गति
Good गुणस्तर
होइन क्लोनिङ
9 भाषा

यसका बारेमा कोकोरो

82M parameter TTS model, which is the most powerful TTS model available. It is the first TTS model to support 82M parameters, and the first TTS model to support 82M parameters in the world. Kokoro is the first TTS model to support 82M parameters in the world.

कुञ्जी विशेषताहरू

अति हल्का

82M परिमितिहरू, ~300MB मोडेल साइज। न्यूनतम स्रोतहरूसँग सीपीयूमा चल्छ।

वास्तविक समय नजिक

GPU त्वरण बिना पनि, प्लेब्याक गति भन्दा छिटो भाषण उत्पन्न गर्दछ ।

बहुभाषिक

अंग्रेजी, फ्रान्सेली, स्पेनिश, हिन्दी, जापानी, चिनियाँ, इटालियन, पोर्चुगिज, र कोरियाली समर्थन गर्दछ।

आवाज मिश्रण

अद्वितीय आवाज संयोजन सिर्जना गर्न दुई आवाजहरू एकैसाथ मिश्रण गर्नुहोस् ।

केस प्रयोग गर्नुहोस्

वास्तविक समय च्याटबोट र अवास्तविक सहायक पाठ-देखि-भाषण लाइभ स्ट्रिमिङ किनारा तैनाती र मोबाइल अनुप्रयोगहरू उच्च भोल्युम ब्याच प्रक्रिया

कसरी प्रयोग गर्ने कोकोरो

  1. 1

    निःशुल्क दर्ता गर्नुहोस् वा डेमो प्रयास गर्नुहोस्

    200 स्टार्ट क्रेडिटहरू प्राप्त गर्न एक नि: शुल्क TextToSpeechAI खाता सिर्जना गर्नुहोस्, वा कोकोरो सुन्न तत्काल कुनै-साइन अप डेमो प्रयोग गर्नुहोस्। मानक तहको अर्थ कोकोरो प्रति 1000 क्यारेक्टरहरूमा 10 क्रेडिटहरू मात्र खर्च हुन्छ।

  2. 2

    कोकोरो आवाज चयन गर्नुहोस्

    आवाज ब्राउजर खोल्नुहोस् र आफ्नो लक्ष्य भाषामा कोकोरो आवाज चयन गर्नुहोस् (9 समर्थित, अंग्रेजी देखि जापानी र कोरियाली). तपाईं पनि अनुकूल संयोजनमा दुई आवाज मिश्रण गर्न कोकोरो आवाज मिश्रण प्रयोग गर्न सक्नुहुन्छ।

  3. 3

    तपाईँको पाठ प्रविष्ट गर्नुहोस्

    टाइप वा टाँस्नुहोस् तपाईँले सम्पादकमा बोल्न चाहनु भएको पाठ । कोकोरोले लामो पदहरू कुशलतापूर्वक यसको हल्का 82M-परिमिति, नजिकैको वास्तविक-समय इन्जिनलाई धन्यवाद ह्यान्डल गर्दछ ।

  4. 4

    गति समायोजन गर्नुहोस् र सिर्जना गर्नुहोस्

    तपाईँको प्रयोगको केस मिलाउन प्लेब्याक गति सेट गर्नुहोस्, त्यसपछि उत्पन्न गर्नुहोस् क्लिक गर्नुहोस् । कोकोरोले वास्तविक समय भन्दा अडियो छिटो रेन्डर गर्दछ, त्यसैले तपाईँको भाषण लगभग तुरुन्तै तयार हुन्छ ।

  5. 5

    API डाउनलोड वा प्रयोग गर्नुहोस्

    MP3 वा WAV को रूपमा समाप्त अडियो डाउनलोड गर्नुहोस्, वा ब्याच र वास्तविक समय कार्यभारको लागि api.texttospeechai.com मा TextToSpeechAI REST API मार्फत उत्पादन स्वचालित गर्नुहोस्।

कोकोरो एपीआई

Generate speech programmatically using the TextToSpeechAI REST API.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "यसले प्राकृतिक र मानवीय दुवै प्रकारका क्रियाकलापलाई प्रभाव पार्छ।",
    "voice": "en_US-lessac-medium"
  }'

प्राय सोधिने प्रश्न

कोकोरो केवल 82 मिलियन परिमितिहरूको साथ एक अति-लामो-लामो पाठ-देखि-भाषण मोडेल हो। यसको सानो आकारको बावजुद, यो सीपीयूमा पनि, धेरै भाषाहरूमा नजिकको वास्तविक समय गतिमा प्राकृतिक-सुन्ने भाषण उत्पादन गर्दछ।

हो, कोकोरो पूर्ण रूपमा अपाचे 2.0 लाइसेन्स गरिएको छ - दुवै कोड र मोडेल तौल। यो कुनै प्रतिबन्ध बिना व्यावसायिक अनुप्रयोगहरूमा स्वतन्त्र रूपमा प्रयोग गर्न सकिन्छ।

कोकोरोले अङ्ग्रेजी (अमेरिका र ब्रिटिस), फ्रान्सेली, स्पेनिश, हिन्दी, जापानी, चिनियाँ, इटालियन, पोर्चुगिज र कोरियाली भाषाहरूको समर्थन गर्दछ।

कोकोरो उपलब्ध छिटो TTS मोडेल मध्ये एक हो । यसले सीपीयूमा पनि वास्तविक समय प्लेब्याक गति भन्दा छिटो भाषण उत्पन्न गर्दछ, अन्तरक्रियात्मक अनुप्रयोगहरूका लागि यो आदर्श बनाउँदै ।

होइन, कोकोरोले आवाज प्रतिलिपि समर्थन गर्दैन । यसले आवाज मिश्रण क्षमतासँग एक रेखात्मक आवाज लाइब्रेरी प्रयोग गर्दछ । आवाज प्रतिलिपिका लागि, F5-TTS, च्याटरबाकस, StyleTTS2, OpenVoice, वा Tortoise प्रयोग गर्नुहोस् ।

कोकोरोले अद्वितीय संयोजन सिर्जना गर्न दुई आवाजहरू एकैसाथ मिश्रण गर्न सक्छ । यसले परम्परागत आवाज क्लोनिङ बिना अनुकूल आवाज विशेषताहरू सिर्जना गर्न अनुमति दिन्छ ।

दुवै छिटो, हल्का मोडेलहरू हुन्। कोकोरोसँग धेरै आधुनिक वास्तुकला छ र आवाज मिश्रण समर्थन गर्दछ, जबकि पाइपरसँग ठूलो आवाज लाइब्रेरी छ। दुवै वास्तविक समय अनुप्रयोगहरूका लागि उत्कृष्ट छन्।

कोकोरो सीपीयूमा चलाउन डिजाइन गरिएको छ र न्यूनतम संसाधनहरू आवश्यक पर्दछ - लगभग ३०० मेगाबाइट। कुनै जीपीयू आवश्यक छैन, यद्यपि जीपीयू गतिवर्धक अझै छिटो प्रक्रियाका लागि समर्थित छ।

हो। कोकोरो सीपीयूमा पनि प्लेब्याक भन्दा छिटो बोल्न उत्पन्न गर्दछ, धेरै कम लाटेन्सीसँग, त्यसैले यो च्याटबोटहरू, आवाज सहायकहरू र लाइव स्ट्रिमिंगको लागि उत्कृष्ट फिट हो। यसको 82M-परिमिति आकार स्मृति प्रयोग सानो राख्दछ, यसलाई उच्च-भोल्युम र किनारा तैनातीहरूको लागि व्यावहारिक बनाउँछ।

Voice blending lets you mix two Kokoro voices together to create a unique combination with custom characteristics. It is not traditional voice cloning - you cannot reproduce a specific person from a sample - but it gives you more variety than a fixed voice library. You can experiment with blends directly in the TextToSpeechAI editor.

दुवै छिटो, सीपीयू- मित्रवत आवाज क्लोन बिना मानक- तह इन्जिनहरू छन्। कोकोरो हल्का छ (300MB को बारेमा) र9भाषाहरूमा आवाज मिश्रण समर्थन गर्दछ, जबकि MeloTTS बहु अंग्रेजी उच्चारण र वास्तविक- समय बहुभाषिक निर्गतमा केन्द्रित छ। सानो फुटप्रिन्ट र मिश्रणको लागि कोकोरो रोज्नुहोस्; तपाईँलाई विशिष्ट उच्चारणहरू आवश्यक पर्दा MeloTTS रोज्नुहोस्।

कोकोरो एक मानक-तह इन्जिन हो, प्रति 1000 क्यारेक्टर 10 क्रेडिटहरूको लागत - TextToSpeechAI मा सबैभन्दा कम तह। नयाँ खाताहरू 200 नि: शुल्क क्रेडिटहरू प्राप्त गर्दछन्, त्यसैले तपाईं भुक्तानी बिना कोकोरोको प्रयास गर्न सक्नुहुन्छ। यो यो आकारमा उच्च गुणवत्ता भाषण उत्पन्न गर्न सबैभन्दा लागत प्रभावकारी तरिकाहरू मध्ये एक बनाउँछ।

Technical Specs

  • Generation Speed Very Fast
  • Output Quality Good
  • Voice Cloning Not Supported
  • Languages 9
  • GPU VRAM CPU OK
  • Credits/1000 chars 10

Try कोकोरो Now

Generate your first audio free. No credit card required.

Start Free