দিন

Ultra

ডায়ালগ-উদ্দেশ্যপূর্ণ TTS, ভয়েস ক্লোনিং এবং অবাক্যগত শব্দ সহ

Medium গতি
Excellent গুণমান
হ্যাঁ ক্লোনিং
1 ভাষা

পরিচিতি দিন

ing the ability to generate dialogue from 1000-1500 words, and is capable of generating 1000-2000 words per second. Dia is an open source text-to-speech model that allows users to create dialogues from 1000-2000 words. Dia is an open source text-to-speech model that allows users to create dialogues from 1000 words per second.

প্রধান বৈশিষ্ট্য

ডায়ালগ তৈরি করো

স্বতন্ত্র কণ্ঠস্বর এবং ধাপে ধাপে প্রাকৃতিক মাল্টি-স্পিকার কথোপকথন তৈরি করুন।

অবাক্যগত শব্দ

স্বাভাবিক ভাষাগত অভিব্যক্তির জন্য [হাসি], [শ্বাসকষ্ট], [কাশির শব্দ], (শ্বাসকষ্ট) যোগ করুন।

শব্দ ক্লোনিং

ব্যক্তিগত বক্তৃতার জন্য ৫-১০ সেকেন্ডের রেফারেন্স অডিও থেকে যেকোন শব্দ ক্লোন করুন।

প্রাকৃতিক কথাবার্তা

১.৬বি প্যারামিটার উচ্চ প্রাকৃতিক কথাবার্তা প্রসডি এবং ইটোনেশন উৎপাদন করে।

ব্যবহারের ক্ষেত্রে

ডায়ালগ এবং কথোপকথন উৎপাদন একাধিক অক্ষর সহ অডিওবই উৎপাদন খেলার চরিত্রের শব্দ পডকাস্ট এবং বিষয়বস্তু সৃষ্টি

ব্যবহারের নিয়ম দিন

  1. 1

    বিনামূল্যে নিবন্ধন করুন অথবা ডেমো খুলুন

    Create a free TextToSpeechAI account to claim your starter credits, or open the no-signup demo to try Dia dialogue right away.

  2. 2

    Dia ইঞ্জিন নির্বাচন করুন

    TTS ড্যাশবোর্ডে ইঞ্জিন তালিকা থেকে Dia নির্বাচন করুন। Dia হল ডায়ালগ-উদ্দেশ্যক, বহু-স্পিকার এবং ভয়েস-ক্লোনিং সমর্থন সহ অতিরিক্ত-স্তর মডেল।

  3. 3

    ট্যাগ সহ একটি ডায়ালগ স্ক্রিপ্ট লিখুন

    [S1] এবং [S2] ব্যবহার করে আপনার কথোপকথন লিখুন, যাতে প্রতিটি বক্তার বার্তা চিহ্নিত করা যায়, এবং যেখানে আপনি স্বাভাবিক প্রতিক্রিয়া চান সেখানে [হাসি], [শ্বাসকষ্ট], [কাশি] বা (শ্বাসকষ্ট) এর মতো অবাক্যগত ট্যাগ ব্যবহার করুন।

  4. 4

    অডিও তৈরি করুন

    আমাদের হোস্ট করা GPU-তে আপনার Dia স্ক্রিপ্ট পাঠাতে তৈরি করুন ক্লিক করুন। Dia টুর-টেকিং এবং আপনার অবাক্যগত ট্যাগ সহ দুই স্পিকারের ডায়ালগকে একটি অডিও ফাইলে রূপান্তর করে।

  5. 5

    API ডাউনলোড অথবা কল করুন

    আপনার পছন্দের ফরম্যাটে সম্পূর্ণ ডায়ালগ ডাউনলোড করুন, অথবা আপনার অ্যাকাউন্ট টোকেন সহকারে TextToSpeechAI API-এ একই [S1]/[S2] স্ক্রিপ্ট পোস্ট করে স্বয়ংক্রিয়ভাবে এটি সম্পন্ন করুন।

দিন অ্যাপলিকেশন প্রযুক্তিগত উপযোগিতা (API)

TextToSpeechAI REST API ব্যবহার করে প্রোগ্রামিং দ্বারা বাক্যের উৎপাদন করুন।

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "[S1] হ্যালো! আজকে কেমন আছো? [হাসি] [S2] আমি খুব ভাল আছি, জিজ্ঞাসা করার জন্য ধন্যবাদ!",
    "voice": "en_US-lessac-medium"
  }'

প্রায়শই জিজ্ঞাসিত প্রশ্ন

Dia একটি ১.৬ বিট প্যারামিটার ডায়ালগ-উদ্দেশ্যিত টেক্সট-টু-স্পিকার মডেল Nari Labs থেকে। এটি একাধিক স্পিকার, অবাক্যগত শব্দ এবং ভয়েস ক্লোনিং সমর্থন সহকারে প্রাকৃতিক কথোপকথন ভাষা তৈরিতে বিশেষজ্ঞ।

হ্যাঁ, Dia সম্পূর্ণভাবে Apache 2.0-এর লাইসেন্সপ্রাপ্ত - কোড এবং মডেল উভয়ই। এটি বাণিজ্যিক অ্যাপ্লিকেশনে মুক্তভাবে ব্যবহার করা যেতে পারে।

বর্তমানে Dia শুধুমাত্র ইংরেজি সমর্থন করে । মডেলটি স্বাভাবিক ইংরেজি কথোপকথনের জন্য অনুকূলিত ।

Dia requires approximately 10GB of VRAM for its 1.6B parameter model. A GPU with at least 12GB is recommended for comfortable operation. On TextToSpeechAI all of this runs on our hosted GPUs, so you do not need any hardware of your own.

হ্যাঁ - ডায়ালগ হচ্ছে Dia- এর নির্মিত মূল অংশ । আপনার স্ক্রিপ্ট- এ [S1] এবং [S2] বার পরিবর্তন করে Dia TTS একটি দুই- স্পিকারের কথাবার্তা তৈরি করে, যেখানে আলাদা আলাদা কণ্ঠস্বর এবং বাস্তবসম্মত বার গ্রহণ করা হয়, যা একক স্পিকার TTS মডেলের ক্ষেত্রে অর্জন করা কঠিন ।

আপনার স্ক্রিপ্ট-এর প্রতিটি লাইন [S1] অথবা [S2] দ্বারা পূর্ববর্তী চিহ্নিত করুন যে কে কথা বলছে। Dia প্রতিটি ট্যাগের জন্য একটি স্থায়ী কন্ঠ নির্ধারণ করে এবং কথাবার্তা চলাকালীন তাদের মধ্যে পরিবর্তন করে, তাই [S1] এবং [S2] আপনার ডায়ালগের দুইটি অক্ষর হিসাবে কাজ করে।

হ্যাঁ। Dia প্রায় ৫-১০ সেকেন্ডের পরিষ্কার রেফারেন্স অডিও থেকে শব্দ ক্লোনিং সমর্থন করে, আপনাকে স্পিকারের জন্য একটি নির্দিষ্ট শব্দ পুনরায় ব্যবহার করতে দেয়। আপনি [S1]/[S2] ট্যাগের সাথে ক্লোনিং একত্রিত করতে পারেন যাতে ডায়ালগের প্রতিটি অক্ষর আপনি ক্লোন করা শব্দের মতো শোনায়।

ডায়া [হাসি], [শ্বাসকষ্ট], [কাশি] এবং (শ্বাসকষ্ট) শব্দের পরিবর্তে স্বাভাবিক ভাষাগত শব্দের সাথে মিশে যায়। আপনি যেখানে প্রতিক্রিয়া চান সেখানে একটি ট্যাগ দিন - উদাহরণস্বরূপ "[S1] এটা মজার [হাসি]" - যাতে কথাবার্তাটি আরও মানবিক অনুভূতি তৈরি করে।

Dia এবং Bark উভয়ই অভিব্যক্তিমূলক অবাচক শব্দ সমর্থন করে, কিন্তু Dia উদ্দেশ্যমূলকভাবে মাল্টি-স্পিকার ডায়ালগ [S1]/[S2] বার-গ্রহণ এবং ভয়েস ক্লোনিং এর জন্য নির্মিত। বাস্তবসম্মত দুই-ব্যক্তির কথোপকথন এবং চরিত্র কাজের জন্য Dia বেছে নিন; Bark একটি ভাল ফিট যখন আপনার একক-কণ্ঠের বর্ণনায় বিস্তৃত ভাষার কভারেজ প্রয়োজন।

Dia একটি আল্ট্রা-টিয়ার ইঞ্জিন, তাই প্রতি ১০০০ অক্ষর তৈরি করা কথার জন্য ৫০ ক্রেডিট খরচ হয়। আল্ট্রা-টিয়ারটি বড় ১.৬বি মডেল এবং উচ্চমানের কথার জন্য এটি ব্যবহার করে ~১০ জিবি জিপিইউ মেমরি।

Yes. New TextToSpeechAI accounts include free starter credits, and there is a demo you can run without signing up. That is enough to generate a short Dia dialogue with [S1]/[S2] tags before deciding on a paid plan.

Yes. Once you have an API token from your account page you can submit Dia dialogue scripts - including [S1]/[S2] turns and tags like [laughs] - to the TextToSpeechAI REST API and download the resulting audio programmatically.

Technical Specs

  • Generation Speed Medium
  • Output Quality Excellent
  • Voice Cloning Supported
  • Languages 1
  • GPU VRAM 10GB
  • Credits/1000 chars 50

Try দিন Now

Generate your first audio free. No credit card required.

Start Free