اون

Ultra

TTS مصاحبه‌گرا با شبیه‌سازی صدا و صداهای غیرکلامی

Medium سرعت
Excellent کیفیت
آره شبیه‌سازی
1 زبانها

در مورد اون

ing a 100% natural conversational speech with support for nonverbal sounds like laughter, sighs, and coughs. Dia supports multi-speaker dialogue generation and voice cloning from 5-10 seconds of reference audio, making it ideal for creating realistic conversational speech with support for nonverbal sounds like laughter, sighs, and coughs. Dia supports multi-speaker dialogue generation and voice cloning from

ویژگیهای کلیدی

تولید محاوره‌ها

تولید مکالمات طبیعی چندگوینده با صداهای متمایز و نوبت‌گیری.

صداهای غیر کلامی

براي تعبير طبيعي زباني، [خنده]، [تنهاشي]، [سرفه]، [تنفس] رو اضافه کنيد

شبیه‌سازی صدا

هر صدا را از ۵ تا ۱۰ ثانیه صدای مرجع برای گفتار شخصی کپی کنید.

گفتگوی طبیعی

پارامترهای ۱٫۶B تولید بسیار طبیعی و مکالمه ی طنازانه را تولید می کنند.

موارد استفاده

تولید گفتگو و مکالمه تولید کتاب صوتی با چند کاراکتر صداهای شخصیت بازی پادکست و ایجاد محتوا

چطور استفاده شود اون

  1. 1

    ثبت نام رایگان یا باز کردن نمایش

    در این نسخه از TextToSpeechAI، امکان استفاده از رمز عبور برای ورود به سیستم وجود ندارد و تنها می‌توانید با استفاده از یک کلید خصوصی وارد سیستم شوید.

  2. 2

    برگزیدن موتور Dia

    در صفحه نمایش TTS Dia را از فهرست موتور انتخاب کنید. Dia مدل فوق‌طبقه‌ای با محوریت گفتگو و پشتیبانی از چند بلندگو و شبیه‌سازی صدا است.

  3. 3

    نوشتن یک دست‌نوشتۀ محاوره‌ای با برچسب‌ها

    گفتگوی خود را با استفاده از [S1] و [S2] برای نشان دادن هر نوبت سخنران، و برچسب‌های غیرکلامی مانند [خنده]، [آهنگ]، [سرفه] یا (هواکشیدن) را در جایی که واکنش‌های طبیعی را می‌خواهید، بگذارید.

  4. 4

    تولید صدا

    برای ارسال دست‌نوشتۀ Dia به GPUهای میزبان ما ، روی تولید کلیک کنید. Dia گفتگوی دو بلندگو را با نوبت‌گیری و برچسب‌های غیرکلامی شما را به یک پروندۀ صوتی واحد تبدیل می‌کند.

  5. 5

    بارگیری یا فراخوانی API

    گفتگوی تمام شده را در قالب انتخابی خود دانلود کنید، یا آن را با ارسال همان اسکریپت [S1]/[S2] به API TextToSpeechAI با نشانه حساب خود خودکار کنید.

اون API

تولید گفتار به صورت برنامه‌ریزی شده با استفاده از REST API TextToSpeechAI.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "سلام امروز چطوری؟ حالم خوبه ممنونم که پرسیدی",
    "voice": "en_US-lessac-medium"
  }'

پرسشهای متداول

Dia یک مدل متن به گفتار با پارامتر ۱٫۶ بیتی از آزمایشگاه‌های ناری است که در تولید گفتار مکالمه‌ای طبیعی با پشتیبانی از چندین سخنران، صداهای غیرکلامی و شبیه‌سازی صدا تخصص دارد.

بله ، Dia کاملاً مجوز آپاچی ۲٫ ۰ را دارد — هم کد و هم وزن مدل. می‌تواند به صورت آزاد در برنامه‌های کاربردی تجاری استفاده شود.

در حال حاضر Dia فقط انگلیسی را پشتیبانی می‌کند. مدل برای گفتار مکالمه‌ای طبیعی انگلیسی بهینه شده‌است.

Dia requires approximately 10GB of VRAM for its 1.6B parameter model. A GPU with at least 12GB is recommended for comfortable operation. On TextToSpeechAI all of this runs on our hosted GPUs, so you do not need any hardware of your own.

بله - گفتگو دقیقاً چیزی است که Dia برای آن ساخته شده است. با متناوب کردن چرخشهای [S1] و [S2] در اسکریپت شما ، Dia TTS یک مکالمه دو طرفه روان با صداهای متمایز و نوبت‌گیری واقعی تولید می‌کند ، که با مدلهای TTS تک‌طرفه بدست آوردن آن دشوارتر است.

هر خط از اسکریپت خود را با [S1] یا [S2] پیشوند کنید تا نشان دهید چه کسی صحبت می‌کند. Dia یک صدای ثابت را به هر برچسب اختصاص می‌دهد و با حرکت مکالمه بین آنها عوض می‌کند ، بنابراین [S1] و [S2] به عنوان دو کاراکتر در مکالمه شما عمل می‌کنند.

بله. Dia از شبیه‌سازی صدا از حدود ۵- ۱۰ ثانیه از صدای مرجع تمیز پشتیبانی می‌کند ، که به شما اجازه می‌دهد صدای خاصی را برای یک بلندگو دوباره استفاده کنید. می‌توانید شبیه‌سازی را با برچسب‌های [S1]/[S2] ترکیب کنید ، بنابراین هر کاراکتر در یک گفتگو مانند صدایی که شبیه‌سازی کرده‌اید، صدا می‌دهد.

Dia صداهای [خنده] ، [تنفر] ، [سرفه] و (خنده) را به عنوان صداهای طبیعی پارازبانی که به جای کلمات گفتاری در سخن بافته شده‌اند، نمایش می‌دهد. یک برچسب را در جایی که می‌خواهید واکنش ایجاد شود قرار دهید - برای مثال "[S1] این خنده دار است [خنده]" - تا گفتگو را انسانی تر نشان دهید.

هر دو Dia و Bark از صداهای غیرکلامی بیانی پشتیبانی می‌کنند، اما Dia به منظور گفتگوی چند سخنران با [S1] / [S2] نوبت‌گیری و شبیه‌سازی صدا ساخته شده‌است. Dia را برای مکالمات واقعی دو نفره و کار شخصیت انتخاب کنید؛ Bark برای زمانی که به پوشش گسترده‌تر زبان در روایت تک‌صدا نیاز دارید، مناسب‌تر است.

Dia یک موتور فوق‌طبقه است، بنابراین هزینه آن ۵۰ کرید در هر ۱۰۰۰ کاراکتر تولید شده است.   سطح فوق‌العاده مدل بزرگتر ۱٫۶B و ~ ۱۰ گیگابایت حافظه GPU را نشان می‌دهد که برای گفتگوی با کیفیت بالا استفاده می‌شود.

Yes. New TextToSpeechAI accounts include free starter credits, and there is a demo you can run without signing up. That is enough to generate a short Dia dialogue with [S1]/[S2] tags before deciding on a paid plan.

بله. وقتی که یک نشانه API از صفحه حساب خود دارید، می‌توانید اسکریپت‌های گفتگوی Dia را ارسال کنید - از جمله [S1] / [S2] و برچسب‌هایی مانند [خنده] - به TextToSpeechAI REST API و صدای حاصل را به صورت برنامه‌ریزی شده دانلود کنید.

Technical Specs

  • Generation Speed Medium
  • Output Quality Excellent
  • Voice Cloning Supported
  • Languages 1
  • GPU VRAM 10GB
  • Credits/1000 chars 50

Try اون Now

Generate your first audio free. No credit card required.

Start Free