ჟვდა

Ultra

დიალოგის მიმართ ორიენტირებული TTS ხმათა კლონირებასა და არავერბალურ ხმებთან ერთად

Medium სიჩქარე
Excellent ხარისხი
ეა კლონირება
1 ენაName

ინფორმაცია ჟვდა

ing the most accurate text-to-speech results for the most complex texts. Dia is a 1.6B parameter text-to-speech model that is designed to generate natural conversational speech with support for nonverbal sounds like laughter, sighs, and coughs. It excels at generating the most accurate text-to-speech results for the most complex texts. Dia is a 1.6B parameter text-to-speech model that is designed for the most complex texts.

ძირითადი ფუნქციები

დიალოგის გაჩენა

გენერირეთ ბუნებრივი მრავალმნიშვნელოვანი საუბრები განსხვავებული ხმათა და გადაადგილების გზით.

ხმოვანი ნიშნები

ჱა ბთჲლჲდთფნჲრჲ ოაპალთნდგთფნჲ თჱპაჱწგანვ ეჲბთირვ ჟმვჳ, ჟყკპთგანვ, კაქლთწ თ ჟყკპთგანვ.

ხმოვანი კლონირებაName

5-10 წუთში ხმას იღებენ და ხმას იღებენ 5-10 წუთში ხმას იღებენ და ხმას იღებენ 10 წუთში.

ბთლჲ ქრჲ.

1600-იან წლებში სოფელი სოფელ ჭოროხთან ერთად ადმინისტრაციული ცენტრად და სავაჭრო ცენტრად იქცა.

გამოყენების შემთხვევები

დიალოგის და საუბრის გენერირებაName მრავალ სიმბოლოიანი აუდიო წიგნის შექმნაName თამაშის გმირების ხმა ვიდეო და კონტენტის შექმნაName

როგორ გამოიყენოთ ჟვდა

  1. 1

    რეგისტრაცია უფასოდ ან დემო გახსნა

    TextToSpeechAI-ის მოდელი, რომელიც TextToSpeechAI-ის ბაზაზეა შექმნილი, TextToSpeechAI-ის მოდელის მსგავსად, TextToSpeechAI-ის ბაზაზეა დაფუძნებული, მაგრამ TextToSpeechAI-ის მოდელი უფრო სწრაფია.

  2. 2

    Dia მოდულის არჩევა

    TTS- ის მართვაში აირჩიეთ Dia მოდულის სიიდან. Dia არის დიალოგზე ორიენტირებული, ულტრა- დონის მოდელი მრავალმტყორცნიანი და ხმათა კლონინგის მხარდაჭერით.

  3. 3

    დიალოგის სკრიპტის დაწერა ჭდეებითName

    შექმენით თქვენი საუბარი [S1] და [S2] გამოყენებით, რომ აღნიშნოთ თითოეული საუბრის რიგი და ჩასვით არავერბალური ჭდეები, როგორიცაა [სიცილი], [სუნთქვა], [ქავილი] ან (გაზვიადებული) სადაც გსურთ ბუნებრივი რეაქციები.

  4. 4

    აუდიოს შექმნა

    დააწკაპუნეთ შექმნა, რომ Dia სკრიპტის გაგზავნა გქონდეთ ჩვენი ჰოსტინგის გრაფიკული პროცესორებისთვის. Dia აჩვენებს ორმტყორცნიან დიალოგს, რომელიც იწყება გადასვლით და თქვენი არავერბალური ჭდეების ერთ აუდიო ფაილში.

  5. 5

    API ჩამოტვირთვა ან გამოძახება

    დასრულებული დიალოგის ჩამოტვირთვა თქვენს მიერ არჩეულ ფორმატში, ან ავტომატიზაცია იგივე [S1]/[S2] სკრიპტის TextToSpeechAI API- ში თქვენი ანგარიშის ტოკენით.

ჟვდა API

TextToSpeechAI REST API-ს გამოყენებით საუბრის პროგრამულად შექმნა.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "ჱეპაგვირვ, კაკ ჟრვ ენვჟ? ჟოპაგწ ჟვ ჟრპაჳჲრნჲ, ბლადჲეაპწ, ფვ ოთრარვ.",
    "voice": "en_US-lessac-medium"
  }'

ხშირად დასმული კითხვებიName

Dia არის 1. 6B პარამეტრის დიალოგის ორიენტირებული ტექსტის საუბრის მოდელი Nari Labs- დან. ის სპეციალიზდება ბუნებრივი საუბრის წარმოებაში მრავალი მსაუბრის მხარდაჭერით, არავერბალური ხმებით და ხმათა კლონირება.

დიახ, Dia არის სრულად Apache 2. 0 ლიცენზირებული - კოდი და მოდელის წონა. ის თავისუფლად შეიძლება გამოყენებულ იქნას კომერციულ პროგრამებში.

ამჟამად Dia მხოლოდ ინგლისურს ეხმარება. მოდელი ოპტიმიზირებულია ინგლისური საუბრისთვის.

Dia- ს 1. 6B პარამეტრების მოდელისთვის დაახლოებით 10GB VRAM ს სჭირდება. კომფორტული მუშაობისთვის რეკომენდებულია GPU მინიმუმ 12GB- ით. TextToSpeechAI- ზე ყველა ეს პროგრამა მუშაობს ჩვენი ჰოსტინგის GPU- ებზე, ასე რომ თქვენ არ გჭირდებათ საკუთარი დანადგარები.

დიახ - დიალოგი ზუსტად იმისთვისაა შექმნილი, რომ Dia- ს ხმა გაიგოთ. თქვენი სკრიპტის [S1] და [S2] ხრახნების შეცვლით, Dia TTS ქმნის ორი მსაუბრის საუბარს განსხვავებული ხმათა და რეალისტური ხრახნების მიღებით, რაც უფრო რთულია ერთ- მსაუბრის TTS მოდელების შემთხვევაში.

წარწერა

დიახ. Dia მხარს უჭერს 5-10 წამიანი სუფთა რეფერენციული აუდიოს ხმათა კლონირებას, რაც საშუალებას გაძლევთ გამოიყენოთ სპეციფიკური ხმა მთარგმნელისთვის. შეგიძლიათ კლონირება [S1]/[S2] ჭდეებით შერწყმა, რომ დიალოგში ყველა სიმბოლო ჟღერს როგორც კლონირებული ხმა.

Dia წარმოაჩენს [სიცილს], [სუნთქვას], [ქავილის] და (დასუნთქვას) როგორც ბუნებრივ პარალინგვიტურ ხმებს, რომლებიც საუბრის ნაცვლად საუბრის ხმაშია ჩასმული. მოათავსეთ ჭდე იქ, სადაც რეაქცია გსურთ - მაგალითად "[S1] ეს სასიამოვნოა [სიცილი]" - რომ დიალოგი უფრო ადამიანური იყოს.

Dia და Bark მხარს უჭერენ არავერბალურ ხმებს, მაგრამ Dia განკუთვნილია მრავალმსაუბრე დიალოგისთვის [S1]/[S2] გადასვლით და ხმათა კლონირებასთან. აირჩიეთ Dia რეალისტური ორკაციანი საუბრებისთვის და მოქმედების ხაზების შესაქმნელად; Bark უფრო იდეალურია, თუ თქვენ გჭირდებათ ენის ფართო დაფარვა ერთხმიან საუბარში.

Dia არის ულტრა-ტიპიანი მოდული, ამიტომ ის ღირს 50 კრედიტი 1000 სიმბოლოს გამოთქმაზე. ულტრა-ტიპიანი მოდელი უფრო დიდია 1.6B და ~10GB GPU მეხსიერება, რომელსაც ის მაღალი ხარისხის დიალოგისთვის იყენებს.

დიახ. ახალი TextToSpeechAI ანგარიშები მოიცავს უფასო სტარტაპ კრედიტებს და დემო ვერსიას, რომელიც შეგიძლიათ ჩართოთ რეგისტრაციის გარეშე. ეს საკმარისია მოკლე Dia დიალოგისთვის [S1]/[S2] ჭდეებით, სანამ გადაწყვეტთ გადახდილი გეგმის შეძენას.

დიახ. როდესაც API ტოკენი გაქვთ თქვენი ანგარიშის გვერდიდან, შეგიძლიათ Dia დიალოგის სკრიპტების - [S1]/[S2] გადახრებისა და [ლაუჩის] მსგავსი ჭდეების - გაგზავნა TextToSpeechAI REST API- ში და მიღებული აუდიოს პროგრამულად ჩამოტვირთვა.

Technical Specs

  • Generation Speed Medium
  • Output Quality Excellent
  • Voice Cloning Supported
  • Languages 1
  • GPU VRAM 10GB
  • Credits/1000 chars 50

Try ჟვდა Now

Generate your first audio free. No credit card required.

Start Free