Dia

Ultra

TTS dialog-orientasikan dengan klon suara dan bunyi nonverbal

Medium Kelajuan
Excellent Kualiti
Ya Klon
1 Bahasa

Tentang Dia

ing the most accurate text-to-speech model for the 2018-2019 season. Dia is a 1.6B parameter text-to-speech model that is designed to be used in the 2018-2019 season. Dia is a 1.6B parameter text-to-speech model that is designed to be used in the 2018-2019 season.

Ciri-ciri Utama

Penjanaan Dialog

Janakan perbualan multi-penyiar semulajadi dengan suara yang berbeza dan mengambil pusingan.

Bunyi Nonverbal

Tambah [tertawa], [sesak nafas], [bersin], (berdebar-debar) untuk ungkapan paralinguistik semulajadi.

Klon Suara

Klon sebarang suara dari 5-10 saat audio rujukan untuk ucapan peribadi.

Perbualan semulajadi

Parameter 1.6B menghasilkan prosody perbualan yang sangat semula jadi dan intonasi.

Gunakan Kes

Dialog dan pembangkitan perbualan Produksi buku audio dengan beberapa aksara Suara karakter permainan Podcast dan penciptaan kandungan

Bagaimana untuk Guna Dia

  1. 1

    Daftar percuma atau buka demo

    Cipta akaun TextToSpeechAI percuma untuk menuntut kredit pelancar anda, atau buka demo tanpa mendaftar untuk mencuba dialog Dia dengan segera.

  2. 2

    Pilih enjin Dia

    Dalam papan pemuka TTS pilih Dia dari senarai enjin. Dia adalah model bertahap tinggi, dialog-orientasikan dengan sokongan klon suara dan pembicara berbilang.

  3. 3

    Tulis skrip dialog dengan tag

    Komponen perbualan anda menggunakan [S1] dan [S2] untuk menandakan setiap pusingan pembicara, dan jatuhkan tag nonverbal seperti [laughs], [sighs], [coughs], atau (gasps) di mana anda mahu reaksi semulajadi.

  4. 4

    Janakan audio

    Klik cipta untuk menghantar skrip Dia anda ke GPU yang dihost kami. Dia mengekspresikan dialog dua-pembesar suara dengan mengambil pusingan dan tag nonverbal anda ke fail audio tunggal.

  5. 5

    Muat turun atau panggil API

    Muat turun dialog yang siap dalam format yang dipilih, atau automatikkannya dengan memuatkan skrip [S1]/[S2] yang sama ke API TextToSpeechAI dengan token akaun anda.

Dia API

Janakan ucapan secara program menggunakan API REST TextToSpeechAI.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Hello, apa khabar hari ini?",
    "voice": "en_US-lessac-medium"
  }'

Soalan Lazim

Dia adalah model teks-ke-percakapan dialog-orientasikan parameter 1.6B dari Nari Labs. Ia khusus dalam menghasilkan percakapan perbualan semulajadi dengan sokongan bagi pembicara berbilang, bunyi nonverbal, dan kloning suara.

Ya, Dia adalah sepenuhnya dilesenkan Apache 2. 0 - kod dan berat model. Ia boleh digunakan secara bebas dalam aplikasi komersial.

Semasa ini Dia hanya menyokong Bahasa Inggeris. Model dioptimasikan untuk ucapan perbualan Bahasa Inggeris semulajadi.

Dia memerlukan kira-kira 10GB VRAM untuk model parameter 1.6B. GPU dengan sekurang-kurangnya 12GB disyorkan untuk operasi selesa. Pada TextToSpeechAI semua ini berjalan pada GPU tetamu kami, jadi anda tidak perlukan sebarang perkakasan sendiri.

Ya - dialog adalah tepat apa yang Dia dibina untuk. Dengan bergantian [S1] dan [S2] pusingan dalam skrip anda, Dia TTS menghasilkan perbualan dua-pembesar yang mengalir dengan suara yang berbeza dan pusingan-ambil realistik, yang lebih sukar untuk dicapai dengan model TTS pembesar tunggal.

Awalan setiap baris skrip anda dengan [S1] atau [S2] untuk menandakan siapa yang bercakap. Dia menetapkan suara konsisten kepada setiap tag dan beralih antara mereka apabila perbualan bergerak, jadi [S1] dan [S2] bertindak sebagai dua aksara dalam dialog anda.

Ya. Dia menyokong klon suara dari kira-kira 5-10 saat audio rujukan bersih, membolehkan anda guna semula suara tertentu untuk pengerusi. Anda boleh menggabungkan klon dengan tag [S1]/[S2] supaya setiap aksara dalam dialog bunyi seperti suara yang anda klon.

Dia mengembalikan [ketawa], [sesak nafas], [bersin], dan (tersumbat) sebagai bunyi paralinguistik semula jadi yang diikat dalam ucapan berbanding perkataan yang diucapkan. Letakkan tag di mana anda mahu reaksi - contohnya "[S1] Itu lucu [ketawa]" - untuk membuat dialog kelihatan lebih manusiawi.

Dia dan Bark kedua-duanya menyokong bunyi-bunyi tak bertulis ekspresif, tetapi Dia dibina khusus untuk dialog multi-penyiar dengan [S1]/[S2] mengambil pusingan dan klon suara. Pilih Dia untuk perbualan dua-orang realistik dan kerja karakter; Bark lebih sesuai apabila anda memerlukan liputan bahasa yang lebih luas dalam naratif suara tunggal.

Dia adalah enjin ultra-tahap, jadi ia kos 50 kredit setiap 1,000 aksara ucapan yang dijana. Tahap ultra mencerminkan model 1.6B yang lebih besar dan ~10GB memori GPU yang digunakan untuk dialog berkualiti tinggi.

Ya. Akaun TextToSpeechAI baru termasuk kredit permulaan percuma, dan terdapat demo yang anda boleh jalankan tanpa mendaftar masuk. Itu cukup untuk menghasilkan dialog Dia pendek dengan tag [S1]/[S2] sebelum memutuskan pada rancangan berbayar.

Ya. Sebaik sahaja anda mempunyai token API dari halaman akaun anda anda boleh menghantar skrip dialog Dia - termasuk pusingan [S1]/[S2] dan tag seperti [laughs] - ke API REST TextToSpeechAI dan muat turun audio yang dihasilkan secara program.

Technical Specs

  • Generation Speed Medium
  • Output Quality Excellent
  • Voice Cloning Supported
  • Languages 1
  • GPU VRAM 10GB
  • Credits/1000 chars 50

Try Dia Now

Generate your first audio free. No credit card required.

Start Free