CosyVoice2

Premium

Klon suara multibahasa Zero-shot dengan sokongan strim

Fast Kelajuan
Very Good Kualiti
Ya Klon
5 Bahasa

Tentang CosyVoice2

-to-voice cloning across multiple languages with streaming capability for low-latency voice cloning. CosyVoice2 is a

Ciri-ciri Utama

Klon Suara Zero-Shot

Klon sebarang suara dari 3-10 saat audio rujukan dengan ketulenan tinggi.

Berbilang Bahasa

Sokongan Cina, Inggeris, Jepun, Korea, dan Kantonis dengan sintesis lintas-bahasa.

Sokongan Strim

Mod strim latensi rendah untuk aplikasi masa nyata dan sistem interaktif.

Prosody semulajadi

Model prosody yang canggih menghasilkan ucapan yang berbunyi semulajadi dengan intonasi yang sesuai.

Gunakan Kes

Penciptaan kandungan berbilang bahasa Pembantu suara masa-real Duplikasi Bahasa-Melalui Aplikasi suara peribadi

Bagaimana untuk Guna CosyVoice2

  1. 1

    Daftar dan tuntut kredit percuma

    Cipta akaun TextToSpeechAI percuma untuk menuntut kredit permulaan anda, atau cuba demo pertama. Tiada GPU atau pemasangan CosyVoice2 setempat diperlukan - semuanya berjalan pada infrastruktur kami.

  2. 2

    Pilih CosyVoice2 dan tambah klip rujukan

    Pilih CosyVoice2 sebagai enjin anda, kemudian muat naik rakaman rujukan 3-10 saat bersih suara yang anda ingin klon. CosyVoice2 akan mengekstrak ciri-ciri pembicara untuk klon multibahasa sifar-shot.

  3. 3

    Masukkan teks anda dalam mana-mana bahasa yang disokong

    Taip atau tampal skrip anda dalam bahasa Cina, Inggeris, Jepun, Korea, atau Kantonis. CosyVoice2 menyokong sintesis lintas-bahasa, jadi suara yang diklon boleh bercakap bahasa yang berbeza daripada klip rujukan.

  4. 4

    Janakan ucapan

    Klik cipta dan CosyVoice2 mensintesiskan ucapan semulajadi, berbilang bahasa dalam suara yang diklonkan, biasanya dalam masa beberapa saat untuk teks pendek. Penggunaan premium-tahap kos 25 kredit per 1,000 aksara.

  5. 5

    Muat turun atau guna API

    Muat turun audio yang siap sebagai MP3 atau WAV dari sejarah anda, atau automatik klon suara CosyVoice2 pada skala melalui API REST TextToSpeechAI.

CosyVoice2 API

Janakan ucapan secara program menggunakan API REST TextToSpeechAI.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "CosyVoice2 memberikan ucapan multibahasa semulajadi dengan keupayaan klon suara sifar\u002Dtembak.",
    "voice": "en_US-lessac-medium"
  }'

Soalan Lazim

CosyVoice2 ialah model klon teks-ke-tutur dan suara generasi seterusnya dari FunAudioLLM (Alibaba). Ia menyokong klon suara sifar-tembak dari hanya beberapa saat audio rujukan dan boleh sintesiskan percakapan semulajadi dalam Cina, Inggeris, Jepun, Korea, dan Kantonis. Pada TextToSpeechAI anda boleh jalankan CosyVoice2 dalam pelayar tanpa sebarang seting setempat.

Ya, CosyVoice2 adalah sepenuhnya dilesenkan Apache 2.0 - sama ada kod dan berat model. Ini menjadikannya selamat untuk digunakan dalam produk komersial, kandungan berbayar, dan kerja klien tanpa bayaran lesen atau sekatan bukan komersial.

CosyVoice2 menyokong lima bahasa: Cina (Mandarin), Inggeris, Jepun, Korea, dan Kantonis. Ia juga mengendali sintesis lintas-bahasa, jadi anda boleh klon suara dari rakaman dalam satu bahasa dan cipta percakapan dalam bahasa lain.

Berikan 3-10 saat audio rujukan bersih bagi pengerusi sasaran. CosyVoice2 mengekstrak ciri-ciri pengerusi menggunakan pendekatan kuantum skala berakhir, kemudian cipta percakapan baru dalam suara klon itu di mana-mana bahasa yang disokong. Tiada latihan model atau penyelarasan halus diperlukan.

CosyVoice2 adalah salah satu model klon multibahasa yang lebih kuat, memelihara identiti pembicara walaupun apabila menghasilkan percakapan dalam bahasa yang berbeza daripada klip rujukan. Ia menghasilkan prosodi dan intonasi semulajadi, yang menjadikannya sesuai untuk duplikasi lintas-bahasa dan kandungan lokal.

Ya. CosyVoice2 adalah model pantas dan termasuk mod strim yang menghasilkan audio dengan latensi rendah, menjadikannya sesuai untuk pembantu suara dan aplikasi interaktif. Pada TextToSpeechAI generasi biasanya selesai dalam beberapa saat untuk teks pendek.

CosyVoice2 memerlukan sekitar 4-6GB VRAM untuk model parameter 0.5B, jadi GPU dengan 6GB atau lebih dinasihatkan apabila self-hosting. Pada TextToSpeechAI model berjalan pada infrastruktur GPU kami, jadi anda tidak perlukan sebarang perkakasan sendiri.

CosyVoice2 adalah model premium-tier dan kos 25 kredit per 1,000 aksara teks. Setiap akaun baru mendapat kredit permulaan percuma, jadi anda boleh cuba klon suara CosyVoice2 sebelum memutuskan pada rancangan berbayar.

Kedua-duanya adalah enjin klon suara premium. GPT-SoVITS sering mencapai kesamarataan mentah tertinggi untuk suara sasaran tunggal, manakala CosyVoice2 lebih kuat untuk klon berbilang bahasa dan berbilang bahasa dan menambah mod strim latensi rendah. Pilih CosyVoice2 bila anda memerlukan satu suara klon untuk bercakap beberapa bahasa.

Kedua-duanya menawarkan klon suara sifar-shoot berkualiti tinggi. CosyVoice2 menyokong lebih banyak bahasa (5 berbanding 2) dan menambah strim untuk penggunaan masa nyata, manakala F5-TTS boleh sedikit lebih pantas untuk beban kerja bahasa Inggeris sahaja. Untuk projek berbilang bahasa, CosyVoice2 biasanya lebih sesuai.

TextToSpeechAI membolehkan anda mengeksport generasi CosyVoice2 dalam format biasa seperti MP3 dan WAV. Anda boleh muat turun fail secara langsung dari halaman sejarah anda atau dapatkannya secara program melalui API TextToSpeechAI.

Ya. Anda boleh menguji CosyVoice2 dengan demo percuma dan kredit permulaan percuma anda pada TextToSpeechAI tanpa memasang apa-apa. Hanya daftar, muat naik klip rujukan pendek, taip teks anda dalam mana-mana bahasa yang disokong, dan cipta.

Technical Specs

  • Generation Speed Fast
  • Output Quality Very Good
  • Voice Cloning Supported
  • Languages 5
  • GPU VRAM 4-6GB
  • Credits/1000 chars 25

Try CosyVoice2 Now

Generate your first audio free. No credit card required.

Start Free