CosyVoice2

Premium

Clonarea vocală multilingvă cu semnal zero cu suport de streaming

Fast Viteza
Very Good Calitate
Da. Clonarea
5 Limbi

Despre CosyVoice2

CosyVoice2 este un model de sinteză a discursului de generație următoare din FunAudioLLM (Alaba). Acesta oferă clonarea vocală cu semnal de zbor natural în mai multe limbi cu capacitate de streaming pentru aplicații de latitate scăzută. Construit pe o abordare de cuantizare scalară finită, realizează o asemănare excelentă a vocii cu doar câteva secunde de audio de referință.

Caracteristici cheie

Clonarea vocală zero-Shot

Clonează orice voce de la 3-10 secunde de audio de referinţă cu fidelitate mare.

Multilingual

Suportează chinezi, englezi, japonezi, coreeni şi cantonezi cu sinteză translingă.

Suport de fluxuri

Mod de streaming de latență redusă pentru aplicații în timp real și sisteme interactive.

Prosodie naturală

Modelarea avansată a prosodiei produce discurs natural cu intonarea corespunzătoare.

Cazuri de utilizare

Crearea conținutului multilingv Ajutoare vocale în timp real Dublare translinuală Aplicații vocale personalizate

Cum să utilizaţi CosyVoice2

  1. 1

    Înregistrează și susține creditele gratuite

    Creați un cont TextToSpeechAI gratuit pentru a solicita creditele de pornire, sau încercați demo primul. Nu este nevoie de instalarea locală de GPU sau CosyVoice2 - totul funcționează pe infrastructura noastră.

  2. 2

    Selecta CosyVoice2 si adauga un clip de referinta

    Alege CosyVoice2 ca motor, apoi încărca o înregistrare de 3-10 secunda de referință a vocei pe care doriți să cloneze. CosyVoice2 va extrage caracteristicile speaker pentru clonarea multilingv de zero-shot.

  3. 3

    Introduceți textul în orice limbaj suportat

    Tastați sau încolați scriptul în chinez, engleză, japoneză, coreeană sau cantoneză. CosyVoice2 suportă sinteza multilingv, astfel încât voce clonată poate vorbi o limba diferită de clipul de referință.

  4. 4

    Generați discursul

    Click genera si CosyVoice2 sintetiza discursul natural, multilingv in voce clonata, de obicei in câteva secunde pentru textul scurt. Utilizarea premium-tier coseaza 25 credite pe 1000 de caractere.

  5. 5

    Descărcați sau folosiți API

    Descarcă audioul finit ca MP3 sau WAV din istoria ta, sau automatizează clonarea vocală CosyVoice2 la scară prin API REST TextToSpeechAI.

CosyVoice2 API

Generați discursul programmatic folosind API TextToSpeechAI REST.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "CosyVoice2 oferă discurs multilingv natural cu capacitate de clonare vocală zero\u002Dshot.",
    "voice": "en_US-lessac-medium"
  }'

Întrebări frecvente

CosyVoice2 este un model de clonare de text-to-speech și voce de la FunAudioLLM (Alaba). Acesta suportă clonarea de voce zero-shot de la doar câteva secunde de audio de referință și poate sintetiza discursul natural în chinez, engleză, japoneză, corean și cantoneză. Pe TextToSpeechAI puteți rula CosyVoice2 în browser fără nicio configurație locală.

Da, CosyVoice2 este complet licențiat Apache 2.0 - atât codul și greutatea modelului. Acest lucru face să fie sigur de a utiliza în produse comerciale, conținut plătit, și client lucrează fără taxe de licență sau restricții necomerciale.

CosyVoice2 suportă cinci limbi: chinez (Mandarin), engleză, japoneză, coreeană și cantoneză. Se ocupă de asemenea de sinteza multilingvală, astfel încât să poți clona o voce dintr-o înregistrare într-o limbă și să generezi discursul în alta.

Asigura 3-10 secunde de audio de referință curată a vorbitorului țintă. CosyVoice2 extrage caracteristicile vorbitorului folosind o abordare de cuantizare scalară finită, apoi generează un nou discurs în acea voce clonată în oricare dintre limbilele sale sprijinite. Nu este necesară instruire model sau ajustare.

CosyVoice2 este unul dintre modelele de clonare multilingue mai puternice, menţinând identitatea speaker chiar şi atunci când generează vorbire într-o limbă diferită de clipul de referinţă. Produce prostodie şi intonare naturală, ceea ce o face potrivită pentru conţinutul încrucişat şi localizat.

Da. CosyVoice2 este un model rapid și include un mod de streaming care produce audio cu latență scăzută, făcând-o potrivit pentru asistenți vocali și aplicații interactive. Pe TextToSpeechAI generații de tip complet în secunde pentru text scurt.

CosyVoice2 necesită aproximativ 4-6GB de VRAM pentru modelul de parametri 0.5B, astfel încât o GPU cu 6GB sau mai mult este recomandat atunci când se auto-găzduiește. Pe TextToSpeechAI modelul rulează pe infrastructura noastră GPU, astfel încât nu aveți nevoie de nici un hardware al dvs.

CosyVoice2 este un model de tip premium şi costă 25 credite pe 1000 de caractere de text. Fiecare nou cont obţine credite de pornire gratuit, astfel încât să puteți încerca Clonarea vocală CosyVoice2 înainte de a decide pe un plan plătit.

Ambele sunt motoare de clonare vocală premium. GPT-SoVITS atinge adesea cea mai mare similaritate brută pentru o singură voce țintă, în timp ce CosyVoice2 este mai puternic pentru clonarea multilingv și translinual și adaugă un mod de streaming de latență scăzută. Alege CosyVoice2 atunci când aveți nevoie de o voce clonată pentru a vorbi mai multe limbi.

Ambele oferă clonarea vocală de înaltă calitate cu zero-shot. CosyVoice2 suportă mai multe limbi (5 versus 2) și adaugă streaming pentru utilizarea în timp real, în timp ce F5-TTS poate fi ușor mai rapid pentru încărcături de muncă doar engleză. Pentru proiecte multilingüale CosyVoice2 este de obicei cel mai bun se potrivește.

TextToSpeechAI vă permite să exportați CosyVoice2 generații în formate comune, cum ar fi MP3 și WAV. Puteți descărca fișierul direct de pe pagina de istorie sau recupera-l programmatic prin intermediul API TextToSpeechAI.

Da. Puteți testa CosyVoice2 cu demo gratuit și creditele de pornire gratuite pe TextToSpeechAI fără a instala nimic. Doar înregistrează-te, încărcă un clip de referință scurt, tastați textul în orice limbaj suportat, și generați.

Technical Specs

  • Generation Speed Fast
  • Output Quality Very Good
  • Voice Cloning Supported
  • Languages 5
  • GPU VRAM 4-6GB
  • Credits/1000 chars 25

Try CosyVoice2 Now

Generate your first audio free. No credit card required.

Start Free