CosyVoice2

Premium

Clonazione vocale multilingue a zero colpi con supporto streaming

Fast Velocità
Very Good Qualità
Clonazione
5 Lingue

Informazioni CosyVoice2

CosyVoice2 è un modello di sintesi vocale di nuova generazione di FunAudioLLM (Alibaba). Offre una clonazione vocale a zero colpi naturali attraverso più lingue con capacità di streaming per applicazioni a bassa latenza. Costruito su un approccio di quantizzazione scalare finito, raggiunge un'eccellente somiglianza vocale con pochi secondi di audio di riferimento.

Caratteristiche chiave

Clonazione della voce a zero colpi

Clona qualsiasi voce da 3-10 secondi di audio di riferimento con alta fedeltà.

Multilingua

Supporta cinese, inglese, giapponese, coreano e cantonese con sintesi cross-lingue.

Supporto per lo streaming

Modalità di streaming a bassa latenza per applicazioni in tempo reale e sistemi interattivi.

Prosodia naturale

La modellazione avanzata della prosodia produce un discorso naturale-suono con l'intonazione appropriata.

Casi di utilizzo

Creazione di contenuti multilingue Assistenti vocali in tempo reale doppiaggio linguistico Applicazioni vocali personalizzate

Come usare CosyVoice2

  1. 1

    Iscriviti e richiedi crediti gratuiti

    Crea un account gratuito di TextToSpeechAI per richiedere i tuoi crediti di avviamento, o provare la demo prima. GPU o locale CosyVoice2 installazione è necessario - tutto funziona sulla nostra infrastruttura.

  2. 2

    Selezionare CosyVoice2 e aggiungere un clip di riferimento

    Scegli CosyVoice2 come motore, quindi carica una registrazione di riferimento pulita di 3-10 secondi della voce che vuoi clonare. CosyVoice2 estrarrà le caratteristiche dell'altoparlante per la clonazione multilingue a zero colpi.

  3. 3

    Inserisci il tuo testo in qualsiasi lingua supportata

    Digitare o incollare il vostro script in cinese, inglese, giapponese, coreano o cantonese. CosyVoice2 supporta la sintesi cross-lingue, in modo che la voce clonata possa parlare una lingua diversa dal clip di riferimento.

  4. 4

    Genera il discorso

    Cliccare su generare e CosyVoice2 sintetizza il linguaggio naturale e multilingue nella voce clonata, solitamente in pochi secondi per un breve testo. L'utilizzo Premium tier costa 25 crediti per 1.000 caratteri.

  5. 5

    Scarica o utilizza l'API

    Scarica l'audio finito come MP3 o WAV dalla tua storia, o automatizza la clonazione vocale CosyVoice2 in scala attraverso le TextToSpeechAI API REST.

CosyVoice2 API

Generare la parola programmaticamente usando l'API TextToSpeechAI REST.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "CosyVoice2 offre un linguaggio multilingue naturale con capacità di clonazione vocale a zero colpi.",
    "voice": "en_US-lessac-medium"
  }'

Domande frequenti

CosyVoice2 è un modello di cloning vocale e testuale di FunAudioLLM (Alibaba) di nuova generazione. Supporta la clonazione vocale a zero colpi da pochi secondi di audio di riferimento e può sintetizzare il linguaggio naturale in cinese, inglese, giapponese, coreano e cantonese. Su TextToSpeechAI è possibile eseguire CosyVoice2 nel browser senza alcun setup locale.

Sì, CosyVoice2 è completamente autorizzato da Apache 2.0 - sia il codice che i pesi del modello. Ciò rende sicuro l'uso in prodotti commerciali, contenuti a pagamento e il lavoro del cliente senza costi di licenza o restrizioni non commerciali.

CosyVoice2 supporta cinque lingue: cinese (mandarino), inglese, giapponese, coreano e cantonese. Gestisce anche la sintesi cross-lingue, in modo da poter clonare una voce da una registrazione in una lingua e generare discorso in un'altra.

Fornisce 3-10 secondi di audio di riferimento pulito del diffusore di destinazione. CosyVoice2 estrae le caratteristiche del diffusore utilizzando un approccio di quantizzazione scalare finito, genera poi un nuovo discorso in quella voce clonata in uno qualsiasi dei suoi linguaggi supportati. Non è richiesto alcun training o fine-tuning di modelli.

CosyVoice2 è uno dei modelli di clonazione multilingue più forti, che preserva l'identità dei diffusori anche quando genera un linguaggio diverso dal clip di riferimento. Produce prosodia naturale e intonazione, che lo rende adatto per il doppiaggio multilingue e contenuti localizzati.

Sì. CosyVoice2 è un modello veloce e comprende una modalità di streaming che produce audio con bassa latenza, rendendolo adatto per assistenti vocali e applicazioni interattive. Su TextToSpeechAI generazioni tipicamente completano in secondi per testo breve.

CosyVoice2 richiede circa 4-6GB di VRAM per il modello di parametro 0.5B, quindi una GPU con 6GB o più è consigliata quando si auto-hosting. Su TextToSpeechAI il modello funziona sulla nostra infrastruttura GPU, quindi non avete bisogno di hardware propri.

CosyVoice2 è un modello premium-tier e costa 25 crediti per 1.000 caratteri di testo. Ogni nuovo account riceve crediti di avviamento gratuiti, in modo da poter provare la clonazione vocale CosyVoice2 prima di decidere su un piano a pagamento.

Entrambi sono motori di clonazione vocale premium. GPT-SoVITS spesso raggiunge la massima somiglianza cruda per una voce di destinazione singola, mentre CosyVoice2 è più forte per la clonazione multilingue e cross-lingual e aggiunge una modalità di streaming a bassa latenza. Scegli CosyVoice2 quando hai bisogno di una voce clonata per parlare diverse lingue.

Entrambi offrono una clonatura vocale a zero colpi di alta qualità. CosyVoice2 supporta più lingue (5 versus 2) e aggiunge streaming per l'uso in tempo reale, mentre F5-TTS può essere leggermente più veloce per carichi di lavoro solo in inglese. Per i progetti multilingue CosyVoice2 è di solito la migliore soluzione.

TextToSpeechAI consente di esportare generazioni di CosyVoice2 in formati comuni come MP3 e WAV. È possibile scaricare il file direttamente dalla pagina della cronologia o recuperarlo programmaticamente attraverso le TextToSpeechAI API.

Sì. Puoi testare CosyVoice2 con la demo gratuita e i tuoi crediti di avviamento gratuiti su TextToSpeechAI senza installare nulla. Iscriviti, carica un breve clip di riferimento, digita il testo in qualsiasi lingua supportata e genera.

Technical Specs

  • Generation Speed Fast
  • Output Quality Very Good
  • Voice Cloning Supported
  • Languages 5
  • GPU VRAM 4-6GB
  • Credits/1000 chars 25

Try CosyVoice2 Now

Generate your first audio free. No credit card required.

Start Free