CosyVoice2
PremiumFlerspråklig nullbildet stemmekloning med støtte for streaming
Om CosyVoice2
CosyVoice2 er en nestegenerasjons talesyntesemodell fra FunAudioLLM (Alibaba). Den gir naturlig lydende null- skudds stemmekloning på tvers av flere språk med mulighet for streaming for lav- latency- anvendelser. Byggt på en bestemt skalarkvantiseringsmetode, oppnår den fremragende stemmelikhet med bare noen få sekunders referanselyd.
Nøkkelfunksjoner
Stemmekloning med null varme
Klone en stemme fra 3-10 sekunders referanselyd med høy troverdighet.
Flerspråklig
Støtter kinesisk, engelsk, japansk, koreansk og kantonesisk med tverrspråklig syntese.
Støtte for strøm
streaming med lav latenstid for sanntidsanvendelser og interaktive systemer.
Naturlig prosody
Avansert prosodimodellering gir naturlig lydende tale med passende intonasjon.
Brukstilfeller
Bruksmåte CosyVoice2
-
1
Registrering og krav om gratis godskriving
Lag en ledig TextToSpeechAI konto for å kreve startpoeng, eller prøv demoen først. Det trengs ingen GPU eller lokal CosyVoice2- installasjon – alt kjører på vår infrastruktur.
-
2
Velg CosyVoice2 og legg til et referanseklipp
Velg CosyVoice2 som motor, og last så opp et rent 3-10- sekunds referanseopptak av stemmen du vil klone. CosyVoice2 vil trekke ut høyttaleregenskaper for nullbilde flerspråklig kloning.
-
3
Skriv inn teksten på alle språk som støttes
Skriv inn eller lim inn skriptet ditt på kinesisk, engelsk, japansk, koreansk eller kantonesisk. CosyVoice2 støtter flerspråklig syntese, så den klonede stemmen kan snakke et annet språk enn referanseklippet.
-
4
Lag tale
Trykk generer og CosyVoice2 syntetiserer naturlig flerspråklig tale i den klonede stemmen, vanligvis innen sekunder for korttekst. Bruk på premiumnivå koster 25 poeng per 1000 tegn.
-
5
Last ned eller bruk API
Last ned den ferdige lyden som MP3 eller WAV fra historien din, eller automatiser CosyVoice2 stemmekloning i skala gjennom TextToSpeechAI REST API.
CosyVoice2 API
Generer taleprogrammatisk ved å bruke TextToSpeechAI REST API.
curl -X POST "https://api.texttospeechai.com/v1/generate/" \
-H "Authorization: Bearer YOUR_API_TOKEN" \
-H "Content-Type: application/json" \
-d '{
"text": "CosyVoice2 gir naturlig flerspråklig tale med null\u002Dshot stemmekloning.",
"voice": "en_US-lessac-medium"
}'
Ofte stilte spørsmål
Technical Specs
- Generation Speed Fast
- Output Quality Very Good
- Voice Cloning Supported
- Languages 5
- GPU VRAM 4-6GB
- Credits/1000 chars 25