CosyVoice2color

Premium

Zero-shot vícejazyčné klonování hlasu s podporou streamování

Fast Rychlost
Very Good Kvalita
Ano. Klonování
5 Jazyky

O aplikaci CosyVoice2color

CosyVoice2 je model syntézy řeči nové generace od FunAudioLLM (Alibaba). Dodává přirozený-znějící nulovací hlas klonování napříč několika jazyky streaming schopnost pro nízkonákladové aplikace. Postavený na konečný skalární kvantizační přístup, dosahuje vynikající hlasové podobnosti s jen pár sekund referenčního zvuku.

Klíčové funkce

Zero-shot hlasové klonování

Klonujte jakýkoliv hlas z 3-10 sekund referenčního zvuku s vysokou věrností.

Vícejazyčné

Podporuje čínskou, anglickou, japonskou, korejskou a kantonskou syntézu.

Podpora streamování

Režim nízkonákladového streamingu pro aplikace v reálném čase a interaktivní systémy.

Přírodní prosoda

Pokročilé modelování prosody vytváří přirozenou řeč s vhodnou intonací.

Pouzdra na použití

Vícejazyčné vytváření obsahu Asistenti hlasových asistentů v reálném čase Cross-lingual dabing Personalizované hlasové aplikace

Jak se používá CosyVoice2color

  1. 1

    Zaregistrujte se a nárokujte zdarma kredity

    Vytvořte si zdarma TextToSpeechAI účet pro nárok na startovací kredity, nebo nejprve zkuste demo. Není nutná žádná GPU nebo lokální CosyVoice2 instalace - vše běží na naší infrastruktuře.

  2. 2

    Vyberte CosyVoice2 a přidejte referenční klip

    Vyberte CosyVoice2 jako váš motor, pak nahrajte čistý 3-10 druhý referenční záznam hlasu, který chcete klonovat. CosyVoice2 bude extrahovat vlastnosti reproduktoru pro nula-shot vícejazyčné klonování.

  3. 3

    Zadejte svůj text v jakémkoliv podporovaném jazyce

    Zadejte nebo vložte svůj skript do čínštiny, angličtiny, japonštiny, korejštiny nebo kantonštiny. CosyVoice2 podporuje mezijazyčnou syntézu, takže klonovaný hlas může mluvit jazykem odlišným od referenčního klipu.

  4. 4

    Generovat řeč

    Klikněte na tlačítko generovat a CosyVoice2 syntetizuje přírodní, vícejazyčný projev v klonovaném hlase, obvykle během několika sekund pro krátký text. Premium-tier využití stojí 25 kreditů na 1000 znaků.

  5. 5

    Stáhnout nebo použít API

    Stáhněte si hotový zvuk jako MP3 nebo WAV z vaší historie, nebo automatizovat CosyVoice2 hlas klonování v měřítku přes TextToSpeechAI REST API.

CosyVoice2color API

Generovat řeč programově pomocí TextToSpeechAI REST API.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "CosyVoice2 poskytuje přirozený vícejazyčný projev s možností klonování hlasu s nulovým výstřelem.",
    "voice": "en_US-lessac-medium"
  }'

Často kladené otázky

CosyVoice2 je nový model text-to-speech a hlas klonování od FunAudioLLM (Alibaba). Podporuje klonování nulovacího hlasu z několika sekund referenčního zvuku a může syntetizovat přirozený projev v čínštině, angličtině, japonštině, korejštině a kantonštině. Na TextToSpeechAI můžete spustit CosyVoice2 v prohlížeči bez místního nastavení.

Ano, CosyVoice2 má plnou licenci Apache 2.0 - jak kód, tak i hmotnost modelu. Díky tomu je bezpečné používat v komerčních produktech, placeného obsahu a klientské práce bez licenčních poplatků nebo nekomerčních omezení.

CosyVoice2 podporuje pět jazyků: čínština (Mandarin), angličtina, japonština, korejština a kantonština. Zvládá také průřezovou syntézu, takže můžete klonovat hlas z nahrávky v jednom jazyce a generovat řeč v jiném jazyce.

Poskytněte 3-10 sekund čistého referenčního zvuku cílového reproduktoru. CosyVoice2 extrahuje vlastnosti reproduktoru pomocí konečného skalárního kvantizačního přístupu, pak generuje nový projev v tomto klonovaném hlase v každém z jeho podporovaných jazyků. Není třeba žádný modelový trénink nebo jemné ladění.

CosyVoice2 je jedním z silnějších mnohojazyčných klonovacích modelů, zachování identity řečníka i při vytváření řeči v jazyce odlišném od referenčního klipu. Vytváří přírodní prosody a intonaci, což je dobře vhodné pro křížově-kulturní dabing a lokalizovaný obsah.

Ano. CosyVoice2 je rychlý model a zahrnuje streamovací režim, který produkuje zvuk s nízkou latencí, takže je vhodný pro hlasové asistenty a interaktivní aplikace. Na TextToSpeechAI generací obvykle dokončit v sekundách pro krátký text.

CosyVoice2 vyžaduje asi 4-6GB VRAM pro model parametru 0.5B, takže GPU s 6GB a více se doporučuje při samohostingu. Na TextToSpeechAI běží model na naší GPU infrastruktuře, takže nepotřebujete žádný vlastní hardware.

CosyVoice2 je prvotřídní model a stojí 25 kreditů na 1000 znaků textu. Každý nový účet dostane zdarma starter kreditů, takže si můžete vyzkoušet CosyVoice2 hlas klonování před rozhodnutím o placeném plánu.

Oba jsou prémiové hlasové klonovací motory. GPT-SoviTS často dosahuje nejvyšší surové podobnosti pro jeden cílový hlas, zatímco CosyVoice2 je silnější pro vícejazyčné a mezijazyčné klonování a přidává nízkonákladový streaming mód. Vyberte CosyVoice2 když potřebujete jeden klonovaný hlas mluvit několika jazyky.

Obojí nabízí vysoce kvalitní nulovací klonování hlasu. CosyVoice2 podporuje více jazyků (5 proti 2) a přidává streaming pro použití v reálném čase, zatímco F5-TTS může být mírně rychlejší pro pracovní zatížení pouze v angličtině. U vícejazyčných projektů CosyVoice2 je obvykle vhodnější.

TextToSpeechAI vám umožňuje exportovat CosyVoice2 generace ve společných formátech, jako jsou MP3 a WAV. Soubor si můžete stáhnout přímo z vaší stránky historie nebo jej programově získat prostřednictvím API TextToSpeechAI.

Ano. Můžete testovat CosyVoice2 s bezplatným demo a zdarma starter kreditů na TextToSpeechAI bez instalace cokoliv. Stačí se přihlásit, nahrát krátký referenční klip, napsat svůj text v jakémkoli podporovaném jazyce, a generovat.

Technical Specs

  • Generation Speed Fast
  • Output Quality Very Good
  • Voice Cloning Supported
  • Languages 5
  • GPU VRAM 4-6GB
  • Credits/1000 chars 25

Try CosyVoice2color Now

Generate your first audio free. No credit card required.

Start Free