Уютен глас 2

Premium

Зероизстрелно многоезично клониране на гласа с подкрепата на потока

Fast Скорост
Very Good Качество
Да. Клониране
5 Езици

За Уютен глас 2

CosyVoice2 е модел за синтез на речта от следващото поколение от FunAudioLLM (Alibaba). Тя осигурява естествено-звучно клониране на глас през множество езици с възможност за струене на ниско-късни приложения. Построен върху крайния скаларен квантизационен подход, той постига отлична подобност на гласа с само няколко секунди референтен звук.

Ключови характеристики

Гласово клониране с нулти удар

Клонирайте всеки глас от 3-10 секунди референтен звук с висока верност.

Многоезични

Подкрепя китайски, английски, японски, корейски и кантонски с кръстословен синтез.

Поддръжка за ускоряване

Режим на ниско закъснение на потока за приложения в реално време и интерактивни системи.

Естествена прозодия

Разширено прозоди моделиране произвежда естествено-звучаща реч с подходяща интонация.

Случаи за използване

Създаване на многоезично съдържание Гласови асистентки в реално време Кръстословно дубиране Персонализирани приложения за глас

Как да използвате Уютен глас 2

  1. 1

    Записване и вземане на безплатни кредити

    Създайте безплатен TextToSpeechAI акаунт, за да поискате стартер кредити, или опитайте първо демото. Не GPU или местна CosyVoice2 инсталиране е необходимо - всичко работи на нашата инфраструктура.

  2. 2

    Изберете CosyVoice2 и добавете референтен клип

    Изберете CosyVoice2 като вашия двигател, след това качване на чист 3-10 втора референтна запис на гласа, който искате да клонирате. CosyVoice2 ще извадят характеристиките на говорителя за нула изстреляно многоязично клониране.

  3. 3

    Въведете вашия текст на всеки подкрепен език

    Въведете или поставите вашия сценарий на китайски, английски, японски, корейски или кантонски. CosyVoice2 поддържа кръстословен синтез, така че клонираният глас може да говори език, различен от референтния клип.

  4. 4

    Генериране на речта

    Щракнете генерира и CosyVoice2 синтезира естествена, многоезична реч в клонирания глас, обикновено в рамките на секунди за кратък текст. Премиум-тиер използване струва 25 кредита на 1000 символа.

  5. 5

    Изтеглете или използвайте API

    Изтеглете завършения звук като MP3 или WAV от историята си, или автоматизирайте CosyVoice2 клониране на гласа в мащаб през TextToSpeechAI REST API.

Уютен глас 2 API

Генерирайте речна програма с помощта на TextToSpeechAI REST API.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "CosyVoice2 доставя естествена многоязична реч с нулева възможност за клониране на гласа.",
    "voice": "en_US-lessac-medium"
  }'

Често задавани въпроси

CosyVoice2 е модел за клониране на текст от следващо поколение от FunAudioLLM (Alibaba). Поддържа клониране на глас с нулеви точки от само няколко секунди референтен звук и може да синтезира естествена реч на китайски, английски, японски, корейски и кантонски. На TextToSpeechAI можете да стартирате CosyVoice2 в браузъра без никаква местна конфигурация.

Да, CosyVoice2 е напълно Apache 2.0 лицензирани - както кода, така и модела тежести. Това прави безопасно да се използва в търговски продукти, платено съдържание, и клиент работи без лицензиране такси или нетърговски ограничения.

CosyVoice2 поддържа пет езика: китайски (мандарин), английски, японски, корейски и кантонски. Също така се занимава с кръстословен синтез, така че можете да клонирате глас от запис на един език и да генерирате реч на друг.

Осигурете 3-10 секунди чист референтен звук на целевия говорител. CosyVoice2 извлича характеристиките на говорника с помощта на крайния Scalar quantization подход, след това генерира нов говор в този клониран глас на всеки от поддържаните му езици.

CosyVoice2 е един от по-силните многоязични модели на клониране, запазвайки идентичността на оратора дори при генериране на реч на език, различен от референтния клип. Тя произвежда естествена прозодия и интонация, което я прави подходяща за кръстословно дублиране и локализирано съдържание.

Да. CosyVoice2 е бърз модел и включва потоков режим, който произвежда звук с ниска латентност, което го прави подходящ за гласов асистент и интерактивни приложения. На TextToSpeechAI поколения обикновено завършва в секунди за къс текст.

CosyVoice2 изисква около 4-6GB VRAM за 0.5B параметър модел, така че GPU с 6GB или повече се препоръчва при самоу домакинство. На TextToSpeechAI моделът работи на нашата GPU инфраструктура, така че не се нуждаете от хардуер от ваша собствена.

CosyVoice2 е премиум-тир модел и струва 25 кредита на 1000 символа на текста. Всеки нов акаунт получава безплатни стартер кредити, така че можете да опитате CosyVoice2 глас клониране, преди да решите за платен план.

И двете са премиум клониране на гласа. GPT-SoviTS често достига най-високата сурова сходност за един посочен глас, докато CosyVoice2 е по-силен за многоязично и кръстословно клониране и добавя ниско-късен режим на струене. Изберете CosyVoice2 когато се нуждаете от един клониран глас, за да говорите няколко езика.

И двете предлагат висококачествено клониране на глас с нулево качество. CosyVoice2 поддържа повече езици (5 спрямо 2) и добавя стрийминг за използване в реално време, докато F5-TTS може да бъде леко по-бърз за натоварване само на английски език. За многоязични проекти CosyVoice2 обикновено е по-добре.

TextToSpeechAI ви позволява да експортирате CosyVoice2 поколения в общи формати като MP3 и WAV. Можете да изтеглите файла директно от страницата си от историята или да го изтеглите програмно през TextToSpeechAI API.

Да. Можете да тествате CosyVoice2 с безплатното демо и безплатните ви кредити за стартиране на TextToSpeechAI без инсталиране на нищо. Просто се регистрирайте, качване на къс референтен клип, напишете вашия текст на всеки подкрепен език, и генерирате.

Technical Specs

  • Generation Speed Fast
  • Output Quality Very Good
  • Voice Cloning Supported
  • Languages 5
  • GPU VRAM 4-6GB
  • Credits/1000 chars 25

Try Уютен глас 2 Now

Generate your first audio free. No credit card required.

Start Free