Pole rozmowy

Premium

Zero-pociągnięcie głosu z wyrazistą mową w 23 językach

Fast Prędkość
Very Good Jakość
Tak. Klonowanie
23 Języki

O tematie Pole rozmowy

Chatterbox to potężny model klonowania głosu TTS z Resemble AI. Wykonuje klonowanie głosu zerowo ujętego od zaledwie kilku sekund odnośnego dźwięku, obsługiwającego 23 języki z naturalnym wyrażeniem. Chatterbox zawiera paralinguistyczne tagi do dodawania naturalnych dźwięków jak śmiech i kaszel do generowanego mowy.

Kluczowe cechy

Klonowanie głosu zerowego

Klonuj głos z kilku sekund audio - nie trzeba treningu.

23 Języki

Od arabskiego do chińskiego, obejmującego największą część języków świata.

Znaczniki ekspresyjne

Dodaj [śmiech], [kaszl] [kaszl] do naturalnych dźwięków paralinguistycznych.

Szybkie wynikowanie

Pod-200ms latency z Turbo wariantu dla aplikacji w czasie rzeczywistym.

Przypadki użytkowania

Klonowanie głosu dla tworzenia treści Wielojęzyczne aplikacje głosowe Projekt głosu znaków dla gier Osobiste asystenty głosowe

Jak stosować lek Pole rozmowy

  1. 1

    Zapisz się lub otwórz demo

    Utwórz bezpłatne TextToSpeechAI konto, aby uzyskać 200 kredytów starterowych, lub użyć demo na stronie, aby spróbować Chatterbox bez podpisania.

  2. 2

    Wybierz skrzynkę rozmowy i dodaj klip referencyjny

    Wybierz silnik Chatterbox, następnie prześlij krótki (krótkich sekund) klip audio głosu, który chcesz klonować. Chatterbox zerowy klonuje go natychmiast - nie wymaga się treningu.

  3. 3

    Wprowadź tekst z opcjonalnymi znacznikami

    Wypisz lub wklej tekst do wypowiedzenia w dowolnym z 23 obsługiwanych języków, a następnie wejdź do [śmiechu], [kaszla] lub [chuckle] tagi gdziekolwiek chcesz naturalne dźwięki paralinguistyczne.

  4. 4

    Generuj mowy

    Kliknij generuj i TextToSpeechAI wyświetla Twój tekst w sklonowanym głosie Chatterbox na hostowanej infrastrukturze GPU, wydając 25 kredytów na 1000 znaków.

  5. 5

    Pobierz lub użyj API

    Pobierz plik audio zakończony lub automatyzuj generację przez TextToSpeechAI REST API na api.texttospeechai.com za pomocą tokena konta.

Pole rozmowy API

Generuj mowy w programie, używając TextToSpeechAI REST API.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Chatterbox może skonować głos z zaledwie kilku sekund audio i mówić w 23 językach.",
    "voice": "en_US-lessac-medium"
  }'

Często zadawane pytania

Chatterbox to zero-postrzałowy model klonowania tekstu w języku z Resemble AI. Może replikować każdy głos z zaledwie kilku sekund audio referencyjnego i generować naturalne, wyrazowe mowy w 23 językach, wszystko bez jakiegokolwiek treningu na głos.

Tak, Chatterbox jest w pełni licencjonowany MIT - zarówno kod, jak i wagi modelu - więc można go swobodnie używać w produktach komercyjnych. Generowany audio zawiera opcjonalny znak neurologiczny, który może być wyłączony, i nie ma opłat za korzystanie z opłat.

Zapewniasz krótki klip odniesienia dowolnego głosu (który wystarczy kilka sekund) i wyciąga z Chatterbox, że głos zimfre i styl wbudowuje głośnik. Następnie generuje zupełnie nowy wymówienie w tym głosie bez stopnia dostosowywania lub treningu, co oznacza "zero-shoot".

Chatterbox czyta specjalne wzorcowe tagi w swoim tekście, aby dodać naturalne dźwięki niewerbalne: [śmiech] wkłada śmiech, [kaszul] wkłada kaszel, i [chuckle] wkłada miękki śmiech. Po prostu umieścić tag, gdzie chcesz dźwięk, na przykład "To jest zabawne [śmias] ale poważnie...".

Wpisz tag bezpośrednio do wejściowego tekstu w miejscu, gdzie dźwięk powinien wystąpić, otoczony resztą wyroku. Chatterbox wytwarza dźwięk paralinguistyczny w sklonowanym głosie, mieszając go w otaczającą go mówkę, więc brzmi spontanicznie, a nie rozszczepiony.

Chatterbox obsługuje 23 języki, w tym arabski, duński, grecki, angielski, hiszpański, fiński, francuski, hebrajski, hinduski, włoski, japoński, koreański, malajski, holenderski, norweski, polski, portugalski, rosyjski, szwedzki, suahili, turecki, i chiński. Jednolity sklonowany głos może mówić w tych językach.

Chatterbox generuje mowy szybko na GPU, a wariant Turbo osiąga latencję pod-200ms do korzystania w czasie rzeczywistym. Jakość jest bardzo dobra, z naturalną prozodą i wierną reprodukcją głosu z nawet krótkich klipów.

Chatterbox potrzebuje około 4-8GB VRAM w zależności od wariantu, z modelem Turbo działa komfortowo w około 4GB. W TextToSpeechAI nie potrzebujesz żadnych lokalnych GPU - generacja na naszej infrastrukturze.

Chatterbox to silnik premium-tier, który kosztuje 25 kredytów na 1000 znaków. Nowe konta otrzymują 200 bezpłatnych kredytów, aby spróbować klonowania głosu, a wydajesz tylko kredyty na tekst, który rzeczywiście generujesz.

Obie obsługiwają klonowanie głosu zerowego, ale Chatterbox obejmuje dużo więcej języków (23 vs 2) i dodaje wyraziste paralinguistyczne tagi. F5-TTS może wykończyć nieco bardziej naturalne angielskie prozody, więc wybierz Chatterbox dla wielojęzycznego klonowania i wyrazu dźwięków, a F5-TTS dla wierności tylko angielskiej.

Obie oferty wysokiej jakości klonowania głosu. Chatterbox obsługuje 23 języki i wliniowe znaczniki wyrażone, podczas gdy OpenVoice dodaje sterowanie tonem (przyjazne, smutne, złościwe i więcej), które Chatterbox brakuje. Wybierz Chatterbox dla szerokiego pokrycia języka i OpenVoice, gdy potrzebujesz wyraźnego stylizowania emocjonalnych tonów emocjonalnych.

Tak. Zarejestruj się na bezpłatne konto TextToSpeechAI, aby otrzymywać 200 kredytów starterowych, lub użyj demo na stronie, aby usłyszeć Chatterbox bez podpisywania. Wyślij krótki klip referencyjny, wpisz swój tekst i wygeneruj głos klonowany w sekundach.

Technical Specs

  • Generation Speed Fast
  • Output Quality Very Good
  • Voice Cloning Supported
  • Languages 23
  • GPU VRAM 4-8GB
  • Credits/1000 chars 25

Try Pole rozmowy Now

Generate your first audio free. No credit card required.

Start Free