VITS

Standard

Hurtig slut-til-ende TTS med naturlig tale

Very Fast Hastighed
Good Kvalitet
Nej Kloning
10 Sprog

Om VITS

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) er en hurtig, end-to-end neural TTS model, der genererer naturlig-klingende tale. Det kombinerer variational autoencodere med adversarial træning til effektiv syntese. VITS er fremragende til batch behandling og applikationer, der kræver både kvalitet og hastighed.

Nøglefunktioner

Hurtig syntese

End-to-end arkitektur til hurtig tale generation.

Batchforarbejdning

Processer effektivt flere tekster samtidigt.

Naturlig tale

VAE + GAN træning producerer naturlig prosody og rytme.

Multi- SpeakerComment

Enkelt model understøtter flere højttaler stemmer.

Effektiv

Lav hukommelse fodaftryk med god ydeevne.

Åbn kilde

MIT licenseret til enhver use case.

Brugstilfælde

Batch- lydgenerering E-Learning-platforme Nyhedslæsere Automatiske meddelelser IVR-systemer Indhold i høj lydstyrke

VITS Voices

View All 109
LJSpeech (English Female)
EN
VCTK Speaker 225 (English Female)
EN
VCTK Speaker 226 (English Male)
EN
VCTK Speaker 227 (English Male)
EN
VCTK Speaker 228 (English Female)
EN
VCTK Speaker 229
EN
VCTK Speaker 230
EN
VCTK Speaker 231
EN
VCTK Speaker 232
EN
VCTK Speaker 233
EN
VCTK Speaker 234
EN
VCTK Speaker 236
EN

Hvordan man bruger VITS

  1. 1

    Tilmeld dig gratis eller prøv demoen

    Opret en gratis TextToSpeechAI konto for at få startkreditter, eller brug sidedemoen til at høre VITS, før du tilmelder dig.

  2. 2

    Vælg en VITS-stemme eller højttaler

    Gennemse stemmebiblioteket og vælg en stemme markeret med VITS-skiltet. Multi-højttaler VITS-biblioteket, herunder VCTK-højttalersættet, lader dig vælge fra mange forskellige stemmer.

  3. 3

    Indtast din tekst

    Indtast eller indsæt den tekst, du ønsker talt ind i editoren. VITS håndterer lange passager godt og er ideel til batch og højt volumen indhold.

  4. 4

    Generér lyden

    Klik på generere for at syntetisere tale med VITS. Fordi VITS er meget hurtig og Standard-tier (10 kreditter pr 1000 tegn), resultater vender hurtigt tilbage til lave omkostninger.

  5. 5

    Download eller brug API'en

    Download den færdige lyd som MP3, WAV, eller OGG, eller ring til den samme VITS stemme gennem TextToSpeechAI REST API til at automatisere generation i din egen ansøgning.

VITS API

Generer tale programmatisk ved hjælp af TextToSpeechAI REST API.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "VITS leverer hurtig, naturlig tale til høj volumen applikationer.",
    "voice": "vits-ljspeech"
  }'

Ofte stillede spørgsmål

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) er en ende-til-ende neural TTS model, der kombinerer en variational autoencoder med adversarial GAN træning. Det genererer naturlig klingende tale i et enkelt pas, hvilket gør det hurtigt og effektivt. Du kan prøve VITS gratis på TextToSpeechAI.

Ja, VITS er open source under MIT licens, så det understøtter fuld kommerciel brug uden begrænsninger. Det er meget udbredt i kommercielle produkter og tjenester. På TextToSpeechAI, VITS koster 10 kreditter pr 1000 tegn på Standard tier.

TextToSpeechAI tilbyder en stor multi-højttaler VITS bibliotek, herunder VCTK stemmesæt med snesevis af forskellige engelske højttalere. En enkelt VITS model kan være vært mange højttalere, så du kan vælge mellem mange forskellige stemmer uden at skifte motorer.

VITS-understøttelse afhænger af den trænede model. Fælles VITS-modeller dækker engelsk, kinesisk, japansk, koreansk, tysk, fransk og andre store sprog med flere højttalere engelsk dækning fra VCTK datasættet.

VITS er meget hurtig, genererer tale i realtid eller hurtigere på en GPU. Dens end-to-end arkitektur undgår de mange behandlingsfaser af andre modeller, hvilket er grunden til, at VITS er velegnet til batch og høj-volumen syntese.

Nej, VITS understøtter ikke stemmekloning. Den bruger prætrænede multihøjttalermodeller i stedet for at kopiere en målstemme fra en prøve. Til stemmekloning på TextToSpeechAI, skal du bruge F5- TTS eller GPT-SoVITS i stedet.

VITS producerer god lydkvalitet med naturlig prosody og rytme. Mens det ikke er på niveau med StylettTS 2 eller Tortoise, det tilbyder fremragende kvalitet for sin hastighed, især til batch forarbejdning.

VITS er hukommelseseffektiv, typisk kun har brug for et par GB VRAM (ca. 4GB). Det kører komfortabelt på forbruger GPU'er, og på TextToSpeechAI alle rendering sker på vores servere, så du ikke har brug for nogen hardware af din egen.

VITS og Piper er både hurtige, MIT-licenserede Standard-tier motorer på TextToSpeechAI. Piper er den letteste og hurtigste mulighed, mens VITS tilbyder et stort multi-højttaler bibliotek (herunder VCTK) med lidt mere naturlig prosody. Ingen understøtter stemme kloning.

VITS er en standardmotor, der koster 10 point pr. 1000 tegn. Dette er vores laveste prisniveau takket være VITS-modellens effektive, hurtige karakter.

VITS genererer lyd på 22050Hz indbygget. Gennem TextToSpeechAI kan du anmode om MP3, WAV, eller OGG formater, med automatisk konvertering håndteres for dig.

Tilmeld dig på TextToSpeechAI for at modtage gratis startkreditter, og vælg derefter en VITS-stemme, indtast din tekst og generere lyd. Du kan også bruge demoen til at høre VITS, før du opretter en konto, og få adgang til VITS via vores REST API, når du tilmelder dig.

Technical Specs

  • Generation Speed Very Fast
  • Output Quality Good
  • Voice Cloning Not Supported
  • Languages 10
  • GPU VRAM 1-2GB
  • Credits/1000 chars 10

Try VITS Now

Generate your first audio free. No credit card required.

Start Free