VITS

Standard

Hurtig slut-til-ende TTS med naturlig tale

Very Fast Hastighed

Good Kvalitet

Nej Kloning

10 Sprog

Om VITS

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) er en hurtig, end-to-end neural TTS model, der genererer naturlig-klingende tale. Det kombinerer variational autoencodere med adversarial træning til effektiv syntese. VITS er fremragende til batch behandling og applikationer, der kræver både kvalitet og hastighed.

Nøglefunktioner

Hurtig syntese

End-to-end arkitektur til hurtig tale generation.

Batchforarbejdning

Processer effektivt flere tekster samtidigt.

Naturlig tale

VAE + GAN træning producerer naturlig prosody og rytme.

Multi- SpeakerComment

Enkelt model understøtter flere højttaler stemmer.

Effektiv

Lav hukommelse fodaftryk med god ydeevne.

Åbn kilde

MIT licenseret til enhver use case.

Brugstilfælde

Batch- lydgenerering E-Learning-platforme Nyhedslæsere Automatiske meddelelser IVR-systemer Indhold i høj lydstyrke

VITS Voices

View All 109

LJSpeech (English Female)

VCTK Speaker 225 (English Female)

VCTK Speaker 226 (English Male)

VCTK Speaker 227 (English Male)

VCTK Speaker 228 (English Female)

VCTK Speaker 229

VCTK Speaker 230

VCTK Speaker 231

VCTK Speaker 232

VCTK Speaker 233

VCTK Speaker 234

VCTK Speaker 236

Hvordan man bruger VITS

1

Tilmeld dig gratis eller prøv demoen

Opret en gratis TextToSpeechAI konto for at få startkreditter, eller brug sidedemoen til at høre VITS, før du tilmelder dig.
2

Vælg en VITS-stemme eller højttaler

Gennemse stemmebiblioteket og vælg en stemme markeret med VITS-skiltet. Multi-højttaler VITS-biblioteket, herunder VCTK-højttalersættet, lader dig vælge fra mange forskellige stemmer.
3

Indtast din tekst

Indtast eller indsæt den tekst, du ønsker talt ind i editoren. VITS håndterer lange passager godt og er ideel til batch og højt volumen indhold.
4

Generér lyden

Klik på generere for at syntetisere tale med VITS. Fordi VITS er meget hurtig og Standard-tier (10 kreditter pr 1000 tegn), resultater vender hurtigt tilbage til lave omkostninger.
5

Download eller brug API'en

Download den færdige lyd som MP3, WAV, eller OGG, eller ring til den samme VITS stemme gennem TextToSpeechAI REST API til at automatisere generation i din egen ansøgning.

VITS API

Generer tale programmatisk ved hjælp af TextToSpeechAI REST API.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "VITS leverer hurtig, naturlig tale til høj volumen applikationer.",
    "voice": "vits-ljspeech"
  }'

Læs API Docs Få din API- nøgle

Ofte stillede spørgsmål

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) er en ende-til-ende neural TTS model, der kombinerer en variational autoencoder med adversarial GAN træning. Det genererer naturlig klingende tale i et enkelt pas, hvilket gør det hurtigt og effektivt. Du kan prøve VITS gratis på TextToSpeechAI.

Ja, VITS er open source under MIT licens, så det understøtter fuld kommerciel brug uden begrænsninger. Det er meget udbredt i kommercielle produkter og tjenester. På TextToSpeechAI, VITS koster 10 kreditter pr 1000 tegn på Standard tier.

TextToSpeechAI tilbyder en stor multi-højttaler VITS bibliotek, herunder VCTK stemmesæt med snesevis af forskellige engelske højttalere. En enkelt VITS model kan være vært mange højttalere, så du kan vælge mellem mange forskellige stemmer uden at skifte motorer.

VITS-understøttelse afhænger af den trænede model. Fælles VITS-modeller dækker engelsk, kinesisk, japansk, koreansk, tysk, fransk og andre store sprog med flere højttalere engelsk dækning fra VCTK datasættet.

VITS er meget hurtig, genererer tale i realtid eller hurtigere på en GPU. Dens end-to-end arkitektur undgår de mange behandlingsfaser af andre modeller, hvilket er grunden til, at VITS er velegnet til batch og høj-volumen syntese.

Nej, VITS understøtter ikke stemmekloning. Den bruger prætrænede multihøjttalermodeller i stedet for at kopiere en målstemme fra en prøve. Til stemmekloning på TextToSpeechAI, skal du bruge F5- TTS eller GPT-SoVITS i stedet.

VITS producerer god lydkvalitet med naturlig prosody og rytme. Mens det ikke er på niveau med StylettTS 2 eller Tortoise, det tilbyder fremragende kvalitet for sin hastighed, især til batch forarbejdning.

VITS er hukommelseseffektiv, typisk kun har brug for et par GB VRAM (ca. 4GB). Det kører komfortabelt på forbruger GPU'er, og på TextToSpeechAI alle rendering sker på vores servere, så du ikke har brug for nogen hardware af din egen.

VITS og Piper er både hurtige, MIT-licenserede Standard-tier motorer på TextToSpeechAI. Piper er den letteste og hurtigste mulighed, mens VITS tilbyder et stort multi-højttaler bibliotek (herunder VCTK) med lidt mere naturlig prosody. Ingen understøtter stemme kloning.

VITS er en standardmotor, der koster 10 point pr. 1000 tegn. Dette er vores laveste prisniveau takket være VITS-modellens effektive, hurtige karakter.

VITS genererer lyd på 22050Hz indbygget. Gennem TextToSpeechAI kan du anmode om MP3, WAV, eller OGG formater, med automatisk konvertering håndteres for dig.

Tilmeld dig på TextToSpeechAI for at modtage gratis startkreditter, og vælg derefter en VITS-stemme, indtast din tekst og generere lyd. Du kan også bruge demoen til at høre VITS, før du opretter en konto, og få adgang til VITS via vores REST API, når du tilmelder dig.

Technical Specs

Generation Speed Very Fast
Output Quality Good
Voice Cloning Not Supported
Languages 10
GPU VRAM 1-2GB
Credits/1000 chars 10

Try VITS Now

Generate your first audio free. No credit card required.

Start Free

Other TTS Engines

VITS

Om VITS

Nøglefunktioner

Hurtig syntese

Batchforarbejdning

Naturlig tale

Multi- SpeakerComment

Effektiv

Åbn kilde

Brugstilfælde

VITS Voices

LJSpeech (English Female)

VCTK Speaker 225 (English Female)

VCTK Speaker 226 (English Male)

VCTK Speaker 227 (English Male)

VCTK Speaker 228 (English Female)

VCTK Speaker 229

VCTK Speaker 230

VCTK Speaker 231

VCTK Speaker 232

VCTK Speaker 233

VCTK Speaker 234

VCTK Speaker 236

Hvordan man bruger VITS

Tilmeld dig gratis eller prøv demoen

Vælg en VITS-stemme eller højttaler

Indtast din tekst

Generér lyden

Download eller brug API'en

VITS API

Ofte stillede spørgsmål

Hvad er VITS TTS?

Er VITS gratis til kommerciel brug?

Hvor mange VITS stemmer er der?

Hvilke sprog understøtter VITS?

Hvor hurtigt er VITS?

Støtter VITS stemmekloning?

Hvad er lydkvaliteten af VITS?

Hvor meget GPU hukommelse behøver VITS?

VITS vs Piper: Hvad skal jeg bruge?

Hvor mange kreditter koster VITS på TextToSpeechAI?

Hvilke lydformater udlæser VITS?

Hvordan prøver jeg VITS gratis?

Technical Specs

Try VITS Now

Other TTS Engines

Bark

ChatterboxCity in California USA

CosyVoice2cosyName