VITS

Standard

Snelle End-to-End TTS met natuurlijke spraak

Probeer vrij VITS Stemmen doorbladeren (109)

Very Fast Snelheid

Good Kwaliteit

Nee Klonen

10 Talen

Info VITS

VITS (Variationele Inferentie met tegensprekend leren voor end-to-end Text-to-Speech) is een snel end-to-end neuraal TTS-model dat natuurlijke spraak genereert. Het combineert variatiele autoencoders met tegenstrijdige training voor een efficiënte synthese. VITS is uitstekend voor batchverwerking en toepassingen die zowel kwaliteit als snelheid vereisen.

Belangrijkste kenmerken

Snelle synthese

End-to-end architectuur voor snelle spraakgeneratie.

Verwerking van de partij

Bewerk meerdere teksten tegelijkertijd efficiënt.

Natuurlijke spraak

VAE+GAN training produceert natuurlijke prosody en ritme.

Multi-spreker

Enkel model ondersteunt meerdere luidsprekerstemmen.

Efficiënt

Lage geheugen voetafdruk met goede prestaties.

Bron openen

MIT licentie voor elke use case.

Gebruik kasten

Audio-generatie van Charge E-Learning Platforms Nieuwslezers Geautomatiseerde mededelingen IVR-systemen Inhoud met hoog volume

VITS Voices

View All 109

LJSpeech (English Female)

VCTK Speaker 225 (English Female)

VCTK Speaker 226 (English Male)

VCTK Speaker 227 (English Male)

VCTK Speaker 228 (English Female)

VCTK Speaker 229

VCTK Speaker 230

VCTK Speaker 231

VCTK Speaker 232

VCTK Speaker 233

VCTK Speaker 234

VCTK Speaker 236

Hoe gebruikt u dit middel? VITS

1

Gratis aanmelden of probeer de demo

Maak een gratis TextToSpeechAI account aan om starter credits te krijgen, of gebruik de demo op de pagina om VITS te horen voordat u zich aanmeldt.
2

Kies een VITS-stem of -luidspreker

Blader door de spraakbibliotheek en kies een stem die gemarkeerd is met de VITS-badge. Met de VITS-bibliotheek met meerdere luidsprekers, inclusief de VCTK-luidsprekerset, kunt u kiezen uit verschillende stemmen.
3

Voer uw tekst in

Typ of plak de tekst die u wilt spreken in de editor. VITS behandelt lange passages goed en is ideaal voor batch en hoogvolume inhoud.
4

Het audio-bestand aanmaken

Klik om spraak te maken met VITS. Omdat VITS zeer snel is en Standard-tier (10 credits per 1000 tekens), zijn de resultaten snel en tegen lage kosten terug te keren.
5

Download of gebruik de API

Download de voltooide audio als MP3, WAV, of OGG, of bel dezelfde VITS-stem via de TextToSpeechAI REST API om generatie te automatiseren in uw eigen toepassing.

VITS API

Genereer spraakprogrammamatisch met behulp van de TextToSpeechAI REST API.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "VITS levert snelle, natuurlijke spraak voor toepassingen met een hoog volume.",
    "voice": "vits-ljspeech"
  }'

Lees API-documenten Haal je API sleutel

Veelgestelde vragen

VITS (Variationele Inferentie met tegendraads leren voor end-to-end Tekst-tot-spraak) is een end-to-end neurale TTS-model dat een variatiele autoencoder combineert met een tegendraadse gan training. Het genereert natuurlijk klinkende spraak in één enkele pas, waardoor het snel en efficiënt is. U kunt VITS vrij proberen op TextToSpeechAI.

Ja, VITS is open-source onder de MIT-licentie, dus ondersteunt het volledig commercieel gebruik zonder beperkingen. Het wordt op grote schaal gebruikt in commerciële producten en diensten. Op TextToSpeechAI, VITS kost 10 credits per 1000 tekens op de standaardniveau.

TextToSpeechAI biedt een grote VITS-bibliotheek met meerdere luidsprekers, waaronder de VCTK-stemset met tientallen verschillende Engelstaligen. Een enkel VITS-model kan veel luidsprekers hosten, zodat u kunt kiezen uit veel verschillende stemmen zonder van motor te wisselen.

De VITS-ondersteuning is afhankelijk van het getrainde model. De standaard VITS-modellen hebben betrekking op Engels, Chinees, Japans, Koreaans, Duits, Frans en andere belangrijke talen, met een multi-speaker Engels dekking uit de VCTK-dataset.

VITS is zeer snel, het genereren van spraak in real time of sneller op een GPU. De end-to-end architectuur vermijdt de meervoudige verwerkingsfases van andere modellen, daarom is VITS zeer geschikt voor batch en hoge volume synthese.

Nee, VITS ondersteunt het klonen van stemmen niet. Het gebruikt vooraf getrainde multi-luidsprekers in plaats van het kopiëren van een doelstem van een sample. Voor het klonen van stemmen op TextToSpeechAI, gebruik F5-TTS of GPT-SoVITS in plaats daarvan.

VITS produceert goede kwaliteit audio met natuurlijke prosody en ritme. Hoewel het niet op het niveau van StyleTTS 2 of Tortoise, het biedt uitstekende kwaliteit voor zijn snelheid, vooral voor batchverwerking.

VITS is geheugen-efficiënt, meestal slechts een paar GB VRAM nodig (ongeveer 4GB). Het draait comfortabel op consumenten GPU's, en op TextToSpeechAI alle rendering gebeurt op onze servers, zodat u geen hardware van uw eigen nodig hebt.

VITS en Piper zijn beide snel, MIT-licenties Standard-tier motoren op TextToSpeechAI. Piper is de lichtste en snelste optie, terwijl VITS biedt een grote multi-speaker bibliotheek (inclusief VCTK) met iets meer natuurlijke prosody. Noch ondersteunt stem klonen.

VITS is een Standard-tier motor, die 10 credits per 1000 karakters kost. Dit is onze laagste prijsniveau dankzij de efficiënte, snelle aard van het VITS model.

VITS genereert audio op 22050Hz natively. Tot TextToSpeechAI kunt u aanvragen MP3, WAV, of OGG-formaten, met automatische conversie behandeld voor u.

Schrijf je in op TextToSpeechAI om gratis starter credits te ontvangen, kies dan een VITS-stem, voer je tekst in en maak audio. Je kunt de demo ook gebruiken om VITS te horen voordat je een account aanmaakt, en toegang krijgen tot VITS via onze REST API zodra je je aanmeldt.

Technical Specs

Generation Speed Very Fast
Output Quality Good
Voice Cloning Not Supported
Languages 10
GPU VRAM 1-2GB
Credits/1000 chars 10

Try VITS Now

Generate your first audio free. No credit card required.

Start Free

Other TTS Engines

VITS

Info VITS

Belangrijkste kenmerken

Snelle synthese

Verwerking van de partij

Natuurlijke spraak

Multi-spreker

Efficiënt

Bron openen

Gebruik kasten

VITS Voices

LJSpeech (English Female)

VCTK Speaker 225 (English Female)

VCTK Speaker 226 (English Male)

VCTK Speaker 227 (English Male)

VCTK Speaker 228 (English Female)

VCTK Speaker 229

VCTK Speaker 230

VCTK Speaker 231

VCTK Speaker 232

VCTK Speaker 233

VCTK Speaker 234

VCTK Speaker 236

Hoe gebruikt u dit middel? VITS

Gratis aanmelden of probeer de demo

Kies een VITS-stem of -luidspreker

Voer uw tekst in

Het audio-bestand aanmaken

Download of gebruik de API

VITS API

Veelgestelde vragen

Wat is VITS TTS?

Is VITS gratis voor commercieel gebruik?

Hoeveel stemmen zijn er?

Welke talen ondersteunt VITS?

Hoe snel is VITS?

Steunt VITS het klonen van stemmen?

Wat is de audiokwaliteit van VITS?

Hoeveel GPU geheugen heeft VITS nodig?

VITS vs Piper: welke moet ik gebruiken?

Hoeveel credits kost VITS op TextToSpeechAI?

Welke audioformaten levert VITS uit?

Hoe probeer ik VITS gratis?

Technical Specs

Try VITS Now

Other TTS Engines

Bast

Chatterbox

CosyVoice2country name