VITS

Standard

Snelle End-to-End TTS met natuurlijke spraak

Very Fast Snelheid
Good Kwaliteit
Nee Klonen
10 Talen

Info VITS

VITS (Variationele Inferentie met tegensprekend leren voor end-to-end Text-to-Speech) is een snel end-to-end neuraal TTS-model dat natuurlijke spraak genereert. Het combineert variatiele autoencoders met tegenstrijdige training voor een efficiënte synthese. VITS is uitstekend voor batchverwerking en toepassingen die zowel kwaliteit als snelheid vereisen.

Belangrijkste kenmerken

Snelle synthese

End-to-end architectuur voor snelle spraakgeneratie.

Verwerking van de partij

Bewerk meerdere teksten tegelijkertijd efficiënt.

Natuurlijke spraak

VAE+GAN training produceert natuurlijke prosody en ritme.

Multi-spreker

Enkel model ondersteunt meerdere luidsprekerstemmen.

Efficiënt

Lage geheugen voetafdruk met goede prestaties.

Bron openen

MIT licentie voor elke use case.

Gebruik kasten

Audio-generatie van Charge E-Learning Platforms Nieuwslezers Geautomatiseerde mededelingen IVR-systemen Inhoud met hoog volume

VITS Voices

View All 109
LJSpeech (English Female)
EN
VCTK Speaker 225 (English Female)
EN
VCTK Speaker 226 (English Male)
EN
VCTK Speaker 227 (English Male)
EN
VCTK Speaker 228 (English Female)
EN
VCTK Speaker 229
EN
VCTK Speaker 230
EN
VCTK Speaker 231
EN
VCTK Speaker 232
EN
VCTK Speaker 233
EN
VCTK Speaker 234
EN
VCTK Speaker 236
EN

Hoe gebruikt u dit middel? VITS

  1. 1

    Gratis aanmelden of probeer de demo

    Maak een gratis TextToSpeechAI account aan om starter credits te krijgen, of gebruik de demo op de pagina om VITS te horen voordat u zich aanmeldt.

  2. 2

    Kies een VITS-stem of -luidspreker

    Blader door de spraakbibliotheek en kies een stem die gemarkeerd is met de VITS-badge. Met de VITS-bibliotheek met meerdere luidsprekers, inclusief de VCTK-luidsprekerset, kunt u kiezen uit verschillende stemmen.

  3. 3

    Voer uw tekst in

    Typ of plak de tekst die u wilt spreken in de editor. VITS behandelt lange passages goed en is ideaal voor batch en hoogvolume inhoud.

  4. 4

    Het audio-bestand aanmaken

    Klik om spraak te maken met VITS. Omdat VITS zeer snel is en Standard-tier (10 credits per 1000 tekens), zijn de resultaten snel en tegen lage kosten terug te keren.

  5. 5

    Download of gebruik de API

    Download de voltooide audio als MP3, WAV, of OGG, of bel dezelfde VITS-stem via de TextToSpeechAI REST API om generatie te automatiseren in uw eigen toepassing.

VITS API

Genereer spraakprogrammamatisch met behulp van de TextToSpeechAI REST API.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "VITS levert snelle, natuurlijke spraak voor toepassingen met een hoog volume.",
    "voice": "vits-ljspeech"
  }'

Veelgestelde vragen

VITS (Variationele Inferentie met tegendraads leren voor end-to-end Tekst-tot-spraak) is een end-to-end neurale TTS-model dat een variatiele autoencoder combineert met een tegendraadse gan training. Het genereert natuurlijk klinkende spraak in één enkele pas, waardoor het snel en efficiënt is. U kunt VITS vrij proberen op TextToSpeechAI.

Ja, VITS is open-source onder de MIT-licentie, dus ondersteunt het volledig commercieel gebruik zonder beperkingen. Het wordt op grote schaal gebruikt in commerciële producten en diensten. Op TextToSpeechAI, VITS kost 10 credits per 1000 tekens op de standaardniveau.

TextToSpeechAI biedt een grote VITS-bibliotheek met meerdere luidsprekers, waaronder de VCTK-stemset met tientallen verschillende Engelstaligen. Een enkel VITS-model kan veel luidsprekers hosten, zodat u kunt kiezen uit veel verschillende stemmen zonder van motor te wisselen.

De VITS-ondersteuning is afhankelijk van het getrainde model. De standaard VITS-modellen hebben betrekking op Engels, Chinees, Japans, Koreaans, Duits, Frans en andere belangrijke talen, met een multi-speaker Engels dekking uit de VCTK-dataset.

VITS is zeer snel, het genereren van spraak in real time of sneller op een GPU. De end-to-end architectuur vermijdt de meervoudige verwerkingsfases van andere modellen, daarom is VITS zeer geschikt voor batch en hoge volume synthese.

Nee, VITS ondersteunt het klonen van stemmen niet. Het gebruikt vooraf getrainde multi-luidsprekers in plaats van het kopiëren van een doelstem van een sample. Voor het klonen van stemmen op TextToSpeechAI, gebruik F5-TTS of GPT-SoVITS in plaats daarvan.

VITS produceert goede kwaliteit audio met natuurlijke prosody en ritme. Hoewel het niet op het niveau van StyleTTS 2 of Tortoise, het biedt uitstekende kwaliteit voor zijn snelheid, vooral voor batchverwerking.

VITS is geheugen-efficiënt, meestal slechts een paar GB VRAM nodig (ongeveer 4GB). Het draait comfortabel op consumenten GPU's, en op TextToSpeechAI alle rendering gebeurt op onze servers, zodat u geen hardware van uw eigen nodig hebt.

VITS en Piper zijn beide snel, MIT-licenties Standard-tier motoren op TextToSpeechAI. Piper is de lichtste en snelste optie, terwijl VITS biedt een grote multi-speaker bibliotheek (inclusief VCTK) met iets meer natuurlijke prosody. Noch ondersteunt stem klonen.

VITS is een Standard-tier motor, die 10 credits per 1000 karakters kost. Dit is onze laagste prijsniveau dankzij de efficiënte, snelle aard van het VITS model.

VITS genereert audio op 22050Hz natively. Tot TextToSpeechAI kunt u aanvragen MP3, WAV, of OGG-formaten, met automatische conversie behandeld voor u.

Schrijf je in op TextToSpeechAI om gratis starter credits te ontvangen, kies dan een VITS-stem, voer je tekst in en maak audio. Je kunt de demo ook gebruiken om VITS te horen voordat je een account aanmaakt, en toegang krijgen tot VITS via onze REST API zodra je je aanmeldt.

Technical Specs

  • Generation Speed Very Fast
  • Output Quality Good
  • Voice Cloning Not Supported
  • Languages 10
  • GPU VRAM 1-2GB
  • Credits/1000 chars 10

Try VITS Now

Generate your first audio free. No credit card required.

Start Free