VITS

Standard

Schnelle End-to-End-TTS mit natürlicher Sprache

Very Fast Geschwindigkeit
Good Qualität
Nein Klonen
10 Sprachen

Über VITS

VITS (Variational Inference with adversarial Learning for end-to-end Text-to-Speech) ist ein schnelles, end-to-end neuronales TTS-Modell, das natürlich klingende Sprache erzeugt. Es kombiniert Variations-Autoencoder mit adversarischem Training für effiziente Synthese. VITS ist hervorragend für Batch-Prozesse und Anwendungen, die sowohl Qualität und Geschwindigkeit erfordern.

Hauptmerkmale

Schnelle Synthese

End-to-End-Architektur für schnelle Sprachgenerierung.

Batch-Verarbeitung

Mehrere Texte gleichzeitig effizient verarbeiten.

Natürliche Sprache

VAE+GAN Training erzeugt natürliche Prosodie und Rhythmus.

Multi-Sprecher

Einzelmodell unterstützt mehrere Lautsprecherstimmen.

Effizient

Geringer Speicherfußabdruck mit guter Leistung.

Quelle öffnen

MIT lizensiert für jeden Anwendungsfall.

Anwendungsfälle

Stapel-Audio-Generierung E-Learning-Plattformen Nachrichtenleser Automatisierte Ankündigungen IVR-Systeme Inhalt mit hohem Volumen

VITS Voices

View All 109
LJSpeech (English Female)
EN
VCTK Speaker 225 (English Female)
EN
VCTK Speaker 226 (English Male)
EN
VCTK Speaker 227 (English Male)
EN
VCTK Speaker 228 (English Female)
EN
VCTK Speaker 229
EN
VCTK Speaker 230
EN
VCTK Speaker 231
EN
VCTK Speaker 232
EN
VCTK Speaker 233
EN
VCTK Speaker 234
EN
VCTK Speaker 236
EN

Verwendung VITS

  1. 1

    Registrieren Sie sich kostenlos oder versuchen Sie die Demo

    Erstellen Sie ein kostenloses TextToSpeechAI-Konto, um Starter-Credits zu erhalten, oder nutzen Sie die on-page-Demo, um VITS vor der Anmeldung zu hören.

  2. 2

    Wählen Sie eine VITS-Stimme oder einen Lautsprecher

    Durchsuchen Sie die Sprachbibliothek und wählen Sie eine mit dem VITS-Badge markierte Stimme aus. Mit der Multi-Lautsprecher-VITS-Bibliothek, einschließlich des VCTK-Lautsprecher-Sets, können Sie aus vielen verschiedenen Stimmen auswählen.

  3. 3

    Geben Sie Ihren Text ein

    Geben Sie den gewünschten Text in den Editor ein oder fügen Sie ihn ein. VITS verarbeitet lange Passagen gut und ist ideal für Batch- und High-Volume-Inhalte.

  4. 4

    Erzeugen des Audios

    Klicken Sie auf Generieren, um Sprache mit VITS zu synthetisieren. Da VITS sehr schnell und Standard-Tier (10 Credits pro 1000 Zeichen) ist, kommen die Ergebnisse schnell und kostengünstig zurück.

  5. 5

    API herunterladen oder verwenden

    Laden Sie das fertige Audio als MP3, WAV oder OGG herunter oder rufen Sie die gleiche VITS-Stimme über die TextToSpeechAI REST API auf, um die Erzeugung in Ihrer eigenen Anwendung zu automatisieren.

VITS API

Erzeugen Sie Sprache programmatisch mit der TextToSpeechAI REST API.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "VITS liefert schnelles, natürliches Sprechen für hochvolumige Anwendungen.",
    "voice": "vits-ljspeech"
  }'

Häufig gestellte Fragen

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) ist ein end-to-end neuronales TTS-Modell, das einen variationalen Autoencoder mit gegnerischem GAN-Training verbindet. Es erzeugt in einem einzigen Pass eine natürliche Sprache, die es schnell und effizient macht. Sie können VITS kostenlos auf TextToSpeechAI ausprobieren.

Ja, VITS ist Open-Source unter der MIT-Lizenz, so unterstützt es die volle kommerzielle Nutzung ohne Einschränkungen. Es ist weit verbreitet in kommerziellen Produkten und Dienstleistungen. Auf TextToSpeechAI, VITS kostet 10 Credits pro 1000 Zeichen auf der Standard-Ebene.

TextToSpeechAI bietet eine große Multi-Lautsprecher VITS-Bibliothek, einschließlich der VCTK-Stimme mit Dutzenden von verschiedenen englischen Lautsprechern. Ein einzelnes VITS-Modell kann viele Lautsprecher aufnehmen, so dass Sie aus vielen verschiedenen Stimmen wählen können, ohne Motoren zu wechseln.

VITS-Unterstützung hängt vom geschulten Modell ab. Gemeinsame VITS-Modelle decken Englisch, Chinesisch, Japanisch, Koreanisch, Deutsch, Französisch und andere Hauptsprachen ab, mit mehrsprachiger englischer Berichterstattung aus dem VCTK-Datensatz.

VITS ist sehr schnell und erzeugt Sprache in Echtzeit oder schneller auf einer GPU. Seine End-to-End-Architektur vermeidet die verschiedenen Verarbeitungsschritte anderer Modelle, weshalb VITS gut für die Batch- und High-Volume-Synthese geeignet ist.

Nein, VITS unterstützt nicht das Stimmenklonen. Es verwendet vortrainierte Multi-Lautsprecher-Modelle, anstatt eine Zielstimme aus einem Sample zu kopieren. Zum Stimmenklonen auf TextToSpeechAI verwenden Sie stattdessen F5-TTS oder GPT-SoVITS.

VITS produziert qualitativ hochwertiges Audio mit natürlicher Prosody und Rhythmus. Obwohl es nicht auf dem Niveau von StyleTTS 2 oder Tortoise ist, bietet es hervorragende Qualität für seine Geschwindigkeit, vor allem für die Batch-Verarbeitung.

VITS ist speichereffizient und benötigt typischerweise nur wenige GB VRAM (ca. 4GB). Es läuft bequem auf Verbraucher-GPUs, und auf TextToSpeechAI erfolgt das Rendering auf unseren Servern, so dass Sie keine eigene Hardware benötigen.

VITS und Piper sind beide schnell, MIT-lizenzierte Standard-Tier-Motoren auf TextToSpeechAI. Piper ist die leichteste und schnellste Option, während VITS bietet eine große Multi-Lautsprecher-Bibliothek (einschließlich VCTK) mit etwas natürlicher Prosody. Weder unterstützt Stimme Klonen.

VITS ist ein Standard-Tier-Motor, kostet 10 Credits pro 1000 Zeichen. Dies ist unsere niedrigste Preisklasse dank der effizienten, schnellen Natur des VITS-Modells.

VITS erzeugt Audio bei 22050Hz nativ. Durch TextToSpeechAI können Sie MP3, WAV oder OGG Formate anfordern, mit automatischer Konvertierung für Sie behandelt.

Melden Sie sich auf TextToSpeechAI an, um kostenlose Starter-Gutschriften zu erhalten, wählen Sie dann eine VITS-Stimme aus, geben Sie Ihren Text ein und erzeugen Sie Audio. Sie können die Demo auch verwenden, um VITS zu hören, bevor Sie ein Konto erstellen, und auf VITS über unsere REST API zugreifen, sobald Sie sich anmelden.

Technical Specs

  • Generation Speed Very Fast
  • Output Quality Good
  • Voice Cloning Not Supported
  • Languages 10
  • GPU VRAM 1-2GB
  • Credits/1000 chars 10

Try VITS Now

Generate your first audio free. No credit card required.

Start Free