VITS

Standard

Schnelle End-to-End-TTS mit natürlicher Sprache

Versuchen Sie kostenlos VITS Stimmen durchsuchen (109)

Very Fast Geschwindigkeit

Good Qualität

Nein Klonen

10 Sprachen

Über VITS

VITS (Variational Inference with adversarial Learning for end-to-end Text-to-Speech) ist ein schnelles, end-to-end neuronales TTS-Modell, das natürlich klingende Sprache erzeugt. Es kombiniert Variations-Autoencoder mit adversarischem Training für effiziente Synthese. VITS ist hervorragend für Batch-Prozesse und Anwendungen, die sowohl Qualität und Geschwindigkeit erfordern.

Hauptmerkmale

Schnelle Synthese

End-to-End-Architektur für schnelle Sprachgenerierung.

Batch-Verarbeitung

Mehrere Texte gleichzeitig effizient verarbeiten.

Natürliche Sprache

VAE+GAN Training erzeugt natürliche Prosodie und Rhythmus.

Multi-Sprecher

Einzelmodell unterstützt mehrere Lautsprecherstimmen.

Effizient

Geringer Speicherfußabdruck mit guter Leistung.

Quelle öffnen

MIT lizensiert für jeden Anwendungsfall.

Anwendungsfälle

Stapel-Audio-Generierung E-Learning-Plattformen Nachrichtenleser Automatisierte Ankündigungen IVR-Systeme Inhalt mit hohem Volumen

VITS Voices

View All 109

LJSpeech (English Female)

VCTK Speaker 225 (English Female)

VCTK Speaker 226 (English Male)

VCTK Speaker 227 (English Male)

VCTK Speaker 228 (English Female)

VCTK Speaker 229

VCTK Speaker 230

VCTK Speaker 231

VCTK Speaker 232

VCTK Speaker 233

VCTK Speaker 234

VCTK Speaker 236

Verwendung VITS

1

Registrieren Sie sich kostenlos oder versuchen Sie die Demo

Erstellen Sie ein kostenloses TextToSpeechAI-Konto, um Starter-Credits zu erhalten, oder nutzen Sie die on-page-Demo, um VITS vor der Anmeldung zu hören.
2

Wählen Sie eine VITS-Stimme oder einen Lautsprecher

Durchsuchen Sie die Sprachbibliothek und wählen Sie eine mit dem VITS-Badge markierte Stimme aus. Mit der Multi-Lautsprecher-VITS-Bibliothek, einschließlich des VCTK-Lautsprecher-Sets, können Sie aus vielen verschiedenen Stimmen auswählen.
3

Geben Sie Ihren Text ein

Geben Sie den gewünschten Text in den Editor ein oder fügen Sie ihn ein. VITS verarbeitet lange Passagen gut und ist ideal für Batch- und High-Volume-Inhalte.
4

Erzeugen des Audios

Klicken Sie auf Generieren, um Sprache mit VITS zu synthetisieren. Da VITS sehr schnell und Standard-Tier (10 Credits pro 1000 Zeichen) ist, kommen die Ergebnisse schnell und kostengünstig zurück.
5

API herunterladen oder verwenden

Laden Sie das fertige Audio als MP3, WAV oder OGG herunter oder rufen Sie die gleiche VITS-Stimme über die TextToSpeechAI REST API auf, um die Erzeugung in Ihrer eigenen Anwendung zu automatisieren.

VITS API

Erzeugen Sie Sprache programmatisch mit der TextToSpeechAI REST API.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "VITS liefert schnelles, natürliches Sprechen für hochvolumige Anwendungen.",
    "voice": "vits-ljspeech"
  }'

API Docs lesen Holen Sie sich Ihren API-Schlüssel

Häufig gestellte Fragen

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) ist ein end-to-end neuronales TTS-Modell, das einen variationalen Autoencoder mit gegnerischem GAN-Training verbindet. Es erzeugt in einem einzigen Pass eine natürliche Sprache, die es schnell und effizient macht. Sie können VITS kostenlos auf TextToSpeechAI ausprobieren.

Ja, VITS ist Open-Source unter der MIT-Lizenz, so unterstützt es die volle kommerzielle Nutzung ohne Einschränkungen. Es ist weit verbreitet in kommerziellen Produkten und Dienstleistungen. Auf TextToSpeechAI, VITS kostet 10 Credits pro 1000 Zeichen auf der Standard-Ebene.

TextToSpeechAI bietet eine große Multi-Lautsprecher VITS-Bibliothek, einschließlich der VCTK-Stimme mit Dutzenden von verschiedenen englischen Lautsprechern. Ein einzelnes VITS-Modell kann viele Lautsprecher aufnehmen, so dass Sie aus vielen verschiedenen Stimmen wählen können, ohne Motoren zu wechseln.

VITS-Unterstützung hängt vom geschulten Modell ab. Gemeinsame VITS-Modelle decken Englisch, Chinesisch, Japanisch, Koreanisch, Deutsch, Französisch und andere Hauptsprachen ab, mit mehrsprachiger englischer Berichterstattung aus dem VCTK-Datensatz.

VITS ist sehr schnell und erzeugt Sprache in Echtzeit oder schneller auf einer GPU. Seine End-to-End-Architektur vermeidet die verschiedenen Verarbeitungsschritte anderer Modelle, weshalb VITS gut für die Batch- und High-Volume-Synthese geeignet ist.

Nein, VITS unterstützt nicht das Stimmenklonen. Es verwendet vortrainierte Multi-Lautsprecher-Modelle, anstatt eine Zielstimme aus einem Sample zu kopieren. Zum Stimmenklonen auf TextToSpeechAI verwenden Sie stattdessen F5-TTS oder GPT-SoVITS.

VITS produziert qualitativ hochwertiges Audio mit natürlicher Prosody und Rhythmus. Obwohl es nicht auf dem Niveau von StyleTTS 2 oder Tortoise ist, bietet es hervorragende Qualität für seine Geschwindigkeit, vor allem für die Batch-Verarbeitung.

VITS ist speichereffizient und benötigt typischerweise nur wenige GB VRAM (ca. 4GB). Es läuft bequem auf Verbraucher-GPUs, und auf TextToSpeechAI erfolgt das Rendering auf unseren Servern, so dass Sie keine eigene Hardware benötigen.

VITS und Piper sind beide schnell, MIT-lizenzierte Standard-Tier-Motoren auf TextToSpeechAI. Piper ist die leichteste und schnellste Option, während VITS bietet eine große Multi-Lautsprecher-Bibliothek (einschließlich VCTK) mit etwas natürlicher Prosody. Weder unterstützt Stimme Klonen.

VITS ist ein Standard-Tier-Motor, kostet 10 Credits pro 1000 Zeichen. Dies ist unsere niedrigste Preisklasse dank der effizienten, schnellen Natur des VITS-Modells.

VITS erzeugt Audio bei 22050Hz nativ. Durch TextToSpeechAI können Sie MP3, WAV oder OGG Formate anfordern, mit automatischer Konvertierung für Sie behandelt.

Melden Sie sich auf TextToSpeechAI an, um kostenlose Starter-Gutschriften zu erhalten, wählen Sie dann eine VITS-Stimme aus, geben Sie Ihren Text ein und erzeugen Sie Audio. Sie können die Demo auch verwenden, um VITS zu hören, bevor Sie ein Konto erstellen, und auf VITS über unsere REST API zugreifen, sobald Sie sich anmelden.

Technical Specs

Generation Speed Very Fast
Output Quality Good
Voice Cloning Not Supported
Languages 10
GPU VRAM 1-2GB
Credits/1000 chars 10

Try VITS Now

Generate your first audio free. No credit card required.

Start Free

Other TTS Engines

VITS

Über VITS

Hauptmerkmale

Schnelle Synthese

Batch-Verarbeitung

Natürliche Sprache

Multi-Sprecher

Effizient

Quelle öffnen

Anwendungsfälle

VITS Voices

LJSpeech (English Female)

VCTK Speaker 225 (English Female)

VCTK Speaker 226 (English Male)

VCTK Speaker 227 (English Male)

VCTK Speaker 228 (English Female)

VCTK Speaker 229

VCTK Speaker 230

VCTK Speaker 231

VCTK Speaker 232

VCTK Speaker 233

VCTK Speaker 234

VCTK Speaker 236

Verwendung VITS

Registrieren Sie sich kostenlos oder versuchen Sie die Demo

Wählen Sie eine VITS-Stimme oder einen Lautsprecher

Geben Sie Ihren Text ein

Erzeugen des Audios

API herunterladen oder verwenden

VITS API

Häufig gestellte Fragen

Was ist VITS TTS?

Ist VITS für kommerzielle Zwecke kostenlos?

Wie viele VITS Stimmen gibt es?

Welche Sprachen unterstützt VITS?

Wie schnell ist VITS?

Unterstützt VITS das Klonen der Stimme?

Was ist die Audioqualität von VITS?

Wie viel GPU-Speicher benötigt VITS?

VITS vs Piper: Was soll ich benutzen?

Wie viele Kredite kostet VITS auf TextToSpeechAI?

Welche Audioformate geben VITS aus?

Wie kann ich VITS kostenlos ausprobieren?

Technical Specs

Try VITS Now

Other TTS Engines

Bark

Chatterbox

CosyVoice2