VITS
StandardSchnelle End-to-End-TTS mit natürlicher Sprache
Über VITS
VITS (Variational Inference with adversarial Learning for end-to-end Text-to-Speech) ist ein schnelles, end-to-end neuronales TTS-Modell, das natürlich klingende Sprache erzeugt. Es kombiniert Variations-Autoencoder mit adversarischem Training für effiziente Synthese. VITS ist hervorragend für Batch-Prozesse und Anwendungen, die sowohl Qualität und Geschwindigkeit erfordern.
Hauptmerkmale
Schnelle Synthese
End-to-End-Architektur für schnelle Sprachgenerierung.
Batch-Verarbeitung
Mehrere Texte gleichzeitig effizient verarbeiten.
Natürliche Sprache
VAE+GAN Training erzeugt natürliche Prosodie und Rhythmus.
Multi-Sprecher
Einzelmodell unterstützt mehrere Lautsprecherstimmen.
Effizient
Geringer Speicherfußabdruck mit guter Leistung.
Quelle öffnen
MIT lizensiert für jeden Anwendungsfall.
Anwendungsfälle
VITS Voices
View All 109LJSpeech (English Female)
ENVCTK Speaker 225 (English Female)
ENVCTK Speaker 226 (English Male)
ENVCTK Speaker 227 (English Male)
ENVCTK Speaker 228 (English Female)
ENVCTK Speaker 229
ENVCTK Speaker 230
ENVCTK Speaker 231
ENVCTK Speaker 232
ENVCTK Speaker 233
ENVCTK Speaker 234
ENVCTK Speaker 236
ENVerwendung VITS
-
1
Registrieren Sie sich kostenlos oder versuchen Sie die Demo
Erstellen Sie ein kostenloses TextToSpeechAI-Konto, um Starter-Credits zu erhalten, oder nutzen Sie die on-page-Demo, um VITS vor der Anmeldung zu hören.
-
2
Wählen Sie eine VITS-Stimme oder einen Lautsprecher
Durchsuchen Sie die Sprachbibliothek und wählen Sie eine mit dem VITS-Badge markierte Stimme aus. Mit der Multi-Lautsprecher-VITS-Bibliothek, einschließlich des VCTK-Lautsprecher-Sets, können Sie aus vielen verschiedenen Stimmen auswählen.
-
3
Geben Sie Ihren Text ein
Geben Sie den gewünschten Text in den Editor ein oder fügen Sie ihn ein. VITS verarbeitet lange Passagen gut und ist ideal für Batch- und High-Volume-Inhalte.
-
4
Erzeugen des Audios
Klicken Sie auf Generieren, um Sprache mit VITS zu synthetisieren. Da VITS sehr schnell und Standard-Tier (10 Credits pro 1000 Zeichen) ist, kommen die Ergebnisse schnell und kostengünstig zurück.
-
5
API herunterladen oder verwenden
Laden Sie das fertige Audio als MP3, WAV oder OGG herunter oder rufen Sie die gleiche VITS-Stimme über die TextToSpeechAI REST API auf, um die Erzeugung in Ihrer eigenen Anwendung zu automatisieren.
VITS API
Erzeugen Sie Sprache programmatisch mit der TextToSpeechAI REST API.
curl -X POST "https://api.texttospeechai.com/v1/generate/" \
-H "Authorization: Bearer YOUR_API_TOKEN" \
-H "Content-Type: application/json" \
-d '{
"text": "VITS liefert schnelles, natürliches Sprechen für hochvolumige Anwendungen.",
"voice": "vits-ljspeech"
}'
Häufig gestellte Fragen
Technical Specs
- Generation Speed Very Fast
- Output Quality Good
- Voice Cloning Not Supported
- Languages 10
- GPU VRAM 1-2GB
- Credits/1000 chars 10