观察

Standard

带自然言语的快速端到端端 TTS

Very Fast 速度
Good 质量
克隆
10 语文

关于 观察

虚拟导航系统(对终端至终端文字语音的对抗性学习的变推)是一个快速、端至端神经TS模型,生成自然声音,将变式自动转换器与高效合成对抗性培训相结合。 虚拟导航系统对批量处理和需要质量和速度的应用程序来说是出色的。

关键关键特征

快速综合

快速语音生成的端对端架构。

批处理

高效地同时处理多个文本。

自然语言

VAE+GAN培训产生自然的流传和节奏。

多发言者

单一模式支持多个发言者的声音。

高效

记忆力低,表现良好。

开放源码

麻省理工学院获得任何用途案件许可证。

使用案例

批批批量音频生成 电子学习平台 新闻读者 自动通知 四IR系统 高容量内容

观察 Voices

View All 109
LJSpeech (English Female)
EN
VCTK Speaker 225 (English Female)
EN
VCTK Speaker 226 (English Male)
EN
VCTK Speaker 227 (English Male)
EN
VCTK Speaker 228 (English Female)
EN
VCTK Speaker 229
EN
VCTK Speaker 230
EN
VCTK Speaker 231
EN
VCTK Speaker 232
EN
VCTK Speaker 233
EN
VCTK Speaker 234
EN
VCTK Speaker 236
EN

如何使用 观察

  1. 1

    免费签名或试试演示

    创建免费的 TextToSpeechAI 账户以获得初始学分, 或者在注册前使用页面演示来听到 VTS 。

  2. 2

    选择 VTS 声音或扬声器

    浏览语音库并选择一个标有 VITS 徽章的语音。 多位发言人 VTK 库, 包括 VCTK 扬声器集, 允许您从许多不同的声音中选择 。

  3. 3

    输入文本

    输入或粘贴您想要向编辑方描述的文字。 VITS 处理长通道非常顺利, 并且适合批量和大容量内容 。

  4. 4

    生成音频

    点击可生成与 VTS 合成的语音。 因为 VTS 速度非常快, 且标准级( 每1000 个字符10 个信用额度), 结果会以低成本快速返回 。

  5. 5

    下载或使用 API

    下载完成的音频为 MP3, WAV, 或 OGG, 或者通过 TextToSpeechAI REST API 调用相同的 VITS 声音, 以自动生成您自己的应用程序 。

观察 API API API AIP AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIP AL ALIPI

以TextToSpeechAIREST API 生成有计划的语言。

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "VITS为大量应用提供快速、自然的演讲。",
    "voice": "vits-ljspeech"
  }'

常问问题

虚拟技术(通过对端对端文字语音的对抗性学习的变式推断)是一种端对端神经TTS模型,将变式自动编码器与对抗式GAN培训结合起来。它生成一个单关的自然声音,使它快速高效。您可以在TextToSpeechAI时尝试免费的 VTS。

是的,根据麻省理工学院许可证,VITS是开放源码,因此它支持不加限制地全面商业使用,广泛用于商业产品和服务,在TextToSpeechAI人中,VITS为标准级每1000个字符支付10个分数。

TextToSpeechAI提供了大型多发言人VITS图书馆,包括VCTK语音集,有几十位不同的英语语言。 单一的VITS模式可以容纳许多发言者,这样您就可以从许多不同的声音中选择不开关的引擎。

VITS支助取决于经过培训的模式,共同VITS模型涵盖英语、中文、日语、韩语、德语、法语和其他主要语言,通过VCTK数据集提供多语种英语覆盖。

VITS非常快,在GPU上实时或更快地生成语音。 它的端对端结构避免了其他模型的多个处理阶段,这就是为什么VITS非常适合批量和高容量合成的原因。

使用预先训练的多发言人模型,而不是复制样本的目标声音。 对于TextToSpeechAI人的语音克隆,则使用F5-TTS或GPT-SOVITS。

VITS生产出质量优良的音频,具有自然的流传和节奏,虽然它不是StyleTTS 2 或 Tortoise 级,但它的速度,特别是批量处理的速度,质量极佳。

VITS具有记忆效率,通常只需要几GBVRAM(约4GB)即可。 它对消费者GPUs运作得非常舒适,对TextToSpeechAI人来说,所有在服务器上发生的事情都发生在我们的服务器上,所以你不需要自己的硬件。

注射和毒理学服务系统与管道机都是快速的,由麻省理工学院许可的TextToSpeechAI台标准级引擎。 注射和毒理学服务系统是最轻、最快的选择,而注射和毒理学服务系统则提供大型多发声图书馆(包括VCTK),其自然手动性略高。 也支持语音克隆。

VITS是标准级引擎,每1000个字符10个信用额度。 由于VITS模式高效、快速,这是我们最低的定价层次。

VTS 以本地22050Hz 生成音频。 通过 TextToSpeechAI, 您可以请求 MP3 、 WAV 或 OGG格式, 并处理自动转换 。

注册时间为TextToSpeechAI, 以获得免费启动分数, 然后取取 VTS 声音, 输入文本, 并生成音频。 您也可以在创建账户前使用演示来听到 VTS, 注册后通过 REST API 访问 VTS 。

Technical Specs

  • Generation Speed Very Fast
  • Output Quality Good
  • Voice Cloning Not Supported
  • Languages 10
  • GPU VRAM 1-2GB
  • Credits/1000 chars 10

Try 观察 Now

Generate your first audio free. No credit card required.

Start Free