打开视频

Ultra

使用 Granular Tone 控制器的即时声音克隆

Moderate 速度
Very Good 质量
克隆
10 语文

关于 打开视频

OpenVoice是一种多功能速声克隆模式,它能精细控制发言风格。 与其他克隆模式不同, OpenVoice将声音身份与语音风格区分开来,允许你使用克隆声音,并应用不同的音调 — — 快乐、悲伤、愤怒、兴奋或低语 — — 没有新的参考音频。

关键关键特征

即时克隆

仅仅从几秒钟的音频 来打开任何声音

音量控制

快乐 悲伤 愤怒 兴奋 或低语声

样式传输

以语言风格和声音的单独身份来保持灵活性。

使用不同语言的克隆声音。

快速处理

快速语音生成的有效推论。

开放源码

获得商业应用许可证的麻省理工学院。

使用案例

情感内容 字符动画 交互式运动会 音频书叙述 营销录像 虚拟虚拟助理

如何使用 打开视频

  1. 1

    免费签名或试试演示

    创建一个免费的 TextToSpeechAI 账户以获得初始学分, 或者在承诺前使用页面演示来听 OpenVoice 。 不需要本地 GPU 或安装 - 全部在服务器上运行 。

  2. 2

    选择 OpenVoice 并上传引用剪贴

    选择 OpenVoice 引擎, 然后上传几秒钟的清洁引用音频, 以便立即克隆目标声音。 OpenVoice 捕捉扬声器身份, 以便您可以在任何文本和音调中再使用它 。

  3. 3

    输入文本

    类型或粘贴您想要用克隆声音所讲的脚本。 OpenVoice 支持大约10种语言和跨语言的传送, 这样您就可以用与引用剪辑不同的语言写字 。

  4. 4

    选择音调样式并生成

    选择九个 OpenVice 音调风格之一 — — 默认、 友好、 快乐、 兴奋、 兴奋、 悲伤、 愤怒、 吓人、 喊叫、 低语 — — 然后生成。 同样的克隆声音会用情感传递来表达 。

  5. 5

    下载或使用 API

    以 MP3 、 WAV 或 OGG 下载您的音频,或通过 TextToSpeechAI API 自动生成, 并在每次请求中通过您的克隆语音和音调样式 。

打开视频 API API API AIP AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIP AL ALIPI

以TextToSpeechAIREST API 生成有计划的语言。

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "开放声音可以用任何语气说话 快乐、悲伤 甚至低语",
    "voice": "en_US-lessac-medium"
  }'

常问问题

OpenVoice 是一种先进的文字对语音和语音克隆模式, 将声音身份与语音风格区分开来。 这样可以克隆一个声音, 然后应用不同的情感调子, 不需要为每种情感提供新的参考音频。 它是为表达、 控制性语言的一代而建立的。

是的, OpenVoice 运行的即时语音克隆仅从参考音频几秒钟开始,不需要训练。 一旦声音被捕捉, OpenVoice 可以在您选择的任何文本和音调样式中重新使用该身份 。

OpenVoice使用一个将基调合成和音调转换分开的两阶段结构。克隆后,你可以应用任何9种音调风格 — — 默认、友好、欢乐、兴奋、兴奋、悲伤、愤怒、惊恐、喊叫或低语 — — 而同一个克隆声音则根据你选择的音调,使用不同语言,而不重录。

开放之声支持9种语言风格:默认、友好、欢乐、兴奋、激动、悲伤、愤怒、惊恐、惊恐、喊叫和低语。 每种风格在保留克隆扬声器身份的同时,重塑情感传递方式,并赋予您对行读方式的精细控制。

开放视频是开放源码,根据许可的麻省理工学院许可,它可以免费用于商业用途。 和任何克隆模式一样,确保您拥有获得商业项目中克隆人的任何声音的适当权利。

OpenVoice支持大约10种语言,包括英语、中文、日语、韩语和若干欧洲语。它也提供跨语言克隆,这样你可以克隆一种语言的语音,并让一种语言自然地使用另一种语言。

开放语音的生成速度比较中,通常在2-4秒的GPU上做出判决。 输出质量非常好,清晰的语音复制和音调传输,保持了发言者身份完整,同时令人信服地改变了情感传递。

OpenVoice通常需要6-8GB VRAM, 取决于批量大小和音速转换负荷。 它在中程到中程中上GPUs运行时可以舒适, 而在TextToSpeechAI 时, 所有的这些都在我们的服务器上处理, 因此您不需要任何本地硬件 。

OpenVoice是超层引擎,每1000个字符50个分数。 Untra级反映了其高级音调控制以及克隆加上风格转换管道所需的额外计算。

OpenVoice 因其语气和风格控制而具有独特性: 您可以将一个克隆声音作为快乐、 悲伤、 愤怒或低语来重新表达。 F5- TTS 更快, 并且是我们默认的自然中立语言克隆引擎。 当您需要情感风格控制时选择 OpenVoice, 想要最快的自然克隆时选择 F5- TTS 。

通过上传引用音频创建克隆声音, 然后指定您 API 请求中的音调样式。 API 将您所选择的情感调子自动应用到克隆声音中, 然后以 MP3 、 WAV 或 OGG 格式返回音频 。

是的。 注册一个免费的 TextToSpeechAI 账户以获得初始信用, 尝试 OpenVice 克隆和音调控制, 或者先使用页面演示。 没有本地设置 - 上传参考剪辑, 选择音调, 并在浏览器中生成 。

Technical Specs

  • Generation Speed Moderate
  • Output Quality Very Good
  • Voice Cloning Supported
  • Languages 10
  • GPU VRAM 3-6GB
  • Credits/1000 chars 50

Try 打开视频 Now

Generate your first audio free. No credit card required.

Start Free