圆木

Premium

以情感和声音效果进行言论

Slow 速度
Very Good 质量
克隆
13 语文

关于 圆木

巴克是一个以变压器为基础的文本到文字模型,它能产生情感、笑声、叹息和其他非语言声音的高度表达性言论。 与传统的TTS不同,巴克理解背景,并能够产生真正表达性和人性化的言论。 它支持多种语言,甚至可以产生音乐和声音效果。

关键关键特征

情感表达式

带着笑声、叹息、喘息和真实情感 产生演讲

情感标记

使用[笑声],[叹,CAPS强调, 和. 犹豫不决。

多种语文

13+语言支持有自然口音和发音的13+语言。

音乐效果

能够产生简单的音乐和环境声音。

议长预设

多种经过训练的语音声音,

开放源码

麻省理工学院获得许可证,享有全部商业使用权。

使用案例

字符对话框 动动内容 音频书叙述 游戏语音音音代理 创意项目 语音助力助理

圆木 Voices

View All 130
Bark Chinese Speaker 0
ZH
Bark Chinese Speaker 1
ZH
Bark Chinese Speaker 2
ZH
Bark Chinese Speaker 3
ZH
Bark Chinese Speaker 4
ZH
Bark Chinese Speaker 5
ZH
Bark Chinese Speaker 6
ZH
Bark Chinese Speaker 7
ZH
Bark Chinese Speaker 8
ZH
Bark Chinese Speaker 9
ZH
Bark English Speaker 0
EN
Bark English Speaker 1
EN

如何使用 圆木

  1. 1

    免费签名,打开演示

    创建一个免费的 TextToSpeechAI 账户来申请您的初始学分, 或者使用无签名演示来立刻尝试巴克。 免费信用足以在升级前生成几个直观的巴克剪辑 。

  2. 2

    挑一个巴口

    打开语音库,并选择一个与您想要的音调相符的巴克语喇叭预设。 巴克语声音被标记为高级声阶( 每1000个字符25个分), 并按情感、 性格风格的叙事调音 。

  3. 3

    带有情感标记输入文字

    输入脚本并嵌入 鼠标情感标记: 笑笑,叹气,喘气, 暂停, 和CAPS强调。例如: “哦哇! [笑 这是令人难以置信的!”

  4. 4

    生成音频

    点击生成并用巴克将您的文字变成表达式讲话, 将每个标记转换成匹配的声音。 以巴克的变压器模型计算, 生成速度比轻量引擎慢, 所以允许每句多用几秒。

  5. 5

    下载或使用 API

    预览结果, 然后下载为 MP3 、 WAV 或 OGG 。 要自动在您自己的应用程序中将巴克自动化, 请用 bark 声音和相同的标记丰富的文字调用 TextToSpeechAI API 来获取表达音频 。

圆木 API API API AIP AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIP AL ALIPI

以TextToSpeechAIREST API 生成有计划的语言。

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "真是太神奇了,我喜欢这声音的表情",
    "voice": "bark-zh_0"
  }'

常问问题

巴克是素诺创造的以变压器为基础的文本到音频模型。 与传统的TTS系统不同,巴克以自然情感、笑声、叹息和其他非语言声音来产生高度的表达性言论。 它甚至可以产生音乐和声音效果。

是的,巴克是开放源码,根据麻省理工学院的许可证,允许自由商业使用。 在TextToSpeechAI时,由于生产所需的大量GPU资源,我们每1000个字符收取25个信用额。

巴克支持13+种语言,包括英语、德语、西班牙语、法语、印地语、意大利语、日语、韩语、波兰语、葡萄牙语、俄语、土耳其语和中文。 每种语言都有自然发音和口音。

由于其自动递减变压器结构,巴克比大多数 TTS 引擎慢。 典型的句子需要5-15秒才能生成 GPU 。 权衡的表达性和自然输出要多得多。

巴克只提供有限的语音克隆,通过“静脉注射”和扬声器预设,这样它无法可靠地复制来自抽样的任意声音。 如果完全语音克隆是你的目标,那么使用F5-TTS、StyleTTS2、OpenVoice或Tortoise,则全部在TextToSpeechAI页上提供。

木头读了直接放在文字中的内线标记, 把它们变成匹配的声音。 请使用[ 笑声] 来笑, 叹气, 喘气, 犹豫或暂停, 和 CAPS 来强调。 例如 : “ 哇! [ 笑] 这是令人难以置信的! ”

光说不说,巴克可以产生非口头的声音,比如笑声、叹息、喘息、清喉和结巴,还有简单的音乐和环境效应。 这些都用文本中[笑声]、[叹 和[喘 等标记触发,这就是让巴克感觉比标准的TTS更能表达。

巴克制作了高质量的音频,其自然的表达性与人的言语相比,与情感内容相对应。 24kHz的输出听起来很专业,尽管纯语言质量略低于StuleTTS2。

bark 需要 8-12GB VRAM, 取决于模型大小。 完整的模型需要~ 12GB, 而较小的变体则与 8GB 一起工作。 CPU 推论非常慢, 并且不推荐 。

是的,巴克是麻省理工学院的执照,它允许不受限制的商业用途,无需许可证费。 你可以在产品、服务和申请中自由使用巴克。 TextToSpeechAI点,你可以在支付更多之前,使用注册信用尝试免巴克。

以[笑声]和[叹息]等情感标记的单声单声讲话,Dia是优异的,而Dia则是为多声对话而建立的,[S1]/[S2]转弯和非语言提示。选择“单声单声单声单语”用于情感解说和性格声音,Dia用于前后对话。两种语言都可在TextToSpeechAI上找到。

巴克在用情感和非语言声音产生真正表达性言论的能力方面是独一无二的。 它比其他引擎慢,但为创作内容产生更多人性化的结果。 为了更快的合成,使用Piper。 语音克隆,使用F5-TTS或OpenVoice。

Technical Specs

  • Generation Speed Slow
  • Output Quality Very Good
  • Voice Cloning Not Supported
  • Languages 13
  • GPU VRAM 8-12GB
  • Credits/1000 chars 25

Try 圆木 Now

Generate your first audio free. No credit card required.

Start Free