Medium
速度
Excellent
质量
是
克隆
1
语文
关于 Dia Dia 中
纳里实验室的Dia是一个1.6B参数参数参数,以文本为主的语音模式。它擅长于产生自然对话演讲,支持非语言声音,如笑声、叹息和咳嗽。 Dia支持多语者对话的产生和声音克隆,从5-10秒的音频参考,让它成为创造现实的交谈和性格声音的理想。
关键关键特征
对话框生成
产生自然的多语者对话 与不同的声音和转弯。
音响
加上自然的单语表达法
语音克隆
以5 -10秒的音频 来打开任何声音 来进行个性化演讲
自然对话
1.6B参数产生高度自然的交锋和交锋。
使用案例
对话和对话
多字符音频书制作
游戏字符声音
播客和内容制作
如何使用 Dia Dia 中
-
1
注册或打开演示
创建免费的 TextToSpeechAI 账户来申请您的启动贷款, 或者打开无签名演示, 以便立即尝试 Dia 对话框 。
-
2
选择 Dia 引擎
在 TTS 仪表板上, 从引擎列表中选择 Dia 。 Dia 是面向对话的超层模型, 配有多发音和语音支持 。
-
3
使用标签写入对话框脚本
使用[S1]和[S2]来标记每个发言者转弯, 并投下非语言标签, 如[笑 、[叹 、[咳 或(喘, 或(喘 ) 想要自然反应。
-
4
生成音频
单击生成可发送您的 Dia 脚本到主机 GPUs 。 Dia 将双声带对话框与转接和您非语言标记转换成单一的音频文件 。
-
5
下载或调用 API
以您选择的格式下载已完成对话框,或将相同的 [S1]/[S2] 脚本张贴到 TextToSpeechAI API 上, 并贴上您的账户符号, 以此自动地下载已完成对话框 。
Dia Dia 中 API API API AIP AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIPI AIP AL ALIPI
以TextToSpeechAIREST API 生成有计划的语言。
curl -X POST "https://api.texttospeechai.com/v1/generate/" \
-H "Authorization: Bearer YOUR_API_TOKEN" \
-H "Content-Type: application/json" \
-d '{
"text": "你好,你今天好吗?",
"voice": "en_US-lessac-medium"
}'
常问问题
Dia是纳里实验室的1.6B参数,以对话为导向,以文本换语音模式,专门制作自然谈话演讲,支持多位发言者、非语言声音和语音克隆。
是的,Dia完全是Apache 2. 0的许可使用,包括代码和模型重量,可以自由用于商业应用。
Dia目前只支持英语, 模型被优化为英语自然谈话演讲。
Dia 需要大约 10GB VRAM 的1.6B 参数模型。 推荐一个至少12GB的 GPU 进行舒适操作。 在TextToSpeechAI 时, 所有这些运行都在我们的主机 GPU上, 因此您不需要任何硬件 。
对话正是Dia的目的所在。通过交替[S1]和[S2]翻转你的脚本,Dia TTS产生了一个流畅的双声带对话,有不同的声音和现实的转接,用单声带TTS模型很难实现。
将您的脚本的每行前缀[S1]或[S2],以标记谁在说话。Dia在对话动作中为每个标签和它们之间的开关指定一个一致的语音,所以[S1]和[S2]作为对话中的两个字符。
是的。 Dia支持声音克隆,从大约5-10秒的清洁参考音频开始,让您重新使用一个特定的声音来为发言者说话。你可以将克隆与[S1]/[S2]标记结合起来,这样对话中的每个字符听起来都像你克隆的声音。
迪亚(Dia)把自然的单语言声音((annex))与语言(usual languusistic sounds)混入了演讲而不是语言。 将标签放在你想反应的地方 — — 比如“[S1],这很搞笑 ” — —让对话更能感觉到人性。
Dia和Bark都支持表达非语言声音,但Dia是专门为多语对话而设计的,与[S1]/[S2]转接和语音克隆。选择Dia为现实的两个人交谈和性格工作;当需要用更广义的语言进行单声道叙述时,Bark更适合。
Dia是一个超层引擎, 所以它每1,000个生成的语音字符要花费50分。 超层反映了1.6B 更大的模型和它用于高质量对话的 ~ 10GB GPU 内存。
是的。 新的TextToSpeechAI账户包括免费启动贷款, 并且有一个演示, 您可以在不签名的情况下运行。 这足以在决定付款计划之前生成一个与 [S1] / [S2] 标签的短 Dia 对话框 。
是的。一旦您在账户页面上找到 API 符号,您就可以向TextToSpeechAI REST API 的“Dia 对话框”脚本,包括[S1]/[S2] 转转和标签,如[笑],并用程序下载由此产生的音频。
Technical Specs
- Generation Speed Medium
- Output Quality Excellent
- Voice Cloning Supported
- Languages 1
- GPU VRAM 10GB
- Credits/1000 chars 50