输入该段对话的文本内容。
为该段对话选择对应的声音角色。
输入该段对话的文本内容。
为该段对话选择对应的声音角色。
单人语音
Xavier: [calm] Welcome to Lati AI, where you can bring photos to life with AI Avatar Lip Sync. [excited] Upload an image and audio and watch your avatar talk naturally.
多人对话
Juniper: [excitedly] Hey James! Have you tried the new ElevenLabs V3?
James: [curiously] Yeah, just got it! The emotion is so amazing. I can actually do whispers now— [whispering] like this!
AI 文字转语音 — 多角色对话与音频标签控制
单声音 TTS 加速度滑块是已解决的问题。本工具解决更难的问题:多个说话人自然交互的对话音频,每人独立声音特征,每行通过内联音频标签控制情感、语气风格、非语言声音、环境音效、口音和语速 — 甚至可以在句中切换。基于 ElevenLabs 的 text-to-dialogue-v3 模型,在单次生成请求中处理多说话人脚本,输出一个具有自然会话节奏的音频文件。从 113 种预设声音中选择(可在浏览器内预览 MP3),选择 75 种语言或让引擎自动检测,设置稳定性参数(创意、自然或稳定)控制声音表达变化程度。输出 MP3 可直接导入 AI 数字人口型同步工具,完成从脚本到口播视频的完整管线。
什么是多说话人 AI 文字转语音?
AI 文字转语音使用神经语音合成将书面文本转化为自然发声的语音。ElevenLabs 的 text-to-dialogue-v3 引擎(本工具的底层技术)在音素级别建模韵律 — 根据语义内容塑造音高轮廓、重音位置、词间时序和停顿时长。与旧版 TTS 系统的区别不仅是音质:它能接受通过音频标签内联的结构化指令,并在单次生成请求中处理多个说话人,无需为每个说话人单独调用 API 或手动拼接音频。
多说话人对话功能是与标准 TTS 工具的核心差异化。脚本中的每行获得自己的声音分配;引擎生成一个包含自然说话人切换时序和节奏的音频文件。叠加六类音频标签 — 情感、语气、非语言、音效、口音和语速 — 你不仅指定声音说什么,还精确指定如何说。输出可作为独立可下载 MP3,或作为 AI 数字人口型同步工具的音频输入,将音频的音素时序映射到上传肖像照的嘴部形状和面部动作上 — 仅从文字即可产出完整视频,全程无需录音设备。
核心功能
ElevenLabs text-to-dialogue-v3 引擎,多说话人支持,音频标签,113 种声音,75 种语言覆盖。
单次请求多说话人对话
为对话中的每行分配独立声音,整个脚本在单次生成中提交。引擎处理会话切换、说话人间节奏和每行音频标签解释。播客、游戏过场、培训对话和采访脚本生成为完整音频文件 — 无需手动拼接单独生成的片段。
内联音频标签的情感控制
在脚本文本中直接插入方括号标签控制短语级别的表达。行前 [excited] 提高音高和语速;[whispering] 降低音量并减少气息噪音;[sigh] 在口语开始前插入自然非语言声音。标签在波形合成过程中处理 — 非后期效果叠加 — 因此韵律自然而非人工。所有标签适用于所有声音和所有语言。
113 种预设声音带浏览器内预览
按角色类型组织的声音浏览 — 对话型、叙述型、游戏角色、短视频、好莱坞、播音、放松等。每个声音都有云端 MP3 预览可在浏览器内播放,无需先生成。声音在音高范围、语速、口音和情感表现力上各不相同。将声音选择与稳定性参数结合,精细控制一致性与变化。
75 种语言带自动检测
支持英语、普通话、日语、韩语、法语、德语、西班牙语、葡萄牙语、阿拉伯语、印地语、俄语等 — 共 75 种含自动检测选项。自动检测从脚本文本识别语言,无需手动选择。混合文字内容或需要特定地区发音时可手动选择语言。
稳定性参数:创意、自然、稳定
稳定性滑块三个位置。创意(0)产出最富表现力的变化输出 — 音高变化、重音变化和情感起伏明显,适合戏剧内容和角色对话。自然(0.5,默认值)平衡表现力与一致性,适合播客、营销配音和通用旁白。稳定(1)产出最均匀可预测的输出 — 对需要跨长脚本保持声调一致性的电子学习旁白和企业内容至关重要。
与 AI 数字人口型同步直接集成
生成的 MP3 格式兼容 AI 数字人口型同步工具。下载音频,在数字人工具中与肖像照一起上传,生成面部动画同步说话的口播视频。创建完整的文字到口播视频管线 — 脚本、语音、视频 — 全过程无需麦克风、摄像头、录音棚或配音演员。
音频标签参考
六类内联标记,塑造每个短语的表达方式。
音频标签是插入对话脚本中的纯文本方括号标记,指示合成引擎如何处理语气风格、情感色调、非语言声音、环境音频、口音和时序。将标签放在对话行开头设置该说话人回合的整体基调,或放在句中触发特定词处的切换。标签在每行独立 — 一个说话人可以 [whispering] 而下一个 [shouting],在同一次生成中。所有标签兼容全部 113 种声音和 75 种支持语言。
情感
控制声音的底层情感基调 — 同时影响音高轮廓、语速和呼吸模式。
[excited] 我们刚达成了发布目标![sad] 这个季度结果不太理想。
语气风格
控制声音的物理发声方式 — 音量水平、声位和发音风格。适合台词间的戏剧对比。
[whispering] 别让任何人听到。[shouting] 所有人都需要立刻知道!
非语言声音
插入非自主或反射性发声,使对话听起来不像排练过的 — 停顿、反应和思路间的过渡。
[sigh] 我想我们别无选择了。[gasp] 你居然真的做到了。
音效
在语音输出中直接嵌入环境或画内音频线索 — 短视频内容无需单独的声音设计层。
[rain] 天气预报说今晚情况会恶化。[door knocking] 有人在门口。
口音
将选定声音的音素特征向地区口音偏移,不改变底层声音身份。适合本地化内容或角色区分。
[British accent] 会议定在三点半。[Australian accent] 没问题,我们会搞定的。
语速
改变短语的时间节奏 — 适合营造紧张感、强调重要性或匹配音频到视觉剪辑点。
[dramatically] 决定权在一个人手中。[with a pause] 而那个人今天就在这里。
TTS 到视频管线
从脚本到音频到口播视频 — 无需麦克风、摄像头和录音环境。
文字转语音是生产管线的第一阶段,终点是口型同步的口播视频。在对话编辑器中编写多说话人脚本,从 113 种预设声音中分配声音,在情感节点处插入音频标签,然后生成音频。下载 MP3,然后在 AI 数字人口型同步工具中与肖像照一起上传。口型同步引擎将音频的音素时序映射到肖像照上的嘴部形状、头部运动和面部表情 — 仅从文字即可产出完整视频,全程无需录音设备。
编写带音频标签的脚本
在编辑器中输入对话,每行一个说话人。从 113 种预设声音中为每行分配声音。在情感转折或表达切换处插入音频标签。引擎支持单次生成总字符不超过 5000 个。
生成并下载音频
选择语言(或使用自动检测)和稳定性设置。点击生成。处理通常在几秒到几分钟内完成,取决于总字符数。完成后下载 MP3。
导入 AI 数字人生成口型同步视频
将下载的 MP3 与肖像照一起上传到 AI 数字人口型同步工具。口型同步引擎逐帧将音频音素时序映射到嘴部形状和面部动作,从照片和音频生成口播视频。
如何使用 AI 文字转语音
从空白脚本到可下载音频三步完成 — 全在浏览器中,无需安装软件。
1. 编写并标记对话
在对话编辑器中输入脚本。每行代表一个说话人回合。在需要生效的位置直接插入音频标签如 [excited]、[whispering] 或 [sigh]。单行建议不超过 500 字符以优化韵律。所有行总计不超过 5000 字符。
2. 分配声音并设置参数
为每行对话打开声音选择器,使用云端 MP3 样本在浏览器内预览。分配匹配角色的声音。设置语言 — 或留为自动检测。选择稳定性:创意适合戏剧变化,自然适合平衡表达,稳定适合跨长脚本的一致声调。
3. 生成并下载
点击生成语音。ElevenLabs text-to-dialogue-v3 引擎处理脚本,返回包含所有说话人回合和自然会话节奏的单个 MP3 文件。直接下载或导入 AI 数字人口型同步生成口播视频。
文字转语音使用场景
多说话人对话和音频标签控制开启了单声音 TTS 无法触及的制作流程。
播客与访谈对话
SEO.textToSpeech.useCases.podcasts.benefit
为交替的对话行分配主持人和嘉宾声音,标记自然反应([laugh]、[gasp]、[hmm]),单次请求生成完整对话音频。3000 字符的主持-嘉宾对话秒级生成 — 修改脚本重新生成,无需重新预约嘉宾或重新录制。
无障碍与屏幕阅读内容
SEO.textToSpeech.useCases.audiobooks.benefit
为文档、产品描述和网页内容生成自然节奏的音频旁白,服务通过音频获取信息的用户。75 种语言库确保全球受众的本地化音频无障碍。稳定性设为稳定,跨长篇旁白保持一致的声音特征,无意外音高波动。
游戏过场与角色配音原型
SEO.textToSpeech.useCases.gameDialogue.benefit
编写完整过场对话,为多个角色分配合适的戏剧性声音,添加 [shouting] 战斗台词和 [whispering] 阴谋台词,生成音频供导演审听 — 在投入正式配音录制前完成。基于音频实际效果迭代对话节奏和音频标签选择,而非只看纸面效果。
电子学习与课程旁白
SEO.textToSpeech.useCases.elearning.benefit
从单一主稿跨 75 种语言生成一致的旁白 — 翻译文本、选择对应声音、重新生成。将稳定性设为稳定确保跨多课时的声调一致性。将每个音频轨与 AI 数字人口型同步配对,产出会说每种所需语言的屏幕讲师视频。
规模化配音 A/B 测试
SEO.textToSpeech.useCases.marketing.benefit
10 分钟内制作同一广告配音的五个变体 — 不同声音、不同音频标签、不同稳定性设置。对比 [excited] 与 [calm] 的表达、男声与女声、快节奏与从容节奏对互动指标的影响,无需为每个版本重新预约配音演员。
视频与演示配音草稿
SEO.textToSpeech.useCases.socialMedia.benefit
为视频剪辑、解说动画和演示文稿生成草稿配音,在最终制作决策前使用。听到脚本被朗读能发现默读时发现不了的节奏问题、措辞尴尬和声调不匹配。在最后阶段用实录音频替换草稿配音,或者如果 AI 版本达到质量要求就直接使用。
最佳实践
脚本编写建议
- Write as spoken language, not formal prose — contractions, sentence fragments, and informal phrasing produce more natural synthesis than grammatically perfect text
- Keep individual dialogue lines under 500 characters — the engine optimizes prosody per segment; very long lines can produce uneven stress and pacing
- Use punctuation deliberately: commas produce brief pauses, em dashes signal abrupt breaks, and ellipses trail off — these timing cues are read literally by the synthesis engine
- Spell out numbers and abbreviations in full: 'forty-two' not '42', 'doctor' not 'Dr.' — the engine may mispronounce abbreviated forms or read digit characters individually
- 用口语风格写作而非书面文体 — 缩略语、短句和非正式措辞比语法完美的文本产出更自然的合成
- 单行对话建议不超过 500 字符 — 引擎按段优化韵律;过长的行可能出现不均匀的重音和节奏
- 有意使用标点:逗号产生短停顿,破折号标记突然中断,省略号尾音拖长 — 合成引擎按字面解读这些时序线索
- 数字和缩写写全称:「四十二」而非「42」,「医生」而非「Dr.」— 引擎可能错误发音缩写形式或逐个读出数字字符
音频标签使用建议
- Tag key emotional moments rather than every line — over-tagging flattens the contrast that makes tagged moments feel significant
- Stack complementary tags to shape nuanced delivery: [excited] followed by [quickly] in the same line creates urgency with upward energy
- Place non-verbal tags ([sigh], [gasp], [laugh]) at the very start of a line — inserting them mid-sentence interrupts the speech rhythm more than intended
- Test one line with three different emotion tags at Stability 0.5 before choosing — the gap between [sad] and [serious] is wider than it appears on paper
- 标记关键情感时刻而非每一行 — 过度标记会削弱让被标记时刻显得重要的对比效果
- 叠加互补标签塑造细腻表达:同一行内 [excited] 后跟 [quickly] 创造带上升能量的紧迫感
- 将非语言标签([sigh]、[gasp]、[laugh])放在行最开头 — 句中插入比预期更多地中断语音节奏
- 在稳定性 0.5 下用三个不同情感标签测试一行后再选择 — [sad] 和 [serious] 之间的差距比纸面看起来更大
技术规格
AI 引擎
- Engine: ElevenLabs text-to-dialogue-v3 (accessed via KIE API)
- Voice library: 113 preset voices with cloud MP3 preview
- Stability: Creative (0) / Natural (0.5, default) / Robust (1)
- 引擎:ElevenLabs text-to-dialogue-v3(通过 KIE API)
- 声音库:113 种预设声音,带云端 MP3 预览
- 稳定性:创意(0)/ 自然(0.5,默认)/ 稳定(1)
输入
- Max characters: 5,000 per generation across all dialogue lines combined
- Speakers: unlimited lines per request, each line assigned its own voice
- Languages: 75 supported including Auto-detect
- Audio Tags: 6 categories — inline bracketed markers embedded directly in script text
- 最大字符数:单次生成所有对话行合计 5000 字符
- 说话人:每次请求无限行数,每行分配独立声音
- 语言:75 种支持,含自动检测
- 音频标签:6 类 — 直接嵌入脚本文本的内联方括号标记
输出
- Format: MP3 audio file
- Processing time: seconds to minutes depending on total character count
- Compatible with AI Avatar Lip Sync tool as direct audio input
- 格式:MP3 音频文件
- 处理时间:几秒到几分钟,取决于总字符数
- 兼容 AI 数字人口型同步工具作为直接音频输入
相关工具
文字转语音常见问题
关于音频标签、声音选择、多说话人输出和 TTS 到数字人管线的具体回答。
写脚本。分配声音。听效果。
输入多说话人对话,插入音频标签控制情感,从 113 种声音中选择跨 75 种语言,生成单个 MP3 — 然后导入 AI 数字人口型同步产出口播视频,全程无需麦克风或摄像头。