ElevenLabs Dialogue V3
从脚本生成有表现力的多说话人对话,无需录音设备或配音演员。ElevenLabs Dialogue V3 面向需要规模化生产高质量语音的创作者、营销人员和教育者,接受结构化对话脚本,并输出每个说话人都有独立声音、情绪控制和自然节奏的成品音频。音频输出可直接接入 Kling AI Video 的 AI Avatar 工作流,从脚本到语音再到口型同步视频,无需离开平台。
什么是 ElevenLabs Dialogue V3
ElevenLabs Dialogue V3 是 Kling AI Video 上的多说话人 AI 语音生成功能,底层由 ElevenLabs 的 Eleven v3 模型驱动。不同于只用一个声音朗读连续文本的标准文字转语音,Dialogue V3 为对话而设计:它接受包含多个说话人的结构化脚本,为每个说话人分配不同声音,并输出一段完整音频,让每个声音在节奏、情绪和发言关系上听起来更自然。
在 Kling AI Video 上,该功能提供 113 种精选预设声音,覆盖 75 种语言。音频标签是用于情绪、表达方式、非语言声音、口音和节奏的内联标记,可以让你逐行控制声音表现。音频输出可以直接连接到 AI Avatar:写脚本、生成对话音频,再将音频与肖像图片配对,在同一平台上创建口型同步视频。
ElevenLabs Dialogue V3 如何工作
1. 编写对话脚本 — 将内容组织成多行,每行分配给一个说话人。每一行代表一次对话轮次。在 5,000 字符总限制内,说话人数量和行数没有限制。
2. 分配声音并指导表达 — 为每个说话人选择 113 种预设声音之一。生成前可以试听。你可以在脚本中插入音频标签,例如 [excited]、[whispering]、[laughs softly],对特定时刻进行表达指导,而不影响脚本其他部分。
3. 设置稳定性并生成 — 选择 Creative、Natural 或 Robust 稳定性。Natural(默认)适合大多数制作场景。生成后,输出是一个包含所有说话人、切换和节奏的单一音频文件,可以单独使用,也可以送入 AI Avatar。
音频标签 — 情绪和表达控制
音频标签是 ElevenLabs Dialogue V3 区别于普通朗读工具的关键。它们以方括号形式插入脚本,告诉模型某个词、短语或台词应该如何表达,而不会影响生成中的其他内容。
支持六类音频标签:
- 情绪 —
[happy]、[sad]、[angry]、[nervous],设置被标记文本的情绪状态 - 表达方式 —
[whispering]、[shouting]、[slow],控制声音的发声方式 - 非语言声音 —
[laughs]、[sighs]、[gasps],加入自然的非语音声音 - 音效 —
[applause]、[door slamming]、[thunder],在对话中加入环境或反应性声音 - 口音 —
[French accent]、[British accent],只对特定台词切换地域口音 - 节奏 —
[slowly]、[quickly]、[dramatic pause],塑造该行的语速和停顿
标签可以叠加在同一短语上:[excited][quickly] We got the contract! 会让这一句更快、更兴奋。下一句如果没有标签,就会回到默认表达。正是这种逐行精度,让 Dialogue V3 适合需要声音表演的内容,例如从权威语气切换到温暖语气的品牌代言人,或从自信转为犹豫的角色。
多说话人对话
在 Dialogue V3 的一次生成中,说话人数量没有限制。每个说话人都可以独立分配声音、稳定性和音频标签设置。系统会处理说话人切换、自然停顿、对话能量和节奏,让两个或更多声音听起来像真实交流,而不是轮流朗读。
双主持对话 — 适合播客式内容、产品讲解对话和教育问答。每个主持人有独立声音类型,对话模式会保持交流流畅和平衡,无需手动调整时间轴。
角色对白 — 适合叙事内容、故事和多角色场景。多个角色可以在同一音频文件中拥有不同声音、情绪范围和表达方式。结合音频标签,可以让每个角色在完整脚本中保持一致表演。
113 种声音,75 种语言
Kling AI Video 为 ElevenLabs Dialogue V3 提供 113 种精选预设声音,覆盖制作中常用的声音类型:代言人和品牌声音、教育旁白、角色对白、对话主持人和情绪表达型声音。每个预设声音在生成前都可以在声音选择器中试听。
支持 75 种语言,包括 Auto detect。同一脚本结构和音频标签配置可以用于所有支持语言。多语言内容流程很直接:先写脚本,再用每个目标语言生成音频,然后将每个语言版本与同一张肖像图片搭配到 AI Avatar 中。角色视觉身份保持一致,变化的是声音和语言。
对于面向多市场制作内容的团队,例如同一品牌代言人发布英语、西班牙语和日语版本,声音、语言和直接接入 AI Avatar 的工作流可以减少逐个语言重新录音的制作成本。
从脚本到 AI Avatar — 完整流程
在 Kling AI Video 上,ElevenLabs Dialogue V3 最实用的流程是直接连接 AI Avatar。先生成对话音频,再将音频送入 Avatar 工作流并搭配肖像图片。
在独立工具流程中,你通常需要在 TTS 服务上生成音频,下载文件,再上传到数字人工具中生成视频。每一步都是工具之间的手动交接。
在 Kling AI Video 上,完整路径留在同一平台:
- 在 Text-to-Speech 中写对话,分配声音、添加音频标签、设置稳定性
- 生成音频
- 打开 AI Avatar,上传肖像图片,并使用生成的音频
- 生成口型同步视频
角色会按你写下的脚本、选择的声音和设置的表达方向说话。同一张肖像图片可以搭配不同音频文件,例如不同语言、不同脚本和不同语气,从一个角色图片生成一组一致的数字人视频。
如需了解 AI Avatar 的角色类型、模型档位和肖像要求,可查看 Kling AI Avatar 指南。
你可以用 ElevenLabs Dialogue V3 创建什么
AI Avatar 口播视频 — 这是本平台上的主要整合流程。写脚本,用 Dialogue V3 生成声音,再将音频送入 AI Avatar。角色会按你指定的表达方式说出脚本,并能在不同制作中保持一致。
播客和多主持音频内容 — 两个或更多声音自然对话。对话模式处理说话人轮次、节奏和情绪互动。你可以从脚本生成访谈片段、双主持讨论或音频剧场景,无需录音棚或排期。
多语言内容本地化 — 用多个语言生成同一脚本,无需重新录音或重新选角。相同音频标签结构可以跨语言使用,让角色表达在语言变化时仍保持一致。结合 AI Avatar 可以制作完整本地化视频内容。
教育和课程旁白 — 讲师声音朗读课程内容,并通过情绪变化保持注意力。音频标签可以在关键位置加入强调和自然停顿。
产品介绍和演示配音 — 用一致品牌声音讲解产品流程。可搭配 Kling 3.0 视频生成 制作周围场景或 b-roll,两个工具都在 Kling AI Video 上可用。
有声书和故事内容 — 一次生成中包含多个角色声音、情绪范围和戏剧节奏。每个角色有独立声音画像,音频标签按台词指导表演。
Eleven v3 vs Eleven v2 — 有什么变化
| Eleven v2 | Eleven v3 | |
|---|---|---|
| 音频标签 | 不支持 | 6 类:情绪、表达方式、非语言、音效、口音、节奏 |
| 多说话人对话模式 | 不支持 | 自然说话人切换,不限制说话人数量 |
| 语言 | 29 | 75 |
| 稳定性控制 | 基础 | Creative / Natural / Robust |
| 表现力 | 自然、稳定 | 更高情绪范围,能理解上下文表达 |
| 最适合 | 长篇单说话人旁白 | 脚本对话、多角色场景、情绪指导内容 |
从 v2 到 v3 的核心变化是表现力和结构。v3 面向脚本对话和定向表演,音频标签、对话模式和更广语言支持都服务于这个目标。对于更看重稳定、可预测表达的长篇单说话人旁白,v2 仍然适合。在 Kling AI Video 上,Text-to-Speech 通过 Text to Dialogue API 使用 Eleven v3 作为生产级模型。
技术规格
| 规格 | 详情 |
|---|---|
| 模型 | ElevenLabs Eleven v3(Text to Dialogue API) |
| 预设声音 | 113 |
| 语言 | 75(包括 Auto detect) |
| 每次生成最大字符数 | 5,000(所有对话行合计) |
| 说话人 | 不限制 |
| 对话行 | 不限制 |
| 稳定性 | Creative / Natural(默认)/ Robust |
| 音频标签类别 | 情绪、表达方式、非语言、音效、口音、节奏 |
| 声音预览 | 113 种预设声音均可预览 |
| 输出 | 音频文件 |
生成前需要知道什么
5,000 字符限制按所有对话行合计计算。 一个 10 行、双说话人的对话,如果每行 80 字符,总共就是 800 字符,远低于限制。完整播客片段或多章节脚本需要拆分成多个生成片段,再在后期中拼接。
音频标签效果会因声音而异。 有些预设声音对情绪标签反应更明显。建议先用声音预览建立基准,再用音频标签测试,最后再生成正式制作内容。
Natural 稳定性适合大多数场景。 Creative 会带来更强表达变化,但在长脚本中也会增加不确定性,更适合戏剧或角色内容。Robust 会让所有台词语气更统一,适合品牌或教学内容。
围绕 AI Avatar 的 15 秒限制规划脚本片段。 如果对话音频要进入 AI Avatar,请让每个生成片段保持在 15 秒以内。自然脚本断点,例如话题切换和章节切换,也是控制 Avatar 片段语气和节奏的实用位置。
多语言生成使用相同标签结构。 音频标签类别适用于全部 75 种支持语言。西班牙语脚本中的 [excited] 标签与英语脚本中含义相同。这让多语言内容管线可以复用相同脚本结构和表达方向。
谁适合使用 ElevenLabs Dialogue V3
| 创作者类型 | 主要用途 |
|---|---|
| 内容创作者 | 为 Shorts、Reels 和 YouTube 生成脚本驱动的旁白,无需录音设备 |
| 品牌和营销团队 | 跨活动和多语言的 spokesperson TTS → AI Avatar 视频 |
| 教育者和课程创作者 | 在完整课程内容库中保持一致讲师声音 |
| 播客制作人 | 无需录音排期即可生成多主持 AI 对话片段 |
| 有声书和故事创作者 | 多角色场景,并按台词指导情绪表演 |