由 ElevenLabs Dialogue V3 驱动

ElevenLabs Dialogue V3

从脚本生成有表现力的多说话人对话，无需录音设备或配音演员。ElevenLabs Dialogue V3 面向需要规模化生产高质量语音的创作者、营销人员和教育者，接受结构化对话脚本，并输出每个说话人都有独立声音、情绪控制和自然节奏的成品音频。音频输出可直接接入 Kling AI Video 的 AI Avatar 工作流，从脚本到语音再到口型同步视频，无需离开平台。

免费生成对话

什么是 ElevenLabs Dialogue V3

ElevenLabs Dialogue V3 是 Kling AI Video 上的多说话人 AI 语音生成功能，底层由 ElevenLabs 的 Eleven v3 模型驱动。不同于只用一个声音朗读连续文本的标准文字转语音，Dialogue V3 为对话而设计：它接受包含多个说话人的结构化脚本，为每个说话人分配不同声音，并输出一段完整音频，让每个声音在节奏、情绪和发言关系上听起来更自然。

在 Kling AI Video 上，该功能提供 113 种精选预设声音，覆盖 75 种语言。音频标签是用于情绪、表达方式、非语言声音、口音和节奏的内联标记，可以让你逐行控制声音表现。音频输出可以直接连接到 AI Avatar：写脚本、生成对话音频，再将音频与肖像图片配对，在同一平台上创建口型同步视频。

ElevenLabs Dialogue V3 如何工作

1. 编写对话脚本 — 将内容组织成多行，每行分配给一个说话人。每一行代表一次对话轮次。在 5,000 字符总限制内，说话人数量和行数没有限制。

2. 分配声音并指导表达 — 为每个说话人选择 113 种预设声音之一。生成前可以试听。你可以在脚本中插入音频标签，例如 [excited]、[whispering]、[laughs softly]，对特定时刻进行表达指导，而不影响脚本其他部分。

3. 设置稳定性并生成 — 选择 Creative、Natural 或 Robust 稳定性。Natural（默认）适合大多数制作场景。生成后，输出是一个包含所有说话人、切换和节奏的单一音频文件，可以单独使用，也可以送入 AI Avatar。

音频标签 — 情绪和表达控制

音频标签是 ElevenLabs Dialogue V3 区别于普通朗读工具的关键。它们以方括号形式插入脚本，告诉模型某个词、短语或台词应该如何表达，而不会影响生成中的其他内容。

支持六类音频标签：

情绪 — [happy]、[sad]、[angry]、[nervous]，设置被标记文本的情绪状态
表达方式 — [whispering]、[shouting]、[slow]，控制声音的发声方式
非语言声音 — [laughs]、[sighs]、[gasps]，加入自然的非语音声音
音效 — [applause]、[door slamming]、[thunder]，在对话中加入环境或反应性声音
口音 — [French accent]、[British accent]，只对特定台词切换地域口音
节奏 — [slowly]、[quickly]、[dramatic pause]，塑造该行的语速和停顿

标签可以叠加在同一短语上：[excited][quickly] We got the contract! 会让这一句更快、更兴奋。下一句如果没有标签，就会回到默认表达。正是这种逐行精度，让 Dialogue V3 适合需要声音表演的内容，例如从权威语气切换到温暖语气的品牌代言人，或从自信转为犹豫的角色。

多说话人对话

在 Dialogue V3 的一次生成中，说话人数量没有限制。每个说话人都可以独立分配声音、稳定性和音频标签设置。系统会处理说话人切换、自然停顿、对话能量和节奏，让两个或更多声音听起来像真实交流，而不是轮流朗读。

双主持对话 — 适合播客式内容、产品讲解对话和教育问答。每个主持人有独立声音类型，对话模式会保持交流流畅和平衡，无需手动调整时间轴。

角色对白 — 适合叙事内容、故事和多角色场景。多个角色可以在同一音频文件中拥有不同声音、情绪范围和表达方式。结合音频标签，可以让每个角色在完整脚本中保持一致表演。

113 种声音，75 种语言

Kling AI Video 为 ElevenLabs Dialogue V3 提供 113 种精选预设声音，覆盖制作中常用的声音类型：代言人和品牌声音、教育旁白、角色对白、对话主持人和情绪表达型声音。每个预设声音在生成前都可以在声音选择器中试听。

支持 75 种语言，包括 Auto detect。同一脚本结构和音频标签配置可以用于所有支持语言。多语言内容流程很直接：先写脚本，再用每个目标语言生成音频，然后将每个语言版本与同一张肖像图片搭配到 AI Avatar 中。角色视觉身份保持一致，变化的是声音和语言。

对于面向多市场制作内容的团队，例如同一品牌代言人发布英语、西班牙语和日语版本，声音、语言和直接接入 AI Avatar 的工作流可以减少逐个语言重新录音的制作成本。

从脚本到 AI Avatar — 完整流程

在 Kling AI Video 上，ElevenLabs Dialogue V3 最实用的流程是直接连接 AI Avatar。先生成对话音频，再将音频送入 Avatar 工作流并搭配肖像图片。

在独立工具流程中，你通常需要在 TTS 服务上生成音频，下载文件，再上传到数字人工具中生成视频。每一步都是工具之间的手动交接。

在 Kling AI Video 上，完整路径留在同一平台：

在 Text-to-Speech 中写对话，分配声音、添加音频标签、设置稳定性
生成音频
打开 AI Avatar，上传肖像图片，并使用生成的音频
生成口型同步视频

角色会按你写下的脚本、选择的声音和设置的表达方向说话。同一张肖像图片可以搭配不同音频文件，例如不同语言、不同脚本和不同语气，从一个角色图片生成一组一致的数字人视频。

如需了解 AI Avatar 的角色类型、模型档位和肖像要求，可查看 Kling AI Avatar 指南。

你可以用 ElevenLabs Dialogue V3 创建什么

AI Avatar 口播视频 — 这是本平台上的主要整合流程。写脚本，用 Dialogue V3 生成声音，再将音频送入 AI Avatar。角色会按你指定的表达方式说出脚本，并能在不同制作中保持一致。

播客和多主持音频内容 — 两个或更多声音自然对话。对话模式处理说话人轮次、节奏和情绪互动。你可以从脚本生成访谈片段、双主持讨论或音频剧场景，无需录音棚或排期。

多语言内容本地化 — 用多个语言生成同一脚本，无需重新录音或重新选角。相同音频标签结构可以跨语言使用，让角色表达在语言变化时仍保持一致。结合 AI Avatar 可以制作完整本地化视频内容。

教育和课程旁白 — 讲师声音朗读课程内容，并通过情绪变化保持注意力。音频标签可以在关键位置加入强调和自然停顿。

产品介绍和演示配音 — 用一致品牌声音讲解产品流程。可搭配 Kling 3.0 视频生成制作周围场景或 b-roll，两个工具都在 Kling AI Video 上可用。

有声书和故事内容 — 一次生成中包含多个角色声音、情绪范围和戏剧节奏。每个角色有独立声音画像，音频标签按台词指导表演。

Eleven v3 vs Eleven v2 — 有什么变化

	Eleven v2	Eleven v3
音频标签	不支持	6 类：情绪、表达方式、非语言、音效、口音、节奏
多说话人对话模式	不支持	自然说话人切换，不限制说话人数量
语言	29	75
稳定性控制	基础	Creative / Natural / Robust
表现力	自然、稳定	更高情绪范围，能理解上下文表达
最适合	长篇单说话人旁白	脚本对话、多角色场景、情绪指导内容

从 v2 到 v3 的核心变化是表现力和结构。v3 面向脚本对话和定向表演，音频标签、对话模式和更广语言支持都服务于这个目标。对于更看重稳定、可预测表达的长篇单说话人旁白，v2 仍然适合。在 Kling AI Video 上，Text-to-Speech 通过 Text to Dialogue API 使用 Eleven v3 作为生产级模型。

技术规格

规格	详情
模型	ElevenLabs Eleven v3（Text to Dialogue API）
预设声音	113
语言	75（包括 Auto detect）
每次生成最大字符数	5,000（所有对话行合计）
说话人	不限制
对话行	不限制
稳定性	Creative / Natural（默认）/ Robust
音频标签类别	情绪、表达方式、非语言、音效、口音、节奏
声音预览	113 种预设声音均可预览
输出	音频文件

生成前需要知道什么

5,000 字符限制按所有对话行合计计算。 一个 10 行、双说话人的对话，如果每行 80 字符，总共就是 800 字符，远低于限制。完整播客片段或多章节脚本需要拆分成多个生成片段，再在后期中拼接。

音频标签效果会因声音而异。 有些预设声音对情绪标签反应更明显。建议先用声音预览建立基准，再用音频标签测试，最后再生成正式制作内容。

Natural 稳定性适合大多数场景。 Creative 会带来更强表达变化，但在长脚本中也会增加不确定性，更适合戏剧或角色内容。Robust 会让所有台词语气更统一，适合品牌或教学内容。

围绕 AI Avatar 的 5 分钟限制规划脚本片段。 如果对话音频要进入 AI Avatar，请让每个生成片段保持在 5 分钟以内。自然脚本断点，例如话题切换和章节切换，也是控制 Avatar 片段语气和节奏的实用位置。

多语言生成使用相同标签结构。 音频标签类别适用于全部 75 种支持语言。西班牙语脚本中的 [excited] 标签与英语脚本中含义相同。这让多语言内容管线可以复用相同脚本结构和表达方向。

常见问题

ElevenLabs Dialogue V3 是 Kling AI Video 上的多说话人 AI 语音生成功能，底层由 ElevenLabs 的 Eleven v3 模型驱动。它可以从结构化脚本生成自然、有表现力的对话音频：每一行分配给一个说话人和对应声音，系统输出一段完整音频，包含准确节奏、情绪表达和自然说话人切换。它不同于标准单说话人文字转语音，Dialogue V3 更适合对话、多角色场景，以及同一输出中需要多个声音的内容。

普通文字转语音通常是一个声音朗读一整段连续文本。ElevenLabs Dialogue V3 生成的是对话：多个说话人、结构化轮流发言、自然停顿，以及同一音频中不同声音之间的情绪匹配。每个说话人可以分配独立声音，系统会把切换、表达和节奏作为一个统一音频场景处理，而不是把多个单独片段简单拼接。

在 Kling AI Video 上，ElevenLabs Dialogue V3 提供 113 种精选预设声音，并支持 75 种语言，包括 Auto detect。每个预设声音都可以在生成前预览。这些声音覆盖多种角色类型、年龄、口音和语气风格，适合品牌代言、角色对话、旁白和教育内容。

音频标签是直接插入对话脚本中的内联标记，用来控制某一句或某个短语的表达方式。它们写在方括号中，例如 [excited]、[whispering]、[laughs softly] 或 [French accent]。ElevenLabs Dialogue V3 支持六类音频标签：情绪、表达方式、非语言声音、音效、口音和节奏。你可以在不影响整段脚本的情况下，对单独台词做精细控制，也可以在同一句中组合多个标签。

稳定性控制声音在不同台词之间的变化程度。Creative（最低）带来最强表达变化，适合戏剧内容和角色表演，但长脚本中可预测性较低。Natural（默认）在表现力和一致性之间取得平衡，适合大多数旁白和对话制作。Robust（最高）输出最稳定，适合品牌内容、教学材料，以及一致语气比情绪变化更重要的场景。

可以。113 种预设声音都在 Kling AI Video 的声音选择器中提供音频预览。预览是云端托管的声音样本，你可以在为某个说话人确定声音之前试听多个选项。

每次生成的最大输入为 5,000 个字符，按所有对话行合计计算。在这个总字符限制内，说话人数量和单独行数没有限制。更长脚本，例如完整播客片段或多章节旁白，需要拆分成多个片段分别生成，再在后期中拼接。如果音频要用于 AI Avatar，请按 Avatar 每次 5 分钟的生成限制规划片段。

在 Kling AI Video 上，ElevenLabs Dialogue V3 的音频输出可以直接接入 AI Avatar 工作流，无需切换平台。你可以先编写对话、分配声音、添加音频标签、设置稳定性并生成音频，然后将生成结果送入 AI Avatar，与肖像图片一起创建口型同步口播视频。

使用 ElevenLabs Dialogue V3 将同一脚本生成不同目标语言版本，支持 75 种语言，包括 Auto detect。每个语言版本都使用同一张肖像图片和对应音频在 AI Avatar 中生成。角色视觉身份保持一致，变化的只有声音和语言。这减少了多市场内容制作中重复录音和重新选角的成本。

Eleven v3 增加了 v2 没有的三个主要能力：用于内联情绪控制的音频标签、多说话人对话模式，以及从 29 种扩展到 75 种语言的语言支持。v3 更适合有表现力的叙事内容和对话场景。v2 仍适合长篇单说话人旁白，尤其是更重视稳定一致表达的内容。在 Kling AI Video 上，Text-to-Speech 通过 Text to Dialogue API 使用 Eleven v3 作为底层模型。

适合。多说话人对话模式可以生成主持人与嘉宾之间的自然往返对话，处理说话人切换、停顿和情绪互动，这些都是播客式内容的核心要求。双主持、访谈片段和叙事音频剧都可以使用。每个说话人可以拥有独立声音和音频标签设置。更长播客需要按 5,000 字符输入限制拆分生成。

ElevenLabs Dialogue V3 适合任何需要脚本语音的制作。主要场景包括音频直接进入 Avatar 工作流的 AI Avatar 口播视频、播客和多主持音频内容、基于同一脚本的多语言旁白、教育课程讲解、产品介绍和演示配音、短视频语音，以及多角色有声书和故事内容。

立即开始使用 ElevenLabs Dialogue V3 创作

把创意快速转化为高质量内容，无需复杂技术经验。

免费生成对话

由 ElevenLabs Dialogue V3 驱动

ElevenLabs Dialogue V3

免费生成对话

情绪 — [happy]、[sad]、[angry]、[nervous]，设置被标记文本的情绪状态
表达方式 — [whispering]、[shouting]、[slow]，控制声音的发声方式
非语言声音 — [laughs]、[sighs]、[gasps]，加入自然的非语音声音
音效 — [applause]、[door slamming]、[thunder]，在对话中加入环境或反应性声音
口音 — [French accent]、[British accent]，只对特定台词切换地域口音
节奏 — [slowly]、[quickly]、[dramatic pause]，塑造该行的语速和停顿

在 Kling AI Video 上，完整路径留在同一平台：

在 Text-to-Speech 中写对话，分配声音、添加音频标签、设置稳定性
生成音频
打开 AI Avatar，上传肖像图片，并使用生成的音频
生成口型同步视频

如需了解 AI Avatar 的角色类型、模型档位和肖像要求，可查看 Kling AI Avatar 指南。

你可以用 ElevenLabs Dialogue V3 创建什么

教育和课程旁白 — 讲师声音朗读课程内容，并通过情绪变化保持注意力。音频标签可以在关键位置加入强调和自然停顿。

产品介绍和演示配音 — 用一致品牌声音讲解产品流程。可搭配 Kling 3.0 视频生成制作周围场景或 b-roll，两个工具都在 Kling AI Video 上可用。

有声书和故事内容 — 一次生成中包含多个角色声音、情绪范围和戏剧节奏。每个角色有独立声音画像，音频标签按台词指导表演。

Eleven v3 vs Eleven v2 — 有什么变化

	Eleven v2	Eleven v3
音频标签	不支持	6 类：情绪、表达方式、非语言、音效、口音、节奏
多说话人对话模式	不支持	自然说话人切换，不限制说话人数量
语言	29	75
稳定性控制	基础	Creative / Natural / Robust
表现力	自然、稳定	更高情绪范围，能理解上下文表达
最适合	长篇单说话人旁白	脚本对话、多角色场景、情绪指导内容

技术规格

规格	详情
模型	ElevenLabs Eleven v3（Text to Dialogue API）
预设声音	113
语言	75（包括 Auto detect）
每次生成最大字符数	5,000（所有对话行合计）
说话人	不限制
对话行	不限制
稳定性	Creative / Natural（默认）/ Robust
音频标签类别	情绪、表达方式、非语言、音效、口音、节奏
声音预览	113 种预设声音均可预览
输出	音频文件

生成前需要知道什么

音频标签效果会因声音而异。 有些预设声音对情绪标签反应更明显。建议先用声音预览建立基准，再用音频标签测试，最后再生成正式制作内容。

谁适合使用 ElevenLabs Dialogue V3

创作者类型	主要用途
内容创作者	为 Shorts、Reels 和 YouTube 生成脚本驱动的旁白，无需录音设备
品牌和营销团队	跨活动和多语言的 spokesperson TTS → AI Avatar 视频
教育者和课程创作者	在完整课程内容库中保持一致讲师声音
播客制作人	无需录音排期即可生成多主持 AI 对话片段
有声书和故事创作者	多角色场景，并按台词指导情绪表演

生成你的第一段对话 →

常见问题

可以。113 种预设声音都在 Kling AI Video 的声音选择器中提供音频预览。预览是云端托管的声音样本，你可以在为某个说话人确定声音之前试听多个选项。

立即开始使用 ElevenLabs Dialogue V3 创作

把创意快速转化为高质量内容，无需复杂技术经验。

免费生成对话

ElevenLabs Dialogue V3

常见问题

ElevenLabs Dialogue V3 是什么？

ElevenLabs Dialogue V3 和普通文字转语音有什么不同？

ElevenLabs Dialogue V3 支持多少声音和语言？

什么是音频标签，如何使用？

Creative、Natural 和 Robust 稳定性有什么区别？

生成前可以预览声音吗？

一次 Dialogue V3 生成可以有多长？

ElevenLabs Dialogue V3 如何与 Kling AI Video 的 AI Avatar 配合？

如何用同一个角色创建多语言数字人视频？

Eleven v3 和 Eleven v2 有什么区别？

ElevenLabs Dialogue V3 适合播客制作吗？

我可以用 ElevenLabs Dialogue V3 创建哪些内容？

立即开始使用 ElevenLabs Dialogue V3 创作

ElevenLabs Dialogue V3

常见问题

ElevenLabs Dialogue V3 是什么？

ElevenLabs Dialogue V3 和普通文字转语音有什么不同？

ElevenLabs Dialogue V3 支持多少声音和语言？

什么是音频标签，如何使用？

Creative、Natural 和 Robust 稳定性有什么区别？

生成前可以预览声音吗？

一次 Dialogue V3 生成可以有多长？

ElevenLabs Dialogue V3 如何与 Kling AI Video 的 AI Avatar 配合？

如何用同一个角色创建多语言数字人视频？

Eleven v3 和 Eleven v2 有什么区别？

ElevenLabs Dialogue V3 适合播客制作吗？

我可以用 ElevenLabs Dialogue V3 创建哪些内容？

立即开始使用 ElevenLabs Dialogue V3 创作