由 Kling 3.0 动作控制驱动

Kling 3.0 动作控制

将真实人物动作迁移到任意角色，无需动作捕捉硬件。上传参考视频和角色图片，Kling 3.0 会提取关节角度、身体轨迹和手势动作，生成 Std 或 Pro 质量的完整动画。

什么是 Kling 3.0 动作控制

Kling 3.0 动作控制是 Kling AI Video 上的视频制作功能，可以将参考视频中的真实人物动作迁移到你提供的任意角色上，无需动作捕捉棚、追踪服或专用硬件。它面向内容创作者、角色动画师和品牌团队，适合在没有动捕流程的情况下制作精确角色动画。你只需要提供两个输入：角色图片和动作来源视频。系统会从参考视频中读取关节角度、身体轨迹、面部表情、相机运动和布料动态，再逐帧渲染角色执行该动作，最长可输出 30 秒。最终结果是一段完整动画，而不是需要清理的关键帧数据。

与其用文字描述动作，不如直接展示动作。参考视频承载动作数据，角色图片承载身份信息，Kling 3.0 将两者结合。当动作已经存在时，例如舞者表演、武术套路或产品演示手势，这种方式能把动作应用到另一个主体上，而不需要重新拍摄。

Kling 3.0 动作控制能做什么

无需捕捉设备的动作迁移

传统动作迁移需要受控环境、动作捕捉棚、穿戴设备和后期绑定。动作控制用两个文件上传替代这套流程。参考视频提供动作数据，Kling 3.0 通过算法提取动作并映射到你的角色上。

动作控制会从参考视频中读取：

全身动作 — 舞蹈、武术、运动训练、行走循环
上半身和手势动作 — 手臂运动、肩部和头部表达、手部动作
面部表情和口型动作 — 情绪和嘴型随身体动作一起迁移
相机运动 — 平移、推进和拉远等镜头运动可延续到输出中
布料动态 — 布料行为跟随角色身体动作，而不是静态贴附

对于快速变向或复杂手部动作，系统会提取参考视频中清晰可见的信息。主体清楚、节奏明确的动作通常会产生更精确结果。

动作迁移流程

流程分为四步：

1. 上传角色图片 — 需要被动画化的主体。最好是单个角色，身体清晰可见，姿态明确。支持 JPG 和 PNG，最大 10MB，最短边至少 340px，宽高比在 2:5 到 5:2 之间。

2. 上传参考视频 — 动作来源。视频中应为单人主体，光线清晰，构图明确。支持 MP4 和 MOV，最大 50MB，时长 3 到 30 秒。

3. 选择角色朝向 — 决定 Kling 3.0 如何理解角色与参考视频空间构图之间的关系。

4. 添加可选场景提示词 — 描述你希望的环境、光线或氛围。不要描述动作本身：动作完全来自参考视频，而不是文字。尝试覆盖或添加动作的提示词不会成为动作来源；用于设置视觉语境的提示词更有效。

Kling 3.0 会完成提取与渲染，输出一段连续视频。

角色与参考视频匹配

当角色图片和参考视频采用相似构图时，动作控制效果最好。全身角色图适合搭配全身动作参考；人像或上半身角色图适合搭配上半身动作参考。这能为系统提供更清晰的关节、比例和姿态锚点。

如果要用同一角色制作多段内容，尽量重复使用同一张源图，并让参考视频在比例和镜头角度上保持一致。在当前 Kling AI Video 工作流中，这是跨多次动作控制生成保持角色身份一致性的更可靠方式。

Character Orientation — Matches Video vs Matches Image

Character Orientation 是动作控制中非常关键的设置。它决定系统如何解释你的角色与参考视频之间的空间关系。

Matches Video 会让角色朝向与参考视频中的人物方向一致，角色空间位置跟随参考视频构图。这是大多数场景的标准模式，支持最长 30 秒输出。

Matches Image 会以角色图片原始朝向作为锚点。如果角色图片已经有特定朝向，例如正面或三分之四侧脸，此模式会保留该朝向并在其中应用动作。当你希望保持角色图片姿态时更适合使用它。此模式最长输出 10 秒。

选择哪种模式取决于角色图片本身，以及你希望输出如何构图。

场景提示词控制

除了 Character Orientation，可选提示词用于描述迁移动作周围的视觉语境：

环境 — 描述角色所处地点、背景风格或场景设置。

光线和氛围 — 加入简洁方向，例如柔和棚拍光、户外午后光线或电影感逆光。

提示词不是动作来源。动作仍来自参考视频；提示词用于引导画面外观。

输出质量 — Std 和 Pro

动作控制提供两个质量档位：

Std (720p) 适合社交视频、快速迭代和重视周转速度的内容。

Pro (1080p) 提供更高视觉保真度，适合最终成片、演示视频和质量优先的内容。

两个档位都支持完整功能：两种朝向模式、完整时长范围和所有角色类型。

什么样的参考视频更好

参考视频是核心输入，它的质量会直接影响输出。

适合的参考视频：

单人主体，构图清晰，占据画面主要区域
相机稳定，尽量少抖动或快速变焦
背景简单、不杂乱，例如纯色或低对比环境
动作明确、节奏清楚，例如舞蹈套路、练习动作、清晰手势
全片光线一致

尽量避免：

画面中有多个人物，系统会以单个主体为目标
参考视频和角色图片构图不匹配，例如上半身角色图搭配全身参考视频，这会降低稳定性；尽量保持两者比例和构图一致
快速动作导致严重运动模糊，降低关节提取准确性
身体局部被裁切，四肢或躯干缺失会导致数据不足
快速或不规则相机运动，会给骨骼跟踪带来歧义

5 到 15 秒的短片段通常最稳定：动作干净、主体清楚，并且构图与角色图片匹配。

你可以用 Kling 3.0 动作控制创建什么

舞蹈和表演内容 — 将参考视频中的编舞迁移到 AI 角色上，无需招募演员或租用摄影棚，就能制作适合社交平台的舞蹈短片。

故事角色动画 — 将明确的叙事动作应用到插画或 3D 渲染角色上。动作控制可以处理非写实主体，系统会根据图片中识别到的角色比例适配动作。

产品和品牌动作 — 将手势驱动动作应用到品牌角色或代言人形象上。一个录制良好的手势视频可以应用到多个角色风格，用于不同活动素材。

武术和运动序列 — 将特定动作模式，例如套路、训练动作或运动技巧，迁移到角色渲染上。输出可用于教学内容、宣传视频或娱乐内容。

多片段角色序列 — 重复使用同一张角色图片制作多段动作控制片段，再在剪辑时间线中组合。保持构图和参考视频风格一致，有助于提升片段之间的视觉连续性。

动作控制在完整创作流程中的位置

在 Kling AI Video 上，动作控制是更大制作链条中的一步。每个工具负责不同环节：

Kling 3.0 视频生成 生成初始角色或场景。你可以先确定角色外观和环境，再应用动作，也可以生成与动作控制片段搭配的 b-roll。

动作控制 使用现有角色图片和参考视频，生成角色执行提取动作的动画片段。角色图片可以来自之前的 Kling 3.0 生成，也可以是你已有的任何图片。

AI Avatar 为包含口播的内容增加口型同步片段。上传肖像和音频文件后，Avatar 输出可以和动作动画片段在最终剪辑中组合。

Text-to-Speech 生成可直接送入 AI Avatar 的旁白，无需切换平台。完整链路可以留在同一平台内：脚本到语音，语音到口型同步视频，再到动作动画 b-roll。

Kling 3.0 vs Kling 2.6 动作控制 — 有什么变化

	Kling 2.6 动作控制	Kling 3.0 动作控制
角色一致性	标准	当源图和参考构图匹配时更稳定
手部和手势跟踪	标准	改进，细微动作提取更平滑
参考到输出对齐	标准	参考视频与角色输出同步更紧密
人像动作精度	标准	改进，更好保持动态中的身份
输出 — Std	720p	720p
输出 — Pro	1080p	1080p
最长时长（Matches Video）	30 秒	30 秒
最长时长（Matches Image）	10 秒	10 秒

Kling 3.0 更实用的变化是参考视频到输出的对齐更强。在较旧的动作迁移工作流中，当参考视频包含复杂动作时，角色姿态、手部动作和节奏可能会漂移。Kling 3.0 改进了手部跟踪、手势连续性，以及参考视频与生成角色输出之间的整体对齐。

技术规格

规格	详情
角色图片格式	JPG、PNG
角色图片大小	最短边至少 340px，最大 10MB
角色图片宽高比	2:5 到 5:2
参考视频格式	MP4、MOV
参考视频大小	最大 50MB
参考视频时长	3–30 秒
朝向 — Matches Video	最长 30 秒输出
朝向 — Matches Image	最长 10 秒输出
场景提示词	可选环境、光线和氛围引导
输出分辨率 — Std	720p
输出分辨率 — Pro	1080p
提示词长度	最多 2,500 字符

使用动作控制前需要知道什么

参考视频质量决定输出质量。 清晰主体、稳定构图和明确动作能提供更完整的动作数据。模糊、遮挡或多人主体都会降低可提取信息。

角色图片和参考视频构图应匹配。 如果角色图片是半身构图，而参考视频是全身表演，输出可能失败或不稳定。尽量让比例和构图一致：全身图配全身参考，半身图配半身参考。

提示词描述场景，不描述动作。 动作完全来自参考视频，尝试覆盖或添加动作的文字提示词不会成为动作来源。用提示词设置场景语境：光线、背景环境和视觉氛围。保持简洁，参考视频和角色图片才是核心输入。

身体局部缺失会限制准确性。 如果参考视频裁掉下半身，腿部和髋部运动就无法完整提取。需要全身动作时，尽量让主体全身入镜。

高速手部和手指动作是更难场景。 高速手部动作容易丢失细节。对手势精度要求高时，参考视频中的手部动作越慢、越明确，结果越稳定。

跨多次生成的角色一致性取决于重复输入。 单次生成内，角色通常能保持稳定。如果要用同一角色制作多个参考视频片段，请重复使用同一张源图，并尽量保持构图、光线和参考视频风格一致。

Matches Image 模式有 10 秒上限。 如果需要超过 10 秒输出，请使用 Matches Video 朝向。

音频需要单独规划。 动作控制使用参考视频来提取动作。如果最终片段需要对白、音乐或声音设计，请把音频作为单独制作步骤，或在后期中将生成的动作片段与音频组合。

谁适合使用 Kling 3.0 动作控制

创作者类型	主要用途
短视频创作者	将舞蹈或流行趋势动作应用到 AI 角色上，用于 TikTok、Reels 和 Shorts
角色动画师	将叙事动作迁移到插画或 3D 渲染角色，无需绑定
营销和品牌团队	将手势演示应用到品牌角色上，不必为每个素材重新拍摄
内容工作室	用一致源图和匹配参考视频批量制作动作动画片段
教育和讲解创作者	用自然动作动画化讲解角色，制作教学视频

开始使用动作控制 →

常见问题

Kling 3.0 动作控制是 Kling AI Video 上的动作迁移功能，可以将参考视频中的真实人物动作迁移到角色图片上。它分析来源视频中的关节角度、身体轨迹和手势节奏，再逐帧应用到你选择的角色上，无需动作捕捉硬件。输出最长 30 秒，支持 720p Std 或 1080p Pro 质量。

你需要上传两个输入：一张角色图片和一个参考视频。Kling 3.0 会从参考视频中提取骨骼关节角度、肢体轨迹和时间节奏，再渲染你的角色逐帧执行该动作，同时尽量保留角色的视觉身份，包括比例、服装和风格。输出是一段可直接使用的连续视频。

动作控制可以处理多种人物动作，包括舞蹈、武术等全身动作，上半身手势和手臂动作，行走周期和方向移动，以及包含头部和肩部变化的表演动作。参考视频质量足够时，细节手部动作也会被捕捉。快速或复杂的多人编舞更难处理，结果可能不如清晰单人动作精确。

理想参考视频应包含一个清晰可见的单人主体，主体占据画面主要区域。稳定光线和较少相机抖动有助于提取更干净的关节信息。简单背景可以减少骨骼跟踪干扰。慢速到中速动作，例如舞蹈练习、明确手势，通常比快速或被遮挡的动作更容易迁移。支持 MP4 和 MOV，最大 50MB，时长 3 到 30 秒。

Character Orientation 决定 Kling 3.0 如何放置你的角色。Matches Video 会让角色朝向与参考视频中的人物方向一致，匹配来源视频的空间构图，此模式支持最长 30 秒输出。Matches Image 会以角色图片自身的朝向为锚点，更适合角色图片本身姿势很重要的情况，此模式最长支持 10 秒输出。

角色图片应展示单个主体，可以是真人、插画角色或风格化人物。支持 JPG 和 PNG，每张最大 10MB，最短边至少 340px，宽高比应在 2:5 到 5:2 之间。清晰身体可见和明确姿态会带来更准确的动作映射。过度裁切或被遮挡的角色会限制系统识别关节位置。

输出长度会匹配参考视频时长，但不能超过所选朝向模式的上限。Matches Video 模式支持 3–30 秒输出；Matches Image 模式最长 10 秒。输出时长不能超过参考视频本身长度。

Kling 3.0 动作控制改进了参考视频到角色输出的对齐、手部和手势跟踪，以及人像类内容的动作精度。在 Kling AI Video 当前工作流中，动作控制使用一张角色图片和一个参考视频，Character Orientation 控制输出跟随参考视频方向，还是保留角色图片原始朝向。

可以。动作控制不局限于真人照片。插画角色、2D 风格化人物和 3D 渲染角色都可以作为角色图片输入。系统会根据图片中识别到的解剖结构，将提取到的骨骼动作应用到角色上。对于不同视觉风格，节奏较慢、动作明确的参考视频通常更稳定。

当你有一个具体动作需要准确复现时，应优先使用动作控制，例如录制好的舞蹈、训练动作或带有明确节奏的身体动作。文字提示词适合“一个人向前走”“挥手”这类泛化动作，但面对复杂编舞、精确身体力学或需要复刻来源表演的场景会不够稳定。如果你能用参考视频展示动作，动作控制通常比文字描述更可靠。

动作控制中的提示词描述场景，而不是动作。用提示词设置视觉语境，例如环境、光线、时间和氛围。例如“户外公园、柔和午后光线、绿色背景”是在告诉系统画面应是什么样子。不要尝试用文字重新描述动作，因为动作来自参考视频。保持三到五个清晰描述点通常就足够。

在 Kling AI Video 上，动作控制可以自然连接到其他创作工具。你可以先用 Kling 3.0 文生视频生成基础角色或场景，再用动作控制套用参考视频中的具体动作。需要口播片段时，AI Avatar 可以生成口型同步视频，Text-to-Speech 生成的旁白可以直接进入 AI Avatar 工作流，无需离开平台。每个工具负责不同制作环节，并共用同一个账号。

立即开始使用 Kling 3.0 动作控制创作

把创意快速转化为高质量内容，无需复杂技术经验。

免费体验动作控制

由 Kling 3.0 动作控制驱动

Kling 3.0 动作控制

免费体验动作控制

全身动作 — 舞蹈、武术、运动训练、行走循环
上半身和手势动作 — 手臂运动、肩部和头部表达、手部动作
面部表情和口型动作 — 情绪和嘴型随身体动作一起迁移
相机运动 — 平移、推进和拉远等镜头运动可延续到输出中
布料动态 — 布料行为跟随角色身体动作，而不是静态贴附

对于快速变向或复杂手部动作，系统会提取参考视频中清晰可见的信息。主体清楚、节奏明确的动作通常会产生更精确结果。

动作迁移流程

流程分为四步：

2. 上传参考视频 — 动作来源。视频中应为单人主体，光线清晰，构图明确。支持 MP4 和 MOV，最大 50MB，时长 3 到 30 秒。

3. 选择角色朝向 — 决定 Kling 3.0 如何理解角色与参考视频空间构图之间的关系。

Kling 3.0 会完成提取与渲染，输出一段连续视频。

角色与参考视频匹配

Character Orientation — Matches Video vs Matches Image

Character Orientation 是动作控制中非常关键的设置。它决定系统如何解释你的角色与参考视频之间的空间关系。

Matches Video 会让角色朝向与参考视频中的人物方向一致，角色空间位置跟随参考视频构图。这是大多数场景的标准模式，支持最长 30 秒输出。

选择哪种模式取决于角色图片本身，以及你希望输出如何构图。

场景提示词控制

除了 Character Orientation，可选提示词用于描述迁移动作周围的视觉语境：

环境 — 描述角色所处地点、背景风格或场景设置。

光线和氛围 — 加入简洁方向，例如柔和棚拍光、户外午后光线或电影感逆光。

提示词不是动作来源。动作仍来自参考视频；提示词用于引导画面外观。

输出质量 — Std 和 Pro

动作控制提供两个质量档位：

Std (720p) 适合社交视频、快速迭代和重视周转速度的内容。

Pro (1080p) 提供更高视觉保真度，适合最终成片、演示视频和质量优先的内容。

两个档位都支持完整功能：两种朝向模式、完整时长范围和所有角色类型。

什么样的参考视频更好

参考视频是核心输入，它的质量会直接影响输出。

适合的参考视频：

单人主体，构图清晰，占据画面主要区域
相机稳定，尽量少抖动或快速变焦
背景简单、不杂乱，例如纯色或低对比环境
动作明确、节奏清楚，例如舞蹈套路、练习动作、清晰手势
全片光线一致

尽量避免：

画面中有多个人物，系统会以单个主体为目标
参考视频和角色图片构图不匹配，例如上半身角色图搭配全身参考视频，这会降低稳定性；尽量保持两者比例和构图一致
快速动作导致严重运动模糊，降低关节提取准确性
身体局部被裁切，四肢或躯干缺失会导致数据不足
快速或不规则相机运动，会给骨骼跟踪带来歧义

5 到 15 秒的短片段通常最稳定：动作干净、主体清楚，并且构图与角色图片匹配。

你可以用 Kling 3.0 动作控制创建什么

舞蹈和表演内容 — 将参考视频中的编舞迁移到 AI 角色上，无需招募演员或租用摄影棚，就能制作适合社交平台的舞蹈短片。

故事角色动画 — 将明确的叙事动作应用到插画或 3D 渲染角色上。动作控制可以处理非写实主体，系统会根据图片中识别到的角色比例适配动作。

产品和品牌动作 — 将手势驱动动作应用到品牌角色或代言人形象上。一个录制良好的手势视频可以应用到多个角色风格，用于不同活动素材。

武术和运动序列 — 将特定动作模式，例如套路、训练动作或运动技巧，迁移到角色渲染上。输出可用于教学内容、宣传视频或娱乐内容。

动作控制在完整创作流程中的位置

在 Kling AI Video 上，动作控制是更大制作链条中的一步。每个工具负责不同环节：

Kling 3.0 视频生成 生成初始角色或场景。你可以先确定角色外观和环境，再应用动作，也可以生成与动作控制片段搭配的 b-roll。

动作控制 使用现有角色图片和参考视频，生成角色执行提取动作的动画片段。角色图片可以来自之前的 Kling 3.0 生成，也可以是你已有的任何图片。

AI Avatar 为包含口播的内容增加口型同步片段。上传肖像和音频文件后，Avatar 输出可以和动作动画片段在最终剪辑中组合。

Kling 3.0 vs Kling 2.6 动作控制 — 有什么变化

	Kling 2.6 动作控制	Kling 3.0 动作控制
角色一致性	标准	当源图和参考构图匹配时更稳定
手部和手势跟踪	标准	改进，细微动作提取更平滑
参考到输出对齐	标准	参考视频与角色输出同步更紧密
人像动作精度	标准	改进，更好保持动态中的身份
输出 — Std	720p	720p
输出 — Pro	1080p	1080p
最长时长（Matches Video）	30 秒	30 秒
最长时长（Matches Image）	10 秒	10 秒

技术规格

规格	详情
角色图片格式	JPG、PNG
角色图片大小	最短边至少 340px，最大 10MB
角色图片宽高比	2:5 到 5:2
参考视频格式	MP4、MOV
参考视频大小	最大 50MB
参考视频时长	3–30 秒
朝向 — Matches Video	最长 30 秒输出
朝向 — Matches Image	最长 10 秒输出
场景提示词	可选环境、光线和氛围引导
输出分辨率 — Std	720p
输出分辨率 — Pro	1080p
提示词长度	最多 2,500 字符

使用动作控制前需要知道什么

参考视频质量决定输出质量。 清晰主体、稳定构图和明确动作能提供更完整的动作数据。模糊、遮挡或多人主体都会降低可提取信息。

身体局部缺失会限制准确性。 如果参考视频裁掉下半身，腿部和髋部运动就无法完整提取。需要全身动作时，尽量让主体全身入镜。

高速手部和手指动作是更难场景。 高速手部动作容易丢失细节。对手势精度要求高时，参考视频中的手部动作越慢、越明确，结果越稳定。

Matches Image 模式有 10 秒上限。 如果需要超过 10 秒输出，请使用 Matches Video 朝向。

谁适合使用 Kling 3.0 动作控制

创作者类型	主要用途
短视频创作者	将舞蹈或流行趋势动作应用到 AI 角色上，用于 TikTok、Reels 和 Shorts
角色动画师	将叙事动作迁移到插画或 3D 渲染角色，无需绑定
营销和品牌团队	将手势演示应用到品牌角色上，不必为每个素材重新拍摄
内容工作室	用一致源图和匹配参考视频批量制作动作动画片段
教育和讲解创作者	用自然动作动画化讲解角色，制作教学视频

开始使用动作控制 →

常见问题

立即开始使用 Kling 3.0 动作控制创作

把创意快速转化为高质量内容，无需复杂技术经验。

免费体验动作控制

Kling 3.0 动作控制

常见问题

Kling 3.0 动作控制是什么？

Kling 3.0 动作控制如何工作？

动作控制可以迁移哪些动作？

什么样的参考视频适合动作控制？

Matches Video 和 Matches Image 朝向有什么区别？

动作控制对角色图片有什么要求？

动作控制输出可以有多长？

Kling 3.0 动作控制相比 Kling 2.6 有什么不同？

动作控制可以用于非写实或插画角色吗？

什么时候应该用动作控制，而不是用文字描述动作？

动作控制的提示词应该写什么？

动作控制如何融入 Kling AI Video 的完整视频制作流程？

立即开始使用 Kling 3.0 动作控制 创作

Kling 3.0 动作控制

常见问题

Kling 3.0 动作控制是什么？

Kling 3.0 动作控制如何工作？

动作控制可以迁移哪些动作？

什么样的参考视频适合动作控制？

Matches Video 和 Matches Image 朝向有什么区别？

动作控制对角色图片有什么要求？

动作控制输出可以有多长？

Kling 3.0 动作控制相比 Kling 2.6 有什么不同？

动作控制可以用于非写实或插画角色吗？

什么时候应该用动作控制，而不是用文字描述动作？

动作控制的提示词应该写什么？

动作控制如何融入 Kling AI Video 的完整视频制作流程？

立即开始使用 Kling 3.0 动作控制 创作

立即开始使用 Kling 3.0 动作控制创作

立即开始使用 Kling 3.0 动作控制创作