Kling 3.0 动作控制
将真实人物动作迁移到任意角色,无需动作捕捉硬件。上传参考视频和角色图片,Kling 3.0 会提取关节角度、身体轨迹和手势动作,生成 Std 或 Pro 质量的完整动画。
什么是 Kling 3.0 动作控制
Kling 3.0 动作控制是 Kling AI Video 上的视频制作功能,可以将参考视频中的真实人物动作迁移到你提供的任意角色上,无需动作捕捉棚、追踪服或专用硬件。它面向内容创作者、角色动画师和品牌团队,适合在没有动捕流程的情况下制作精确角色动画。你只需要提供两个输入:角色图片和动作来源视频。系统会从参考视频中读取关节角度、身体轨迹、面部表情、相机运动和布料动态,再逐帧渲染角色执行该动作,最长可输出 30 秒。最终结果是一段完整动画,而不是需要清理的关键帧数据。
与其用文字描述动作,不如直接展示动作。参考视频承载动作数据,角色图片承载身份信息,Kling 3.0 将两者结合。当动作已经存在时,例如舞者表演、武术套路或产品演示手势,这种方式能把动作应用到另一个主体上,而不需要重新拍摄。
Kling 3.0 动作控制能做什么
无需捕捉设备的动作迁移
传统动作迁移需要受控环境、动作捕捉棚、穿戴设备和后期绑定。动作控制用两个文件上传替代这套流程。参考视频提供动作数据,Kling 3.0 通过算法提取动作并映射到你的角色上。
动作控制会从参考视频中读取:
- 全身动作 — 舞蹈、武术、运动训练、行走循环
- 上半身和手势动作 — 手臂运动、肩部和头部表达、手部动作
- 面部表情和口型动作 — 情绪和嘴型随身体动作一起迁移
- 相机运动 — 平移、推进和拉远等镜头运动可延续到输出中
- 布料动态 — 布料行为跟随角色身体动作,而不是静态贴附
对于快速变向或复杂手部动作,系统会提取参考视频中清晰可见的信息。主体清楚、节奏明确的动作通常会产生更精确结果。
动作迁移流程
流程分为四步:
1. 上传角色图片 — 需要被动画化的主体。最好是单个角色,身体清晰可见,姿态明确。支持 JPG 和 PNG,最大 10MB,最短边至少 300px,宽高比在 2:5 到 5:2 之间。
2. 上传参考视频 — 动作来源。视频中应为单人主体,光线清晰,构图明确。支持 MP4 和 MOV,最大 50MB,时长 3 到 30 秒。
3. 选择角色朝向 — 决定 Kling 3.0 如何理解角色与参考视频空间构图之间的关系。
4. 添加可选场景提示词 — 描述你希望的环境、光线或氛围。不要描述动作本身:动作完全来自参考视频,而不是文字。尝试覆盖或添加动作的提示词不会成为动作来源;用于设置视觉语境的提示词更有效。
Kling 3.0 会完成提取与渲染,输出一段连续视频。
角色与参考视频匹配
当角色图片和参考视频采用相似构图时,动作控制效果最好。全身角色图适合搭配全身动作参考;人像或上半身角色图适合搭配上半身动作参考。这能为系统提供更清晰的关节、比例和姿态锚点。
如果要用同一角色制作多段内容,尽量重复使用同一张源图,并让参考视频在比例和镜头角度上保持一致。在当前 Kling AI Video 工作流中,这是跨多次动作控制生成保持角色身份一致性的更可靠方式。
Character Orientation — Matches Video vs Matches Image
Character Orientation 是动作控制中非常关键的设置。它决定系统如何解释你的角色与参考视频之间的空间关系。
Matches Video 会让角色朝向与参考视频中的人物方向一致,角色空间位置跟随参考视频构图。这是大多数场景的标准模式,支持最长 30 秒输出。
Matches Image 会以角色图片原始朝向作为锚点。如果角色图片已经有特定朝向,例如正面或三分之四侧脸,此模式会保留该朝向并在其中应用动作。当你希望保持角色图片姿态时更适合使用它。此模式最长输出 10 秒。
选择哪种模式取决于角色图片本身,以及你希望输出如何构图。
场景提示词控制
除了 Character Orientation,可选提示词用于描述迁移动作周围的视觉语境:
环境 — 描述角色所处地点、背景风格或场景设置。
光线和氛围 — 加入简洁方向,例如柔和棚拍光、户外午后光线或电影感逆光。
提示词不是动作来源。动作仍来自参考视频;提示词用于引导画面外观。
输出质量 — Std 和 Pro
动作控制提供两个质量档位:
Std (720p) 适合社交视频、快速迭代和重视周转速度的内容。
Pro (1080p) 提供更高视觉保真度,适合最终成片、演示视频和质量优先的内容。
两个档位都支持完整功能:两种朝向模式、完整时长范围和所有角色类型。
什么样的参考视频更好
参考视频是核心输入,它的质量会直接影响输出。
适合的参考视频:
- 单人主体,构图清晰,占据画面主要区域
- 相机稳定,尽量少抖动或快速变焦
- 背景简单、不杂乱,例如纯色或低对比环境
- 动作明确、节奏清楚,例如舞蹈套路、练习动作、清晰手势
- 全片光线一致
尽量避免:
- 画面中有多个人物,系统会以单个主体为目标
- 参考视频和角色图片构图不匹配,例如上半身角色图搭配全身参考视频,这会降低稳定性;尽量保持两者比例和构图一致
- 快速动作导致严重运动模糊,降低关节提取准确性
- 身体局部被裁切,四肢或躯干缺失会导致数据不足
- 快速或不规则相机运动,会给骨骼跟踪带来歧义
5 到 15 秒的短片段通常最稳定:动作干净、主体清楚,并且构图与角色图片匹配。
你可以用 Kling 3.0 动作控制创建什么
舞蹈和表演内容 — 将参考视频中的编舞迁移到 AI 角色上,无需招募演员或租用摄影棚,就能制作适合社交平台的舞蹈短片。
故事角色动画 — 将明确的叙事动作应用到插画或 3D 渲染角色上。动作控制可以处理非写实主体,系统会根据图片中识别到的角色比例适配动作。
产品和品牌动作 — 将手势驱动动作应用到品牌角色或代言人形象上。一个录制良好的手势视频可以应用到多个角色风格,用于不同活动素材。
武术和运动序列 — 将特定动作模式,例如套路、训练动作或运动技巧,迁移到角色渲染上。输出可用于教学内容、宣传视频或娱乐内容。
多片段角色序列 — 重复使用同一张角色图片制作多段动作控制片段,再在剪辑时间线中组合。保持构图和参考视频风格一致,有助于提升片段之间的视觉连续性。
动作控制在完整创作流程中的位置
在 Kling AI Video 上,动作控制是更大制作链条中的一步。每个工具负责不同环节:
Kling 3.0 视频生成 生成初始角色或场景。你可以先确定角色外观和环境,再应用动作,也可以生成与动作控制片段搭配的 b-roll。
动作控制 使用现有角色图片和参考视频,生成角色执行提取动作的动画片段。角色图片可以来自之前的 Kling 3.0 生成,也可以是你已有的任何图片。
AI Avatar 为包含口播的内容增加口型同步片段。上传肖像和音频文件后,Avatar 输出可以和动作动画片段在最终剪辑中组合。
Text-to-Speech 生成可直接送入 AI Avatar 的旁白,无需切换平台。完整链路可以留在同一平台内:脚本到语音,语音到口型同步视频,再到动作动画 b-roll。
Kling 3.0 vs Kling 2.6 动作控制 — 有什么变化
| Kling 2.6 动作控制 | Kling 3.0 动作控制 | |
|---|---|---|
| 角色一致性 | 标准 | 当源图和参考构图匹配时更稳定 |
| 手部和手势跟踪 | 标准 | 改进,细微动作提取更平滑 |
| 参考到输出对齐 | 标准 | 参考视频与角色输出同步更紧密 |
| 人像动作精度 | 标准 | 改进,更好保持动态中的身份 |
| 输出 — Std | 720p | 720p |
| 输出 — Pro | 1080p | 1080p |
| 最长时长(Matches Video) | 30 秒 | 30 秒 |
| 最长时长(Matches Image) | 10 秒 | 10 秒 |
Kling 3.0 更实用的变化是参考视频到输出的对齐更强。在较旧的动作迁移工作流中,当参考视频包含复杂动作时,角色姿态、手部动作和节奏可能会漂移。Kling 3.0 改进了手部跟踪、手势连续性,以及参考视频与生成角色输出之间的整体对齐。
技术规格
| 规格 | 详情 |
|---|---|
| 角色图片格式 | JPG、PNG |
| 角色图片大小 | 最短边大于 300px,最大 10MB |
| 角色图片宽高比 | 2:5 到 5:2 |
| 参考视频格式 | MP4、MOV |
| 参考视频大小 | 最大 50MB |
| 参考视频时长 | 3–30 秒 |
| 朝向 — Matches Video | 最长 30 秒输出 |
| 朝向 — Matches Image | 最长 10 秒输出 |
| 场景提示词 | 可选环境、光线和氛围引导 |
| 输出分辨率 — Std | 720p |
| 输出分辨率 — Pro | 1080p |
| 提示词长度 | 最多 2,500 字符 |
使用动作控制前需要知道什么
参考视频质量决定输出质量。 清晰主体、稳定构图和明确动作能提供更完整的动作数据。模糊、遮挡或多人主体都会降低可提取信息。
角色图片和参考视频构图应匹配。 如果角色图片是半身构图,而参考视频是全身表演,输出可能失败或不稳定。尽量让比例和构图一致:全身图配全身参考,半身图配半身参考。
提示词描述场景,不描述动作。 动作完全来自参考视频,尝试覆盖或添加动作的文字提示词不会成为动作来源。用提示词设置场景语境:光线、背景环境和视觉氛围。保持简洁,参考视频和角色图片才是核心输入。
身体局部缺失会限制准确性。 如果参考视频裁掉下半身,腿部和髋部运动就无法完整提取。需要全身动作时,尽量让主体全身入镜。
高速手部和手指动作是更难场景。 高速手部动作容易丢失细节。对手势精度要求高时,参考视频中的手部动作越慢、越明确,结果越稳定。
跨多次生成的角色一致性取决于重复输入。 单次生成内,角色通常能保持稳定。如果要用同一角色制作多个参考视频片段,请重复使用同一张源图,并尽量保持构图、光线和参考视频风格一致。
Matches Image 模式有 10 秒上限。 如果需要超过 10 秒输出,请使用 Matches Video 朝向。
音频需要单独规划。 动作控制使用参考视频来提取动作。如果最终片段需要对白、音乐或声音设计,请把音频作为单独制作步骤,或在后期中将生成的动作片段与音频组合。
谁适合使用 Kling 3.0 动作控制
| 创作者类型 | 主要用途 |
|---|---|
| 短视频创作者 | 将舞蹈或流行趋势动作应用到 AI 角色上,用于 TikTok、Reels 和 Shorts |
| 角色动画师 | 将叙事动作迁移到插画或 3D 渲染角色,无需绑定 |
| 营销和品牌团队 | 将手势演示应用到品牌角色上,不必为每个素材重新拍摄 |
| 内容工作室 | 用一致源图和匹配参考视频批量制作动作动画片段 |
| 教育和讲解创作者 | 用自然动作动画化讲解角色,制作教学视频 |