モデル

モード

長さ

3s6s9s12s15s

サウンド

マルチシーン

終了フレームを追加

開始画像を選択

画像をアップロード

JPEG、PNG、WebP（最大 10 MB）

この画像が動画の最初のフレームになります

プロンプト

プロンプトを翻訳

0 / 2500

画像から動画 AI — 写真を歪ませずに動かす

写真は空間・光・被写体を精密な関係で固定しています。画像から動画 AI の課題は、その関係を壊さずにモーションを加えることです。オブジェクトは固定されたまま、光は方向を保ち、カメラが動いても被写体の比率は崩れない。快手の Kling は 3D VAE 時空間圧縮でこれを解決します。エンコーダーがモーション生成の前に空間位置を 3 次元でマッピングするため、棚の上の商品はその棚に留まり、ポートレートの顔の形状は無傷のまま、風景の奥行きレイヤーは物理的に正しい視差で動きます。写真を 1 枚アップロードして、何をどう動かすかを記述するだけ。Kling は英語・中国語の音声生成付きポートレートリップシンク、商品の回転、環境モーションを得意とします。Google DeepMind の Veo は開始・終了フレーム制御を加え、ネイティブ音声付きの正確なトランジションを実現。Alibaba の Wan はマルチシーンのアニメーションで被写体のアイデンティティを保持。ByteDance の Seedance はマルチモーダル参照を受け付け、8 以上の言語の音声同時生成つき 1080p アニメーションを作ります。Kling AI Video では、これらのエンジンがひとつの画像から動画フローを共有し、ポートレート・商品・シーンを動かせます。

複数の AI モデル

写真から動画 AI

キーフレーム制御

AI 音声生成

HD 動画出力

商用ライセンス

画像から動画エンジン — 空間一貫性の比較

Kling の 3D VAE はアニメーション中の空間関係を固定します。他のエンジンはキーフレーム制御、アイデンティティ保持、8 言語のリップシンクを提供。写真のタイプでエンジンを選んでください。

Veo

Google DeepMind

キーフレーム誘導のトランジション

Veo の画像から動画の強みは明示的なキーフレーム制御です。開始画像と任意の終了画像をアップロードすると、モデルが両者の間に物理的に整合したアニメーションを生成し、中間フレームのオブジェクト位置・カメラアングル・光のトランジションを補間します。Reference モードはアップロード画像をスタイルガイドとして使い、内容をコピーせずに美学へ従うモーションを作ります。どちらのモードも約 8 秒のクリップを 720p または 1080p で、ネイティブ環境音と編集ツール付きで届けます。

Start + end frame interpolation
Reference style mode
~8s with native audio
720p/1080p/4K, Fast/Quality modes
開始 + 終了画像の補間
スタイル用の Reference モード
ネイティブ音声付き約 8 秒
720p/1080p/4K、Fast/Quality モード

Kling

Kuaishou

3D VAE 空間一貫性 + ポートレートリップシンク

Kling の 3D VAE 時空間エンコーダーは、モーション生成の前に写真の空間構造をマッピングし、オブジェクトの位置・光の関係・奥行きレイヤーをクリップ全体で維持します。ポートレートでは自然な頭の動き、表情の変化、英語または中国語のリップシンク音声生成を実現し、被写体の顔の形状はアニメーション全体で比率を保ちます。Kling 3.0 は Std・Pro・4K モードで 3〜15 秒を届けます。

3D VAE spatial position lock
Portrait lip-sync + EN/CN voice
3–15s with Std/Pro/4K
Fastest photo animation delivery
3D VAE による位置固定
ポートレートリップシンク + 英/中音声
Std/Pro/4K で 3〜15 秒
最速の写真アニメーション

Wan

Alibaba

複数シーンにわたるアイデンティティ保持

Wan のアイデンティティアーキテクチャは、被写体の外見（服の色、顔立ち、髪型）をマルチシーンアニメーションの全フレーム・全シーンカットで保持します。1 枚の入力写真から、同じ被写体が複数のカメラアングルに視覚的な断絶なく現れるシーケンスを生成できます。720p または 1080p で 5〜15 秒の HD を、クリップ全体の音声同期付きで届けます。

5–15s multi-shot sequences
720p/1080p output
Cross-shot appearance consistency
Synchronized audio across shots
5〜15 秒のマルチシーンシーケンス
720p/1080p 出力
カット間で一貫した外見
全シーンで同期した音声

Seedance

ByteDance

1080p パフォーマンスアニメ、8 言語リップシンク

Seedance は動いている人物の写真（ダンス、武術、アスレチックな動作）を、生体力学的に正しい身体ポジションの 1080p でアニメーション化します。画像・動画参照・音声を同時に受け付けて複雑なパフォーマンスを再構築。8 以上の言語での音素レベルのリップアニメーションにより、同期した多言語スピーチが必要なアニメーションに最適なエンジンです。

Up to 15s at 1080p
Biomechanical motion precision
Multi-modal reference inputs
8+ language phoneme lip sync
1080p で最大 15 秒
生体力学的なモーション精度
マルチモーダル参照入力
8 以上の言語の音素リップシンク

Kling の 3D VAE 空間一貫性 — 歪ませずに動かす

写真を動かすときの最も多い失敗は空間ドリフトです。オブジェクトが位置から滑り、光の方向がクリップ途中で傾き、モーションが入った途端に奥行き関係が崩れる。Kling の 3D VAE エンコーダーはこれをアーキテクチャレベルで解決します。モーションフレームを 1 枚も生成する前に入力写真の 3 次元空間関係をエンコードし、その空間マップを生成全体の一貫性制約として使うのです。結果：ワインボトルは置かれた面に正確に留まり、ポートレートの鼻筋は頭の回転中も解剖学的に正しく、街並みの前景と背景のレイヤーは正しい視差で動きます。この空間一貫性こそ、ポートレートのリップシンク、商品プレゼン、位置精度が問われるあらゆる写真で Kling が推奨エンジンである理由です。Veo の開始/終了フレーム制御は別種の精度（制御されたトランジションのための明示的なキーフレームアンカー）を加えます。Wan と Seedance はマルチシーンと 1080p で選択肢を広げます。

被写体タイプ別の写真アニメーションワークフロー

ポートレート、商品、風景、イラスト、思い出、SNS コンテンツ。それぞれを最小の歪みで最も使える結果にするエンジンとセットで。

風景・環境写真

推奨：Kling 3.0（3D VAE 空間物理、最大 15 秒）

Kling 3.0 の 3D VAE 空間モデリングは風景写真から奥行きと構造を読み取り、物理的に一貫したモーションを適用します。雲は大気のテンポで流れ、水は流れと風に反応し、葉は密度に応じて揺れる。最大 15 秒のクリップなら 1 回の生成で完全なムードの推移を描けます。元の構図はそのままに、本物の時間的な深みが加わります。

EC 商品アニメーションと 360° ビュー

推奨：Kling（3D VAE 固定）または Veo Frames（回転制御）

Kling の空間エンコーダーは、カメラが回り込む間も商品の面・ラベル・光を正しい位置に保ちます。表面の歪みもテクスチャの浮遊もありません。既知の 2 アングル間の制御された回転には、正面と側面のビューを Veo の開始/終了画像としてアップロード。Kling 3.0 なら販売にそのまま使える商品アニメーションを最大 4K で。

ポートレートのリップシンクとしゃべるアバター

推奨：Kling（3D VAE 顔形状 + 英/中音声）

Kling の 3D VAE エンコーダーは顔の形状に特に強い。アニメーション開始前にランドマーク（目、鼻筋、顎のライン）を 3 次元でマッピングし、動く顔を不気味にする微妙な歪みを防ぎます。ポートレートをアップロードすれば、自然な頭の動き・表情・英語または中国語の同期音声付きの Kling 3.0 クリップ（3〜15 秒）が手に入ります。

イラスト・デジタルアートを動かす

推奨：Veo Reference モード（スタイル保持）

Veo の Reference モードはイラストをスタイルガイドとして使います。モデルは作品の視覚言語（線の太さ、パレット、構図スタイル）の内側でモーションを生成し、静止画を文字どおりコピーしません。インク画、水彩、ベクターアートが、オリジナルの紛れもない美学を保ったまま、一貫した内的物理で動き出します。

家族写真・思い出の写真を動かす

推奨：Kling 3.0（自然で控えめなモーション）

Kling 3.0 はポートレートや家族写真から、穏やかで物理的に根拠のあるモーションを生成します。かすかな微笑み、自然なまばたき、元の屋内・屋外の光に合った髪の揺れ。モーションは控えめで、家族の思い出という感情の温度にふさわしいまま。自然で心を打つ瞬間が生まれます。

1 枚の写真から縦型 SNS 動画へ

推奨：Kling（9:16、5 秒、即時納品）

1 枚の写真をトリミングなしで Instagram リール・TikTok・YouTube ショート向けの 5 秒縦型クリップに。Kling のネイティブ 9:16 と最速納品が、写真から SNS への最も効率的なパイプラインを作ります。録音機材なしで英語または中国語のナレーションをプロンプトで追加。1 時間以内に 10 バリエーションも可能です。

AI で写真から動画を作る方法

写真をアップロードし、モーションを記述し、音声付き HD 動画を受け取る。Kling が最初から最後まで空間一貫性を保ちます。

動かしたい写真をアップロード

JPG・PNG・WebP（最大 10 MB）をアップロードします。被写体が明確で奥行きレイヤーがはっきりした高解像度写真が最もシャープなアニメーションを生みます。Veo の Frames モードでは 2 枚目の画像を終了キーフレームとしてアップロード。ポートレートは正面で顔の形状が明確なものが最良のリップシンク結果につながります。

モーションの方向を記述

何がどう動くかを記述します：カメラの方向（寄る、引く、左にオービット、クレーンアップ）、被写体の動き（頭を回す、腕を上げる、前に歩く）、環境の変化（木々の風、窓の雨、光の移ろい）。ポートレートのリップシンクや商品アニメは Kling、キーフレームトランジションは Veo、キャラクター連続性は Wan、1080p ダンスアニメは Seedance を。

動く動画をダウンロード

同期音声付きの動く動画は 1〜5 分で完成します。解像度は選んだエンジン次第：Kling 3.0 と Veo は最大 4K、Wan は最大 1080p、Seedance は 1080p。アスペクト比は元写真に従います。有料生成ならウォーターマークなしでダウンロードできます。

写真アニメーションのプロンプトテンプレート

画像から動画で最も多い 4 つのシナリオ。それぞれ推奨エンジンと、その選択を支える空間ロジック付き。

自然な頭の動きのファッションポートレート

Kling が最適 — 3D VAE 顔形状、ポートレートリップシンク

"モデルが斜め 4 分の 3 のアングルからゆっくりカメラ目線へ頭を回す。目は自信に満ちたリラックスした表情で前を見据える。髪は頭の動きに自然について動く。元のファッションライティングを維持 — 左から柔らかいキーライト、右からフィル。衣装・ジュエリー・スタジオ背景は完全に不動。さりげない自然なまばたき。5 秒、9:16"

EC 向けの商品回転

Veo Frames が最適 — 正面を開始画像、側面を終了画像に

"商品が正面位置から 90 度の横顔まで滑らかに回転する。終始一定のスタジオ照明 — 回転中に影の移動もハイライトのシフトもなし。表面の仕上げはどの角度でも正しい反射を保つ。白いシームレス背景は完全に均一なまま。等速、終点でのバウンドなし。8 秒"

大気の物理をまとう都市風景

Kling 3.0 が最適 — 空間と大気の物理、最大 15 秒

"高所から見た夕暮れの都市景観。雲は大気のテンポでゆっくり左へ流れる。眼下の交通は物理的に正しい速度で流れる。夕闇が深まるにつれ、ビルの窓は昼の反射から室内の灯りへ切り替わる。中距離のかすかな靄が沈む夕日を散乱させる。カメラは完全に不動。15 秒、16:9"

ペットのポートレートを動かす

Kling 3.0 が最適 — 自然な動物のモーション、空間的に一貫したディテール

"窓辺の猫が丸まった眠りの姿勢から頭を持ち上げ、耳がフレーム外の音の方へ回り、瞳孔が細い線から丸へ開く。毛並みは自然な重みで動く — カートゥーン的な弾みなし。窓からの柔らかいサイド光は終始方向を保つ。尻尾の先がゆっくり一度だけ丸まる。10 秒"

写真から動画アニメーションのプロンプトのコツ

• 写真の既存ジオメトリに寄りかかる - Kling の空間エンコーダーは写真の 3D 構造を読み取ります。相対位置で助けてあげましょう：「前景の被写体は左を向き、背後の建物は不動のまま」。推測された奥行きではなく、実際の空間配置にモーションを固定できます。
• ポートレートでは顔と頭にプロンプトを集中 - Kling のポートレートアニメーションは、プロンプトが顔のモーションを切り出したときに最も正確です：「目がゆっくり開き、唇にかすかな笑み、頭をわずかに右へ傾ける」。全身や背景の複雑な指示はリップシンクと表情の品質を薄めます。
• 環境アニメには素材の語彙を使う - 素材を明示的に名指しすると、動きの精度が上がります：「シルクの布がはためく」「落ちた小石から水面が同心円に波打つ」「乾いた落ち葉が風に渦巻く」。素材名は汎用的な動きの言葉より正確に物理シミュレーションを起動します。
• 形式をプロンプトに明記 — 特に商品・EC 写真で - 商品写真は 1:1 や 4:3 が多いもの。プロンプトと設定で同じ形式を指定してください。Veo の Frames モードで商品回転を作る場合：開始と終了の画像は同じ背景と同じ光の方向が必要です。条件が大きく違うと補間品質が落ちます。

画像から動画の入力モード

アニメーションの軌道をどこまで制御したいかに応じた 2 つのワークフロー。

キーフレームから動画へ（Frames モード）

開始画像と任意の終了画像をアップロードします。Veo が 2 つのキーフレームの間に物理的に整合したアニメーションを生成。あなたが始まりと終わりを定義し、モデルがその間のモーション軌道・光のトランジション・カメラの動きを補間します。複雑なモーションプロンプトなしの精密な制御。

Explicit start and end position control
Physics-coherent keyframe interpolation
Best for product rotation and scene transitions
開始・終了位置の明示的な制御
物理的に整合したキーフレーム補間
商品回転とシーントランジションに最適

スタイル参照アニメーション（Reference モード）

画像をビジュアルのスタイル参照としてアップロードします。Veo の Lite または Fast モードが参照の視覚言語（カラーパレット、構図スタイル、線の質感）の内側で新しいモーションを生成し、内容を文字どおりコピーしません。イラスト、ムードボード、ブランドの世界観をアニメーションの美的ガイドとして使えます。

Style-constrained motion generation
Preserves color and compositional identity
Available on Veo Lite and Fast modes
スタイルに紐づくモーション生成
色と構図のアイデンティティを保持
Veo の Lite・Fast モードに対応

ビジュアル制作ワークフローを完成させる

テキストから動画を生成 — 開始画像なしで

テキストから画像で開始写真を作る

AI で写真を編集・変換する

画像から動画 AI の FAQ

空間一貫性、ポートレートリップシンク、商品アニメーション、キーフレーム制御、写真から動画 AI の出力仕様。

画像から動画 AI は、既存の写真を主入力として、その内容（構図、被写体、色、空間関係）を保ったままモーションを加えた動画を生成します。一方、テキストから動画は視覚的な参照なしに、文章の記述だけからゼロで映像を作ります。特定の写真（ポートレート、商品写真、風景、アート作品）を動かしたいなら画像から動画を。シーンをゼロから発明するならテキストから動画を使ってください。

Kling は空間と時間を同時に扱う 3D VAE（変分オートエンコーダー）を使います。写真をアップロードすると、エンコーダーはモーションフレームの生成前に 3 次元の空間関係（奥行きレイヤー、オブジェクトの相対位置、光の方向）をマッピングします。この空間マップが動画生成中の制約として働き、モーションが生まれる間もオブジェクトは正しい位置と比率を保ちます。各フレームを独立に扱って位置ドリフトを許してしまう 2D モーション推定とは根本的に異なります。

快手の Kling がポートレートアニメーションの推奨エンジンです。3D VAE エンコーダーがモーション生成前に顔のランドマーク（目、鼻筋、顎のライン、頬骨）を 3 次元でマッピングし、動く顔を不気味にする幾何学的歪みを防ぎます。さらに Kling はプロンプトのテキストから英語・中国語のリップシンク音声を生成。Kling 3.0 ならポートレート 1 枚から 3〜15 秒のトーキングヘッドクリップが作れます。

Veo の Frames モードは 2 枚の画像（開始画像＝アニメーションの始まり、任意の終了画像＝到達位置）を受け付けます。モデルは両位置の間に物理的に整合したモーションを生成し、オブジェクトの姿勢・カメラアングル・光の変化を補間します。商品アニメーションなら、正面ビューを開始画像、側面ビューを終了画像としてアップロード。Veo が一定のスタジオ光の下で両アングル間の滑らかな回転を生成します。3D モデリングや物理的なターンテーブルを完全に置き換えます。

被写体と背景の分離が明確で、奥行きレイヤーがはっきりし、光の方向が一定の写真が最も安定して動きます。ポートレート：正面または斜め 4 分の 3 で、顔の形状が明確、均一な光。商品：ニュートラルな背景と一定の光のクリーンなスタジオ写真。風景：複数の奥行きレイヤー（前景、中景、空）を持つ広角ショットがモデルの空間エンコーダーに最も多くの材料を与えます。強く加工・フィルター済みの写真は避けてください。圧縮されたテクスチャはエンコーダーが必要とする空間情報を減らします。

はい。Kling の音声同時生成は、ポートレートの唇の動きに同期した英語・中国語のスピーチを生成します。アニメーションのプロンプトで話す内容を記述するか、台詞を引用符で囲んで言語を指定してください。モデルは音声トラックとリップアニメーションを 1 パスで一緒に生成します。別のテキスト読み上げツールもリップシンクツールも不要です。英語・中国語以外の言語には、Seedance がポートレートやパフォーマンス写真向けに 8 以上の言語のリップシンクを提供します。

対応形式は JPG・PNG・WebP、1 ファイル最大 10 MB です。最もシャープな出力には 1024×1024 ピクセル以上の写真を。低解像度の入力はディテールの少ないアニメーションになります。エンジンは写真のアスペクト比を出力へ引き継ぎます：横長 16:9 はワイド動画、縦長 9:16 は SNS コンテンツ、1:1 はマルチプラットフォーム出力に。露出と色が適正な写真は、強いフィルターや過剰な HDR の画像より空間的に上手くエンコードされます。

長さはエンジンによります。Kling 3.0 は Std・Pro・4K モードで 3〜15 秒、Kling 2.6 は最大 1080p で 5 または 10 秒。Veo はモードに応じて 720p・1080p・4K で約 8 秒。Wan はマルチシーンシーケンスで 5〜15 秒の HD。Seedance は 1080p で最大 15 秒です。より長いコンテンツには、同じ開始写真から一貫したモーション記述で連続クリップを生成し、動画エディターでつないでください。

はい。プラットフォームのすべてのエンジンが動画と一緒に音声を生成します。Kling はポートレートから英語または中国語の同期した声を同時生成。Veo はシーン記述から環境音・効果音・台詞を合成。Wan はマルチシーンで音声を同期。Seedance は音素レベルの唇の精度で 8 以上の言語の音声を同時生成します。より忠実な結果のために、モーションのプロンプトに音も記述してください。

アニメーションのタイプに応じて 2 つの方法があります。制御された回転：Veo の Frames モードで正面ビューを開始画像、側面ビューを終了画像に。モデルが一定の光の下で両アングル間の滑らかな物理的回転を生成します。環境モーション（浮遊、繊細な表面アニメ、シーン演出）：望むモーションを記述したプロンプトで Kling を。3D VAE の固定により商品の位置と比率が終始正確に保たれます。Kling 3.0 なら販売にそのまま使える出力を最大 4K で。

はい。有料プランで生成した動画には、広告・EC 出品・SNS・クライアント案件への商用利用権が含まれます。動かして公開する元写真の権利をお持ちであることを確認してください。AI 生成の動画はプラットフォームによって表示義務の対象になる場合があります。商用ライセンスは動かした動画に適用されるもので、第三者の元写真に対する権利を拡張するものではありません。

最大クリップ長：Kling 3.0 は 3〜15 秒、Kling 2.6 は 5 秒または 10 秒、Veo は約 8 秒、Wan は 15 秒、Seedance は 15 秒です。開始/終了画像制御は Veo のみ。Kling のリップシンクは英語・中国語対応で、Seedance が 8 以上の言語に拡張します。複雑な空間関係を持つ集合写真は位置エラーを生むことがあります。非常に暗い写真や低コントラストの写真は Kling の空間エンコードを弱めます。ポートレートの背景にいる人物は、プロンプトで明示的に静止させないと予期せず動くことがあります。

どの写真にも、動き出すのを待つレイヤーがある

Kling の 3D VAE 空間一貫性は、モーションが生まれる間もオブジェクトの位置・光の方向・比率を無傷に保ち、他の写真アニメーションツールを悩ませる歪みを防ぎます。英語・中国語のポートレートリップシンク、一定のスタジオ光の下での商品回転、正しい奥行き視差の風景アニメーション。すべてアップロードした 1 枚の写真から。Veo は開始から終了フレームへの明示的制御を追加。Wan はマルチシーンでアイデンティティを保持、Seedance は 8 言語の音声付き 1080p アニメーションを届けます。写真をアップロードして、動き出す瞬間を見てください。

画像から動画 AI — 写真を歪ませずに動かす

Kling の 3D VAE 空間一貫性 — 歪ませずに動かす

どの写真にも、動き出すのを待つレイヤーがある

画像から動画 AI — 写真を歪ませずに動かす

画像から動画エンジン — 空間一貫性の比較

Veo

Kling

Wan

Seedance

Kling の 3D VAE 空間一貫性 — 歪ませずに動かす

被写体タイプ別の写真アニメーションワークフロー

風景・環境写真

EC 商品アニメーションと 360° ビュー

ポートレートのリップシンクとしゃべるアバター

イラスト・デジタルアートを動かす

家族写真・思い出の写真を動かす

1 枚の写真から縦型 SNS 動画へ

AI で写真から動画を作る方法

動かしたい写真をアップロード

モーションの方向を記述

動く動画をダウンロード

写真アニメーションのプロンプトテンプレート

自然な頭の動きのファッションポートレート

EC 向けの商品回転

大気の物理をまとう都市風景

ペットのポートレートを動かす

写真から動画アニメーションのプロンプトのコツ

画像から動画の入力モード

キーフレームから動画へ（Frames モード）

スタイル参照アニメーション（Reference モード）

ビジュアル制作ワークフローを完成させる

画像から動画 AI の FAQ

画像から動画 AI とは何ですか？

Kling は写真を動かすときにどうやって空間一貫性を保つのですか？

ポートレートや顔のアニメーションに最適なエンジンは？

商品アニメーションの開始/終了画像制御はどう機能しますか？

どんな写真が最良のアニメーションになりますか？

Kling はポートレート写真からしゃべる台詞を生成できますか？

最適なファイル形式と画像サイズは？

画像から動画で生成される動画の長さは？

画像から動画は音声も生成しますか？

3D モデルなしで EC 用の商品写真を動かすには？

AI で動かした写真は商用利用できますか？

写真から動画 AI の主な制限は？

どの写真にも、動き出すのを待つレイヤーがある

画像から動画 AI — 写真を歪ませずに動かす

画像から動画エンジン — 空間一貫性の比較

Veo

Kling

Wan

Seedance

Kling の 3D VAE 空間一貫性 — 歪ませずに動かす

被写体タイプ別の写真アニメーションワークフロー

風景・環境写真

EC 商品アニメーションと 360° ビュー

ポートレートのリップシンクとしゃべるアバター

イラスト・デジタルアートを動かす

家族写真・思い出の写真を動かす

1 枚の写真から縦型 SNS 動画へ

AI で写真から動画を作る方法

動かしたい写真をアップロード

モーションの方向を記述

動く動画をダウンロード

写真アニメーションのプロンプトテンプレート

自然な頭の動きのファッションポートレート

EC 向けの商品回転

大気の物理をまとう都市風景

ペットのポートレートを動かす

写真から動画アニメーションのプロンプトのコツ

画像から動画の入力モード

キーフレームから動画へ（Frames モード）

スタイル参照アニメーション（Reference モード）

ビジュアル制作ワークフローを完成させる

画像から動画 AI の FAQ

画像から動画 AI とは何ですか？

Kling は写真を動かすときにどうやって空間一貫性を保つのですか？

ポートレートや顔のアニメーションに最適なエンジンは？

商品アニメーションの開始/終了画像制御はどう機能しますか？

どんな写真が最良のアニメーションになりますか？

Kling はポートレート写真からしゃべる台詞を生成できますか？

最適なファイル形式と画像サイズは？

画像から動画で生成される動画の長さは？

画像から動画は音声も生成しますか？