ElevenLabs Dialogue V3 搭載

ElevenLabs Dialogue V3

録音セットもナレーター手配もなしで、台本から表現豊かな複数話者の会話を生成。制作レベルの声をスケールさせたいクリエイター、マーケター、講師のために。ElevenLabs Dialogue V3 は構造化された会話台本を受け取り、各話者が固有の声・制御された感情・自然なテンポを持つ完成音声を届けます。音声出力は Kling AI Video の AI アバターへ直結。台本から声へ、リップシンク動画へ、プラットフォームを離れずに。

会話を生成

ElevenLabs Dialogue V3 とは

ElevenLabs Dialogue V3 は、ElevenLabs の Eleven v3 モデルを基盤とする Kling AI Video の複数話者音声生成です。1 つの声にテキストブロックを読ませる標準のテキスト読み上げと異なり、Dialogue V3 は会話のために作られています。複数の話者を持つ構造化された台本を受け取り、各話者に固有の声を割り当て、それぞれの声が自然で、感情的に調和し、互いに正しいテンポで響く、まとまりのある音声出力を届けます。

Kling AI Video では、この機能は 75 言語・厳選 113 ボイスで動きます。オーディオタグ（感情、話し方、非言語表現、アクセント、テンポの埋め込みマーカー）が各声の演技を行単位で制御します。そして音声出力は AI アバターへ直結します。台本を書き、会話を生成し、それをリップシンクで話すポートレートをアニメーション化する。すべてプラットフォームを切り替えずに。書かれた台本から完成トーキングヘッド動画までの道のりが、ひとつの Kling AI Video ワークフローで完結します。

ElevenLabs Dialogue V3 のしくみ

1. 会話台本を書く — コンテンツを行のシーケンスとして構造化し、各行を名前付きの話者に割り当てます。1 行が会話の 1 ターン。話者と行の数は無制限で、上限は全行合計 5,000 文字だけです。

2. ボイスを割り当てて演技を演出 — 話者ごとに 113 のボイスから 1 つを選択。各声は事前に試聴できます。[excited]、[whispering]、[laughs softly] のようなオーディオタグを挿入して、台本の他の部分の響きを変えずに特定の瞬間を演出します。

3. 安定性を選んで生成 — 全体の話し方をクリエイティブ・ナチュラル・ロバストから。ナチュラル（デフォルト）がほとんどの制作をカバーします。音声を生成。出力はすべての話者、トランジション、テンポがひとつに収まったファイルで、そのまま使うことも AI アバターの入力にすることもできます。

オーディオタグ — 感情と話し方の制御

オーディオタグが ElevenLabs Dialogue V3 を読み上げツールから区別します。台本内の角括弧のマーカーとして、語・フレーズ・行をどう話すかをモデルに指示し、生成の他の部分には影響しません。

6 カテゴリーのタグに対応：

感情 — [happy]、[sad]、[angry]、[nervous] — タグ付きテキストの感情状態を設定
話し方 — [whispering]、[shouting]、[slow] — 音の物理的な作り方を制御
非言語音 — [laughs]、[sighs]、[gasps] — 挿入感なく本物に聞こえる自然な非スピーチ音を追加
効果音 — [applause]、[door slamming]、[thunder] — 環境音やリアクション音を会話の流れに配置
アクセント — [French accent]、[British accent] — 特定の行で声の地域的な特徴をシフト
テンポ — [slowly]、[quickly]、[dramatic pause] — その行の話すリズムをかたちづくる

タグは同じフレーズで組み合わせられます。[excited][quickly] 契約が取れた！ はその行に速くエネルギッシュな話し方を生みます。次の行はタグがなければデフォルトの話し方に戻ります。この行単位の精度が、声の演技を求めるコンテンツで Dialogue V3 を実用的にします。自信から温かさへ切り替わるブランドのスポークスパーソン、確信から疑念へ滑るキャラクター。録り直しも別撮りパスもありません。

複数話者の会話

Dialogue V3 の 1 生成における話者数は無制限です。各話者は独立して設定できます。固有の声、固有の安定性、固有のオーディオタグ。システムは話者交代、発話間の自然な間、会話の勢い、そして 2 つ以上の声を交互の朗読ではなく本物のやり取りにするリズムを処理します。

2 人のホストの会話 — ポッドキャストコンテンツ、製品解説の対話、Q&A セグメントの実用形式。各ホストに固有の声のタイプを与えれば、会話モードが手動のタイミング調整なしにやり取りを滑らかでバランスよく保ちます。

キャラクターの会話 — 物語コンテンツ、ストーリーテリング、複数キャラクターのシーンへ。固有の声、感情の幅、話し方を持つ複数のキャラクターが同じ出力ファイルに。オーディオタグと組み合わせれば、各キャラクターは台本全体で一貫した話し方のプロファイルを保ちます。

113 ボイス、75 言語

Kling AI Video は ElevenLabs Dialogue V3 のために厳選された 113 のボイスを提供します。最もよく使われる制作ボイスのセレクション：スポークスパーソンとブランドの声、教育向けナレーター、キャラクターの会話、会話形式のホスト、表現豊かなパフォーマー。各プリセットには、生成を実行する前にボイスセレクター内で聴けるクラウドホストの音声プレビューがあります。

自動検出を含む 75 言語に対応。同じ台本構造とタグ設定がすべての言語で機能します。多言語ワークフローはシンプルです。台本を一度書き、ターゲット言語ごとに音声を生成し、各言語版を AI アバターで同じポートレートと組み合わせる。キャラクターのビジュアルアイデンティティは一定のまま、声だけが変数です。

複数市場向けのチーム（同じブランドスポークスパーソンによる日本語・英語・中国語の製品ローンチ）にとって、このボイス・言語・アバター直結ワークフローの組み合わせは、言語ごとの録音セッションという制作負荷を消し去ります。

台本から AI アバターへ — 完全なパイプライン

Kling AI Video における ElevenLabs Dialogue V3 の最も実用的なワークフローは、AI アバターへの直接接続です。会話音声を生成し、ポートレート画像とともにアバターワークフローへ流し込みます。

単体ツールでは、プロセスは複数のプラットフォームにまたがります。TTS サービスで音声を生成し、ファイルをダウンロードし、アバターツールにアップロードし、生成を実行。各ステップが手動の受け渡しです。

Kling AI Video では、全行程がひとつのプラットフォームに収まります：

テキスト読み上げで会話を書く — ボイスを割り当て、オーディオタグを置き、安定性を選ぶ
音声を生成
AI アバターを開き、ポートレート画像をアップロードして生成済み音声を使う
リップシンク動画を生成

人物は書いたとおりを、選んだ声で、台本に置いた感情の演出どおりに話します。同じポートレートを異なる音声ファイル（別の言語、別の台本、別のトーン）でアニメーション化すれば、1 枚のキャラクター画像から一貫したアバター動画のライブラリが作れます。

アバターツールのキャラクタータイプ、モデルティア、ポートレート要件の詳細は Kling AI アバターのガイドをご覧ください。

ElevenLabs Dialogue V3 で作れるもの

AI アバターのトーキングヘッド動画 — このプラットフォームの主要な統合ワークフロー。台本を書き、Dialogue V3 で声を生成し、音声を AI アバターへ。人物はあなたの演出どおりに台本を話します。どの制作でも、どの言語でも一貫しています。

ポッドキャストと複数ホストの音声 — 自然な会話の中の 2 つ以上の声。会話モードが交代、タイミング、感情の掛け合いを処理します。インタビューのフルセグメント、2 人のホストの討論、オーディオドラマのシーンが台本だけから生まれます。スタジオなし、スケジュール調整なし。

多言語コンテンツのローカライズ — 録り直しもキャスティングのやり直しもなしで、同じ台本を複数言語で生成。同じタグ設定が言語をまたいで適用され、言語が変わってもキャラクターの話し方は一貫します。AI アバターと組み合わせれば、完全にローカライズされた動画コンテンツに。

教育・講座の語り — 長い形式でも注意を保つ感情の変化とともにレッスンコンテンツを読む講師の声。オーディオタグが要点に強調を、セクション間に自然なテンポを置きます。

製品デモ・解説動画のナレーション — 一定のブランドボイスによる台本駆動のウォークスルー。シーンの映像には Kling 3.0 動画生成を。どちらのツールも Kling AI Video で動きます。

オーディオブックとストーリーテリング — 1 回の生成から複数のキャラクターボイス、感情の幅、ドラマチックなテンポを。各キャラクターが固有の声のプロファイルを持ち、オーディオタグが行単位で演技を演出します。

Eleven v3 vs Eleven v2 — 何が変わったか

	Eleven v2	Eleven v3
オーディオタグ	非対応	6 カテゴリー — 感情、話し方、非言語音、効果音、アクセント、テンポ
複数話者の会話モード	非対応	自然な話者交代、話者数無制限
言語	29	75
安定性制御	基本	クリエイティブ / ナチュラル / ロバスト
表現力	自然で安定	より広い感情の幅、文脈を感じる話し方
最適な用途	単一話者の長い朗読	台本の会話、複数キャラクターのシーン、感情駆動のコンテンツ

v2 から v3 への飛躍は、何より表現力と構造についてです。v3 は台本駆動の会話と演出された演技のために作られました。オーディオタグ、会話モード、言語拡張はすべてその目的に仕えます。安定して予測可能な話し方の単一話者の長い朗読には、v2 も今なお有力な選択肢です。Kling AI Video のテキスト読み上げは、制作標準として text-to-dialogue API 経由の Eleven v3 を使います。

技術仕様

仕様	詳細
モデル	ElevenLabs Eleven v3（text-to-dialogue API）
プリセットボイス	113
言語	75（自動検出を含む）
1 生成の最大文字数	5,000（全行合計）
話者	無制限
会話行	無制限
安定性	クリエイティブ / ナチュラル（デフォルト）/ ロバスト
オーディオタグのカテゴリー	感情、話し方、非言語音、効果音、アクセント、テンポ
ボイスプレビュー	113 ボイスすべてで利用可能
出力	音声ファイル

生成前に知っておきたいこと

5,000 文字の上限は全会話行の合計です。 2 人の話者が 80 文字ずつ 10 行をやり取りすれば 800 文字。上限には十分な余裕があります。ポッドキャストのフルセグメントや複数パートの台本は、生成セグメントに分割してポスプロで組み立てる必要があります。

タグの効果はボイスによって変わります。 感情タグへの反応が強い声もあれば、控えめな声もあります。プレビューを基準にして、本番の生成前にタグ付きでテストしてください。

安定性ナチュラルがほとんどの用途をカバーします。 クリエイティブは表現豊かで変化に富んだ話し方ですが、長い台本では揺れが増えます。ドラマチックなコンテンツやキャラクターものに。ロバストは全行でトーンを揃えます。一貫性が求められるブランド・教育コンテンツに。

AI アバターの 5 分上限を見越して台本セグメントを設計してください。 会話が AI アバターへ向かうなら、各生成セグメントを 5 分以内の音声にしてください。話題の切り替わりやセクション境界といった台本の自然な区切りが実用的なカットポイントになり、アバターセグメント間のトーンとテンポの制御もしやすくなります。

多言語生成は同じタグ構造を使います。 タグのカテゴリーは 75 言語すべてで機能します。[excited] タグは日本語の台本でも英語の台本でも同じように振る舞います。多言語コンテンツのパイプラインは、台本構造と話し方の演出をすべての言語版で共有できるのです。

ElevenLabs Dialogue V3 を使っているのは

クリエイタータイプ	主な用途
コンテンツクリエイター	録音セットなしの、ショート・リール・YouTube 向け台本ナレーション
ブランド・マーケティングチーム	スポークスパーソン TTS → キャンペーンと言語をまたぐ AI アバター動画
講師・講座クリエイター	講座ライブラリ全体で一定の声の講師ナレーション
ポッドキャスト制作者	録音セッションなしの複数ホスト AI 会話セグメント
オーディオブック・ストーリーテリングクリエイター	演出された感情の演技つき複数キャラクターのシーン

最初の会話を生成 →

よくある質問

ElevenLabs Dialogue V3 は、ElevenLabs の Eleven v3 モデルを基盤とする Kling AI Video の複数話者音声生成です。構造化された台本から自然で表現豊かな会話を生成します。各行は選ばれた声の話者に割り当てられ、システムは正しいテンポ、感情的な話し方、自然な交代を備えたまとまりのある音声出力を作ります。単一ボイスの標準 TTS と異なり、Dialogue V3 は会話、複数キャラクターのシーン、同じ出力に複数の声が必要なあらゆるコンテンツのために作られています。

通常のテキスト読み上げは、連続したテキストブロックを読む 1 つの声を生成します。ElevenLabs Dialogue V3 は会話を生成します。複数の話者、構造化されたターン、発話間の自然なタイミング、同じ出力の中で感情的に調和した声。各話者は固有の声を受け取り、システムはトランジション・話し方・リズムを、別々に生成したクリップの貼り合わせではなく、ひとつの音声シーンとして扱います。

Kling AI Video では、ElevenLabs Dialogue V3 は厳選された 113 のボイスを提供し、自動検出を含む 75 言語に対応します。各ボイスは生成前に試聴できます。113 のボイスはキャラクタータイプ、年齢、アクセント、トーンの幅をカバーし、スポークスパーソンのコンテンツ、キャラクターの会話、ナレーション、教育向けの語りに適しています。

オーディオタグは会話台本に挿入するマーカーで、声が行やフレーズをどう話すかを制御します。角括弧で書きます。たとえば [excited]、[whispering]、[laughs softly]、[French accent]。ElevenLabs Dialogue V3 は 6 カテゴリーのタグ（感情、話し方、非言語音、効果音、アクセント、テンポ）に対応し、台本の他の部分に触れずに個々の行を精密に制御できます。同じ行に複数のタグを重ねて多層的な演出も可能です。

安定性は行ごとの声の揺れ幅を制御します。クリエイティブ（最低）は最も表現豊かで感情的に多彩な話し方。ドラマチックなコンテンツやキャラクター演技に向きますが、長い台本では予測しにくくなります。ナチュラル（デフォルト）は表現と一貫性のバランスで、ほとんどのナレーションと会話制作の実用的な選択。ロバスト（最高）は全行で最も均一な話し方。ブランドコンテンツ、教材、感情の幅より一定のトーンが重要な文脈に適しています。

はい。113 のボイスすべてに、Kling AI Video のボイスセレクター内で直接試聴できる音声プレビューがあります。プレビューはクラウドホストのサンプルで、話者に声を割り当てる前に再生できます。台本の各キャラクターに複数の声をオーディションしてから、完全な生成を実行できます。

1 生成あたりの最大入力は、全会話行の合計で 5,000 文字です。この範囲内なら話者数にも行数にも制限はありません。より長い台本（ポッドキャストのフルセグメント、複数パートの朗読）はコンテンツをセグメントに分割し、それぞれを生成してください。出力はポスプロでつなげます。コンテンツが AI アバターへ向かうなら、アバター生成 1 回あたり 5 分の上限を意識してセグメントを設計しましょう。

Kling AI Video では、ElevenLabs Dialogue V3 の音声出力はプラットフォームを切り替えることなく AI アバターワークフローへ直接流れます。会話を書き、ボイスを割り当て、オーディオタグを置き、安定性を選んで音声を生成。その音声をポートレート画像とともに AI アバターで使い、リップシンクのトーキングヘッド動画を作ります。書かれた台本から完成アバター動画までの全行程が Kling AI Video の中に収まります。

ElevenLabs Dialogue V3 で同じ台本を各ターゲット言語で生成します。自動検出を含む 75 言語に対応。各言語版の音声出力とともに、AI アバターで同じポートレート画像を使ってください。キャラクターのビジュアルアイデンティティは全バージョンで一定のまま、声と言語だけが変わります。このワークフローなら、言語ごとの録音セッションやキャスティングのやり直しは不要です。複数市場向けコンテンツのチームに実用的です。

Eleven v3 は v2 になかった 3 つの大きな能力を加えました。感情を埋め込みで制御するオーディオタグ、複数話者生成のための会話モード、29 から 75 言語への拡張です。v3 は表現豊かな物語コンテンツと会話シーンのために作られています。v2 は安定した一定の話し方が最優先の、単一話者の長い朗読では今も有力です。Kling AI Video のテキスト読み上げは、text-to-dialogue API 経由で Eleven v3 を基盤モデルに使います。

はい。複数話者の会話モードは、話者交代、自然なテンポ、感情の掛け合いを備えたやり取りを生成します。ポッドキャストコンテンツの中核要件です。2 人のホスト形式、インタビューセグメント、オーディオドラマが実用的なユースケース。各話者は独立したオーディオタグつきの固有の声を持てます。長いエピソードは、1 生成 5,000 文字の上限内でセグメント分割が必要です。

ElevenLabs Dialogue V3 は台本駆動の声を使うあらゆる制作に適合します。主な用途：音声を流し込む AI アバターのトーキングヘッド動画、ポッドキャストと複数ホストの音声、1 つの台本からの多言語ナレーション、講座の語り、製品デモ・解説動画のナレーション、ショート SNS コンテンツの声、複数キャラクターのオーディオブックとストーリーテリング。

今すぐ ElevenLabs Dialogue V3 で作成を始める

クリエイティブなアイデアを魅力的なコンテンツに。専門知識は不要です。

会話を生成

ElevenLabs Dialogue V3 搭載

ElevenLabs Dialogue V3

会話を生成

感情 — [happy]、[sad]、[angry]、[nervous] — タグ付きテキストの感情状態を設定
話し方 — [whispering]、[shouting]、[slow] — 音の物理的な作り方を制御
非言語音 — [laughs]、[sighs]、[gasps] — 挿入感なく本物に聞こえる自然な非スピーチ音を追加
効果音 — [applause]、[door slamming]、[thunder] — 環境音やリアクション音を会話の流れに配置
アクセント — [French accent]、[British accent] — 特定の行で声の地域的な特徴をシフト
テンポ — [slowly]、[quickly]、[dramatic pause] — その行の話すリズムをかたちづくる

テキスト読み上げで会話を書く — ボイスを割り当て、オーディオタグを置き、安定性を選ぶ
音声を生成
AI アバターを開き、ポートレート画像をアップロードして生成済み音声を使う
リップシンク動画を生成

アバターツールのキャラクタータイプ、モデルティア、ポートレート要件の詳細は Kling AI アバターのガイドをご覧ください。

ElevenLabs Dialogue V3 で作れるもの

Eleven v3 vs Eleven v2 — 何が変わったか

	Eleven v2	Eleven v3
オーディオタグ	非対応	6 カテゴリー — 感情、話し方、非言語音、効果音、アクセント、テンポ
複数話者の会話モード	非対応	自然な話者交代、話者数無制限
言語	29	75
安定性制御	基本	クリエイティブ / ナチュラル / ロバスト
表現力	自然で安定	より広い感情の幅、文脈を感じる話し方
最適な用途	単一話者の長い朗読	台本の会話、複数キャラクターのシーン、感情駆動のコンテンツ

技術仕様

仕様	詳細
モデル	ElevenLabs Eleven v3（text-to-dialogue API）
プリセットボイス	113
言語	75（自動検出を含む）
1 生成の最大文字数	5,000（全行合計）
話者	無制限
会話行	無制限
安定性	クリエイティブ / ナチュラル（デフォルト）/ ロバスト
オーディオタグのカテゴリー	感情、話し方、非言語音、効果音、アクセント、テンポ
ボイスプレビュー	113 ボイスすべてで利用可能
出力	音声ファイル

生成前に知っておきたいこと

ElevenLabs Dialogue V3 を使っているのは

クリエイタータイプ	主な用途
コンテンツクリエイター	録音セットなしの、ショート・リール・YouTube 向け台本ナレーション
ブランド・マーケティングチーム	スポークスパーソン TTS → キャンペーンと言語をまたぐ AI アバター動画
講師・講座クリエイター	講座ライブラリ全体で一定の声の講師ナレーション
ポッドキャスト制作者	録音セッションなしの複数ホスト AI 会話セグメント
オーディオブック・ストーリーテリングクリエイター	演出された感情の演技つき複数キャラクターのシーン

最初の会話を生成 →

よくある質問

今すぐ ElevenLabs Dialogue V3 で作成を始める

クリエイティブなアイデアを魅力的なコンテンツに。専門知識は不要です。

会話を生成

ElevenLabs Dialogue V3

よくある質問

ElevenLabs Dialogue V3 とは？

ElevenLabs Dialogue V3 は通常のテキスト読み上げと何が違いますか？

ElevenLabs Dialogue V3 が対応するボイスと言語の数は？

オーディオタグとは？どう使いますか？

安定性のクリエイティブ・ナチュラル・ロバストは何が違いますか？

生成前にボイスを試聴できますか？

1 回の会話生成はどれくらいの長さにできますか？

ElevenLabs Dialogue V3 は Kling AI Video の AI アバターとどう連携しますか？

同じキャラクターで多言語のアバター動画を作るには？

Eleven v3 は Eleven v2 と何が違いますか？

ElevenLabs Dialogue V3 はポッドキャスト制作に向いていますか？

ElevenLabs Dialogue V3 でどんなコンテンツを作れますか？

今すぐ ElevenLabs Dialogue V3 で作成を始める

ElevenLabs Dialogue V3

よくある質問

ElevenLabs Dialogue V3 とは？

ElevenLabs Dialogue V3 は通常のテキスト読み上げと何が違いますか？

ElevenLabs Dialogue V3 が対応するボイスと言語の数は？

オーディオタグとは？どう使いますか？

安定性のクリエイティブ・ナチュラル・ロバストは何が違いますか？

生成前にボイスを試聴できますか？

1 回の会話生成はどれくらいの長さにできますか？

ElevenLabs Dialogue V3 は Kling AI Video の AI アバターとどう連携しますか？

同じキャラクターで多言語のアバター動画を作るには？

Eleven v3 は Eleven v2 と何が違いますか？

ElevenLabs Dialogue V3 はポッドキャスト制作に向いていますか？

ElevenLabs Dialogue V3 でどんなコンテンツを作れますか？

今すぐ ElevenLabs Dialogue V3 で作成を始める