ElevenLabs Dialogue V3
録音セットもナレーター手配もなしで、台本から表現豊かな複数話者の会話を生成。制作レベルの声をスケールさせたいクリエイター、マーケター、講師のために。ElevenLabs Dialogue V3 は構造化された会話台本を受け取り、各話者が固有の声・制御された感情・自然なテンポを持つ完成音声を届けます。音声出力は Kling AI Video の AI アバターへ直結。台本から声へ、リップシンク動画へ、プラットフォームを離れずに。
ElevenLabs Dialogue V3 とは
ElevenLabs Dialogue V3 は、ElevenLabs の Eleven v3 モデルを基盤とする Kling AI Video の複数話者音声生成です。1 つの声にテキストブロックを読ませる標準のテキスト読み上げと異なり、Dialogue V3 は会話のために作られています。複数の話者を持つ構造化された台本を受け取り、各話者に固有の声を割り当て、それぞれの声が自然で、感情的に調和し、互いに正しいテンポで響く、まとまりのある音声出力を届けます。
Kling AI Video では、この機能は 75 言語・厳選 113 ボイスで動きます。オーディオタグ(感情、話し方、非言語表現、アクセント、テンポの埋め込みマーカー)が各声の演技を行単位で制御します。そして音声出力は AI アバターへ直結します。台本を書き、会話を生成し、それをリップシンクで話すポートレートをアニメーション化する。すべてプラットフォームを切り替えずに。書かれた台本から完成トーキングヘッド動画までの道のりが、ひとつの Kling AI Video ワークフローで完結します。
ElevenLabs Dialogue V3 のしくみ
1. 会話台本を書く — コンテンツを行のシーケンスとして構造化し、各行を名前付きの話者に割り当てます。1 行が会話の 1 ターン。話者と行の数は無制限で、上限は全行合計 5,000 文字だけです。
2. ボイスを割り当てて演技を演出 — 話者ごとに 113 のボイスから 1 つを選択。各声は事前に試聴できます。[excited]、[whispering]、[laughs softly] のようなオーディオタグを挿入して、台本の他の部分の響きを変えずに特定の瞬間を演出します。
3. 安定性を選んで生成 — 全体の話し方をクリエイティブ・ナチュラル・ロバストから。ナチュラル(デフォルト)がほとんどの制作をカバーします。音声を生成。出力はすべての話者、トランジション、テンポがひとつに収まったファイルで、そのまま使うことも AI アバターの入力にすることもできます。
オーディオタグ — 感情と話し方の制御
オーディオタグが ElevenLabs Dialogue V3 を読み上げツールから区別します。台本内の角括弧のマーカーとして、語・フレーズ・行をどう話すかをモデルに指示し、生成の他の部分には影響しません。
6 カテゴリーのタグに対応:
- 感情 —
[happy]、[sad]、[angry]、[nervous]— タグ付きテキストの感情状態を設定 - 話し方 —
[whispering]、[shouting]、[slow]— 音の物理的な作り方を制御 - 非言語音 —
[laughs]、[sighs]、[gasps]— 挿入感なく本物に聞こえる自然な非スピーチ音を追加 - 効果音 —
[applause]、[door slamming]、[thunder]— 環境音やリアクション音を会話の流れに配置 - アクセント —
[French accent]、[British accent]— 特定の行で声の地域的な特徴をシフト - テンポ —
[slowly]、[quickly]、[dramatic pause]— その行の話すリズムをかたちづくる
タグは同じフレーズで組み合わせられます。[excited][quickly] 契約が取れた! はその行に速くエネルギッシュな話し方を生みます。次の行はタグがなければデフォルトの話し方に戻ります。この行単位の精度が、声の演技を求めるコンテンツで Dialogue V3 を実用的にします。自信から温かさへ切り替わるブランドのスポークスパーソン、確信から疑念へ滑るキャラクター。録り直しも別撮りパスもありません。
複数話者の会話
Dialogue V3 の 1 生成における話者数は無制限です。各話者は独立して設定できます。固有の声、固有の安定性、固有のオーディオタグ。システムは話者交代、発話間の自然な間、会話の勢い、そして 2 つ以上の声を交互の朗読ではなく本物のやり取りにするリズムを処理します。
2 人のホストの会話 — ポッドキャストコンテンツ、製品解説の対話、Q&A セグメントの実用形式。各ホストに固有の声のタイプを与えれば、会話モードが手動のタイミング調整なしにやり取りを滑らかでバランスよく保ちます。
キャラクターの会話 — 物語コンテンツ、ストーリーテリング、複数キャラクターのシーンへ。固有の声、感情の幅、話し方を持つ複数のキャラクターが同じ出力ファイルに。オーディオタグと組み合わせれば、各キャラクターは台本全体で一貫した話し方のプロファイルを保ちます。
113 ボイス、75 言語
Kling AI Video は ElevenLabs Dialogue V3 のために厳選された 113 のボイスを提供します。最もよく使われる制作ボイスのセレクション:スポークスパーソンとブランドの声、教育向けナレーター、キャラクターの会話、会話形式のホスト、表現豊かなパフォーマー。各プリセットには、生成を実行する前にボイスセレクター内で聴けるクラウドホストの音声プレビューがあります。
自動検出を含む 75 言語に対応。同じ台本構造とタグ設定がすべての言語で機能します。多言語ワークフローはシンプルです。台本を一度書き、ターゲット言語ごとに音声を生成し、各言語版を AI アバターで同じポートレートと組み合わせる。キャラクターのビジュアルアイデンティティは一定のまま、声だけが変数です。
複数市場向けのチーム(同じブランドスポークスパーソンによる日本語・英語・中国語の製品ローンチ)にとって、このボイス・言語・アバター直結ワークフローの組み合わせは、言語ごとの録音セッションという制作負荷を消し去ります。
台本から AI アバターへ — 完全なパイプライン
Kling AI Video における ElevenLabs Dialogue V3 の最も実用的なワークフローは、AI アバターへの直接接続です。会話音声を生成し、ポートレート画像とともにアバターワークフローへ流し込みます。
単体ツールでは、プロセスは複数のプラットフォームにまたがります。TTS サービスで音声を生成し、ファイルをダウンロードし、アバターツールにアップロードし、生成を実行。各ステップが手動の受け渡しです。
Kling AI Video では、全行程がひとつのプラットフォームに収まります:
人物は書いたとおりを、選んだ声で、台本に置いた感情の演出どおりに話します。同じポートレートを異なる音声ファイル(別の言語、別の台本、別のトーン)でアニメーション化すれば、1 枚のキャラクター画像から一貫したアバター動画のライブラリが作れます。
アバターツールのキャラクタータイプ、モデルティア、ポートレート要件の詳細は Kling AI アバターのガイドをご覧ください。
ElevenLabs Dialogue V3 で作れるもの
AI アバターのトーキングヘッド動画 — このプラットフォームの主要な統合ワークフロー。台本を書き、Dialogue V3 で声を生成し、音声を AI アバターへ。人物はあなたの演出どおりに台本を話します。どの制作でも、どの言語でも一貫しています。
ポッドキャストと複数ホストの音声 — 自然な会話の中の 2 つ以上の声。会話モードが交代、タイミング、感情の掛け合いを処理します。インタビューのフルセグメント、2 人のホストの討論、オーディオドラマのシーンが台本だけから生まれます。スタジオなし、スケジュール調整なし。
多言語コンテンツのローカライズ — 録り直しもキャスティングのやり直しもなしで、同じ台本を複数言語で生成。同じタグ設定が言語をまたいで適用され、言語が変わってもキャラクターの話し方は一貫します。AI アバターと組み合わせれば、完全にローカライズされた動画コンテンツに。
教育・講座の語り — 長い形式でも注意を保つ感情の変化とともにレッスンコンテンツを読む講師の声。オーディオタグが要点に強調を、セクション間に自然なテンポを置きます。
製品デモ・解説動画のナレーション — 一定のブランドボイスによる台本駆動のウォークスルー。シーンの映像には Kling 3.0 動画生成を。どちらのツールも Kling AI Video で動きます。
オーディオブックとストーリーテリング — 1 回の生成から複数のキャラクターボイス、感情の幅、ドラマチックなテンポを。各キャラクターが固有の声のプロファイルを持ち、オーディオタグが行単位で演技を演出します。
Eleven v3 vs Eleven v2 — 何が変わったか
| Eleven v2 | Eleven v3 | |
|---|---|---|
| オーディオタグ | 非対応 | 6 カテゴリー — 感情、話し方、非言語音、効果音、アクセント、テンポ |
| 複数話者の会話モード | 非対応 | 自然な話者交代、話者数無制限 |
| 言語 | 29 | 75 |
| 安定性制御 | 基本 | クリエイティブ / ナチュラル / ロバスト |
| 表現力 | 自然で安定 | より広い感情の幅、文脈を感じる話し方 |
| 最適な用途 | 単一話者の長い朗読 | 台本の会話、複数キャラクターのシーン、感情駆動のコンテンツ |
v2 から v3 への飛躍は、何より表現力と構造についてです。v3 は台本駆動の会話と演出された演技のために作られました。オーディオタグ、会話モード、言語拡張はすべてその目的に仕えます。安定して予測可能な話し方の単一話者の長い朗読には、v2 も今なお有力な選択肢です。Kling AI Video のテキスト読み上げは、制作標準として text-to-dialogue API 経由の Eleven v3 を使います。
技術仕様
| 仕様 | 詳細 |
|---|---|
| モデル | ElevenLabs Eleven v3(text-to-dialogue API) |
| プリセットボイス | 113 |
| 言語 | 75(自動検出を含む) |
| 1 生成の最大文字数 | 5,000(全行合計) |
| 話者 | 無制限 |
| 会話行 | 無制限 |
| 安定性 | クリエイティブ / ナチュラル(デフォルト)/ ロバスト |
| オーディオタグのカテゴリー | 感情、話し方、非言語音、効果音、アクセント、テンポ |
| ボイスプレビュー | 113 ボイスすべてで利用可能 |
| 出力 | 音声ファイル |
生成前に知っておきたいこと
5,000 文字の上限は全会話行の合計です。 2 人の話者が 80 文字ずつ 10 行をやり取りすれば 800 文字。上限には十分な余裕があります。ポッドキャストのフルセグメントや複数パートの台本は、生成セグメントに分割してポスプロで組み立てる必要があります。
タグの効果はボイスによって変わります。 感情タグへの反応が強い声もあれば、控えめな声もあります。プレビューを基準にして、本番の生成前にタグ付きでテストしてください。
安定性ナチュラルがほとんどの用途をカバーします。 クリエイティブは表現豊かで変化に富んだ話し方ですが、長い台本では揺れが増えます。ドラマチックなコンテンツやキャラクターものに。ロバストは全行でトーンを揃えます。一貫性が求められるブランド・教育コンテンツに。
AI アバターの 15 秒上限を見越して台本セグメントを設計してください。 会話が AI アバターへ向かうなら、各生成セグメントの出力を 15 秒未満に。話題の切り替わりやセクション境界といった台本の自然な区切りが実用的なカットポイントになり、アバターセグメント間のトーンとテンポの制御もしやすくなります。
多言語生成は同じタグ構造を使います。 タグのカテゴリーは 75 言語すべてで機能します。[excited] タグは日本語の台本でも英語の台本でも同じように振る舞います。多言語コンテンツのパイプラインは、台本構造と話し方の演出をすべての言語版で共有できるのです。
ElevenLabs Dialogue V3 を使っているのは
| クリエイタータイプ | 主な用途 |
|---|---|
| コンテンツクリエイター | 録音セットなしの、ショート・リール・YouTube 向け台本ナレーション |
| ブランド・マーケティングチーム | スポークスパーソン TTS → キャンペーンと言語をまたぐ AI アバター動画 |
| 講師・講座クリエイター | 講座ライブラリ全体で一定の声の講師ナレーション |
| ポッドキャスト制作者 | 録音セッションなしの複数ホスト AI 会話セグメント |
| オーディオブック・ストーリーテリングクリエイター | 演出された感情の演技つき複数キャラクターのシーン |