この会話セグメントのテキストを入力してください。
この会話のボイスを選択してください。
単一話者
Xavier: [calm] Welcome to the AI studio, where photos come to life with AI Avatar Lip Sync. [excited] Upload an image and an audio file, then watch your avatar speak naturally.
複数話者の会話
Juniper: [excitedly] Hey James! Have you tried the new ElevenLabs V3?
James: [curiously] Yeah, just got it! The emotion is so amazing. I can actually do whispers now— [whispering] like this!
AI テキスト読み上げ — 複数ボイスとオーディオタグの会話音声
AI 音声生成はテキストを自然な話し声に変換します。速度調整つきの単一ボイス TTS はもう解決済みの課題です。このツールはもっと難しい課題に挑みます。複数の話者がそれぞれの声の個性を持って自然に掛け合う会話音声を作り、各行を文中でも効く埋め込みオーディオタグ(感情、話し方、非言語音、効果音、アクセント、テンポ)で演出すること。ElevenLabs の text-to-dialogue-v3 モデルを基盤に、複数ボイスの台本を 1 回の生成で処理し、話者間の自然な交代を備えた 1 つの音声ファイルを出力します。ブラウザで試聴できる 113 種類のプリセットボイスと、自動検出を含む 75 言語から選び、安定性パラメータ(クリエイティブ・ナチュラル・ロバスト)で表現の振れ幅を調整。完成した MP3 は Kling AI Video の AI アバターワークフローへ直結し、台本からしゃべる動画までの完全なパイプラインになります。
複数話者のテキスト読み上げとは?
AI 音声生成は、ニューラル音声合成で書かれたテキストを自然に聞こえるスピーチへ変換します。このツールを駆動する ElevenLabs の text-to-dialogue-v3 エンジンは、音素レベルでプロソディをモデリングします。ピッチのカーブ、強勢、語間のタイミング、間の長さが内容の意味に従うのです。旧来の TTS との違いは音質だけではありません。オーディオタグによる埋め込みの構造指示を受け付け、複数の話者を 1 回の生成で処理できること。ボイスごとの個別呼び出しも手動のつなぎ合わせも不要です。
複数話者の会話こそ、標準 TTS との最大の差別化要素です。台本の各行に固有のボイスを割り当てると、エンジンは話者交代の自然なタイミングとリズムを備えた 1 つの音声ファイルを生成します。6 カテゴリーのオーディオタグ(感情、話し方、非言語音、効果音、アクセント、テンポ)を加えれば、ボイスが「何を言うか」だけでなく「どう言うか」まで正確に決められます。出力は単体の MP3 としても、AI アバターの音声入力としても機能します。アバターは音素のタイミングを任意のポートレートの口の形と顔の動きに転写します。
主な機能
複数話者対応、オーディオタグ、113 ボイス、75 言語を備えた ElevenLabs text-to-dialogue-v3。
1 リクエストで複数話者の会話
会話の各行に別々のボイスを割り当て、台本全体を 1 回の生成で送信します。エンジンが話者交代、ボイス間のタイミング、行ごとのタグ解釈を処理。ポッドキャスト、ゲームのカットシーン、研修用ダイアログ、インタビュー台本が、別々に生成したクリップを手動でつなぐことなく、完全な音声ファイルとして生まれます。
感情を操る埋め込みオーディオタグ
台本テキストに角括弧のタグを直接挿入して、フレーズ単位で話し方を演出します。行頭の [excited] はピッチとテンポを上げ、[whispering] は音量を落として息を減らし、[sigh] は言葉の前に自然なため息を置きます。タグは後処理ではなく波形合成の最中に処理されるため、プロソディは有機的なまま。すべてのタグがすべてのボイスと言語で機能します。
ブラウザ試聴つき 113 種類のプリセットボイス
キャラクタータイプでボイスを探せます。会話調、ナレーション、ゲーム、TikTok、ハリウッド、アナウンサー、リラックス系など。各ボイスにはクラウドホストの MP3 プレビューがあり、生成前に再生できます。声の高さ、話す速さ、アクセント、表現力はボイスごとにさまざま。ボイス選択と安定性パラメータを組み合わせて、一貫性と variation の間を細かく制御してください。
自動検出つき 75 言語
日本語、英語、中国語、韓国語、ドイツ語、フランス語、スペイン語、ポルトガル語、アラビア語、ヒンディー語、ロシア語など、自動検出を含む全 75 言語でスピーチを生成できます。混在言語のコンテンツや特定の地域発音には手動選択も使えます。
安定性パラメータ:クリエイティブ・ナチュラル・ロバスト
安定性には 3 段階あります。クリエイティブ(0)は最も表現豊かで variation に富んだ出力。ピッチの揺れ、強調、感情の色づけがはっきりし、ドラマチックなコンテンツやキャラクターの会話向き。ナチュラル(0.5、デフォルト)は表現と一貫性のバランスで、ポッドキャスト、マーケティングのナレーション、一般的な朗読に適切。ロバスト(1)は同じテキストの複数生成で最も均一で予測可能な出力。e ラーニングのナレーションや、長い台本でトーンを保つ必要があるコンテンツに不可欠です。
AI アバターとの直接統合
生成された MP3 は AI アバターのリップシンクツールとフォーマット互換です。音声をダウンロードし、ポートレート写真とともにアバターワークフローへ読み込めば、顔があなたの台本を話すトーキングヘッド動画が作れます。テキストからしゃべる動画への完全なパイプライン(台本・声・動画)が、マイクもカメラもスタジオもナレーター手配もなしに完成します。
オーディオタグのリファレンス
各フレーズの話し方を形づくる 6 カテゴリーの埋め込みマーカー。
オーディオタグは会話台本内のプレーンテキストの角括弧で、合成エンジンに話し方のスタイル、感情のトーン、非言語音、環境音、アクセント、タイミングを指示します。行頭に置けばそのターン全体のレジスターを決め、文中に置けば特定の語で切り替えが発生します。タグは行ごとに独立して適用されます。同じ生成の中で、ある話者が [whispering] で次の話者が [shouting] でも構いません。各タグは 113 ボイスすべて、75 言語すべてと互換です。
感情
声の基礎となる感情レジスターを制御します。ピッチカーブ、話す速さ、呼吸パターンに同時に影響します。
[excited] ローンチ目標を達成しました! [sad] 今四半期の数字は期待を下回りました。
話し方
音の物理的な作り方(音量、声の置き方、発音スタイル)を制御します。行間のドラマチックな対比に便利です。
[whispering] これは誰にも聞かれちゃいけない。 [shouting] 今すぐみんなに知らせないと!
非言語音
会話を台本臭くなく自然に聞かせる、無意識的・反射的な音を挿入します。間、リアクション、思考の切り替わり。
[sigh] それなら、もう選択肢はないですね。 [gasp] 本当にやり遂げたんだ。
効果音
環境音やシーンの音をスピーチ出力に直接埋め込みます。ショート形式なら別途のサウンドデザインのレイヤーは不要です。
[rain] 天気予報では夜にかけて荒れるそうです。 [door knocking] 誰か来たみたいです。
アクセント
選んだボイスの音声的な特徴を、声のアイデンティティを変えずに地域アクセントへ寄せます。ローカライズやキャラクターの描き分けに便利です。
[British accent] 会議は 3 時半に設定されています。 [Australian accent] 問題ないよ、なんとかするさ。
テンポ
フレーズの時間的な展開を変えます。緊張感の構築、強調、編集点へのタイミング合わせに便利です。
[dramatically] 決断は、たった 1 人の手に委ねられている。 [with a pause] そして、その人は今日ここにいる。
TTS から動画へのパイプライン
台本から音声へ、そしてしゃべる動画へ。マイクもカメラも録音環境も不要。
テキスト読み上げは、リップシンクのトーキングヘッド動画で終わる制作パイプラインの最初の段階です。会話エディターで複数話者の台本を書き、113 のプリセットライブラリからボイスを割り当て、感情の山場にオーディオタグを置いて音声を生成します。MP3 をダウンロードし、ポートレート写真とともに AI アバターツールへ。リップシンクエンジンが音素のタイミングをポートレートの口の形・頭の動き・表情に転写し、テキストだけから完全な動画が生まれます。どの段階にも録音機材は要りません。
オーディオタグつきの台本を書く
エディターに会話を入力します。1 行が 1 話者です。各行に 113 プリセットのライブラリからボイスを割り当て、感情の山場や話し方の切り替えにオーディオタグを置きます。エンジンは 1 生成あたり全行合計で 5,000 文字まで受け付けます。
音声を生成してダウンロード
言語(または自動検出)と安定性レベルを選び、生成をクリック。処理は文字数に応じて数秒から数分です。完成した MP3 をダウンロードしてください。
AI アバターへ流し込んでリップシンク動画に
MP3 をポートレート写真とともに AI アバターツールへ読み込みます。リップシンクエンジンが音素のタイミングをフレーム単位で口の形と顔の動きへ転写し、写真と音声だけからトーキングヘッド動画が完成します。
AI テキスト読み上げの使い方
空の台本から完成音声まで 3 ステップ。すべてブラウザで、インストール不要。
1. 会話を書いてタグを付ける
会話エディターに台本を入力します。1 行が 1 つの発話ターンです。[excited]、[whispering]、[sigh] のようなタグを、効かせたい場所へ直接挿入します。ターンごとのプロソディを最適化するため、各行は 500 文字未満に。全行の合計は 5,000 文字以内です。
2. ボイスを割り当ててパラメータを設定
各行のボイスセレクターを開き、クラウドの MP3 プレビューをブラウザで試聴します。キャラクターに合う声を割り当て、言語を設定(または自動検出のまま)。安定性を選びます:ドラマチックな variation はクリエイティブ、バランスはナチュラル、長い台本での一定トーンはロバスト。
3. 生成してダウンロード
「音声を生成」をクリック。ElevenLabs の text-to-dialogue-v3 エンジンが台本を処理し、すべての発話ターンが自然な会話のリズムで収まった 1 つの MP3 ファイルを届けます。そのままダウンロードするか、AI アバターへつないでトーキングヘッド動画に。
テキスト読み上げのユースケース
複数話者の会話とオーディオタグ制御が、単一ボイス TTS では届かない制作ワークフローを開きます。
ポッドキャストとインタビューの会話
スタジオでの録り直しなしにホストとゲストの掛け合いを生成。
交互の行にホストとゲストのボイスを割り当て、自然なリアクション([laugh]、[gasp]、[hmm])をタグ付けし、完全な会話トラックを 1 リクエストで生成します。3,000 文字のやり取りが数秒で完成。台本を直して再生成すれば、共同ホストを呼び直すこともセッションをやり直すこともありません。
アクセシビリティと読み上げコンテンツ
書かれたコンテンツが多言語ナレーションに。
ドキュメント、商品説明、ウェブコンテンツのために、自然なリズムの音声ナレーションを生成します。情報を音声で受け取るユーザーのために。75 言語のライブラリがグローバルなオーディエンスへのローカライズ音声アクセシビリティを支えます。安定性をロバストにすれば、長いナレーションでも予期せぬピッチの揺れなく声の特徴が一定に保たれます。
ゲームのカットシーンとキャラクターボイスの試作
声優を起用する前に会話のタイミングを検証。
複数のキャラクターボイスでカットシーン全体を台本化し、ドラマチックな声を割り当て、[shouting] の戦闘セリフと [whispering] の陰謀を加えて、本物の声優セッションを予約する前にディレクション確認用の音声を生成します。紙の上の見た目ではなく、実際に聞こえる音で会話のテンポとタグを反復できます。
e ラーニングとコースのナレーション
再利用できる台本からコースナレーションをローカライズ。
マスター台本から 75 言語で一貫したナレーションを生成します。テキストを翻訳し、合うボイスを選び、再生成するだけ。複数パートのコースには安定性ロバストでトーンの一貫性を。各トラックを AI アバターと組み合わせれば、必要なあらゆる言語を話す講師動画が作れます。
ナレーションの A/B テストをスケールさせる
新たなナレーター手配なしでバリエーションをテスト。
同じ広告ナレーションの 5 バリエーション(別のボイス、別のオーディオタグ、別の安定性レベル)を 10 分以内に制作します。[excited] 対 [calm]、男性声対女性声、速いテンポ対落ち着いたテンポをエンゲージメント指標でテスト。バージョンごとにナレーターを起用する必要はありません。
動画・プレゼンのナレーション下書き
本制作の前にテンポの問題を発見。
動画編集、解説アニメーション、プレゼンテーションのナレーションを、最終的な制作判断の前にラフ版で生成します。声に出された台本は、黙読では見えないテンポの問題、ぎこちない言い回し、トーンの段差をあらわにします。最後に生録音へ差し替えるか、品質基準を満たすなら AI 版をそのまま使ってください。
ベストプラクティス
台本ライティングのコツ
- Write as spoken language, not formal prose — contractions, sentence fragments, and informal phrasing produce more natural synthesis than grammatically perfect text
- Keep individual dialogue lines under 500 characters — the engine optimizes prosody per segment; very long lines can produce uneven stress and pacing
- Use punctuation deliberately: commas produce brief pauses, em dashes signal abrupt breaks, and ellipses trail off — these timing cues are read literally by the synthesis engine
- Spell out numbers and abbreviations in full: 'forty-two' not '42', 'doctor' not 'Dr.' — the engine may mispronounce abbreviated forms or read digit characters individually
- 書き言葉ではなく話し言葉で書く — 短い文とくだけた言い回しは、文法的に完璧な文章より自然に聞こえます
- 各行は 500 文字未満に — エンジンはセグメントごとにプロソディを最適化します。長すぎる行は強勢とリズムが不均一になります
- 句読点を意図的に使う — 読点は短い間を作り、ダッシュは強い区切りを、三点リーダーは余韻を残します。エンジンはこれらのタイミング記号を文字どおり読みます
- 数字と略語は読み仮名どおりに書く —「42」より「よんじゅうに」、「Dr.」より「ドクター」。省略形は誤読や 1 桁ずつの読み上げになりがちです
オーディオタグのコツ
- Tag key emotional moments rather than every line — over-tagging flattens the contrast that makes tagged moments feel significant
- Stack complementary tags to shape nuanced delivery: [excited] followed by [quickly] in the same line creates urgency with upward energy
- Place non-verbal tags ([sigh], [gasp], [laugh]) at the very start of a line — inserting them mid-sentence interrupts the speech rhythm more than intended
- Test one line with three different emotion tags at Stability 0.5 before choosing — the gap between [sad] and [serious] is wider than it appears on paper
- 全行ではなく感情の山場にタグを — タグの付けすぎは、タグ付きの瞬間を意味づける対比を平らにします
- 補完的なタグを重ねてニュアンスを出す — 同じ行の [excited] に [quickly] を続ければ、上昇するエネルギーの緊迫感が生まれます
- 非言語タグ([sigh]、[gasp]、[laugh])は行頭に — 文中では想定以上に発話の流れを断ち切ります
- 決定する前に、安定性 0.5 で 1 行を 3 つの感情タグで試す — [sad] と [serious] の距離は紙の上の印象より大きいものです
技術仕様
AI エンジン
- Engine: ElevenLabs text-to-dialogue-v3
- Voice library: 113 preset voices with cloud MP3 preview
- Stability: Creative (0) / Natural (0.5, default) / Robust (1)
- エンジン:ElevenLabs text-to-dialogue-v3
- ボイスライブラリ:クラウド MP3 プレビューつき 113 種類のプリセット
- 安定性:クリエイティブ(0)/ ナチュラル(0.5、デフォルト)/ ロバスト(1)
入力
- Max characters: 5,000 per generation across all dialogue lines combined
- Speakers: unlimited lines per request, each line assigned its own voice
- Languages: 75 supported including Auto-detect
- Audio Tags: 6 categories — inline bracketed markers embedded directly in script text
- 最大文字数:1 生成 5,000 文字(全行合計)
- 話者:1 リクエストの行数は無制限、各行に固有のボイス
- 言語:自動検出を含む 75 言語に対応
- オーディオタグ:6 カテゴリー — 台本テキスト内の角括弧マーカー
出力
- Format: MP3 audio file
- Processing time: seconds to minutes depending on total character count
- Compatible with AI Avatar Lip Sync tool as direct audio input
- 形式:MP3 音声ファイル
- 処理時間:文字数に応じて数秒から数分
- AI アバターツールの音声入力としてそのまま互換
関連ツール
テキスト読み上げの FAQ
オーディオタグ、ボイス選択、複数話者出力、TTS からアバターへのパイプラインへの具体的な回答。
台本を書く。ボイスを割り当てる。聴く。
この AI 音声生成はすべてをこなします。複数話者の会話を入力し、感情制御のオーディオタグを置き、75 言語・113 ボイスから選んで 1 つの MP3 を生成。そのまま AI アバターへ流し込めば、マイクもカメラもなしでトーキングヘッド動画が完成します。