Impulsado por ElevenLabs Dialogue V3

ElevenLabs Dialogue V3

Genera diálogos expresivos con varios hablantes desde un guion, sin montaje de grabación ni contratación de locutores. Pensado para creadores, marketers y docentes que necesitan voz de producción a escala: ElevenLabs Dialogue V3 acepta guiones de diálogo estructurados y entrega audio terminado donde cada hablante tiene su propia voz, emoción controlada y ritmo natural. La salida de audio se conecta directamente con el AI Avatar en Kling AI Video: del guion a la voz y al video con lip sync, sin salir de la plataforma.

Generar un diálogo

Qué es ElevenLabs Dialogue V3

ElevenLabs Dialogue V3 es la generación de voz multivoces de Kling AI Video, impulsada por el modelo Eleven v3 de ElevenLabs. A diferencia del texto a voz estándar, que hace leer un bloque de texto a una sola voz, Dialogue V3 está construido para la conversación: acepta un guion estructurado con varios hablantes, asigna a cada uno una voz propia y entrega una salida de audio cohesionada donde cada voz suena natural, emocionalmente coordinada y con el ritmo correcto respecto a las demás.

En Kling AI Video, la función corre con 113 voces seleccionadas en 75 idiomas. Las etiquetas de audio —marcadores insertados para emoción, entrega, expresión no verbal, acento y ritmo— dan control línea a línea sobre la actuación de cada voz. Y la salida de audio se conecta directamente con el AI Avatar: escribir el guion, generar el diálogo, animar un retrato que lo pronuncia con lip sync, todo sin cambiar de plataforma. El camino del guion escrito al video de talking head final corre dentro de un solo flujo de Kling AI Video.

Cómo funciona ElevenLabs Dialogue V3

1. Escribe tu guion de diálogo: estructura el contenido como una serie de líneas, cada una asignada a un hablante con nombre. Cada línea es un turno de conversación. Hablantes y líneas son ilimitados; el único tope son 5.000 caracteres entre todas las líneas.

2. Asigna voces y dirige la entrega: elige una de las 113 voces por hablante. Escucha cada voz antes. Coloca etiquetas de audio insertadas —[excited], [whispering], [laughs softly]— para dirigir momentos concretos sin alterar el sonido del resto del guion.

3. Elige la estabilidad y genera: Creativa, Natural o Robusta para la entrega global. Natural (por defecto) cubre la mayoría de producciones. Genera el audio. La salida es un archivo con todos los hablantes, las transiciones y el ritmo de una pieza, listo para usar o como entrada del AI Avatar.

Etiquetas de audio: control de emoción y entrega

Las etiquetas de audio distinguen a ElevenLabs Dialogue V3 de una herramienta de lectura. Como marcadores entre corchetes dentro del guion, indican al modelo cómo entregar una palabra, una frase o una línea, sin afectar a nada más de la generación.

Se admiten seis categorías de etiquetas:

Emoción: [happy], [sad], [angry], [nervous] — fija el estado emocional del texto etiquetado
Entrega: [whispering], [shouting], [slow] — controla la producción física del sonido
No verbal: [laughs], [sighs], [gasps] — añade sonidos naturales no hablados que suenan reales, no insertados
Efectos de sonido: [applause], [door slamming], [thunder] — coloca sonidos ambientales o de reacción en el flujo del diálogo
Acento: [French accent], [British accent] — desplaza el carácter regional de la voz en una línea concreta
Ritmo: [slowly], [quickly], [dramatic pause] — moldea la cadencia de la entrega de esa línea

Las etiquetas se combinan en la misma frase: [excited][quickly] ¡Conseguimos el contrato! produce una entrega rápida y enérgica en esa línea. La siguiente vuelve a la entrega por defecto salvo que esté etiquetada. Esa precisión por línea hace viable Dialogue V3 para contenido que pide actuación vocal —un portavoz de marca que pasa de la seguridad a la calidez, un personaje que se desliza de la confianza a la duda— sin regrabar ni montar pasadas separadas.

Diálogo multivoces

El número de hablantes en una generación de Dialogue V3 es ilimitado. Cada hablante se configura por separado: su voz, su estabilidad, sus etiquetas de audio. El sistema gestiona las alternancias, las pausas naturales entre intervenciones, el impulso de la conversación y el ritmo que convierte dos o más voces en un intercambio real, en lugar de lecturas alternadas.

Conversación de dos presentadores: el formato práctico para contenido de pódcast, diálogos explicativos de producto y segmentos de preguntas y respuestas. Cada presentador tiene su tipo de voz; el modo diálogo mantiene el intercambio fluido y equilibrado sin ajustes de timing manuales.

Diálogo de personajes: para contenido narrativo, storytelling y escenas con varios personajes. Varias figuras con voces, registros emocionales y estilos de habla propios en el mismo archivo de salida. Combinado con etiquetas de audio, cada personaje mantiene un perfil de entrega coherente en todo el guion.

113 voces, 75 idiomas

Kling AI Video ofrece 113 voces seleccionadas para ElevenLabs Dialogue V3: una selección de las voces de producción más utilizadas —portavoz y voz de marca, narrador didáctico, diálogo de personajes, presentador conversacional e intérpretes expresivos. Cada preset tiene una preescucha de audio en la nube dentro del selector de voces, antes de lanzar ninguna generación.

Se admiten 75 idiomas, incluida la detección automática. La misma estructura de guion y la misma configuración de etiquetas funcionan en todos los idiomas. El flujo multilingüe es directo: escribe el guion una vez, genera el audio por idioma objetivo y combina cada versión con el mismo retrato en el AI Avatar. La identidad visual del personaje permanece constante; la voz es la única variable.

Para equipos con contenido en varios mercados —un lanzamiento de producto en español, inglés y japonés con el mismo portavoz de marca—, esta combinación de voces, idiomas y flujo directo al avatar elimina el coste de producción de sesiones de grabación separadas por idioma.

Del guion al AI Avatar: el pipeline completo

El flujo más práctico de ElevenLabs Dialogue V3 en Kling AI Video es su conexión directa con el AI Avatar. Genera el audio del diálogo y aliméntalo después con una imagen de retrato al flujo del avatar.

Con herramientas aisladas, el proceso abarca varias plataformas: generar el audio en un servicio de TTS, descargar el archivo, subirlo a una herramienta de avatar, lanzar la generación. Cada paso es un traspaso manual.

En Kling AI Video, el camino completo queda en una sola plataforma:

Escribe el diálogo en texto a voz: asigna voces, coloca etiquetas de audio, elige la estabilidad
Genera el audio
Abre el AI Avatar, sube una imagen de retrato y usa el audio generado
Genera el video con sincronización labial

La figura pronuncia exactamente lo escrito, con la voz elegida y la dirección emocional marcada en el guion. El mismo retrato puede animarse con archivos de audio distintos —otros idiomas, otros guiones, otros tonos— para construir una biblioteca de videos de avatar coherentes desde una sola imagen de personaje.

Los detalles de tipos de personaje, niveles de modelo y requisitos de retrato de la herramienta de avatar están en la guía de Kling AI Avatar.

Qué puedes crear con ElevenLabs Dialogue V3

Videos de talking head con el AI Avatar: el flujo integrado principal de esta plataforma. Escribe el guion, genera la voz con Dialogue V3, alimenta el audio al AI Avatar. La figura pronuncia el guion con tu dirección. Constante en cada producción, en cualquier idioma.

Pódcast y audio con varios presentadores: dos o más voces en conversación natural. El modo diálogo gestiona las alternancias, el timing y la interacción emocional. Un segmento de entrevista completo, una charla de dos presentadores o una escena de audiodrama nacen solo del guion: sin estudio, sin agendas.

Localización de contenido multilingüe: genera el mismo guion en varios idiomas sin regrabar ni recastear. La misma configuración de etiquetas vale entre idiomas y mantiene la entrega del personaje coherente aunque cambie la lengua. Combinado con el AI Avatar: contenido de video totalmente localizado.

Narración didáctica y de cursos: una voz de instructor que lee el contenido de la lección con la variación emocional que sostiene la atención en formatos largos. Las etiquetas de audio marcan el énfasis en los puntos clave y el ritmo natural entre secciones.

Voces para demos y explicativos de producto: recorridos guionizados con voz de marca constante. Combínalos con la generación de video Kling 3.0 para las imágenes: ambas herramientas corren en Kling AI Video.

Audiolibro y storytelling: varias voces de personaje, rango emocional y ritmo dramático desde una sola generación. Cada personaje tiene su perfil vocal; las etiquetas de audio dirigen la actuación línea a línea.

Eleven v3 vs. Eleven v2: qué ha cambiado

	Eleven v2	Eleven v3
Etiquetas de audio	No disponibles	6 categorías: emoción, entrega, no verbal, efectos, acento, ritmo
Modo diálogo multivoces	No disponible	Alternancias naturales, hablantes ilimitados
Idiomas	29	75
Control de estabilidad	Básico	Creativa / Natural / Robusta
Expresividad	Natural, estable	Más rango emocional, entrega sensible al contexto
Ideal para	Narración larga de una voz	Diálogos guionizados, escenas multipersonaje, contenido guiado por emoción

El salto de v2 a v3 gira sobre todo en torno a la expresividad y la estructura. v3 está construido para el diálogo guionizado y la actuación dirigida: las etiquetas de audio, el modo diálogo y la ampliación de idiomas sirven a ese objetivo. Para narraciones largas de una sola voz con entrega estable y predecible, v2 sigue siendo una opción sólida. En Kling AI Video, el texto a voz usa Eleven v3 a través de la API text-to-dialogue como estándar de producción.

Especificaciones técnicas

Especificación	Detalles
Modelo	ElevenLabs Eleven v3 (API text-to-dialogue)
Voces predefinidas	113
Idiomas	75 (incluida la detección automática)
Máximo de caracteres por generación	5.000 (total entre todas las líneas)
Hablantes	Ilimitados
Líneas de diálogo	Ilimitadas
Estabilidad	Creativa / Natural (por defecto) / Robusta
Categorías de etiquetas de audio	Emoción, entrega, no verbal, efectos de sonido, acento, ritmo
Preescucha de voces	Disponible para las 113 voces
Salida	Archivo de audio

Lo que conviene saber antes de generar

El límite de 5.000 caracteres suma todas las líneas de diálogo. Un intercambio de diez líneas entre dos hablantes con 80 caracteres por línea usa 800 caracteres: muy por debajo del límite. Los segmentos completos de pódcast o los guiones por partes deben dividirse en segmentos de generación y montarse en posproducción.

El efecto de las etiquetas varía según la voz. Algunas voces responden con más fuerza a las etiquetas de emoción que otras. Usa la preescucha como base y prueba con etiquetas antes de lanzar una generación de producción completa.

La estabilidad Natural cubre la mayoría de los usos. Creativa da una entrega expresiva y variada, pero con más variabilidad en guiones largos: mejor para contenido dramático o con muchos personajes. Robusta mantiene el tono igual entre líneas: mejor para contenido de marca o didáctico con exigencia de constancia.

Planifica los segmentos de guion en torno al límite de 5 minutos del AI Avatar. Si el diálogo va al AI Avatar, mantén cada segmento de generación dentro de 5 minutos de audio. Los cortes naturales del guion —cambios de tema, fronteras de sección— son puntos de corte prácticos que además permiten controlar tono y ritmo entre segmentos de avatar.

La generación multilingüe usa la misma estructura de etiquetas. Las categorías de etiquetas funcionan en los 75 idiomas. Una etiqueta [excited] se comporta en un guion en inglés igual que en uno en español. Un pipeline de contenido multilingüe comparte así la estructura del guion y la dirección de entrega entre todas las versiones de idioma.

Quién usa ElevenLabs Dialogue V3

Tipo de creador	Uso principal
Creadores de contenido	Voces en off guionizadas para Shorts, Reels y YouTube, sin montaje de grabación
Equipos de marca y marketing	TTS de portavoz → video de AI Avatar entre campañas e idiomas
Docentes y creadores de cursos	Narración de instructor con voz constante en bibliotecas de cursos completas
Productores de pódcast	Segmentos de conversación IA con varios presentadores sin sesiones de grabación
Creadores de audiolibros y storytelling	Escenas multipersonaje con actuación emocional dirigida

Generar mi primer diálogo →

Preguntas frecuentes

ElevenLabs Dialogue V3 es la generación de voz multivoces de Kling AI Video, impulsada por el modelo Eleven v3 de ElevenLabs. Genera diálogos naturales y expresivos desde un guion estructurado: cada línea se asigna a un hablante con su voz elegida, y el sistema produce una salida de audio cohesionada con ritmo correcto, entrega emocional y alternancias naturales. A diferencia del TTS estándar de una voz, Dialogue V3 está construido para conversaciones, escenas con varios personajes y cualquier contenido que necesite más de una voz en la misma salida.

El texto a voz normal genera una sola voz leyendo un bloque de texto continuo. ElevenLabs Dialogue V3 genera una conversación: varios hablantes, turnos estructurados, timing natural entre intervenciones y voces emocionalmente coordinadas en la misma salida. Cada hablante recibe una voz propia, y el sistema trata las transiciones, la entrega y el ritmo como una sola escena de audio en lugar de una serie de clips pegados por separado.

En Kling AI Video, ElevenLabs Dialogue V3 ofrece 113 voces seleccionadas y admite 75 idiomas, incluida la detección automática. Cada voz puede escucharse antes de generar. Las 113 voces cubren un abanico de tipos de carácter, edades, acentos y tonos, adecuado para contenido de portavoz, diálogo de personajes, narración y formación.

Las etiquetas de audio son marcadores insertados en el guion de diálogo que controlan cómo una voz entrega una línea o una frase. Van entre corchetes: por ejemplo [excited], [whispering], [laughs softly] o [French accent]. ElevenLabs Dialogue V3 admite seis categorías de etiquetas —emoción, entrega, no verbal, efectos de sonido, acento y ritmo— para un control preciso de líneas individuales sin tocar el resto del guion. Varias etiquetas pueden combinarse en la misma línea para una dirección por capas.

La estabilidad controla cuánto varía una voz entre líneas. Creativa (la más baja) produce la entrega más expresiva y emocionalmente variada: buena para contenido dramático y actuaciones de personaje, pero menos predecible en guiones largos. Natural (por defecto) equilibra expresión y constancia: la elección práctica para la mayoría de voces en off y diálogos. Robusta (la más alta) entrega la salida más uniforme entre líneas: adecuada para contenido de marca, material didáctico y contextos donde el tono constante pesa más que el rango emocional.

Sí. Cada una de las 113 voces tiene una preescucha de audio directamente en el selector de voces de Kling AI Video. Las preescuchas son muestras alojadas en la nube que puedes reproducir antes de asignar una voz a un hablante. Así puedes audicionar varias voces para cada personaje de tu guion antes de lanzar la generación completa.

La entrada máxima por generación es de 5.000 caracteres sumando todas las líneas de diálogo. Dentro de ese límite no hay tope de hablantes ni de líneas individuales. Para guiones más largos —un segmento completo de pódcast, una narración por partes— divide el contenido en segmentos y genera cada uno por separado. Las salidas se unen en posproducción. Si el contenido va al AI Avatar, planifica los segmentos en torno al límite de 5 minutos por generación de avatar.

En Kling AI Video, la salida de audio de ElevenLabs Dialogue V3 fluye directamente al flujo del AI Avatar sin cambiar de plataforma. Escribe el diálogo, asigna las voces, coloca las etiquetas de audio, elige la estabilidad y genera el audio. Después usa ese audio con una imagen de retrato en el AI Avatar y crea un video de talking head con sincronización labial. El camino completo del guion escrito al video de avatar final queda dentro de Kling AI Video.

Genera el mismo guion en cada idioma objetivo con ElevenLabs Dialogue V3: se admiten 75 idiomas, incluida la detección automática. Usa la misma imagen de retrato en el AI Avatar con la salida de audio de cada idioma. La identidad visual del personaje permanece constante en todas las versiones; solo cambian la voz y el idioma. Este flujo evita sesiones de grabación separadas o recastings por idioma: práctico para equipos con contenido en varios mercados.

Eleven v3 añade tres capacidades importantes que faltaban en v2: las etiquetas de audio para el control emocional insertado, un modo de diálogo para la generación multivoces y la ampliación de idiomas de 29 a 75. v3 está construido para contenido expresivo y narrativo y escenas de diálogo. v2 sigue siendo sólido para narraciones largas de una sola voz donde prima la entrega estable. En Kling AI Video, el texto a voz usa Eleven v3 como modelo base a través de la API text-to-dialogue.

Sí. El modo de diálogo multivoces genera intercambios con alternancia de hablantes, ritmo natural e interacción emocional: los requisitos centrales del contenido de pódcast. Los formatos de dos presentadores, los segmentos de entrevista y el audiodrama son casos viables. Cada hablante puede tener su voz con etiquetas de audio independientes. Los episodios largos exigen dividir en segmentos dentro del límite de 5.000 caracteres por generación.

ElevenLabs Dialogue V3 encaja con cualquier producción de voz guionizada. Usos principales: videos de talking head con el AI Avatar alimentado por su audio; pódcasts y audio con varios presentadores; voces en off multilingües desde un solo guion; narración de cursos; voces para demos y explicativos de producto; voces para contenido social corto; y producción de audiolibros y storytelling con varios personajes.

Empieza a crear con ElevenLabs Dialogue V3 hoy mismo

Convierte tus ideas creativas en contenido espectacular. No necesitas conocimientos técnicos.

Generar un diálogo

Impulsado por ElevenLabs Dialogue V3

ElevenLabs Dialogue V3

Generar un diálogo

Emoción: [happy], [sad], [angry], [nervous] — fija el estado emocional del texto etiquetado
Entrega: [whispering], [shouting], [slow] — controla la producción física del sonido
No verbal: [laughs], [sighs], [gasps] — añade sonidos naturales no hablados que suenan reales, no insertados
Efectos de sonido: [applause], [door slamming], [thunder] — coloca sonidos ambientales o de reacción en el flujo del diálogo
Acento: [French accent], [British accent] — desplaza el carácter regional de la voz en una línea concreta
Ritmo: [slowly], [quickly], [dramatic pause] — moldea la cadencia de la entrega de esa línea

Escribe el diálogo en texto a voz: asigna voces, coloca etiquetas de audio, elige la estabilidad
Genera el audio
Abre el AI Avatar, sube una imagen de retrato y usa el audio generado
Genera el video con sincronización labial

Los detalles de tipos de personaje, niveles de modelo y requisitos de retrato de la herramienta de avatar están en la guía de Kling AI Avatar.

Qué puedes crear con ElevenLabs Dialogue V3

Eleven v3 vs. Eleven v2: qué ha cambiado

	Eleven v2	Eleven v3
Etiquetas de audio	No disponibles	6 categorías: emoción, entrega, no verbal, efectos, acento, ritmo
Modo diálogo multivoces	No disponible	Alternancias naturales, hablantes ilimitados
Idiomas	29	75
Control de estabilidad	Básico	Creativa / Natural / Robusta
Expresividad	Natural, estable	Más rango emocional, entrega sensible al contexto
Ideal para	Narración larga de una voz	Diálogos guionizados, escenas multipersonaje, contenido guiado por emoción

Especificaciones técnicas

Especificación	Detalles
Modelo	ElevenLabs Eleven v3 (API text-to-dialogue)
Voces predefinidas	113
Idiomas	75 (incluida la detección automática)
Máximo de caracteres por generación	5.000 (total entre todas las líneas)
Hablantes	Ilimitados
Líneas de diálogo	Ilimitadas
Estabilidad	Creativa / Natural (por defecto) / Robusta
Categorías de etiquetas de audio	Emoción, entrega, no verbal, efectos de sonido, acento, ritmo
Preescucha de voces	Disponible para las 113 voces
Salida	Archivo de audio

Lo que conviene saber antes de generar

Quién usa ElevenLabs Dialogue V3

Tipo de creador	Uso principal
Creadores de contenido	Voces en off guionizadas para Shorts, Reels y YouTube, sin montaje de grabación
Equipos de marca y marketing	TTS de portavoz → video de AI Avatar entre campañas e idiomas
Docentes y creadores de cursos	Narración de instructor con voz constante en bibliotecas de cursos completas
Productores de pódcast	Segmentos de conversación IA con varios presentadores sin sesiones de grabación
Creadores de audiolibros y storytelling	Escenas multipersonaje con actuación emocional dirigida

Generar mi primer diálogo →

Preguntas frecuentes

Empieza a crear con ElevenLabs Dialogue V3 hoy mismo

Convierte tus ideas creativas en contenido espectacular. No necesitas conocimientos técnicos.

Generar un diálogo

ElevenLabs Dialogue V3

Preguntas frecuentes

¿Qué es ElevenLabs Dialogue V3?

¿En qué se diferencia ElevenLabs Dialogue V3 del texto a voz normal?

¿Cuántas voces e idiomas admite ElevenLabs Dialogue V3?

¿Qué son las etiquetas de audio y cómo las uso?

¿En qué se diferencian los niveles de estabilidad Creativa, Natural y Robusta?

¿Puedo escuchar las voces antes de generar?

¿Qué longitud puede tener una generación de diálogo?

¿Cómo funciona ElevenLabs Dialogue V3 con el AI Avatar en Kling AI Video?

¿Cómo creo videos de avatar multilingües con el mismo personaje?

¿Qué diferencia a Eleven v3 de Eleven v2?

¿Sirve ElevenLabs Dialogue V3 para producir pódcasts?

¿Qué contenidos puedo crear con ElevenLabs Dialogue V3?

Empieza a crear con ElevenLabs Dialogue V3 hoy mismo

ElevenLabs Dialogue V3

Preguntas frecuentes

¿Qué es ElevenLabs Dialogue V3?

¿En qué se diferencia ElevenLabs Dialogue V3 del texto a voz normal?

¿Cuántas voces e idiomas admite ElevenLabs Dialogue V3?

¿Qué son las etiquetas de audio y cómo las uso?

¿En qué se diferencian los niveles de estabilidad Creativa, Natural y Robusta?

¿Puedo escuchar las voces antes de generar?

¿Qué longitud puede tener una generación de diálogo?

¿Cómo funciona ElevenLabs Dialogue V3 con el AI Avatar en Kling AI Video?

¿Cómo creo videos de avatar multilingües con el mismo personaje?

¿Qué diferencia a Eleven v3 de Eleven v2?

¿Sirve ElevenLabs Dialogue V3 para producir pódcasts?

¿Qué contenidos puedo crear con ElevenLabs Dialogue V3?

Empieza a crear con ElevenLabs Dialogue V3 hoy mismo