ElevenLabs Dialogue V3
Genera diálogos expresivos con varios hablantes desde un guion, sin montaje de grabación ni contratación de locutores. Pensado para creadores, marketers y docentes que necesitan voz de producción a escala: ElevenLabs Dialogue V3 acepta guiones de diálogo estructurados y entrega audio terminado donde cada hablante tiene su propia voz, emoción controlada y ritmo natural. La salida de audio se conecta directamente con el AI Avatar en Kling AI Video: del guion a la voz y al video con lip sync, sin salir de la plataforma.
Qué es ElevenLabs Dialogue V3
ElevenLabs Dialogue V3 es la generación de voz multivoces de Kling AI Video, impulsada por el modelo Eleven v3 de ElevenLabs. A diferencia del texto a voz estándar, que hace leer un bloque de texto a una sola voz, Dialogue V3 está construido para la conversación: acepta un guion estructurado con varios hablantes, asigna a cada uno una voz propia y entrega una salida de audio cohesionada donde cada voz suena natural, emocionalmente coordinada y con el ritmo correcto respecto a las demás.
En Kling AI Video, la función corre con 113 voces seleccionadas en 75 idiomas. Las etiquetas de audio —marcadores insertados para emoción, entrega, expresión no verbal, acento y ritmo— dan control línea a línea sobre la actuación de cada voz. Y la salida de audio se conecta directamente con el AI Avatar: escribir el guion, generar el diálogo, animar un retrato que lo pronuncia con lip sync, todo sin cambiar de plataforma. El camino del guion escrito al video de talking head final corre dentro de un solo flujo de Kling AI Video.
Cómo funciona ElevenLabs Dialogue V3
1. Escribe tu guion de diálogo: estructura el contenido como una serie de líneas, cada una asignada a un hablante con nombre. Cada línea es un turno de conversación. Hablantes y líneas son ilimitados; el único tope son 5.000 caracteres entre todas las líneas.
2. Asigna voces y dirige la entrega: elige una de las 113 voces por hablante. Escucha cada voz antes. Coloca etiquetas de audio insertadas —[excited], [whispering], [laughs softly]— para dirigir momentos concretos sin alterar el sonido del resto del guion.
3. Elige la estabilidad y genera: Creativa, Natural o Robusta para la entrega global. Natural (por defecto) cubre la mayoría de producciones. Genera el audio. La salida es un archivo con todos los hablantes, las transiciones y el ritmo de una pieza, listo para usar o como entrada del AI Avatar.
Etiquetas de audio: control de emoción y entrega
Las etiquetas de audio distinguen a ElevenLabs Dialogue V3 de una herramienta de lectura. Como marcadores entre corchetes dentro del guion, indican al modelo cómo entregar una palabra, una frase o una línea, sin afectar a nada más de la generación.
Se admiten seis categorías de etiquetas:
- Emoción:
[happy],[sad],[angry],[nervous]— fija el estado emocional del texto etiquetado - Entrega:
[whispering],[shouting],[slow]— controla la producción física del sonido - No verbal:
[laughs],[sighs],[gasps]— añade sonidos naturales no hablados que suenan reales, no insertados - Efectos de sonido:
[applause],[door slamming],[thunder]— coloca sonidos ambientales o de reacción en el flujo del diálogo - Acento:
[French accent],[British accent]— desplaza el carácter regional de la voz en una línea concreta - Ritmo:
[slowly],[quickly],[dramatic pause]— moldea la cadencia de la entrega de esa línea
Las etiquetas se combinan en la misma frase: [excited][quickly] ¡Conseguimos el contrato! produce una entrega rápida y enérgica en esa línea. La siguiente vuelve a la entrega por defecto salvo que esté etiquetada. Esa precisión por línea hace viable Dialogue V3 para contenido que pide actuación vocal —un portavoz de marca que pasa de la seguridad a la calidez, un personaje que se desliza de la confianza a la duda— sin regrabar ni montar pasadas separadas.
Diálogo multivoces
El número de hablantes en una generación de Dialogue V3 es ilimitado. Cada hablante se configura por separado: su voz, su estabilidad, sus etiquetas de audio. El sistema gestiona las alternancias, las pausas naturales entre intervenciones, el impulso de la conversación y el ritmo que convierte dos o más voces en un intercambio real, en lugar de lecturas alternadas.
Conversación de dos presentadores: el formato práctico para contenido de pódcast, diálogos explicativos de producto y segmentos de preguntas y respuestas. Cada presentador tiene su tipo de voz; el modo diálogo mantiene el intercambio fluido y equilibrado sin ajustes de timing manuales.
Diálogo de personajes: para contenido narrativo, storytelling y escenas con varios personajes. Varias figuras con voces, registros emocionales y estilos de habla propios en el mismo archivo de salida. Combinado con etiquetas de audio, cada personaje mantiene un perfil de entrega coherente en todo el guion.
113 voces, 75 idiomas
Kling AI Video ofrece 113 voces seleccionadas para ElevenLabs Dialogue V3: una selección de las voces de producción más utilizadas —portavoz y voz de marca, narrador didáctico, diálogo de personajes, presentador conversacional e intérpretes expresivos. Cada preset tiene una preescucha de audio en la nube dentro del selector de voces, antes de lanzar ninguna generación.
Se admiten 75 idiomas, incluida la detección automática. La misma estructura de guion y la misma configuración de etiquetas funcionan en todos los idiomas. El flujo multilingüe es directo: escribe el guion una vez, genera el audio por idioma objetivo y combina cada versión con el mismo retrato en el AI Avatar. La identidad visual del personaje permanece constante; la voz es la única variable.
Para equipos con contenido en varios mercados —un lanzamiento de producto en español, inglés y japonés con el mismo portavoz de marca—, esta combinación de voces, idiomas y flujo directo al avatar elimina el coste de producción de sesiones de grabación separadas por idioma.
Del guion al AI Avatar: el pipeline completo
El flujo más práctico de ElevenLabs Dialogue V3 en Kling AI Video es su conexión directa con el AI Avatar. Genera el audio del diálogo y aliméntalo después con una imagen de retrato al flujo del avatar.
Con herramientas aisladas, el proceso abarca varias plataformas: generar el audio en un servicio de TTS, descargar el archivo, subirlo a una herramienta de avatar, lanzar la generación. Cada paso es un traspaso manual.
En Kling AI Video, el camino completo queda en una sola plataforma:
- Escribe el diálogo en texto a voz: asigna voces, coloca etiquetas de audio, elige la estabilidad
- Genera el audio
- Abre el AI Avatar, sube una imagen de retrato y usa el audio generado
- Genera el video con sincronización labial
La figura pronuncia exactamente lo escrito, con la voz elegida y la dirección emocional marcada en el guion. El mismo retrato puede animarse con archivos de audio distintos —otros idiomas, otros guiones, otros tonos— para construir una biblioteca de videos de avatar coherentes desde una sola imagen de personaje.
Los detalles de tipos de personaje, niveles de modelo y requisitos de retrato de la herramienta de avatar están en la guía de Kling AI Avatar.
Qué puedes crear con ElevenLabs Dialogue V3
Videos de talking head con el AI Avatar: el flujo integrado principal de esta plataforma. Escribe el guion, genera la voz con Dialogue V3, alimenta el audio al AI Avatar. La figura pronuncia el guion con tu dirección. Constante en cada producción, en cualquier idioma.
Pódcast y audio con varios presentadores: dos o más voces en conversación natural. El modo diálogo gestiona las alternancias, el timing y la interacción emocional. Un segmento de entrevista completo, una charla de dos presentadores o una escena de audiodrama nacen solo del guion: sin estudio, sin agendas.
Localización de contenido multilingüe: genera el mismo guion en varios idiomas sin regrabar ni recastear. La misma configuración de etiquetas vale entre idiomas y mantiene la entrega del personaje coherente aunque cambie la lengua. Combinado con el AI Avatar: contenido de video totalmente localizado.
Narración didáctica y de cursos: una voz de instructor que lee el contenido de la lección con la variación emocional que sostiene la atención en formatos largos. Las etiquetas de audio marcan el énfasis en los puntos clave y el ritmo natural entre secciones.
Voces para demos y explicativos de producto: recorridos guionizados con voz de marca constante. Combínalos con la generación de video Kling 3.0 para las imágenes: ambas herramientas corren en Kling AI Video.
Audiolibro y storytelling: varias voces de personaje, rango emocional y ritmo dramático desde una sola generación. Cada personaje tiene su perfil vocal; las etiquetas de audio dirigen la actuación línea a línea.
Eleven v3 vs. Eleven v2: qué ha cambiado
| Eleven v2 | Eleven v3 | |
|---|---|---|
| Etiquetas de audio | No disponibles | 6 categorías: emoción, entrega, no verbal, efectos, acento, ritmo |
| Modo diálogo multivoces | No disponible | Alternancias naturales, hablantes ilimitados |
| Idiomas | 29 | 75 |
| Control de estabilidad | Básico | Creativa / Natural / Robusta |
| Expresividad | Natural, estable | Más rango emocional, entrega sensible al contexto |
| Ideal para | Narración larga de una voz | Diálogos guionizados, escenas multipersonaje, contenido guiado por emoción |
El salto de v2 a v3 gira sobre todo en torno a la expresividad y la estructura. v3 está construido para el diálogo guionizado y la actuación dirigida: las etiquetas de audio, el modo diálogo y la ampliación de idiomas sirven a ese objetivo. Para narraciones largas de una sola voz con entrega estable y predecible, v2 sigue siendo una opción sólida. En Kling AI Video, el texto a voz usa Eleven v3 a través de la API text-to-dialogue como estándar de producción.
Especificaciones técnicas
| Especificación | Detalles |
|---|---|
| Modelo | ElevenLabs Eleven v3 (API text-to-dialogue) |
| Voces predefinidas | 113 |
| Idiomas | 75 (incluida la detección automática) |
| Máximo de caracteres por generación | 5.000 (total entre todas las líneas) |
| Hablantes | Ilimitados |
| Líneas de diálogo | Ilimitadas |
| Estabilidad | Creativa / Natural (por defecto) / Robusta |
| Categorías de etiquetas de audio | Emoción, entrega, no verbal, efectos de sonido, acento, ritmo |
| Preescucha de voces | Disponible para las 113 voces |
| Salida | Archivo de audio |
Lo que conviene saber antes de generar
El límite de 5.000 caracteres suma todas las líneas de diálogo. Un intercambio de diez líneas entre dos hablantes con 80 caracteres por línea usa 800 caracteres: muy por debajo del límite. Los segmentos completos de pódcast o los guiones por partes deben dividirse en segmentos de generación y montarse en posproducción.
El efecto de las etiquetas varía según la voz. Algunas voces responden con más fuerza a las etiquetas de emoción que otras. Usa la preescucha como base y prueba con etiquetas antes de lanzar una generación de producción completa.
La estabilidad Natural cubre la mayoría de los usos. Creativa da una entrega expresiva y variada, pero con más variabilidad en guiones largos: mejor para contenido dramático o con muchos personajes. Robusta mantiene el tono igual entre líneas: mejor para contenido de marca o didáctico con exigencia de constancia.
Planifica los segmentos de guion en torno al límite de 15 segundos del AI Avatar. Si el diálogo va al AI Avatar, mantén cada segmento de generación por debajo de 15 segundos de salida. Los cortes naturales del guion —cambios de tema, fronteras de sección— son puntos de corte prácticos que además permiten controlar tono y ritmo entre segmentos de avatar.
La generación multilingüe usa la misma estructura de etiquetas. Las categorías de etiquetas funcionan en los 75 idiomas. Una etiqueta [excited] se comporta en un guion en inglés igual que en uno en español. Un pipeline de contenido multilingüe comparte así la estructura del guion y la dirección de entrega entre todas las versiones de idioma.
Quién usa ElevenLabs Dialogue V3
| Tipo de creador | Uso principal |
|---|---|
| Creadores de contenido | Voces en off guionizadas para Shorts, Reels y YouTube, sin montaje de grabación |
| Equipos de marca y marketing | TTS de portavoz → video de AI Avatar entre campañas e idiomas |
| Docentes y creadores de cursos | Narración de instructor con voz constante en bibliotecas de cursos completas |
| Productores de pódcast | Segmentos de conversación IA con varios presentadores sin sesiones de grabación |
| Creadores de audiolibros y storytelling | Escenas multipersonaje con actuación emocional dirigida |
Preguntas frecuentes
Empieza a crear con ElevenLabs Dialogue V3 hoy mismo
Convierte tus ideas creativas en contenido espectacular. No necesitas conocimientos técnicos.
Generar un diálogo