La emoción que carece la locución AI no es un problema técnico que se va a resolver con más datos de entrenamiento. Es una limitación estructural. Y después de más de 20 años trabajando con marcas como Google, Nike y Netflix, puedo decirte que esa brecha emocional es exactamente lo que separa una locución que vende de una que el espectador olvida antes de que termine el spot.
La ilusión de la mejora continua
Hay una narrativa muy cómoda en la industria: la AI va mejorando, eventualmente va a ser indistinguible, es cuestión de tiempo. Es una narrativa que suena lógica si no trabajás con audio todos los días.
Un estudio de la Universidad de Glasgow publicado en 2023 encontró que los oyentes pueden detectar voces sintéticas con un 73% de precisión, incluso cuando las voces AI eran de última generación. Pero acá viene lo interesante: cuando les preguntaban por qué las identificaban como falsas, la mayoría no podía explicarlo. Decían cosas como "suena rara" o "algo no cierra". El cuerpo detecta antes que la mente consciente.
Lo que la AI reproduce vs. lo que transmite
La AI puede reproducir las características acústicas de una emoción. Puede subir el tono en los lugares correctos, agregar una pausa donde corresponde, modular la velocidad como lo haría alguien que está emocionado. Técnicamente, cumple.
Pero reproducir características acústicas no es transmitir emoción. Es como la diferencia entre una foto de una sonrisa y ver a alguien sonreír. La foto tiene todos los elementos visuales correctos, los músculos están en la posición exacta, los ojos tienen las arruguitas correspondientes. Y sin embargo, no te hace sentir nada. Porque sabés que es una imagen congelada de algo que ya pasó.
La voz humana tiene una dimensión vibracional que la AI simplemente no puede replicar. Según investigaciones en psicoacústica, la voz humana contiene microfluctuaciones de frecuencia y amplitud que el cerebro procesa de forma diferente a las señales sintéticas. (Esto es algo que el equipo de marketing de ElevenLabs preferiría que no existiera, pero existe.) Esas microfluctuaciones no son errores; son información emocional codificada en la señal. Cuando escuchás a alguien genuinamente triste, tu sistema nervioso responde a patrones que no están en ningún manual de producción de audio.
¿Te acordás de la última publicidad que te hizo sentir algo?
Pensá en serio. La última vez que un comercial te provocó algo, aunque sea mínimo. Un escalofrío, una risa genuina, un momento de conexión. Puedo apostar que no era una voz sintética.
La transmisión emocional en publicidad depende de algo que los ingenieros de software no pueden meter en un algoritmo: la experiencia compartida de ser humano. Cuando un locutor profesional lee un guión sobre pérdida, sobre alegría, sobre nostalgia, está accediendo a sus propias memorias de esas emociones. No está actuando una emoción; está recordándola y dejando que eso coloree su voz.
La AI no tiene memorias. Tiene patrones estadísticos de cómo suenan las memorias cuando otras personas las verbalizan. Es una copia de una copia de una copia.
El rechazo que no se puede medir en focus groups
Acá hay algo que complica las decisiones de las marcas: el rechazo a las voces sintéticas raramente aparece en los focus groups como "no me gustó la voz AI". Aparece como "algo del comercial no me convenció" o "sentí que era genérico" o simplemente un puntaje más bajo en intención de compra sin una razón clara.
Un informe de Veritonic de 2024 mostró que las voces humanas generan un 28% más de engagement emocional que las sintéticas en publicidad de audio. Pero lo más revelador es que cuando les preguntaban a los participantes si habían notado que alguna voz era artificial, solo el 40% acertaba. El otro 60% no sabía por qué el comercial les había parecido menos convincente, pero les había parecido menos convincente igual.
Por qué "casi igual" es peor que diferente
El valle inquietante aplica a la voz tanto como a los robots humanoides. Cuando algo está claramente fuera de la realidad, como un personaje de dibujos animados, el cerebro lo procesa como ficción y sigue adelante. Pero cuando algo está casi igual a lo real con diferencias sutiles, el cerebro entra en estado de alerta. Algo no cierra. No sabés qué es, pero algo te pone incómodo.
La voz AI de 2024 está exactamente en ese punto. Es lo suficientemente buena para pasar un test rápido de "¿esto es una voz?" pero no lo suficientemente buena para pasar el test de "¿me importa lo que esta voz me está diciendo?". Las marcas que usan voces AI para contenido emocional están pagando por publicidad que activa las defensas del espectador en lugar de desactivarlas.
Y esto conecta directamente con por qué la locución en español es una inversión y no un gasto: cuando la voz genera rechazo, todo el dinero invertido en producción, medios y creatividad se diluye.
El argumento del costo no cierra
"Pero la AI es más barata." Sí. También es más barato imprimir volantes en blanco y negro que hacer diseño profesional. La pregunta no es cuánto cuesta, sino cuánto vale.
Una locución profesional para un spot de 30 segundos puede costar entre 500 y 2000 dólares dependiendo del mercado y el uso. Una campaña mal ejecutada puede costarle a una marca millones en oportunidad perdida. Hagan las cuentas.
Dónde la AI sí funciona (y dónde no)
Voy a ser honesto porque no tengo interés en argumentar posiciones absolutas: la AI tiene usos legítimos. Notificaciones de sistema, mensajes automatizados de bajo impacto emocional, prototipos internos que nadie fuera de la empresa va a escuchar. Para eso, funciona.
Pero para cualquier cosa donde necesitás que el oyente sienta algo, donde necesitás que la locución conecte con una audiencia latina diversa, donde el objetivo es mover a la acción, la brecha emocional de la AI la descalifica automáticamente. El segmento profesional de la locución va a seguir siendo humano porque las marcas que entienden esto no van a arriesgar su comunicación emocional con una tecnología que técnicamente cumple pero emocionalmente no entrega.
La ventaja competitiva que nadie quiere admitir
Mientras más marcas migran a voces AI para "ahorrar costos", más se destaca cualquier marca que use voces humanas. Es una ironía: la AI está creando una ventaja competitiva para quienes la evitan. Cuando todo suena igual, lo humano se siente premium.
¿Necesitás una locución en español para tu próximo proyecto? Escribime y te respondo en menos de una hora.



