Lo Que 20 Años en Locución Me Enseñaron Sobre Por Qué la AI Nunca Va

20 años en locución me enseñaron por qué la AI nunca reemplazará al humano. La experiencia profesional revela los límites reales de la voz sintética.

La AI va a destruir el segmento bajo del mercado de locución. Y me parece perfecto. Ese segmento ya estaba destruido antes de que ElevenLabs apareciera — Fiverr y los amateurs que cobran 50 dólares por cualquier cosa lo habían capturado hace años. Lo que la AI no va a tocar nunca es la locución profesional, y lo sé después de dos décadas viendo tecnologías que supuestamente iban a reemplazarnos ir y venir sin cambiar nada sustancial.

Empecé en esto en 2004 con un micrófono de 100 dólares y una habitación tratada con colchones. Hoy tengo un estudio profesional con Source Connect y clientes que incluyen algunas de las marcas más grandes del planeta. Entre esos dos puntos pasaron cientos de proyectos, miles de sesiones, y cada innovación tecnológica que prometía automatizar lo que hacemos. Ninguna lo logró.

La dimensión que las máquinas no pueden medir

Hay algo en la voz humana que los estudios científicos apenas empiezan a entender. Según investigaciones publicadas en el Journal of the Acoustical Society of America, la voz humana contiene micropatrones de variación que transmiten información emocional de formas que el oyente procesa sin consciencia de estar haciéndolo. Estas variaciones no son ruido — son señal.

Un estudio de la Universidad de Glasgow encontró que los humanos pueden identificar emociones complejas en fragmentos de voz de apenas 300 milisegundos. Y cuando digo emociones complejas, no hablo de "feliz" o "triste". Hablo de matices como "confiado pero vulnerable" o "entusiasmado con reservas". La AI puede simular felicidad. No puede simular ambivalencia auténtica porque no sabe qué es sentir dos cosas al mismo tiempo.

Veinte años de lo mismo con distinto nombre

En 2006 me dijeron que los text-to-speech iban a eliminar la necesidad de locutores para IVR. En 2012 me dijeron que las voces sintéticas estaban "indistinguibles" del humano. En 2018 me dijeron que Google Duplex había resuelto el problema. En 2023 me dijeron que ElevenLabs era el fin. ¿Sabés qué pasó en cada uno de esos momentos? Seguí grabando para las mismas marcas, a veces los mismos spots que supuestamente la AI iba a hacer mejor.

Pero no es que la tecnología no avance. Avanza. El problema es que avanza hacia algo que sigue sin ser lo que necesita la publicidad profesional. (Un dato que me divierte: las mismas empresas que venden voces AI contratan locutores humanos para sus propias publicidades. Preguntate por qué.)

¿Alguna vez escuchaste una voz AI en un spot de Coca-Cola? ¿En una campaña de Nike? ¿En cualquier pieza publicitaria de una marca que realmente cuida su imagen? La respuesta es no, y va a seguir siendo no durante bastante tiempo, porque esas marcas entienden algo que el departamento de compras a veces olvida: la voz es la marca hablando directamente al oído del consumidor.

Lo que aprendí de los clientes que volvieron

Tuve clientes que en 2022 experimentaron con voces AI para contenido interno. E-learning, principalmente. Videos de compliance que nadie quiere ver. La lógica era impecable: si nadie quiere verlo de todos modos, ¿para qué gastar en un locutor? Seis meses después, varios de esos clientes volvieron. Las tasas de completación de los cursos habían caído entre un 15% y un 30%.

Un estudio de Pew Research del 2023 encontró que el 72% de los adultos estadounidenses prefieren interactuar con voces humanas en contextos donde sienten que la información es importante. No es una preferencia estética — es una señal de confianza. Y la confianza, en e-learning, se traduce directamente en atención. Nadie aprende de una fuente en la que no confía.

El español tiene sus propias complejidades

En inglés, las voces AI han llegado a un nivel razonable para ciertos usos. En español, el problema se multiplica exponencialmente. Un artículo que escribí sobre los acentos del español explica las diferencias regionales, pero el resumen es este: hay más de 20 variantes regionales significativas, y mezclarlas en un mismo spot es como hacer una publicidad en inglés con acento británico en una oración y texano en la siguiente.

La AI todavía no sabe distinguir cuándo un giro es mexicano, cuándo es colombiano, cuándo es argentino. Y lo que es peor: produce híbridos que no suenan a ningún país específico pero tampoco a español neutro profesional. Suenan a turista que aprendió en Duolingo y pasó dos semanas en cada país.

La primera toma sigue siendo la mejor

Algo que la experiencia te enseña es que la espontaneidad tiene un valor que ningún algoritmo puede calcular. Cuando un cliente me pide 50 tomas de la misma línea, sé que vamos a terminar usando la primera o la segunda. Lo sé porque llevo 20 años viéndolo pasar. La interpretación más natural viene antes de que empieces a pensar demasiado, antes de que te cuestiones cada inflexión.

La AI no tiene primeras tomas. La AI genera una versión promediada de todo lo que aprendió, y ese promedio suena a exactamente eso: un promedio. Sin picos, sin valles, sin los pequeños accidentes felices que hacen que una frase se sienta viva.

Por qué el segmento bajo no me preocupa

La locución de 50 dólares en Fiverr nunca fue mi competencia. Ese mercado existía antes de que yo empezara y va a seguir existiendo en alguna forma. Ahora lo va a capturar la AI en lugar de capturarlo un amateur en su cuarto, y francamente es una mejora: al menos la AI tiene calidad técnica consistente, aunque la interpretación sea plana.

Lo que la AI no puede hacer es lo que cobro por hacer: entender un brief complejo, adaptar la interpretación en tiempo real durante una sesión dirigida, y entregar algo que suene como si un ser humano estuviera hablando con otro ser humano. Según un informe de Nielsen, las publicidades con voces percibidas como "auténticas" tienen un 23% más de impacto en métricas de recuerdo de marca. La autenticidad no se programa.

El cuerpo sabe antes que la mente

Hay investigaciones que muestran que la voz humana activa regiones del cerebro asociadas con la conexión social de formas que las voces sintéticas simplemente no replican. Un estudio del MIT Media Lab demostró que los oyentes experimentan aumentos medibles en cortisol cuando escuchan voces que su cerebro identifica como artificiales, incluso cuando conscientemente no pueden explicar qué suena "mal".

Esto tiene implicaciones directas para la publicidad: si tu spot genera una respuesta de estrés sutil en el oyente, todo tu mensaje está trabajando cuesta arriba. La voz humana reduce ese estrés. La sintética lo aumenta. Y el oyente ni siquiera sabe por qué siente lo que siente.

Lo que viene después

La AI va a seguir mejorando. Va a capturar más del mercado bajo. Va a ser útil para ciertas aplicaciones donde la humanidad de la voz no importa — alertas de sistema, lecturas de datos, notificaciones que nadie escucha con atención. Pero cada vez que una marca quiera que alguien se detenga, escuche, y sienta algo, va a necesitar una voz humana. De eso estoy seguro después de 20 años de verlo en acción, proyecto tras proyecto, cliente tras cliente, tecnología tras tecnología prometiendo lo mismo y fallando siempre en el mismo punto exacto.

¿Necesitás una locución en español para tu próximo proyecto? Escribime y te respondo en menos de una hora.

Escribime