La Guía de Formatos de Archivo de Audio para Clientes de Locución

Guía de formatos de archivo de audio para clientes de locución: WAV, MP3, AIFF y más. Qué pedir, cuándo y por qué importa para tu proyecto.

Pedí WAV. Siempre. Si no sabés qué formato necesitás, la respuesta es WAV. Después podemos hablar de las excepciones, pero esa es la regla que te va a sacar de apuros el 90% de las veces.

Por qué el formato importa más de lo que parece

Cada vez que un cliente me dice "mandame lo que sea, el editor lo convierte", sé que algo va a salir mal en postproducción. No porque el editor no sepa convertir archivos — sabe — sino porque cada conversión es una decisión técnica que afecta la calidad final. Un archivo comprimido que se descomprime para editarlo y se vuelve a comprimir para publicarlo pierde información en cada paso. Según la Audio Engineering Society, la conversión repetida entre formatos con pérdida puede degradar la calidad percibida hasta un 23% después de solo tres ciclos de compresión.

Y acá está el problema: vos no vas a escuchar la degradación hasta que el spot esté al aire. El archivo suena "bien" en la compu de la oficina, pero cuando compite con música, efectos y el ruido ambiente de un shopping o un scroll infinito de TikTok, esa pérdida de definición se nota. La voz suena lejana, menos presente, menos humana.

WAV: el formato que nunca te va a fallar

WAV es el formato estándar de la industria por una razón simple: no comprime nada. Lo que se graba es lo que recibís. 44.1 kHz a 16 bits es el mínimo profesional — es la calidad de un CD, que sigue siendo excelente para la mayoría de las aplicaciones. Para postproducción seria, 48 kHz a 24 bits te da más rango dinámico y más margen para editar sin artefactos.

¿El problema del WAV? El tamaño. Un minuto de audio a 48/24 pesa alrededor de 17 MB. Para un spot de 30 segundos no importa. Para un proyecto de e-learning con 200 archivos, estás hablando de gigas de almacenamiento y transferencia.

Pero ese "problema" es en realidad tu garantía de calidad. Si tu editor necesita un MP3, puede convertir desde el WAV sin perder nada. Si le mandás un MP3 y necesita un WAV, ya perdiste. No existe forma de recuperar información que se descartó en la compresión.

MP3: cuándo sí y cuándo definitivamente no

MP3 es un formato con pérdida. Eso significa que un algoritmo decide qué información de audio "no necesitás" y la descarta para reducir el tamaño del archivo. A 320 kbps — la máxima calidad de MP3 — la diferencia con el WAV original es prácticamente inaudible para la mayoría de los oyentes en la mayoría de las situaciones.

¿Cuándo tiene sentido pedir MP3? Cuando el archivo va directamente a publicación web sin postproducción adicional, cuando el ancho de banda es una limitación real, o cuando necesitás enviar una referencia rápida para aprobación interna. Uso MP3 todo el tiempo para las primeras tomas que mando a clientes para feedback porque no tiene sentido transferir 50 MB cuando 5 MB cumplen la función.

¿Cuándo definitivamente no? Cuando el archivo va a pasar por un editor de video, cuando se va a mezclar con música, cuando necesitás ajustar EQ o compresión en post, o cuando el destino final es broadcast. Un estudio de iZotope — fabricante de software de audio profesional — encontró que el 67% de los problemas de calidad de audio en video digital se originan en archivos fuente comprimidos que se procesan posteriormente.

AIFF, FLAC y los otros formatos que vas a encontrar

AIFF es básicamente lo mismo que WAV pero en formato Apple. Si trabajás exclusivamente con editores en Mac, puede tener sentido. En la práctica, WAV funciona en todas las plataformas y es el estándar que cualquier estudio de postproducción espera recibir.

FLAC es compresión sin pérdida — reduce el tamaño del archivo sin descartar información. Suena perfecto en teoría, pero tiene un problema práctico: muchos sistemas de edición de video no lo leen nativamente. Adobe Premiere y DaVinci Resolve lo soportan, pero Final Cut Pro requiere conversión. Si tu editor tiene que convertir de todas formas, mejor mandarle el WAV directamente.

¿Y qué pasa con los formatos de proyecto como OMF o AAF? Esos son para cuando estás enviando una sesión completa de Pro Tools o similares a otro estudio. Si no sabés qué son, probablemente no los necesitás.

La especificación técnica que siempre tenés que incluir en tu brief

Acá hay algo que la mayoría de los clientes no sabe: el mismo archivo puede entregarse de formas muy diferentes. Mono o estéreo. Con room tone al principio y al final o cortado exactamente en el primer y último frame de audio. Con los archivos separados por toma o editados en un solo master. Normalizado a -3 dB o a -16 LUFS para broadcast.

(El LUFS, por cierto, es la medida de volumen que usan las plataformas de streaming y los broadcasters — si escuchás que tu spot "suena más bajo" que otros, probablemente es un problema de normalización, no de la grabación.)

Cuando mandás un brief de locución, incluí esto:

Formato: WAV 48 kHz / 24 bits (o lo que necesites) Canales: Mono (para voz sola casi siempre es mono) Nomenclatura: Cómo querés que se nombren los archivos Separación: Un archivo por take, por sección, o master editado Normalización: A qué nivel querés el audio

Si no especificás nada, cada locutor te va a entregar en su formato default. Eso funciona hasta que tenés un proyecto con tres locutores diferentes que entregaron archivos con especificaciones distintas y tu editor quiere matarte.

¿Qué pasa si ya recibiste el archivo en el formato equivocado?

Depende de qué tengas y qué necesites. Si recibiste MP3 y necesitás WAV, técnicamente podés "convertirlo", pero lo único que vas a lograr es un archivo más grande con la misma calidad degradada. Si recibiste WAV y necesitás MP3, convertilo vos o pedile al locutor que te lo mande — eso no tiene costo porque es una conversión de segundos.

Si el problema es la especificación técnica — recibiste estéreo y necesitás mono, o los archivos están separados y necesitás un master — cualquier locutor profesional te lo puede rehacer sin costo adicional. No es una regrabación, es un re-export. Lleva cinco minutos.

Lo que sí tiene costo es pedirlo después de que el proyecto cerró. Si hace tres meses que recibiste los archivos y ahora necesitás una versión diferente, el locutor tiene que buscar el proyecto, reabrirlo, exportar y transferir. Razonable que cobre algo por eso, aunque la mayoría no lo hace si la relación es buena.

Los 128 kbps que arruinaron un spot de Coca-Cola

No puedo dar nombres, pero puedo contar la historia porque ilustra todo lo que puede salir mal. Una agencia recibió la locución en español para un spot regional. El archivo que recibieron era perfecto — WAV 48/24, limpio, bien grabado. En algún punto del pipeline de postproducción, alguien convirtió a MP3 128 kbps para "ahorrar espacio en el servidor". El spot se editó, se mezcló con música, se masterizó y se entregó al cliente.

El cliente lo aprobó. Se publicó. Y empezaron los comentarios: "la voz suena rara", "parece que está hablando desde otra habitación", "no se entiende bien con la música". Nadie podía identificar exactamente qué estaba mal, pero todos sentían que algo no funcionaba.

Eventualmente alguien revisó los archivos fuente y encontró el MP3 de 128 kbps. La voz había perdido tanta definición en los agudos que literalmente no cortaba a través de la mezcla. Tuvieron que volver a editar el spot completo con el WAV original.

Bitrate, sample rate y profundidad de bits: lo mínimo que tenés que saber

Sample rate (44.1 kHz, 48 kHz, 96 kHz) es cuántas veces por segundo se "muestrea" la onda de sonido. 44.1 kHz captura frecuencias hasta 22 kHz — más que suficiente para la voz humana, que rara vez supera los 12 kHz. 48 kHz es el estándar de video. 96 kHz es para producción musical donde después vas a procesar y masterizar.

Profundidad de bits (16 bits, 24 bits, 32 bits) es cuánta precisión tiene cada muestra. Más bits = más rango dinámico = más margen para editar sin que aparezca ruido de cuantización. Para locución, 24 bits es el estándar profesional. 16 bits funciona perfectamente para el archivo final, pero es limitante en postproducción.

Bitrate en MP3 (128 kbps, 256 kbps, 320 kbps) es cuántos datos por segundo usa la compresión. Más alto = mejor calidad = archivos más grandes. Debajo de 192 kbps la degradación es audible en la mayoría de los sistemas. Para referencia o aprobación interna, 256 kbps está bien. Para publicación, 320 kbps o directamente no uses MP3.

Lo que tu editor de video necesita que sepas

He trabajado con editores de video por veinte años y hay una queja universal: los clientes no entienden que el audio es la mitad del trabajo. Un video con imagen promedio y audio excelente se percibe como profesional. Un video con imagen excelente y audio promedio se percibe como amateur.

Tu editor no te está siendo difícil cuando te pide los archivos en un formato específico. Te está ahorrando problemas. Si dice "necesito WAV 48/24 mono, archivos separados por sección, con dos segundos de room tone al principio", es porque eso le permite trabajar sin fricción y entregarte un producto mejor.

La alternativa es que reciba lo que le mandaste, pierda tiempo convirtiendo, editando silencios, ajustando niveles, y eventualmente te cobre más porque el proyecto tardó el doble de lo presupuestado. Cómo aprovechar al máximo tu sesión de locución en español tiene más sobre cómo estructurar el proceso para que todo fluya.

La excepción de las plataformas de e-learning

Articulare Storyline, Rise, Captivate y la mayoría de las plataformas de e-learning tienen sus propias preferencias de formato. Storyline acepta casi todo pero funciona mejor con MP3 de 128 kbps — sí, 128 — porque optimiza el tamaño del paquete SCORM. Rise prefiere archivos más pequeños porque todo se procesa en la nube.

Esto no significa que me tengas que pedir MP3 128. Significa que necesitás dos sets de archivos: WAV para tu backup y posible reedición futura, MP3 en la especificación de tu plataforma para importar directamente. Cualquier locutor profesional te puede entregar ambos sin drama.

Y si tu empresa de L&D te dice que solo necesitás el MP3 y que nunca vas a necesitar el WAV, guardá el WAV igual. En cinco años, cuando actualicen la plataforma y necesiten re-procesar todo el audio, me vas a agradecer.

¿Necesitás una locución en español para tu próximo proyecto? Escribime y te respondo en menos de una hora.

Escribime