En un mundo donde los narradores sintéticos están cada vez más presentes, quisimos preguntar a Nikki García —actriz de doblaje, cantante y la voz que has escuchado miles de veces en Google Maps— qué espacio les quedará a las voces humanas como la suya. Con la idea de explorar este tema, surgió esta newsletter en colaboración con el podcast Premonición, una ficción sonora trepidante que protagoniza la propia Nikki. Este thriller sigue las indagaciones de un periodista sobre la muerte de un antiguo líder rebelde. Cuando lo acabes, me gustaría que me contaras: ¿te habría enganchado igual con una voz no humana?
🚀 Esto es WATIF. El resto es historia.
Tengo esta newsletter casi acabada, un café en una mano y el móvil en la otra. Presiono con el dedo la pantalla y le digo a Juniper —el asistente de voz que tengo habilitado en ChatGPT—: «Porfa, quiero que mis lectores puedan escuchar mi próxima pieza, pero sin tener que grabarla yo mismo». Dejo el teléfono sobre la mesa para abrir el portátil mientras Juniper me guía amablemente con su acento latinoamericano: «Abre una cuenta en la aplicación ElevenLabs. [...] Elige una de sus voces. [...] Copia el texto de tu artículo. [...] Ya lo tienes». «¡Gracias!», le digo como si le importase. Me ha costado 10 minutos, una suscripción de 5 euros y el resultado lo puedes escuchar tú mismo/a dándole al play aquí debajo.
La naturalidad con la que he charlado con Juniper y el esfuerzo mínimo que me ha tomado crear un audio no humano —pero que se le parece— encapsulan el momento actual de las voces sintéticas. Ya están aquí. Y ya son disruptivas. No somos conscientes de la cantidad de voces generadas por IA que ya escuchamos en nuestro día a día. Cada vez son más indistinguibles, lo que me hace preguntarme: ¿qué voces permanecerán humanas? ¿Cuáles serán irremediablemente sintéticas? Si estas voces artificiales se extienden en ámbitos como el cine o la música, ¿qué nos perderemos?
La voz que he escogido en ElevenLabs para que te lea este texto se llama Chris. Dicen sus creadores que no imita a la de nadie en particular, sino que combina las características de varias voces a través de sus algoritmos de IA. Pero la plataforma ofrece también otra posibilidad: la clonación. Con 30 minutos de grabaciones, puedes crear una «réplica en alta fidelidad de tu voz», y usarla para producir en masa todo lo que necesites sin grabar ni un segundo más. La posibilidad de crear contenido de audio como quien imprime panfletos, con tu tono, timbre, ritmo y acento. ¿Y si es otra persona la que clona tu voz? En el podcast sobre La SANIDAD del futuro, Esther Gómez nos advirtió de que estamos expuestos a ser estafados por delincuentes que se hacen pasar por un familiar. El Instituto Nacional de Ciberseguridad le da la razón: «El voice hacking es una amenaza real y creciente en el mundo digital». Como en todo avance, nuevos riesgos conviven con nuevas oportunidades.
Voces que abren horizontes
En estas últimas se centra Chema Casado, que perdió la vista completamente en el año 2000. Las personas ciegas son voz autorizada en la materia porque llevan «décadas utilizando las voces sintéticas», me cuenta, desde antes de que se desarrollaran con IA. Nos sentamos en el salón de su casa donde me enseña JAWS, el software con el que se maneja en su portátil. A medida que navega por la pantalla, una voz masculina le informa de los iconos que selecciona o locuta los textos de sus correos y archivos. Chema me explica que, «hace 25 años, la voz era muy robótica, pero ahora suena más natural».
Sin embargo, este narrador más fluido no es lo único que le interesa. Hay dos razones más importantes por las que cree que las voces artificiales pueden mejorar su vida en los próximos años. En primer lugar, la reducción de costes. Hasta ahora, a muchas empresas no les salía rentable que sus dispositivos tuvieran voces para interactuar con los usuarios. El ejemplo con el que he abierto esta newsletter evidencia que esto ya no será así. Pero Chema sueña más a lo grande: «Me gustaría poder elegir». Pone varios ejemplos: «Este finde iré al teatro a una obra de Lola Herrera para la que llevo un auricular que me describe la escena. [...] Querría poder pedirle que me explicara lo que a mí me interesa», mirar adonde quiera. «Ahora es para todos lo mismo». También me cuenta que probó unas gafas inteligentes, «bastante limitadas», similares a las Ray-Ban Meta o las de Google. Tú y yo pensamos en que nos expliquen cuatro pijadas y que nos sienten como a Chris Hemsworth. Pero para las personas como Chema, si de verdad tienen un asistente de voz bueno en combinación con la cámara, serán un antes y un después. «Para nosotros supondría reducir la brecha social».
El arte, ¿la última frontera?
Del mismo modo que cuando el sol sale en un lugar se pone en otro, la revolución de las voces sintéticas proyecta una sombra alargada sobre algunas profesiones. Hablo con Raúl Lara, actor de doblaje (Buggy en la serie One Piece) y portavoz1 de PASAVE, la plataforma en la que se han unido todos los sindicatos y asociaciones de su gremio en «este momento decisivo». «Antes firmábamos por costumbre cláusulas abusivas», me dice por teléfono. En particular, recuerda una típica de las compañías estadounidenses por la que cedían sus voces para ser utilizadas «para cualquier tecnología inventada o por inventar». Para Raúl, esta frase adquirió un nuevo significado «con la llegada de ChatGPT en 2022». Se plantaron y «desde el 1 de enero de 2024» decidieron «no firmar ningún contrato que no protegiese» sus voces «del entrenamiento de IA o de la clonación», relata; era ahora o nunca. Algunas producciones se paralizaron porque ninguna distribuidora «quería dar el primer paso». Hasta que una de las grandes lo dio y las demás fueron aceptando en cascada.
Charlando un rato más con Raúl, veo que en su lucha coexisten dos líneas de defensa: una laboral y otra artística. Aunque las voces sintéticas fuesen excelentes —algo que ahora no considera—, «si no son reales, no existe verdad en ellas». Tiene que haber una persona detrás para que sea arte, me argumenta, y, si no, nuestras ficciones «perderán entidad cultural».
¿Es la ficción, con su componente artístico, un terreno en el que resistirán las voces humanas? Marina Alonso-Carriazo, directora de estrategia del sello de pódcasts El Extraordinario, me explica por qué ellas siguen apostando por personas: «La narrativa sonora se está alejando de los típicos códigos del doblaje académico. Lo que necesitamos ahora son actores y actrices». Me señala al ejemplo de su última ficción sonora, Premonición, protagonizada por la invitada a nuestro podcast. Nikki se convierte en Luz, la guía espiritual de una comunidad de rebeldes. La serie traslada al oyente a la localidad secreta de Serén, un pueblo enigmático y fuera de la ley. «Solo con voces que locutan bien no se construye esa atmósfera», me dice Marina. Aparte de una voz, «Nikki es una gran actriz», añade. Los directores2 aprovechan esas capacidades interpretativas durante la grabación cuando, por ejemplo, les piden probar diferentes emociones para terminar de dar forma a los personajes.
Además, considera cuánto te afecta el factor humano cuando vas a consumir cualquier obra, ya sea un libro, una peli o un podcast como Premonición. Muchas veces el interés por conocer una historia surge cuando hacemos click con las personas que hay detrás: ver a las estrellas de gira promocional, las entrevistas, conocer cómo Nikki conecta con su personaje a través de las migrañas que ambas sufren. O piensa en los documentales sonoros que siguen la investigación de un periodista. ¿No prefieres que sea el propio reportero quien te cuente la historia? Creo que casi todos lo pensamos y existe una conexión personal que seguimos buscando.
En el podcast de hoy, reflexionamos sobre todo esto con la propia Nikki García y con Carmen Pacheco, creadora de ficciones sonoras como Blum o Místicas. ¿Debemos abrazar la imperfección humana para que surja lo inesperado? ¿O damos más espacio al algoritmo aunque todo se acabe pareciendo?
Notas del redactor
Si eres usuario de ChatGPT, te invito a que le preguntes a Juniper —o al asistente de voz que tengas seleccionado— que te cuente todo lo que sabe de ti. Es más perturbador aún si te lo cuenta una voz en lugar de leerlo. En mi caso, sabe bastante de mi trabajo y poco de mi vida personal. O eso me dice…
Raúl Lara también me cuenta que todas las semanas les llegan chivatazos de espacios donde se usan voces clonadas de actores y actrices sin su consentimiento. Muchos de ellos son para vídeos muy ideologizados que circulan por redes o incluso cuñas publicitarias de radio.
La plataforma Deezer ha revelado que cada día se suben unas 200.000 canciones creadas con IA, el doble que hace apenas cuatro meses. Estas publicaciones no incluyen ninguna advertencia o indicación, lo que ha obligado a la empresa a desarrollar una herramienta para detectarlas. Los que las suben se llevan derechos de autor que, de otra manera, irían a músicos reales.
El semáforo
🟢 ¿Café? Cualquier excusa me funciona. Una nueva investigación presentada en el Congreso Anual de la Sociedad Americana de Nutrición sugiere que el consumo regular de café puede estar asociado con un envejecimiento más saludable. El estudio siguió a más de 47.000 mujeres durante décadas y encontró que aquellas que consumían más cafeína —principalmente a través del café— tenían un 13 por ciento más de probabilidades de llegar a los 70 años con buena salud y sin enfermedades crónicas. El estudio no demuestra la causalidad, pero se suma a un cuerpo creciente de evidencia que vincula el café con beneficios como menor riesgo de enfermedades cardíacas, diabetes tipo 2 o Parkinson. Una mala noticia: no vale con azúcar.
🟠 La canción del verano será… corta. La duración media de las canciones que encabezan la lista Billboard Hot 100 ha pasado de 4 minutos y 22 segundos en 1990 a 3 minutos y 34 segundos en 2024, un 18 por ciento menos. Ya nos habló de esto Carles hace unos meses: si la canción dura poco y consigues que el oyente se quede al menos 30 segundos en Spotify, podrás sumar más reproducciones que supongan un goteo constante de céntimos en tu cuenta corriente.
🔴 Thy no es nadie. Sin avisar al público, una emisora de radio en Australia ha utilizado durante meses a Thy, una presentadora generada por inteligencia artificial. La estación de radio CADA clonó la voz de Thy a partir de la de una empleada de su departamento financiero.
Si te ha gustado este número de la newsletter, dale al corazoncito más abajo, escribe un comentario o contesta a este correo. Nos encantará saber qué opinas.
💬 Si quieres charlar, compartir sugerencias de temas o alguna pista, puedes escribirme a bosco@watif.es
🎙️Si quieres ver/escuchar nuestro pódcast, síguenos en YouTube y Spotify.
🐝 Si quieres ser parte de la comunidad de WATIF y venir a nuestros eventos digitales y presenciales, échale un vistazo a nuestros niveles de membresía.
🤝 Hasta la próxima,
También es presidente de Adoma (Sindicato de Artistas de Doblaje de Madrid).
En el caso de Premonición, la directora Mar Abad.
Muy buena la edición de hoy! Me encanta que se haya incluido dos puntos de vista sobre las voces artificiales, sin dudas me deja reflexionando sobre mi opinión de ellas. Y para agregar a la investigación del café: mi tía abuela a sus 81 años sigue espléndida y durante mucho tiempo llegó a tomar 14 pocillos de café por día.
Espero con ansias la próxima newsletter!