Ya sabes, la inteligencia artificial es el tema de estos meses: acaba de iniciar una explosión que nos mostrará todos sus efectos recién en los próximos años.
Sobre las velas de esta tecnología también está el aliento de Microsoft: recientemente usó IA para mejorar la funcionalidad de sus aplicaciones, y ahora podría invertir hasta 10 mil millones de dólares en OpenAI, el creador de ChatGPT. Pero hoy me entero de otro proyecto de Microsoft, VALLE-E, lo cual es increíble.
Esta herramienta de última generación ha sido entrenada con una gran cantidad de datos de voz, más de 60.000 XNUMX horas de habla inglesa. Un conjunto de datos que lo hace, según la compañía de Redmond, “cientos de veces mayor que los sistemas existentes”. Incluido los mas avanzados.
¿Y qué aprendió a hacer VALL-E? Nada, una bagatela. Reproduce e imita a la perfección la voz de cualquier persona, después de escucharla durante tan solo tres segundos.

¿Un replicador de voz?
No es solo eso. VALL-E es una auténtica revolución en el campo de la inteligencia artificial vocal. Porque reproduce con extraordinaria precisión las emociones, los tonos vocales y el entorno acústico presentes en una muestra dada, y es un gran paso adelante en comparación con los sistemas de texto a voz (TTS) existentes. En otras palabras, la voz de VALL-E suena mucho más a la de un ser humano que a la de una inteligencia artificial.
En su perfil de Linkedin (visitarla), el estratega digital Alberto Giacobone enlaces a una pequeña biblioteca de muestras vocales creadas por VALL-E e poner en línea en la plataforma GitHub. Los resultados son sorprendentes: muchos de los clips reproducen perfectamente la entonación y el acento de las voces de los oradores.
Algunos ejemplos son menos convincentes y esto demuestra que VALL-E aún no es un producto terminado. Sin embargo, el resultado general es tan convincente que nos deja boquiabiertos.
Grandes riesgos, gran potencial
Está claro que esta tecnología plantea preocupaciones sobre los posibles riesgos de uso indebido, como el robo de identidad. VALL-E podrá crear deepfakes de voz indistinguibles de personas reales, que podrían usarse para engañar a las personas en muchos casos y formas.
Para contrarrestar esta amenaza, en el documento de presentación de VALL-E (lo enlazo aqui) Microsoft dice que está trabajando en el desarrollo de un modelo de detección que pueda distinguir una voz real de una voz sintética.
Sin embargo, a pesar de los (grandes) riesgos, herramientas como VALL-E podrían ser particularmente útiles para ayudar a las personas a recuperar su voz después de un accidente, para crear sin esfuerzo podcasts y audiolibros más naturales y… como siempre, el límite es la fantasía.