Ya sabéis, la inteligencia artificial es el tema de estos meses: acaba de iniciar una explosión que sólo nos mostrará todos sus efectos en los próximos años.
Microsoft también está detrás de esta tecnología: recientemente utilizó la IA para mejorar la funcionalidad de sus aplicaciones y ahora podría invertir hasta 10 mil millones de dólares en OpenAI, la empresa que creó ChatGPT. Hoy, sin embargo, oigo hablar de otro proyecto de Microsoft, VALLE-E, lo cual es increíble.
Esta herramienta de vanguardia se ha entrenado con una gran cantidad de datos de voz, más de 60.000 horas de habla inglesa. Un conjunto de datos que lo hace, según la compañía de Redmond, "cientos de veces más grande que los sistemas existentes". Incluido los mas avanzados.
¿Y qué aprendió a hacer VALL-E? Nada, una bagatela. Reproduce e imita a la perfección la voz de cualquier persona, después de escucharla durante tan solo tres segundos.
¿Un replicador de voz?
No es sólo esto. VALL-E es una auténtica revolución en el campo de la inteligencia artificial vocal. Porque reproduce con extraordinaria precisión las emociones, los tonos vocales y el entorno acústico presentes en una muestra determinada, y supone un paso de gigante respecto a los sistemas de conversión de texto a voz (TTS) existentes. En otras palabras, la voz de VALL-E suena mucho más a la de un ser humano que a la de una inteligencia artificial.
En su perfil de Linkedin (visitarla), el estratega digital Alberto Giacobone enlaces a una pequeña biblioteca de muestras vocales creadas por VALL-E e poner en línea en la plataforma GitHub. Los resultados son sorprendentes: en muchos clips la entonación y el acento de las voces de los hablantes se reproducen perfectamente.
Algunos ejemplos son menos convincentes y esto demuestra que VALL-E aún no es un producto terminado. Sin embargo, el resultado general es tan convincente que nos deja sin palabras.
Grandes riesgos, gran potencial
Está claro que esta tecnología plantea preocupaciones sobre los posibles riesgos de uso indebido, como el robo de identidad. VALL-E podrá crear deepfakes de voz indistinguibles de personas reales, que podrían usarse para engañar a las personas en muchos casos y formas.
Para contrarrestar esta amenaza, en el documento de presentación de VALL-E (lo enlazo aqui) Microsoft dice que está trabajando en el desarrollo de un modelo de detección que pueda distinguir una voz real de una voz sintética.
Sin embargo, a pesar de los (grandes) riesgos, herramientas como VALL-E podrían ser particularmente útiles para ayudar a las personas a encontrar su voz después de un accidente, a crear sin esfuerzo podcasts y audiolibros más naturales y… como siempre, el límite es la imaginación.