VALL-E, la IA de Microsoft que te "roba" la voz en 3 segundos

Enero 10 2023

Tecnología

El nuevo sistema de inteligencia artificial reproduce una voz humana a partir de unos segundos de audio. Gran potencial (y grandes riesgos).

comparte

Ya sabéis, la inteligencia artificial es el tema de estos meses: acaba de iniciar una explosión que sólo nos mostrará todos sus efectos en los próximos años.

Microsoft también está detrás de esta tecnología: recientemente utilizó la IA para mejorar la funcionalidad de sus aplicaciones y ahora podría invertir hasta 10 mil millones de dólares en OpenAI, la empresa que creó ChatGPT. Hoy, sin embargo, oigo hablar de otro proyecto de Microsoft, VALLE-E, lo cual es increíble.

Esta herramienta de vanguardia se ha entrenado con una gran cantidad de datos de voz, más de 60.000 horas de habla inglesa. Un conjunto de datos que lo hace, según la compañía de Redmond, "cientos de veces más grande que los sistemas existentes". Incluido los mas avanzados.

¿Y qué aprendió a hacer VALL-E? Nada, una bagatela. Reproduce e imita a la perfección la voz de cualquier persona, después de escucharla durante tan solo tres segundos.

voz de IA — VALL-E, o sea: 3 segundos y te clonan la voz.

¿Un replicador de voz?

No es sólo esto. VALL-E es una auténtica revolución en el campo de la inteligencia artificial vocal. Porque reproduce con extraordinaria precisión las emociones, los tonos vocales y el entorno acústico presentes en una muestra determinada, y supone un paso de gigante respecto a los sistemas de conversión de texto a voz (TTS) existentes. En otras palabras, la voz de VALL-E suena mucho más a la de un ser humano que a la de una inteligencia artificial.

En su perfil de Linkedin (visitarla), el estratega digital Alberto Giacobone enlaces a una pequeña biblioteca de muestras vocales creadas por VALL-E e poner en línea en la plataforma GitHub. Los resultados son sorprendentes: en muchos clips la entonación y el acento de las voces de los hablantes se reproducen perfectamente.

Algunos ejemplos son menos convincentes y esto demuestra que VALL-E aún no es un producto terminado. Sin embargo, el resultado general es tan convincente que nos deja sin palabras.

Un ejemplo de los primeros resultados obtenidos por VALL-E. Arriba, la muestra de audio original. Abajo, la voz “clonada”.

Grandes riesgos, gran potencial

Está claro que esta tecnología plantea preocupaciones sobre los posibles riesgos de uso indebido, como el robo de identidad. VALL-E podrá crear deepfakes de voz indistinguibles de personas reales, que podrían usarse para engañar a las personas en muchos casos y formas.

Para contrarrestar esta amenaza, en el documento de presentación de VALL-E (lo enlazo aqui) Microsoft dice que está trabajando en el desarrollo de un modelo de detección que pueda distinguir una voz real de una voz sintética.

Sin embargo, a pesar de los (grandes) riesgos, herramientas como VALL-E podrían ser particularmente útiles para ayudar a las personas a encontrar su voz después de un accidente, a crear sin esfuerzo podcasts y audiolibros más naturales y… como siempre, el límite es la imaginación.

gianluca riccio, directora creativa de Melancia adv, redactora y periodista. Forma parte del Instituto Italiano para el Futuro, World Future Society y H+. Desde 2006 dirige Futuroprossimo.it, el recurso italiano de Futurología.

Para informar sobre investigaciones, descubrimientos e invenciones, contacta con el equipo editorial! Siga Futuro Prossimo en Whatsapp: noticias y actualizaciones exclusivas (gratis).

FP sobre Fatto Quotidiano
Alberto Robiati y Gianluca Riccio guían a los lectores a través de escenarios del futuro: las oportunidades, riesgos y posibilidades que tenemos para crear un mañana posible.

Sobre el mismo tema:

El último

VALL-E, la IA de Microsoft que te "roba" la voz en 3 segundos

Tecnología

comparte

Ya sabéis, la inteligencia artificial es el tema de estos meses: acaba de iniciar una explosión que sólo nos mostrará todos sus efectos en los próximos años.

¿Un replicador de voz?

Grandes riesgos, gran potencial

VASA-1, la IA de Microsoft crea personajes súper realistas a partir de una sola foto

Amodei, Anthropic: 'La IA pronto podrá replicarse y sobrevivir de forma autónoma'

Contacto interespecies: Instituto SETI “conversa” con una ballena

TikTok transforma (y divide) al mundo occidental: ¿será prohibido?

Adiós litio, bienvenido sodio: el avance de las baterías de nueva generación

Dime cómo eres y te diré por quién votas: una IA predice la orientación política

Liberar a las ciudades de la dictadura del automóvil: instrucciones de uso

Científicos de Caltech: más pistas sobre un noveno planeta en el Sistema Solar