AudioLM, el sistema desarrollado por los investigadores de Google, genera todo tipo de sonidos, incluso complejos como música de piano en una canción o personas hablando, casi indistinguibles del fragmento inicial que se le envía.
La técnica es realmente prometedora y podría resultar útil de muchas maneras. Por ejemplo, podrá acelerar el proceso de entrenamiento de la inteligencia artificial, o generar automáticamente música para acompañar vídeos. Pero es mucho más que eso.
Tócala de nuevo, Sam
Ya estamos acostumbrados a escuchar audio generado por inteligencia artificial. Quienes discuten cada día con Alexa o Google Nest lo saben bien: nuestros asistentes de voz procesan el lenguaje natural.
Hay, sin duda, también sistemas entrenados en música: recuerda Jukebox por OpenAI? Te lo dije aquí. Todos estos sistemas, sin embargo, se basan en un "entrenamiento" largo y complejo, que implica la catalogación y administración de muchas "señales". Nuestras inteligencias artificiales están ávidas de datos y siempre quieren más.
El siguiente paso es hacer que la IA "piense" permitiéndole procesar la información que escucha más rápidamente, sin necesidad de un largo entrenamiento. Algo parecido a lo que intentamos hacer con los sistemas de conducción autónoma.
Cómo funciona AudioLM
Para generar el audio, se introducen unos segundos de canción o sonido en AudioLM, que literalmente predice lo que viene a continuación. No es Shazam, no busca la canción completa ni la reproduce. No hace collages de sonidos que tiene en la memoria. Él los construye. El proceso es similar a la forma en que yo modelos lingüísticos como GPT-3 predicen frases y palabras.
Los clips de audio publicados por el equipo de Google suenan muy naturales. En particular, la música de piano generada por AudioLM parece más fluida que la generada con las actuales inteligencias artificiales. En otras palabras, es mejor para capturar la forma en que producimos una canción o un sonido.
"Es realmente impresionante, también porque indica que estos sistemas están aprendiendo algún tipo de estructura de múltiples capas", dice. roger dannenberg, investigador de música generada por computadora en la Universidad Carnegie Mellon.
No solo una canción
Imagínate hablar con AudioLM, dos palabras y listo. El sistema continuará el discurso aprendiendo tu cadencia, tu acento, tus pausas e incluso tu respiración. En resumen, exactamente tu forma de hablar. No es necesaria una formación específica: puede hacerlo casi solo.
Como un loro repitiendo las cosas que escuchas. Solo que este es un loro capaz de recibir y producir cualquier sonido, y completar de forma autónoma los que quedan en medio.
En resumen? Tendremos muy pronto (y en estos casos quiere decir muy pronto) sistemas capaces de hablar con mucha más naturalidad, y de componer una canción o sonar exactamente como Desde E 2, MidjourneyAI y otros crean imágenes, o Hacer un vídeo crea clips basados en nuestra entrada.
¿Quién tiene los derechos de una canción?
Incluso si estos sistemas fueran capaces de crear contenido casi por sí solos, ese “casi” todavía marca la diferencia en el mundo y hace necesario considerar las implicaciones éticas de esta tecnología.
Si digo "Cosa, hazme un final diferente para Bohemian Rhapsody" y esta cosa hace una canción en ese sentido, ¿quién obtendrá los derechos y cobrará las regalías de la canción? Sin mencionar el hecho de que los sonidos y discursos que ahora son indistinguibles de los humanos son mucho más convincentes y abren una difusión de desinformación sin precedentes.
En el documento publicado para presentar esta IA (lo enlazo aqui), los investigadores escriben que ya están considerando cómo mitigar estos problemas insertando formas de distinguir los sonidos naturales de los producidos con AudioLM. Yo creo poco. Muchos de los propósitos para los que se creó esta IA se perderían.
De manera más general, se corre el riesgo de producir un fenómeno que yo llamaría "desconfianza en la realidad". Si todo puede ser verdad, nada puede serlo. Nada tiene valor.