AudioLM, el sistema desarrollado por los investigadores de Google, genera todo tipo de sonidos, incluso complejos como música de piano en una canción o personas hablando, casi indistinguibles del fragmento inicial que se le envía.
La técnica es muy prometedora y puede ser útil de muchas maneras. Por ejemplo, puede acelerar el proceso de entrenamiento de la IA o generar automáticamente música para acompañar videos. Pero es mucho más que eso.
Tócala de nuevo, Sam
Ya estamos acostumbrados a escuchar audio generado por inteligencia artificial. Cualquiera que pelee cada día con Alexa o Google Nest lo sabe bien: nuestros asistentes de voz procesan el lenguaje natural.
Hay, sin duda, también sistemas entrenados en música: recuerda Jukebox por OpenAI? Te lo dije aquí. Todos estos sistemas, sin embargo, se basan en un "entrenamiento" largo y complejo, que pasa por la catalogación y administración de muchas "ideas". Nuestras inteligencias artificiales tienen hambre de datos y quieren más y más.
El siguiente paso es hacer que la IA "piense" permitiéndole procesar la información que escucha más rápidamente, sin necesidad de un largo entrenamiento. Algo similar a lo que intentas hacer con los sistemas de conducción autónoma.
Cómo funciona AudioLM
Para generar el audio, se introducen unos segundos de canción o sonido en AudioLM, que literalmente predice lo que sigue. No es Shazam, no busca la pieza entera y la vuelve a proponer. No hace un collage de sonidos que tiene en la memoria. Él los construye. El proceso es similar a la forma en que modelos lingüísticos como GPT-3 predicen frases y palabras.
Los clips de audio publicados por el equipo de Google suenan muy naturales. En particular, la música de piano generada por AudioLM parece más fluida que la generada con las actuales inteligencias artificiales. En otras palabras, es mejor para capturar la forma en que producimos una canción o un sonido.
"Es realmente impresionante, sobre todo porque indica que estos sistemas están aprendiendo algún tipo de estructura en capas", dice. roger dannenberg, investigador de música generada por computadora en la Universidad Carnegie Mellon.

No solo una canción
Imagina hablar con AudioLM, dos palabras y parar. El sistema continuará el discurso aprendiendo tu cadencia, tu acento, tus pausas, incluso tu respiración. En resumen, exactamente como hablas. No hay necesidad de hacer un entrenamiento específico: lo puede hacer casi solo.
Como un loro repitiendo las cosas que escuchas. Solo que este es un loro capaz de recibir y producir cualquier sonido, y completar de forma autónoma los que quedan en medio.
En resumen? Tendremos muy pronto (y en estos casos quiere decir muy pronto) sistemas capaces de hablar con mucha más naturalidad, y de componer una canción o sonar exactamente como Desde E 2, MidjourneyAI y otros crean imágenes, o Hacer un vídeo crea clips basados en nuestra entrada.
¿Quién tiene los derechos de una canción?
Si bien estos sistemas podrán crear contenido casi por sí mismos, ese "casi" todavía marca la diferencia en el mundo y hace que sea necesario considerar las implicaciones éticas de esta tecnología.
Si digo "Entonces, hazme un final diferente a Bohemian Rapsody" y esta cosa va a hacer una canción en ese sentido, ¿quién puede reclamar los derechos y cobrar las regalías por la canción? Sin mencionar el hecho de que los sonidos y los discursos ahora indistinguibles de los humanos son mucho más convincentes y están abiertos a una difusión de desinformación sin precedentes.
En el documento publicado para presentar esta IA (lo enlazo aqui), los investigadores escriben que ya están considerando cómo mitigar estos problemas insertando formas de distinguir los sonidos naturales de los producidos con AudioLM. Yo creo poco. Muchos de los propósitos para los que se creó esta IA se perderían.
Más generalmente, el riesgo es producir un fenómeno que yo llamaría "desconfianza de la realidad". Si todo puede ser verdad, nada puede serlo. Nada tiene valor.