Parece que hay un futuro en el que los pensamientos ya no son solo imágenes efímeras en nuestras mentes, sino que pueden convertirse en videos de alta calidad. Y parece un futuro cada vez más cercano a la realidad. Un grupo de habilidosos investigadores acaba de abrir la caja de Pandora en el campo de la neurociencia. Para ayudarlo, una buena dosis de IA.
El cerebro "proyector"
Jiaxin Qing, Zijiao Chen e Juan Hellen Zhou, de la Universidad Nacional de Singapur y la Universidad China de Hong Kong, presentó un trabajo de investigación bastante interesante. El equipo combinó datos de resonancia magnética funcional (fMRI) con IA generativa de difusión estable para crear MinD-Video, un modelo que puede generar videos HQ directamente a partir de lecturas cerebrales.
Cosas de ciencia ficción, se podría decir: pero no, todo rigurosamente documentado en arXiv, e este es el enlace.
¿Cómo funciona exactamente MinD-Video?
MinD-Video no es un simple generador de vídeo, sino todo un sistema diseñado para realizar la decodificación de imágenes realizadas por una IA y las realizadas por un diálogo cerebral. Pero, ¿cómo se entrena un sistema así?
Los investigadores utilizaron un conjunto de datos público, que contenía videos y lecturas de fMRI asociadas de sujetos que los vieron. Y aparentemente el trabajo funcionó admirablemente.
Ver pensamientos, llegamos allí

Los videos publicados por los científicos muestran resultados realmente fascinantes. Tomemos por ejemplo un video original con caballos en un campo. MinD-Video lo ha "reconstruido" en una versión más vibrante de los caballos. En otro caso, un coche circula por una zona boscosa y el vídeo reconstruido muestra un viaje en primera persona por un camino sinuoso.
Según los investigadores, los vídeos reconstruidos son de 'alta calidad', con dinámicas de movimiento y escena bien definidas. ¿Y la precisión? 85%, una mejora significativa con respecto a la intentos anteriores.
Lectura mental y video HQ, ¿qué sigue?
"El futuro es brillante y las aplicaciones potenciales son inmensas. Desde la neurociencia hasta la interfaces cerebro-computadora, creemos que nuestro trabajo tendrá un impacto importante”, dijeron los autores. Y los hallazgos van más allá: su trabajo ha resaltado el papel dominante de la corteza visual en la percepción visual y la capacidad de su modelo para aprender información cada vez más sofisticada. durante el entrenamiento.

El modelo de difusión estable utilizado en esta nueva investigación hace que la visualización sea más precisa. “Una ventaja clave de nuestro modelo sobre otros modelos generativos, como le GAN, es la capacidad de producir video de mayor calidad. Aprovecha las representaciones aprendidas del codificador fMRI y utiliza su proceso de difusión único para generar videos HQ que se alinean mejor con las actividades neuronales originales”, explicaron los investigadores.
En definitiva, parece que hemos entrado realmente en la era de lectura mental a través de la inteligencia artificial. Un campo abierto a mil posibilidades, donde el límite parece ser solo la imaginación.