Los algoritmos de inteligencia artificial y aprendizaje automático están mejorando para predecir acciones en videos.
El mejor de los algoritmos actuales puede predecir con bastante precisión a dónde irá una pelota de béisbol después de haber sido lanzada, o la aparición de un camino en la secuencia por venir. ¿En otras palabras? Predicción de cuadros en el futuro de una película.
Un nuevo enfoque propuesto por investigadores de Google, la Universidad de Michigan y Adobe avanza en el estado del arte con modelos a gran escala escalar eso Generan vídeo de alta calidad a partir de unos pocos fotogramas.
“Con este proyecto pretendemos obtener pronósticos de video precisos. Optimizaremos las capacidades de una red neuronal ", los investigadores escribieron en un documento que describe su trabajo.
El modelo de equipo
El modelo central del equipo se basa en una arquitectura estocástica de generación de video, con un componente que gestiona las predicciones de los marcos siguiendo los considerados.
El equipo entrenó y probó por separado diferentes versiones del modelo con conjuntos de datos personalizados. basado en tres categorías de pronóstico: interacciones entre objetos, movimiento estructurado y observabilidad parcial.
Para la primera tarea (interacciones con objetos) los investigadores seleccionaron 256 clips de un bloque de vídeos que Mostraron un brazo robótico interactuando con toallas.
Para el segundo (movimiento estructurado) ellos examinaron clips de Human 3.6M, un bloque que contiene clips de humanos que realizan acciones como sentarse en una silla.
En cuanto a la tercera (actividad de observabilidad parcial), utilizaron un conjunto de datos Datos de conducción de KITTI de código abierto recopilados a partir de imágenes de cámaras montadas en los tableros de los automóviles.
Después de este "entrenamiento", el modelo de IA generó hasta 25 cuadros en el futuro.
Los investigadores informan que los evaluadores prefirieron las “predicciones” el 90,2%, 98,7% y 99,3% de las veces, respectivamente, a los tres tipos de vídeos: interacciones de objetos, movimiento. estructurado y tareas de observabilidad parcial, respectivamente.
Cualitativamente, el equipo señala que la IA representaba claramente armas y piernas humanas se hace "Predicciones muy precisas que parecían realistas en comparación con las escenas representadas en el video" .
"Hemos descubierto que maximizar la capacidad de tales modelos mejora la calidad de la predicción de video", los coautores escriben. Esperamos que nuestro trabajo aliente al campo a avanzar en direcciones similares en el futuro. Por ejemplo para ver hasta dónde podemos llegar ”.