Los algoritmos de inteligencia artificial y aprendizaje automático están mejorando para predecir acciones en videos.
El mejor de los algoritmos actuales puede predecir con bastante precisión a dónde irá una pelota de béisbol después de haber sido lanzada, o la aparición de un camino en la secuencia por venir. ¿En otras palabras? Predicción de cuadros en el futuro de una película.
Un nuevo enfoque propuesto por investigadores de Google, la Universidad de Michigan y Adobe avanza el estado del arte con modelos a gran escala que generan videos de alta calidad a partir de unos pocos fotogramas.
“Con este proyecto pretendemos obtener pronósticos de video precisos. Optimizaremos las capacidades de una red neuronal ", los investigadores escribieron en un documento que describe su trabajo.
El modelo de equipo
El modelo central del equipo se basa en una arquitectura estocástica de generación de video, con un componente que gestiona las predicciones de los marcos siguiendo los considerados.
El equipo entrenó y probó diferentes versiones del modelo por separado de los conjuntos de datos personalizados basados en tres categorías de pronóstico: interacciones entre objetos, movimiento estructurado y observabilidad parcial.
Para la primera tarea (interacciones con objetos) Los investigadores seleccionaron 256 clips de un bloque de videos que mostraban un brazo robótico mientras interactuaban con las toallas.
Para el segundo (movimiento estructurado) editaron clips de Human 3.6M, un bloque que contiene clips de humanos que realizan acciones como sentarse en una silla.
En cuanto a la tercera (actividad de observabilidad parcial), utilizó un conjunto de datos de conducción KITTI de código abierto recopilados de imágenes de cámaras montadas en los tableros del automóvil.
Después de este "entrenamiento", el modelo de IA generó hasta 25 cuadros en el futuro.
Los investigadores informan que los evaluadores prefirieron las "predicciones" el 90,2%, el 98,7% y el 99,3% del tiempo, respectivamente, a los tres tipos de vídeo: interacciones entre objetos, movimiento estructurado y tareas de observabilidad parcial. respectivamente.
Cualitativamente, el equipo observa que la IA ha representado de manera nítida brazos y piernas humanos y ha hecho "Predicciones muy precisas que parecían realistas en comparación con las escenas representadas en el video" .
"Hemos descubierto que maximizar la capacidad de tales modelos mejora la calidad de la predicción de video", los coautores escriben. Esperamos que nuestro trabajo aliente al campo a avanzar en direcciones similares en el futuro. Por ejemplo para ver hasta dónde podemos llegar ”.