La inteligencia artificial y los algoritmos de aprendizaje automático que pueden leer los labios de los videos no son nada extraordinario, en realidad.
En 2016, investigadores de Google y la Universidad de Oxford detallaron un sistema que podía leer los labios y anotar películas con un 46,8% de precisión. ¿Te parece poco? Ya superó la precisión del 12,4% de un lector de labios humano profesional. Y todavía no había LIBS.
Sin embargo, el 46,8% no está a la altura de las capacidades que la inteligencia artificial puede mostrar hoy. Los sistemas de última generación luchan por superar las ambigüedades en los movimientos de los labios, que impiden que su rendimiento supere al del reconocimiento de voz basado en audio.
En busca de un sistema más eficiente, investigadores de Alibaba, la Universidad de Zhejiang y el Instituto de Tecnología Stevens idearon un método denominado Labio por discurso (LIBS), que utiliza características extraídas de los reconocimientos de voz para servir como pistas complementarias. El sistema eleva el listón en un 8% más y aún puede mejorar.
LIBS y otras soluciones similares pueden ayudar a las personas con discapacidad auditiva a seguir videos sin subtítulos. Se estima que 466 millones de personas en todo el mundo sufren de pérdida auditiva, lo que representa aproximadamente el 5% de la población mundial. Para el 2050, el número podría aumentar a más de 900 millones, según la Organización Mundial de la Salud.
El método AI para leer el labio
LIBS obtiene información de audio útil de varios factores: como un criptógrafo experto, la IA busca palabras comprensibles. En ese momento los compara con la correspondencia labial y va a buscar todos los lábiles similares. Pero no se detiene ahí: también compara la frecuencia de video de esos fotogramas, y otras pistas técnicas, afinando la búsqueda para leer el labio incluso en palabras incomprensibles para nuestro oído.
Si parece complicado, intente nuevamente, pero no prometo nada.
Cito de Documento de presentación de tecnología. “Tanto el reconocimiento de voz como los componentes del lector de labios LIBS se basan en una arquitectura de secuencia de secuencia basada en la atención, un método de traducción automática que asigna una entrada a una secuencia (audio o video)."
Los investigadores entrenaron a la inteligencia artificial en una primera base de datos que contiene más de 45.000 frases pronunciadas por la BBC y CMLR, el corpus chino más grande disponible para la lectura de labios en chino mandarín, con más de 100.000 frases naturales.
Los campos de aplicación no se limitan a ayudar a los sordos. La costumbre de atribuir un uso "socialmente noble" a cada tecnología nunca debe hacernos olvidar que el uso principal de estas tecnologías es en el sector militar o de seguridad.
Nadie ha pensado que este sistema puede hacer que la vigilancia de la seguridad sea aún más infalible y generalizada. sorprendentes nuevas cámaras de seguridado nuevos sistemas satelitales?
Con la IA ahora conviértase en un ojo omnisciente será una broma escuchar (o reconstruir) nuestros susurros incluso desde un satélite en órbita.