La inteligencia artificial y los algoritmos de aprendizaje automático que pueden leer los labios de los videos no son nada extraordinario, en realidad.
En 2016, investigadores de Google y la Universidad de Oxford detallaron un sistema que podía leer los labios y anotar películas con un 46,8 % de precisión. ¿Te parece poco? Ya superó el 12,4 % de precisión de un lector de labios humano profesional. Y todavía no había LIBS.
Sin embargo, el 46,8% no está a la altura de las capacidades que la inteligencia artificial puede mostrar en la actualidad. Los sistemas de última generación luchan por superar las ambigüedades en los movimientos de los labios, lo que impide que su rendimiento supere al del reconocimiento de voz basado en audio.
En busca de un sistema más eficiente, investigadores de Alibaba, la Universidad de Zhejiang y el Instituto de Tecnología Stevens idearon un método denominado Labio por discurso (LIBS), que utiliza características extraídas de los reconocimientos de voz para servir como pistas complementarias. El sistema sube el listón un 8% más y aún puede mejorar.
LIBS y otras soluciones similares pueden ayudar a las personas con discapacidad auditiva a seguir videos sin subtítulos. Se estima que 466 millones de personas en todo el mundo sufren pérdida de audición, lo que representa aproximadamente el 5% de la población mundial. Para 2050, el número podría aumentar a más de 900 millones, según la Organización Mundial de la Salud.

El método AI para leer el labio
LIBS obtiene información de audio útil a partir de varios factores: como un criptógrafo experto, la IA busca palabras comprensibles. En ese momento los compara con la correspondencia con el labio y va a buscar todos los similares lábiles. Pero no se queda ahí: también compara la frecuencia de vídeo de esos fotogramas, y otras pistas técnicas, afinando la búsqueda para leer el labio incluso en palabras incomprensibles para nuestro oído.
Si parece complicado, intente nuevamente, pero no prometo nada.
Cito de Documento de presentación de tecnología. "Tanto el reconocimiento de voz como los componentes del lector de labios LIBS se basan en una arquitectura de secuencia-secuencia basada en la atención, un método de traducción automática que asigna una entrada a una secuencia (audio o video)."
Los investigadores entrenaron a la IA en una primera base de datos que contenía más de 45.000 100.000 frases habladas por la BBC, y en CMLR, el corpus chino más grande disponible para la lectura de labios en chino mandarín, con más de XNUMX XNUMX frases naturales.
Los campos de aplicación no se limitan a la ayuda a los sordos. La costumbre de atribuir un uso "socialmente noble" a cada tecnología nunca debe hacernos olvidar que el principal uso de estas tecnologías se encuentra en el sector militar o de seguridad.
Nadie ha pensado que este sistema puede hacer que la vigilancia de la seguridad sea aún más infalible y generalizada. sorprendentes nuevas cámaras de seguridado nuevos sistemas satelitales?
Con la IA ahora conviértete en un ojo omnisciente será una broma escuchar (o reconstruir) nuestros susurros incluso desde un satélite en órbita.