En los últimos años el procesamiento de texto, sonido, video y otras señales ha experimentado grandes progresos mediante el uso de una técnica de Aprendizaje Automático denominada Redes Neuronales Profundas o Aprendizaje Profundo (Deep Learning), que extiende los modelos previos de redes neuronales artificiales con arquitecturas y algoritmos de optimización que permiten entrenar redes de varias capas con grandes cantidades de datos de entrenamiento.
Como aplicación, en este plan se propone estudiar métodos para entender que sucede en una escena a partir de una imagen o video de la misma. Se hará énfasis en tres subproblemas: reconocer señas, acciones y gestos realizados por personas. Cada uno de estos problemas tiene sus particularidades, pero se encuentran estrechamente interrelacionados. El reconocimiento de señas busca convertir a texto un video donde una persona realiza señas en alguna lengua de señas existente, como la Lengua de Señas Argentina (LSA), con sus reglas particulares preestablecidas. En el reconocimiento de acciones, se busca entender y categorizar una acción arbitraria que realiza una persona . Por último, en el reconocimiento de gestos usualmente se busca reconocer un conjunto de gestos previamente establecidos y de uso particular para un dominio específico. Si bien en el último tiempo han habido avances en este área, impulsados principalmente por el desarrollo de nuevas tecnologías, aún queda un largo camino por recorrer para construir aplicaciones precisas y robustas que permitan, por ejemplo, la traducción e interpretación de las señas realizadas por un intérprete.