Vol. 8, no. 10 | Simposio Argentino de Imágenes y Visión (SAIV 2022)

Vol. 8, no. 10 | Simposio Argentino de Imágenes y Visión (SAIV 2022) http://sedici.unlp.edu.ar:80/handle/10915/151598 2025-06-07T13:44:49Z 2025-06-07T13:44:49Z Manipulación de expresiones faciales vía espacio latente de Red Generativa Antagónica (GAN) Aranda, Daiana Goria, Julieta Sandalinas, Francisco Suffern, Mateo Negri, Pablo http://sedici.unlp.edu.ar:80/handle/10915/151743 2023-04-20T13:21:35Z 2022-01-01T00:00:00Z

Objeto de conferencia Simposio Argentino de Imágenes y Visión (SAIV 2022) - JAIIO 51 (Modalidad virtual y presencial (UAI), octubre 2022) StyleGAN destaca como la arquitectura de vanguardia en generación de rostros sintéticos altamente realistas. Su implementación proyecta una imagen en su espacio latente, el cual es posible de manipular por medio de curvas direccionales modificando rasgos de la imagen original. Sin embargo, su alta dimensionalidad provoca que la búsqueda manual de una direccionalidad que produzca un rasgo o gesto dado resulte impracticable. Este trabajo propone una arquitectura neuronal de tipo pseudo-autoencoder que manipula la proyección latente alternando la apariencia del rostro. Esto se realiza gracias a la codificación del gesto facial con los vectores de Action Units. Se consiguió una dinámica de expresiones que permite la transición de un gesto a otro sin necesidad de pasar por el neutral, mejorando la naturalidad de la dinámica gestual.

2022-01-01T00:00:00Z StyleGAN destaca como la arquitectura de vanguardia en generación de rostros sintéticos altamente realistas. Su implementación proyecta una imagen en su espacio latente, el cual es posible de manipular por medio de curvas direccionales modificando rasgos de la imagen original. Sin embargo, su alta dimensionalidad provoca que la búsqueda manual de una direccionalidad que produzca un rasgo o gesto dado resulte impracticable. Este trabajo propone una arquitectura neuronal de tipo pseudo-autoencoder que manipula la proyección latente alternando la apariencia del rostro. Esto se realiza gracias a la codificación del gesto facial con los vectores de Action Units. Se consiguió una dinámica de expresiones que permite la transición de un gesto a otro sin necesidad de pasar por el neutral, mejorando la naturalidad de la dinámica gestual. Reconocimiento de expresiones faciales con redes profundas livianas usando Label Distribution Learning y el espacio de Action Units Mastropasqua, Nicolás Acevedo, Daniel http://sedici.unlp.edu.ar:80/handle/10915/151742 2023-04-20T13:21:44Z 2022-01-01T00:00:00Z

Objeto de conferencia Simposio Argentino de Imágenes y Visión (SAIV 2022) - JAIIO 51 (Modalidad virtual y presencial (UAI), octubre 2022) En este trabajo nos enfocamos en el problema de Facial Expression Recognition (FER) y analizamos el uso de Label Distribution Learning en un modelo de Deep Learning liviano. Hoy en día, la búsqueda de soluciones ‘lightweight’ que logren resultados comparables a modelos de deep learning más robustos ha recibido particular atención debido a su implementación factible en dispositivos móviles. Además, considerandoque la mayoría de los datasets de expresiones faciales suelen venir anotados con emociones categóricas cuando en realidad la mayoría delas expresiones exhibidas en escenarios ‘in the wild’ ocurren como combinaciones o composición de emociones básicas, hacemos uso de LabelDistibution Learning (LDL) como estrategia para el entrenamiento. Asumimos también que las imágenes de expresiones faciales deberían tener una distribución de emoción similar a su vecindad en el espacio de etiquetas de Action Units. Esta información asociada a la distribución delos vecinos es capturada en la función de perdida para guiar el entrenamiento en LDL y así lograr mejorar los resultados de accuracy sobre el dataset RAFDB.

2022-01-01T00:00:00Z En este trabajo nos enfocamos en el problema de Facial Expression Recognition (FER) y analizamos el uso de Label Distribution Learning en un modelo de Deep Learning liviano. Hoy en día, la búsqueda de soluciones ‘lightweight’ que logren resultados comparables a modelos de deep learning más robustos ha recibido particular atención debido a su implementación factible en dispositivos móviles. Además, considerandoque la mayoría de los datasets de expresiones faciales suelen venir anotados con emociones categóricas cuando en realidad la mayoría delas expresiones exhibidas en escenarios ‘in the wild’ ocurren como combinaciones o composición de emociones básicas, hacemos uso de LabelDistibution Learning (LDL) como estrategia para el entrenamiento. Asumimos también que las imágenes de expresiones faciales deberían tener una distribución de emoción similar a su vecindad en el espacio de etiquetas de Action Units. Esta información asociada a la distribución delos vecinos es capturada en la función de perdida para guiar el entrenamiento en LDL y así lograr mejorar los resultados de accuracy sobre el dataset RAFDB. Aprendizaje profundo en la detección y seguimiento de calidad en granjas avícolas de postura Juiz, Martín Ariel Buemi, María Elena http://sedici.unlp.edu.ar:80/handle/10915/151739 2023-04-20T13:21:59Z 2022-01-01T00:00:00Z

Objeto de conferencia Simposio Argentino de Imágenes y Visión (SAIV 2022) - JAIIO 51 (Modalidad virtual y presencial (UAI), octubre 2022) En las granjas medianas y pequeñas de nuestro país, la selección y separación de los huevos sucios o rotos se realiza de manera manual. A menudo, la estación de control de calidad se sitúa en un punto en la cadena de producción donde convergen cintas transportadoras de huevos provenientes de distintos galpones de postura lo que hace difícil conocer información relevante sobre la calidad y procedencia del huevo.En los últimos años la industria avícola y el ámbito académico han incursionado en la utilización de técnicas de Aprendizaje profundo para lidiarcon este problema. Este trabajo presenta avances preliminares de la aplicación de dos algoritmos de machine learning: YOLO y Deep SORT a videos capturados en las cintas transportadoras que constituyen un data set de elaboración propia. Se identifican ajustes relevantes sobre el hiperparámetro IoU, que permiten eliminar bounding boxes incorrectas.

2022-01-01T00:00:00Z En las granjas medianas y pequeñas de nuestro país, la selección y separación de los huevos sucios o rotos se realiza de manera manual. A menudo, la estación de control de calidad se sitúa en un punto en la cadena de producción donde convergen cintas transportadoras de huevos provenientes de distintos galpones de postura lo que hace difícil conocer información relevante sobre la calidad y procedencia del huevo.En los últimos años la industria avícola y el ámbito académico han incursionado en la utilización de técnicas de Aprendizaje profundo para lidiarcon este problema. Este trabajo presenta avances preliminares de la aplicación de dos algoritmos de machine learning: YOLO y Deep SORT a videos capturados en las cintas transportadoras que constituyen un data set de elaboración propia. Se identifican ajustes relevantes sobre el hiperparámetro IoU, que permiten eliminar bounding boxes incorrectas. Análisis transporte urbano con cámaras PTZ y omnidireccionales Guimaraynz, Hernán Oliva, Damián http://sedici.unlp.edu.ar:80/handle/10915/151738 2023-04-20T13:22:13Z 2022-01-01T00:00:00Z

Objeto de conferencia Simposio Argentino de Imágenes y Visión (SAIV 2022) - JAIIO 51 (Modalidad virtual y presencial (UAI), octubre 2022) El objetivo de este trabajo es dar a conocer un conjunto de desarrollos que nuestro grupo ha realizado en los últimos años parala geo-localización, detección, clasificación y estimación de velocidad devehículos; a partir de imágenes adquiridas con cámaras Pan-Tilt-Zoom(PTZ) y con cámaras omnidireccionales (tipo Fisheye).El uso de cámaras omnidireccionales en entornos urbanos es innovador,permitiendo analizar el movimiento simultáneo de muchos vehículos enáreas amplias. La utilización de cámaras omnidireccionales también reducelos costos y las complicaciones asociadas con la infraestructura,la instalación, la sincronización, el mantenimiento y el funcionamientode los sistemas de visión tradicionales (ya que estos deben utilizar numerosas cámaras con un campo de visión reducido).Para poder geo-localizar y estimar la velocidad de los vehículos de formaeficiente con la infraestructura existente, es necesario desarrollar algoritmos basados en visión monocular que utilizan la restricción de que los objetos de interés (por ejemplo, vehículos y peatones) se mueven sobrela superficie terrestre.

2022-01-01T00:00:00Z El objetivo de este trabajo es dar a conocer un conjunto de desarrollos que nuestro grupo ha realizado en los últimos años parala geo-localización, detección, clasificación y estimación de velocidad devehículos; a partir de imágenes adquiridas con cámaras Pan-Tilt-Zoom(PTZ) y con cámaras omnidireccionales (tipo Fisheye).El uso de cámaras omnidireccionales en entornos urbanos es innovador,permitiendo analizar el movimiento simultáneo de muchos vehículos enáreas amplias. La utilización de cámaras omnidireccionales también reducelos costos y las complicaciones asociadas con la infraestructura,la instalación, la sincronización, el mantenimiento y el funcionamientode los sistemas de visión tradicionales (ya que estos deben utilizar numerosas cámaras con un campo de visión reducido).Para poder geo-localizar y estimar la velocidad de los vehículos de formaeficiente con la infraestructura existente, es necesario desarrollar algoritmos basados en visión monocular que utilizan la restricción de que los objetos de interés (por ejemplo, vehículos y peatones) se mueven sobrela superficie terrestre. Extracción de características de imagen para recuperación 3D Guerrero, M. Santos, J. M. Gambini, J. http://sedici.unlp.edu.ar:80/handle/10915/151737 2023-04-20T13:22:26Z 2022-01-01T00:00:00Z

Objeto de conferencia Simposio Argentino de Imágenes y Visión (SAIV 2022) - JAIIO 51 (Modalidad virtual y presencial (UAI), octubre 2022) La reconstrucción 3D a partir de imágenes 2D es un desafíıo en el campo de imágenes y visión, con múltiples aplicaciones en áreasmuy diversas. Algunos métodos se basan en marcadores, los cuales son puntos estratégicamente ubicados en el objeto de interés o sobre el trajede un ser humano, diseñado para este propósito. A diferencia de estos métodos, este trabajo se enfoca en encontrar caracteríısticas en imágenes2D las cuales pueden ser utilizadas como marcadores, permitiendo la reconstrucción 3D automáticamente. Utilizamos el método SIFT (ScaleInvariant Feature Transform) para asociar puntos característicos en imágenes de la misma escena provenientes de diferentes puntos de vista. Nos encontramos mejorando el proceso por medio del reconocimiento de skeletons. El objetivo de este trabajo es que los puntos encontrados seutilicen para estimar estructuras 3D. Los resultados obtenidos hasta el momento son alentadores.

2022-01-01T00:00:00Z La reconstrucción 3D a partir de imágenes 2D es un desafíıo en el campo de imágenes y visión, con múltiples aplicaciones en áreasmuy diversas. Algunos métodos se basan en marcadores, los cuales son puntos estratégicamente ubicados en el objeto de interés o sobre el trajede un ser humano, diseñado para este propósito. A diferencia de estos métodos, este trabajo se enfoca en encontrar caracteríısticas en imágenes2D las cuales pueden ser utilizadas como marcadores, permitiendo la reconstrucción 3D automáticamente. Utilizamos el método SIFT (ScaleInvariant Feature Transform) para asociar puntos característicos en imágenes de la misma escena provenientes de diferentes puntos de vista. Nos encontramos mejorando el proceso por medio del reconocimiento de skeletons. El objetivo de este trabajo es que los puntos encontrados seutilicen para estimar estructuras 3D. Los resultados obtenidos hasta el momento son alentadores. Implementación de una red neuronal para la segmentación automática del glioblastoma multiforme Mulet de los Reyes, Alexander Lord, Victoria Hyde Buemi, María Elena Gandía, Daniel Noriega Alemán, Maikel Suárez, Cecilia http://sedici.unlp.edu.ar:80/handle/10915/151736 2023-04-20T13:23:13Z 2022-01-01T00:00:00Z

Objeto de conferencia Simposio Argentino de Imágenes y Visión (SAIV 2022) - JAIIO 51 (Modalidad virtual y presencial (UAI), octubre 2022) El glioblastoma multiforme es el tumor cerebral primario más agresivo y de peor pronóstico en adultos. En la actualidad la segmentación automática de este tipo de tumor está siendo ampliamente estudiada.En este trabajo se utilizaron imágenes de resonancia magnética a las que se les realizó una primera segmentación del tumor completo y del tumor activo por métodos clásicos de procesamiento de imágenes. Para lograr una óptima segmentación de las zonas más complejas de edema y necrosis se utilizó una red neuronal del tipo Perceptrón multicapa con una capa oculta. La red se entrenó con 30 características seleccionadas, aportando una salida que clasica cada pixel como tumor activo, edema, necrosis o tejido sano. La exactitud de esta clasicación resultó ser del 88%, mientras que las curvas ROC presentaron áreas cercanas a la unidad. Finalmente, el algoritmo completo logró coeficientes. Dice al nivel de los mejores obtenidos en la actualidad por técnicas más complejas.

2022-01-01T00:00:00Z El glioblastoma multiforme es el tumor cerebral primario más agresivo y de peor pronóstico en adultos. En la actualidad la segmentación automática de este tipo de tumor está siendo ampliamente estudiada.En este trabajo se utilizaron imágenes de resonancia magnética a las que se les realizó una primera segmentación del tumor completo y del tumor activo por métodos clásicos de procesamiento de imágenes. Para lograr una óptima segmentación de las zonas más complejas de edema y necrosis se utilizó una red neuronal del tipo Perceptrón multicapa con una capa oculta. La red se entrenó con 30 características seleccionadas, aportando una salida que clasica cada pixel como tumor activo, edema, necrosis o tejido sano. La exactitud de esta clasicación resultó ser del 88%, mientras que las curvas ROC presentaron áreas cercanas a la unidad. Finalmente, el algoritmo completo logró coeficientes. Dice al nivel de los mejores obtenidos en la actualidad por técnicas más complejas. Exploring modulated detection transformer as a tool for action recognition in videos Crisol, Tomás Ermantraut, Joel Rostagno, Adrián Aggio, Santiago L. Iparraguirre, Javier http://sedici.unlp.edu.ar:80/handle/10915/151735 2023-04-19T20:05:33Z 2022-01-01T00:00:00Z

Objeto de conferencia Simposio Argentino de Imágenes y Visión (SAIV 2022) - JAIIO 51 (Modalidad virtual y presencial (UAI), octubre 2022) During recent years transformers architectures have been growing in popularity. Modulated Detection Transformer (MDETR) is an end-to-endmulti-modal understanding model that performs tasks such as phase grounding, referring expression comprehension, referring expression segmentation, andvisual question answering. One remarkable aspect of the model is the capacity to infer over classes that it was not previously trained for. In this work we explore the use of MDETR in a new task, action detection, without any previous training. We obtain quantitative results using the Atomic Visual Actions dataset.Although the model does not report the best performance in the task, we believe that it is an interesting finding. We show that it is possible to use a multi-modal model to tackle a task that it was not designed for. Finally, we believe that this line of research may lead into the generalization of MDETR in additionaldownstream tasks.

2022-01-01T00:00:00Z During recent years transformers architectures have been growing in popularity. Modulated Detection Transformer (MDETR) is an end-to-endmulti-modal understanding model that performs tasks such as phase grounding, referring expression comprehension, referring expression segmentation, andvisual question answering. One remarkable aspect of the model is the capacity to infer over classes that it was not previously trained for. In this work we explore the use of MDETR in a new task, action detection, without any previous training. We obtain quantitative results using the Atomic Visual Actions dataset.Although the model does not report the best performance in the task, we believe that it is an interesting finding. We show that it is possible to use a multi-modal model to tackle a task that it was not designed for. Finally, we believe that this line of research may lead into the generalization of MDETR in additionaldownstream tasks.