<?xml version="1.0" encoding="UTF-8"?>
<feed xmlns="http://www.w3.org/2005/Atom" xmlns:dc="http://purl.org/dc/elements/1.1/">
<title>Vol. 8, no. 10 | Simposio Argentino de Imágenes y Visión (SAIV 2022)</title>
<link href="http://sedici.unlp.edu.ar:80/handle/10915/151598" rel="alternate"/>
<subtitle/>
<id>http://sedici.unlp.edu.ar:80/handle/10915/151598</id>
<updated>2026-06-14T19:34:19Z</updated>
<dc:date>2026-06-14T19:34:19Z</dc:date>
<entry>
<title>Manipulación de expresiones faciales vía espacio latente de Red Generativa Antagónica (GAN)</title>
<link href="http://sedici.unlp.edu.ar:80/handle/10915/151743" rel="alternate"/>
<author>
<name>Aranda, Daiana</name>
</author>
<author>
<name>Goria, Julieta</name>
</author>
<author>
<name>Sandalinas, Francisco</name>
</author>
<author>
<name>Suffern, Mateo</name>
</author>
<author>
<name>Negri, Pablo</name>
</author>
<id>http://sedici.unlp.edu.ar:80/handle/10915/151743</id>
<updated>2023-04-20T13:21:35Z</updated>
<published>2022-01-01T00:00:00Z</published>
<summary type="text">Objeto de conferencia
Simposio Argentino de Imágenes y Visión (SAIV 2022) - JAIIO 51 (Modalidad virtual y presencial (UAI), octubre 2022)
StyleGAN destaca como la arquitectura de vanguardia en generación de rostros sintéticos altamente realistas. Su implementación proyecta una imagen en su espacio latente, el cual es posible de manipular por medio de curvas direccionales modificando rasgos de la imagen original. Sin embargo, su alta dimensionalidad provoca que la búsqueda manual de una direccionalidad que produzca un rasgo o gesto dado resulte impracticable. Este trabajo propone una arquitectura neuronal de tipo pseudo-autoencoder que manipula la proyección latente alternando la apariencia del rostro. Esto se realiza gracias a la codificación del gesto facial con los vectores de Action Units. Se consiguió una dinámica de expresiones que permite la transición de un gesto a otro sin necesidad de pasar por el neutral, mejorando la naturalidad de la dinámica gestual.
</summary>
<dc:date>2022-01-01T00:00:00Z</dc:date>
<dc:description>StyleGAN destaca como la arquitectura de vanguardia en generación de rostros sintéticos altamente realistas. Su implementación proyecta una imagen en su espacio latente, el cual es posible de manipular por medio de curvas direccionales modificando rasgos de la imagen original. Sin embargo, su alta dimensionalidad provoca que la búsqueda manual de una direccionalidad que produzca un rasgo o gesto dado resulte impracticable. Este trabajo propone una arquitectura neuronal de tipo pseudo-autoencoder que manipula la proyección latente alternando la apariencia del rostro. Esto se realiza gracias a la codificación del gesto facial con los vectores de Action Units. Se consiguió una dinámica de expresiones que permite la transición de un gesto a otro sin necesidad de pasar por el neutral, mejorando la naturalidad de la dinámica gestual.</dc:description>
</entry>
<entry>
<title>Reconocimiento de expresiones faciales con redes profundas livianas usando Label Distribution Learning y el espacio de Action Units</title>
<link href="http://sedici.unlp.edu.ar:80/handle/10915/151742" rel="alternate"/>
<author>
<name>Mastropasqua, Nicolás</name>
</author>
<author>
<name>Acevedo, Daniel</name>
</author>
<id>http://sedici.unlp.edu.ar:80/handle/10915/151742</id>
<updated>2023-04-20T13:21:44Z</updated>
<published>2022-01-01T00:00:00Z</published>
<summary type="text">Objeto de conferencia
Simposio Argentino de Imágenes y Visión (SAIV 2022) - JAIIO 51 (Modalidad virtual y presencial (UAI), octubre 2022)
En este trabajo nos enfocamos en el problema de Facial Expression Recognition (FER) y analizamos el uso de Label Distribution Learning en un modelo de Deep Learning liviano. Hoy en día, la búsqueda de soluciones ‘lightweight’ que logren resultados comparables a modelos de deep learning más robustos ha recibido particular atención debido a su implementación factible en dispositivos móviles. Además, considerandoque la mayoría de los datasets de expresiones faciales suelen venir anotados con emociones categóricas cuando en realidad la mayoría delas expresiones exhibidas en escenarios ‘in the wild’ ocurren como combinaciones o composición de emociones básicas, hacemos uso de LabelDistibution Learning (LDL) como estrategia para el entrenamiento. Asumimos también que las imágenes de expresiones faciales deberían tener una distribución de emoción similar a su vecindad en el espacio de etiquetas de Action Units. Esta información asociada a la distribución delos vecinos es capturada en la función de perdida para guiar el  entrenamiento en LDL y así lograr mejorar los resultados de accuracy sobre el dataset RAFDB.
</summary>
<dc:date>2022-01-01T00:00:00Z</dc:date>
<dc:description>En este trabajo nos enfocamos en el problema de Facial Expression Recognition (FER) y analizamos el uso de Label Distribution Learning en un modelo de Deep Learning liviano. Hoy en día, la búsqueda de soluciones ‘lightweight’ que logren resultados comparables a modelos de deep learning más robustos ha recibido particular atención debido a su implementación factible en dispositivos móviles. Además, considerandoque la mayoría de los datasets de expresiones faciales suelen venir anotados con emociones categóricas cuando en realidad la mayoría delas expresiones exhibidas en escenarios ‘in the wild’ ocurren como combinaciones o composición de emociones básicas, hacemos uso de LabelDistibution Learning (LDL) como estrategia para el entrenamiento. Asumimos también que las imágenes de expresiones faciales deberían tener una distribución de emoción similar a su vecindad en el espacio de etiquetas de Action Units. Esta información asociada a la distribución delos vecinos es capturada en la función de perdida para guiar el  entrenamiento en LDL y así lograr mejorar los resultados de accuracy sobre el dataset RAFDB.</dc:description>
</entry>
<entry>
<title>Aprendizaje profundo en la detección y seguimiento de calidad en granjas avícolas de postura</title>
<link href="http://sedici.unlp.edu.ar:80/handle/10915/151739" rel="alternate"/>
<author>
<name>Juiz, Martín Ariel</name>
</author>
<author>
<name>Buemi, María Elena</name>
</author>
<id>http://sedici.unlp.edu.ar:80/handle/10915/151739</id>
<updated>2023-04-20T13:21:59Z</updated>
<published>2022-01-01T00:00:00Z</published>
<summary type="text">Objeto de conferencia
Simposio Argentino de Imágenes y Visión (SAIV 2022) - JAIIO 51 (Modalidad virtual y presencial (UAI), octubre 2022)
En las granjas medianas y pequeñas de nuestro país, la selección y separación de los huevos sucios o rotos se realiza de manera manual. A menudo, la estación de control de calidad se sitúa en un punto en la cadena de producción donde convergen cintas transportadoras de huevos provenientes de distintos galpones de postura lo que hace difícil conocer información relevante sobre la calidad y procedencia del huevo.En los últimos años la industria avícola y el ámbito académico han incursionado en la utilización de técnicas de Aprendizaje profundo para lidiarcon este problema. Este trabajo presenta avances preliminares de la aplicación de dos algoritmos de machine learning: YOLO y Deep SORT a videos capturados en las cintas transportadoras que constituyen un data set de elaboración propia. Se identifican ajustes relevantes sobre el hiperparámetro IoU, que permiten eliminar bounding boxes incorrectas.
</summary>
<dc:date>2022-01-01T00:00:00Z</dc:date>
<dc:description>En las granjas medianas y pequeñas de nuestro país, la selección y separación de los huevos sucios o rotos se realiza de manera manual. A menudo, la estación de control de calidad se sitúa en un punto en la cadena de producción donde convergen cintas transportadoras de huevos provenientes de distintos galpones de postura lo que hace difícil conocer información relevante sobre la calidad y procedencia del huevo.En los últimos años la industria avícola y el ámbito académico han incursionado en la utilización de técnicas de Aprendizaje profundo para lidiarcon este problema. Este trabajo presenta avances preliminares de la aplicación de dos algoritmos de machine learning: YOLO y Deep SORT a videos capturados en las cintas transportadoras que constituyen un data set de elaboración propia. Se identifican ajustes relevantes sobre el hiperparámetro IoU, que permiten eliminar bounding boxes incorrectas.</dc:description>
</entry>
<entry>
<title>Análisis transporte urbano con cámaras PTZ y omnidireccionales</title>
<link href="http://sedici.unlp.edu.ar:80/handle/10915/151738" rel="alternate"/>
<author>
<name>Guimaraynz, Hernán</name>
</author>
<author>
<name>Oliva, Damián</name>
</author>
<id>http://sedici.unlp.edu.ar:80/handle/10915/151738</id>
<updated>2023-04-20T13:22:13Z</updated>
<published>2022-01-01T00:00:00Z</published>
<summary type="text">Objeto de conferencia
Simposio Argentino de Imágenes y Visión (SAIV 2022) - JAIIO 51 (Modalidad virtual y presencial (UAI), octubre 2022)
El objetivo de este trabajo es dar a conocer un conjunto de desarrollos que nuestro grupo ha realizado en los últimos años parala geo-localización, detección, clasificación y estimación de velocidad devehículos; a partir de imágenes adquiridas con cámaras Pan-Tilt-Zoom(PTZ) y con cámaras omnidireccionales (tipo Fisheye).El uso de cámaras omnidireccionales en entornos urbanos es innovador,permitiendo analizar el movimiento simultáneo de muchos vehículos enáreas amplias. La utilización de cámaras omnidireccionales también reducelos costos y las complicaciones asociadas con la infraestructura,la instalación, la sincronización, el mantenimiento y el funcionamientode los sistemas de visión tradicionales (ya que estos deben utilizar numerosas cámaras con un campo de visión reducido).Para poder geo-localizar y estimar la velocidad de los vehículos de formaeficiente con la infraestructura existente, es necesario desarrollar algoritmos basados en visión monocular que utilizan la restricción de que los objetos de interés (por ejemplo, vehículos y peatones) se mueven sobrela superficie terrestre.
</summary>
<dc:date>2022-01-01T00:00:00Z</dc:date>
<dc:description>El objetivo de este trabajo es dar a conocer un conjunto de desarrollos que nuestro grupo ha realizado en los últimos años parala geo-localización, detección, clasificación y estimación de velocidad devehículos; a partir de imágenes adquiridas con cámaras Pan-Tilt-Zoom(PTZ) y con cámaras omnidireccionales (tipo Fisheye).El uso de cámaras omnidireccionales en entornos urbanos es innovador,permitiendo analizar el movimiento simultáneo de muchos vehículos enáreas amplias. La utilización de cámaras omnidireccionales también reducelos costos y las complicaciones asociadas con la infraestructura,la instalación, la sincronización, el mantenimiento y el funcionamientode los sistemas de visión tradicionales (ya que estos deben utilizar numerosas cámaras con un campo de visión reducido).Para poder geo-localizar y estimar la velocidad de los vehículos de formaeficiente con la infraestructura existente, es necesario desarrollar algoritmos basados en visión monocular que utilizan la restricción de que los objetos de interés (por ejemplo, vehículos y peatones) se mueven sobrela superficie terrestre.</dc:description>
</entry>
<entry>
<title>Extracción de características de imagen para recuperación 3D</title>
<link href="http://sedici.unlp.edu.ar:80/handle/10915/151737" rel="alternate"/>
<author>
<name>Guerrero, M.</name>
</author>
<author>
<name>Santos, J. M.</name>
</author>
<author>
<name>Gambini, J.</name>
</author>
<id>http://sedici.unlp.edu.ar:80/handle/10915/151737</id>
<updated>2023-04-20T13:22:26Z</updated>
<published>2022-01-01T00:00:00Z</published>
<summary type="text">Objeto de conferencia
Simposio Argentino de Imágenes y Visión (SAIV 2022) - JAIIO 51 (Modalidad virtual y presencial (UAI), octubre 2022)
La reconstrucción 3D a partir de imágenes 2D es un desafíıo en el campo de imágenes y visión, con múltiples aplicaciones en áreasmuy diversas. Algunos métodos se basan en marcadores, los cuales son puntos estratégicamente ubicados en el objeto de interés o sobre el trajede un ser humano, diseñado para este propósito. A diferencia de estos métodos, este trabajo se enfoca en encontrar caracteríısticas en imágenes2D las cuales pueden ser utilizadas como marcadores, permitiendo la reconstrucción 3D automáticamente. Utilizamos el método SIFT (ScaleInvariant Feature Transform) para asociar puntos característicos en imágenes de la misma escena provenientes de diferentes puntos de vista. Nos encontramos mejorando el proceso por medio del reconocimiento de skeletons. El objetivo de este trabajo es que los puntos encontrados seutilicen para estimar estructuras 3D. Los resultados obtenidos hasta el momento son alentadores.
</summary>
<dc:date>2022-01-01T00:00:00Z</dc:date>
<dc:description>La reconstrucción 3D a partir de imágenes 2D es un desafíıo en el campo de imágenes y visión, con múltiples aplicaciones en áreasmuy diversas. Algunos métodos se basan en marcadores, los cuales son puntos estratégicamente ubicados en el objeto de interés o sobre el trajede un ser humano, diseñado para este propósito. A diferencia de estos métodos, este trabajo se enfoca en encontrar caracteríısticas en imágenes2D las cuales pueden ser utilizadas como marcadores, permitiendo la reconstrucción 3D automáticamente. Utilizamos el método SIFT (ScaleInvariant Feature Transform) para asociar puntos característicos en imágenes de la misma escena provenientes de diferentes puntos de vista. Nos encontramos mejorando el proceso por medio del reconocimiento de skeletons. El objetivo de este trabajo es que los puntos encontrados seutilicen para estimar estructuras 3D. Los resultados obtenidos hasta el momento son alentadores.</dc:description>
</entry>
<entry>
<title>Implementación de una red neuronal para la segmentación automática del glioblastoma multiforme</title>
<link href="http://sedici.unlp.edu.ar:80/handle/10915/151736" rel="alternate"/>
<author>
<name>Mulet de los Reyes, Alexander</name>
</author>
<author>
<name>Lord, Victoria Hyde</name>
</author>
<author>
<name>Buemi, María Elena</name>
</author>
<author>
<name>Gandía, Daniel</name>
</author>
<author>
<name>Noriega Alemán, Maikel</name>
</author>
<author>
<name>Suárez, Cecilia</name>
</author>
<id>http://sedici.unlp.edu.ar:80/handle/10915/151736</id>
<updated>2023-04-20T13:23:13Z</updated>
<published>2022-01-01T00:00:00Z</published>
<summary type="text">Objeto de conferencia
Simposio Argentino de Imágenes y Visión (SAIV 2022) - JAIIO 51 (Modalidad virtual y presencial (UAI), octubre 2022)
El glioblastoma multiforme es el tumor cerebral primario más agresivo y de peor pronóstico en adultos. En la actualidad la segmentación automática de este tipo de tumor está siendo ampliamente estudiada.En este trabajo se utilizaron imágenes de resonancia magnética a las que se les realizó una primera segmentación del tumor completo y del tumor activo por métodos clásicos de procesamiento de imágenes. Para lograr una óptima segmentación de las zonas más complejas de edema y necrosis se utilizó una red neuronal del tipo Perceptrón multicapa con una capa oculta. La red se entrenó con 30 características seleccionadas, aportando una salida que clasica cada pixel como tumor activo, edema, necrosis o tejido sano. La exactitud de esta clasicación resultó ser del 88%, mientras que las curvas ROC presentaron áreas cercanas a la unidad. Finalmente, el algoritmo completo logró coeficientes. Dice al nivel de los mejores obtenidos en la actualidad por técnicas más complejas.
</summary>
<dc:date>2022-01-01T00:00:00Z</dc:date>
<dc:description>El glioblastoma multiforme es el tumor cerebral primario más agresivo y de peor pronóstico en adultos. En la actualidad la segmentación automática de este tipo de tumor está siendo ampliamente estudiada.En este trabajo se utilizaron imágenes de resonancia magnética a las que se les realizó una primera segmentación del tumor completo y del tumor activo por métodos clásicos de procesamiento de imágenes. Para lograr una óptima segmentación de las zonas más complejas de edema y necrosis se utilizó una red neuronal del tipo Perceptrón multicapa con una capa oculta. La red se entrenó con 30 características seleccionadas, aportando una salida que clasica cada pixel como tumor activo, edema, necrosis o tejido sano. La exactitud de esta clasicación resultó ser del 88%, mientras que las curvas ROC presentaron áreas cercanas a la unidad. Finalmente, el algoritmo completo logró coeficientes. Dice al nivel de los mejores obtenidos en la actualidad por técnicas más complejas.</dc:description>
</entry>
<entry>
<title>Exploring modulated detection transformer as a tool for action recognition in videos</title>
<link href="http://sedici.unlp.edu.ar:80/handle/10915/151735" rel="alternate"/>
<author>
<name>Crisol, Tomás</name>
</author>
<author>
<name>Ermantraut, Joel</name>
</author>
<author>
<name>Rostagno, Adrián</name>
</author>
<author>
<name>Aggio, Santiago L.</name>
</author>
<author>
<name>Iparraguirre, Javier</name>
</author>
<id>http://sedici.unlp.edu.ar:80/handle/10915/151735</id>
<updated>2023-04-19T20:05:33Z</updated>
<published>2022-01-01T00:00:00Z</published>
<summary type="text">Objeto de conferencia
Simposio Argentino de Imágenes y Visión (SAIV 2022) - JAIIO 51 (Modalidad virtual y presencial (UAI), octubre 2022)
During recent years transformers architectures have been growing in popularity. Modulated Detection Transformer (MDETR) is an end-to-endmulti-modal understanding model that performs tasks such as phase grounding, referring expression comprehension, referring expression segmentation, andvisual question answering. One remarkable aspect of the model is the capacity to infer over classes that it was not previously trained for. In this work we explore the use of MDETR in a new task, action detection, without any previous training. We obtain quantitative results using the Atomic Visual Actions dataset.Although the model does not report the best performance in the task, we believe that it is an interesting finding. We show that it is possible to use a multi-modal model to tackle a task that it was not designed for. Finally, we believe that this line of research may lead into the generalization of MDETR in additionaldownstream tasks.
</summary>
<dc:date>2022-01-01T00:00:00Z</dc:date>
<dc:description>During recent years transformers architectures have been growing in popularity. Modulated Detection Transformer (MDETR) is an end-to-endmulti-modal understanding model that performs tasks such as phase grounding, referring expression comprehension, referring expression segmentation, andvisual question answering. One remarkable aspect of the model is the capacity to infer over classes that it was not previously trained for. In this work we explore the use of MDETR in a new task, action detection, without any previous training. We obtain quantitative results using the Atomic Visual Actions dataset.Although the model does not report the best performance in the task, we believe that it is an interesting finding. We show that it is possible to use a multi-modal model to tackle a task that it was not designed for. Finally, we believe that this line of research may lead into the generalization of MDETR in additionaldownstream tasks.</dc:description>
</entry>
</feed>
