<?xml version="1.0" encoding="UTF-8"?>
<feed xmlns="http://www.w3.org/2005/Atom" xmlns:dc="http://purl.org/dc/elements/1.1/">
<title>Vol. 9, no. 01 | Simposio Argentino de Ciencia de Datos y GRANdes DAtos (AGRANDA 2023)</title>
<link href="http://sedici.unlp.edu.ar:80/handle/10915/164485" rel="alternate"/>
<subtitle/>
<id>http://sedici.unlp.edu.ar:80/handle/10915/164485</id>
<updated>2026-04-10T13:27:38Z</updated>
<dc:date>2026-04-10T13:27:38Z</dc:date>
<entry>
<title>Cuantificando la organización social a través del procesamiento del lenguaje natural</title>
<link href="http://sedici.unlp.edu.ar:80/handle/10915/166478" rel="alternate"/>
<author>
<name>Demarco, Franco</name>
</author>
<author>
<name>Ortiz de Zarate, Juan Manuel</name>
</author>
<author>
<name>Feuerstein, Esteban</name>
</author>
<id>http://sedici.unlp.edu.ar:80/handle/10915/166478</id>
<updated>2024-05-28T20:04:19Z</updated>
<published>2023-01-01T00:00:00Z</published>
<summary type="text">Objeto de conferencia
Simposio Argentino de Ciencia de Datos y GRANdes DAtos (AGRANDA 2023) - JAIIO 52 (Universidad Nacional de Tres de Febrero, 4 al 8 de septiembre de 2023)
El debate sobre la integración y fragmentación social en las plataformas de redes sociales online sigue en curso. El desplazamiento de los usuarios hacia extremos ideológicos y agrupamiento en “cámaras de eco” homogéneas son preocupantes.&#13;
Waller et al. recientemente desarrollaron un método para cuantificar el posicionamiento de las comunidades en Reddit a lo largo de las dimensiones sociales en base a la concurrencia de usuarios en distintas comunidades. Utilizaron embeddings de comunidades para proyectarlas en direcciones unidimensionales que representan “dimensiones ideológicas”, obteniendo puntajes o scores que posicionan a cada comunidad en el espectro político-ideológico.&#13;
Proponemos desarrollar una técnica análoga pero utilizando el texto de los posteos y comentarios de los subreddits en lugar de las interacciones. La hipótesis es que las jergas, tópicos y formas discursivas de cada comunidad permiten cuantificar muchos de sus aspectos ideológicos de forma similar a sus interacciones. Utilizamos Fasttext y LLMspara estimar diferentes tipos de embeddings de texto y RBO para comparar los resultados obtenidos. Los resultados preliminares sugieren que existe una relación estadísticamente significativa entre los scores obtenidos y los reportados en el trabajo de Waller et al., lo que podría señalar la existencia de jergas propias de las comunidades que permiten cuantificar su posicionamiento ideológico.
</summary>
<dc:date>2023-01-01T00:00:00Z</dc:date>
<dc:description>El debate sobre la integración y fragmentación social en las plataformas de redes sociales online sigue en curso. El desplazamiento de los usuarios hacia extremos ideológicos y agrupamiento en “cámaras de eco” homogéneas son preocupantes.&#13;
Waller et al. recientemente desarrollaron un método para cuantificar el posicionamiento de las comunidades en Reddit a lo largo de las dimensiones sociales en base a la concurrencia de usuarios en distintas comunidades. Utilizaron embeddings de comunidades para proyectarlas en direcciones unidimensionales que representan “dimensiones ideológicas”, obteniendo puntajes o scores que posicionan a cada comunidad en el espectro político-ideológico.&#13;
Proponemos desarrollar una técnica análoga pero utilizando el texto de los posteos y comentarios de los subreddits en lugar de las interacciones. La hipótesis es que las jergas, tópicos y formas discursivas de cada comunidad permiten cuantificar muchos de sus aspectos ideológicos de forma similar a sus interacciones. Utilizamos Fasttext y LLMspara estimar diferentes tipos de embeddings de texto y RBO para comparar los resultados obtenidos. Los resultados preliminares sugieren que existe una relación estadísticamente significativa entre los scores obtenidos y los reportados en el trabajo de Waller et al., lo que podría señalar la existencia de jergas propias de las comunidades que permiten cuantificar su posicionamiento ideológico.</dc:description>
</entry>
<entry>
<title>Reúso de un modelo de aprendizaje profundo para reconocimiento de dígitos manuscritos</title>
<link href="http://sedici.unlp.edu.ar:80/handle/10915/165785" rel="alternate"/>
<author>
<name>Pacchiotti, Mauro José</name>
</author>
<author>
<name>Ballejos, Luciana</name>
</author>
<author>
<name>Ale, Mariel</name>
</author>
<id>http://sedici.unlp.edu.ar:80/handle/10915/165785</id>
<updated>2024-05-08T20:04:03Z</updated>
<published>2023-01-01T00:00:00Z</published>
<summary type="text">Objeto de conferencia
Reuse of a Deep Learning model for the recognition of handwritten digits
Simposio Argentino de Ciencia de Datos y GRANdes DAtos (AGRANDA 2023) - JAIIO 52 (Universidad Nacional de Tres de Febrero, 4 al 8 de septiembre de 2023)
Las técnicas de Aprendizaje Automático (AA) han avanzado significativamente en la solución de diversos problemas, lo que ha llevado a una amplia difusión en su uso y desarrollo. Actualmente existen distintos modelos que han alcanzado un alto nivel de desempeño, lo que plantea la duda de qué hacer cuando nos enfrentamos a un problema para el cual ya existe un modelo muy eficiente. Desde hace tiempo esta situación ha impulsado la investigación y el desarrollo de diferentes técnicas para reutilizar estos modelos, en lugar de emprender el diseño, implementación y entrenamiento de uno nuevo, con todo el esfuerzo que ello conlleva. En este trabajo se presenta un problema de clasificación y se propone la reutilización de una red neuronal convolucional con el objetivo de reconocer números manuscritos. Asimismo, se ha evaluado el desempeño del modelo reutilizado.; Machine Learning (ML) techniques have advanced significantly in the solution of various problems, which has led to a wide diffusion in its use and development. Currently there are different models that have reached a high level of performance, which raises the question of what to do when we take a problem for which there is already a very efficient model. This situation has long prompted research and development of different techniques to reuse these models, instead of undertaking the design, implementation, and training of a new one, with all the effort that this entails. In this paper, a classification problem is presented and the reuse of a convolutional neural network for the purpose of handwritten number recognition is proposed. The performance of the reused model has also been evaluated.
</summary>
<dc:date>2023-01-01T00:00:00Z</dc:date>
<dc:description>Las técnicas de Aprendizaje Automático (AA) han avanzado significativamente en la solución de diversos problemas, lo que ha llevado a una amplia difusión en su uso y desarrollo. Actualmente existen distintos modelos que han alcanzado un alto nivel de desempeño, lo que plantea la duda de qué hacer cuando nos enfrentamos a un problema para el cual ya existe un modelo muy eficiente. Desde hace tiempo esta situación ha impulsado la investigación y el desarrollo de diferentes técnicas para reutilizar estos modelos, en lugar de emprender el diseño, implementación y entrenamiento de uno nuevo, con todo el esfuerzo que ello conlleva. En este trabajo se presenta un problema de clasificación y se propone la reutilización de una red neuronal convolucional con el objetivo de reconocer números manuscritos. Asimismo, se ha evaluado el desempeño del modelo reutilizado.

Machine Learning (ML) techniques have advanced significantly in the solution of various problems, which has led to a wide diffusion in its use and development. Currently there are different models that have reached a high level of performance, which raises the question of what to do when we take a problem for which there is already a very efficient model. This situation has long prompted research and development of different techniques to reuse these models, instead of undertaking the design, implementation, and training of a new one, with all the effort that this entails. In this paper, a classification problem is presented and the reuse of a convolutional neural network for the purpose of handwritten number recognition is proposed. The performance of the reused model has also been evaluated.</dc:description>
</entry>
<entry>
<title>Identificación de diferencias y similitudes estructurales en las redes interindustriales de empleo de Argentina</title>
<link href="http://sedici.unlp.edu.ar:80/handle/10915/165779" rel="alternate"/>
<author>
<name>De Raco, Sergio Andrés</name>
</author>
<author>
<name>Semeshenko, Viktoriya</name>
</author>
<id>http://sedici.unlp.edu.ar:80/handle/10915/165779</id>
<updated>2024-05-08T20:04:07Z</updated>
<published>2023-01-01T00:00:00Z</published>
<summary type="text">Objeto de conferencia
Español
Simposio Argentino de Ciencia de Datos y GRANdes DAtos (AGRANDA 2023) - JAIIO 52 (Universidad Nacional de Tres de Febrero, 4 al 8 de septiembre de 2023)
La movilidad del empleo entre industrias refleja relaciones entre actividades económicas que se representan naturalmente como redes que resaltan las propiedades de conectividad entre sectores económicos. Los flujos de empleo varían en el tiempo tanto por factores coyunturales como estructurales. Usando registros administrativos de Argentina para el período 1996-2020, exploramos las redes interindustriales y caracterizamos sus estructuras y dinámicas a cuatro dígitos de clasificación de actividades CIIU. Analizamos las transiciones interanuales de empleo entre casi 300 actividades económicas y encontramos redes de elevada conectividad con propiedades de mundo pequeño, cuya estructura cambia en el tiempo. ¿Cuán distintas son las estructuras subyacentes de intercambios interindustriales de empleo? ¿Es posible caracterizar conexiones estables y cambios significativos a lo largo del tiempo? Aplicando métricas y mediciones de similitud estructural para cuantificar las diferencias en las redes interanuales encontramos que es posible identificar distintos regímenes de conectividad que correlacionan con períodos de cierta estabilidad macroeconómica, a la vez que se detectan períodos transicionales en los que estas estructuras van cambiando entre regímenes.; The inter-industrial employment mobility reflects relationships between economic activities are naturally represented as networks that highlight connectivity properties between economic sectors. Employment flows vary over time due to both temporary and structural factors. Using administrative records from Argentina for the period 1996-2020, we explore inter-industrial networks and characterize their structures and dynamics to four-digit ISIC classification of activities. We analyzed year-to-year employment transitions among almost 300 economic activities and found highly connected networks with small-world properties, whose structure changes over time. How different are the underlying structures of inter-industry employment exchanges? Is it possible to characterize stable connections and significant changes over time? Applying metrics and structural similarity measurements to quantify the differences in the interannual networks, we found that it is possible to identify different connectivity regimes that correlate with periods of certain macroeconomic stability, while transitional periods are detected in which these structures change between regimes.
</summary>
<dc:date>2023-01-01T00:00:00Z</dc:date>
<dc:description>La movilidad del empleo entre industrias refleja relaciones entre actividades económicas que se representan naturalmente como redes que resaltan las propiedades de conectividad entre sectores económicos. Los flujos de empleo varían en el tiempo tanto por factores coyunturales como estructurales. Usando registros administrativos de Argentina para el período 1996-2020, exploramos las redes interindustriales y caracterizamos sus estructuras y dinámicas a cuatro dígitos de clasificación de actividades CIIU. Analizamos las transiciones interanuales de empleo entre casi 300 actividades económicas y encontramos redes de elevada conectividad con propiedades de mundo pequeño, cuya estructura cambia en el tiempo. ¿Cuán distintas son las estructuras subyacentes de intercambios interindustriales de empleo? ¿Es posible caracterizar conexiones estables y cambios significativos a lo largo del tiempo? Aplicando métricas y mediciones de similitud estructural para cuantificar las diferencias en las redes interanuales encontramos que es posible identificar distintos regímenes de conectividad que correlacionan con períodos de cierta estabilidad macroeconómica, a la vez que se detectan períodos transicionales en los que estas estructuras van cambiando entre regímenes.

The inter-industrial employment mobility reflects relationships between economic activities are naturally represented as networks that highlight connectivity properties between economic sectors. Employment flows vary over time due to both temporary and structural factors. Using administrative records from Argentina for the period 1996-2020, we explore inter-industrial networks and characterize their structures and dynamics to four-digit ISIC classification of activities. We analyzed year-to-year employment transitions among almost 300 economic activities and found highly connected networks with small-world properties, whose structure changes over time. How different are the underlying structures of inter-industry employment exchanges? Is it possible to characterize stable connections and significant changes over time? Applying metrics and structural similarity measurements to quantify the differences in the interannual networks, we found that it is possible to identify different connectivity regimes that correlate with periods of certain macroeconomic stability, while transitional periods are detected in which these structures change between regimes.</dc:description>
</entry>
<entry>
<title>Characterizing community structures on social media over time: a graph learning approach</title>
<link href="http://sedici.unlp.edu.ar:80/handle/10915/165778" rel="alternate"/>
<author>
<name>Zolezzi, María Victoria</name>
</author>
<author>
<name>Albanese, Federico</name>
</author>
<author>
<name>Feuerstein, Esteban</name>
</author>
<id>http://sedici.unlp.edu.ar:80/handle/10915/165778</id>
<updated>2024-05-08T20:04:10Z</updated>
<published>2023-01-01T00:00:00Z</published>
<summary type="text">Resumen
Simposio Argentino de Ciencia de Datos y GRANdes DAtos (AGRANDA 2023) - JAIIO 52 (Universidad Nacional de Tres de Febrero, 4 al 8 de septiembre de 2023)
In an age where information is more accessible than ever, it’s easy to assume that people are becoming more informed and open-minded. In spite of that, people are increasingly finding themselves in echo chambers, surrounded by like-minded individuals and exposed mainly to content that reinforces their existing beliefs. There are, however, social media users that break with that pattern by changing the group of users they interact with over time.&#13;
In this study, we analyze the dynamics of interactions between users on Twitter and Reddit over extended periods, with the aim of identifying changes in community structures. We leverage the data available through these platforms’ APIs to construct user interaction graphs and use several methods to classify users into communities, including SBM, Infomap and Louvain, to classify users into communities. Additionally, we use NLP techniques such as Community Pooling, BERTopic and Perspective [8], as well as graph algorithms, to characterize different user profiles in online debates. Our research analyzes how social media communities and their users evolve over time, with implications for understanding online discourse and facilitating healthy interactions on these platforms.&#13;
As a first approach, we analyzed three months of Donald Trump’s tweets, finding clear signs of polarization. Regarding the user flow between communities, we found that most of the users who changed communities twice went back to their original one (∼ 96%).
</summary>
<dc:date>2023-01-01T00:00:00Z</dc:date>
<dc:description>In an age where information is more accessible than ever, it’s easy to assume that people are becoming more informed and open-minded. In spite of that, people are increasingly finding themselves in echo chambers, surrounded by like-minded individuals and exposed mainly to content that reinforces their existing beliefs. There are, however, social media users that break with that pattern by changing the group of users they interact with over time.&#13;
In this study, we analyze the dynamics of interactions between users on Twitter and Reddit over extended periods, with the aim of identifying changes in community structures. We leverage the data available through these platforms’ APIs to construct user interaction graphs and use several methods to classify users into communities, including SBM, Infomap and Louvain, to classify users into communities. Additionally, we use NLP techniques such as Community Pooling, BERTopic and Perspective [8], as well as graph algorithms, to characterize different user profiles in online debates. Our research analyzes how social media communities and their users evolve over time, with implications for understanding online discourse and facilitating healthy interactions on these platforms.&#13;
As a first approach, we analyzed three months of Donald Trump’s tweets, finding clear signs of polarization. Regarding the user flow between communities, we found that most of the users who changed communities twice went back to their original one (∼ 96%).</dc:description>
</entry>
<entry>
<title>Modelo cliente-servidor sin control de estado para aprendizaje profundo de datos en  dispositivos IoT aplicados a parámetros ambientales</title>
<link href="http://sedici.unlp.edu.ar:80/handle/10915/165774" rel="alternate"/>
<author>
<name>Ouret, Javier Adolfo</name>
</author>
<author>
<name>Parodi, Luciano</name>
</author>
<id>http://sedici.unlp.edu.ar:80/handle/10915/165774</id>
<updated>2024-05-08T20:04:14Z</updated>
<published>2023-01-01T00:00:00Z</published>
<summary type="text">Objeto de conferencia
Simposio Argentino de Ciencia de Datos y GRANdes DAtos (AGRANDA 2023) - JAIIO 52 (Universidad Nacional de Tres de Febrero, 4 al 8 de septiembre de 2023)
El crecimiento exponencial de dispositivos IoT requiere de la investigación y desarrollo de nuevas arquitecturas para la gestión de protocolos de acceso a sensores, operaciones cliente servidor y el análisis de grandes volúmenes de datos con múltiples parámetros relacionados. El objetivo de este trabajo es investigar y proponer un modelo cliente-servidor, sin control de estado, para el acceso a sensores IoT, con brokers MQTT y arquitectura REST. El modelo agrupa por medio de análisis profundo los valores de concentración de CO2 (variable objetivo) de un lugar determinado, para luego correlacionar los resultados con los posibles efectos sobre la salud de las personas, a lo largo del tiempo. Los sensores son accesibles en tiempo real por medio de gateways GNSS (con acceso a redes celulares LTE-M1, WiFi mesh o Lorawan), monitoreados y gestionados con protocolos SNMP/Netconf [11]. La normalización de la variable se hace con datos ambientales externos obtenidos por geolocalización. Comparamos los resultados de K-NN. K-Means y GMM para el aprendizaje automático (supervisado y no supervisado) y asignación del grupo de riesgo del lugar para la variable concentración de CO2, en rangos de tiempo. Con la información obtenida se pueden realizar acciones de corrección (o alarma) sobre otros dispositivos controlados por IoT para regular la ventilación del lugar y su capacidad operativa.; The exponential growth of IoT devices requires the research and development of new architectures for the management of sensor access protocols, client-server operations, and the analysis of large volumes of data with multiple related parameters. The objective of this work is to investigate and propose a client-server model, stateless, for access to IoT sensors, with MQTT brokers and REST architecture. Through in-depth analysis, the model groups the CO2 concentration values (objective variable) of a given place, to then correlate the results with the possible effects on people's health, over time. The sensors are accessible in real time through GNSS gateways (with access to LTE-M1, WiFi mesh or Lorawan cellular networks), monitored and managed with SNMP/Netconf protocols. The normalization of the variable is done with external environmental data obtained by geolocation. We compared the results of K-NN. K-Means and GMM for machine learning (supervised and unsupervised) and location risk group assignment for the CO2 concentration variable, in time ranges. With the information obtained, correction (or alarm) actions can be carried out on other devices controlled by IoT to regulate the ventilation of the place and its operational capacity.
</summary>
<dc:date>2023-01-01T00:00:00Z</dc:date>
<dc:description>El crecimiento exponencial de dispositivos IoT requiere de la investigación y desarrollo de nuevas arquitecturas para la gestión de protocolos de acceso a sensores, operaciones cliente servidor y el análisis de grandes volúmenes de datos con múltiples parámetros relacionados. El objetivo de este trabajo es investigar y proponer un modelo cliente-servidor, sin control de estado, para el acceso a sensores IoT, con brokers MQTT y arquitectura REST. El modelo agrupa por medio de análisis profundo los valores de concentración de CO2 (variable objetivo) de un lugar determinado, para luego correlacionar los resultados con los posibles efectos sobre la salud de las personas, a lo largo del tiempo. Los sensores son accesibles en tiempo real por medio de gateways GNSS (con acceso a redes celulares LTE-M1, WiFi mesh o Lorawan), monitoreados y gestionados con protocolos SNMP/Netconf [11]. La normalización de la variable se hace con datos ambientales externos obtenidos por geolocalización. Comparamos los resultados de K-NN. K-Means y GMM para el aprendizaje automático (supervisado y no supervisado) y asignación del grupo de riesgo del lugar para la variable concentración de CO2, en rangos de tiempo. Con la información obtenida se pueden realizar acciones de corrección (o alarma) sobre otros dispositivos controlados por IoT para regular la ventilación del lugar y su capacidad operativa.

The exponential growth of IoT devices requires the research and development of new architectures for the management of sensor access protocols, client-server operations, and the analysis of large volumes of data with multiple related parameters. The objective of this work is to investigate and propose a client-server model, stateless, for access to IoT sensors, with MQTT brokers and REST architecture. Through in-depth analysis, the model groups the CO2 concentration values (objective variable) of a given place, to then correlate the results with the possible effects on people's health, over time. The sensors are accessible in real time through GNSS gateways (with access to LTE-M1, WiFi mesh or Lorawan cellular networks), monitored and managed with SNMP/Netconf protocols. The normalization of the variable is done with external environmental data obtained by geolocation. We compared the results of K-NN. K-Means and GMM for machine learning (supervised and unsupervised) and location risk group assignment for the CO2 concentration variable, in time ranges. With the information obtained, correction (or alarm) actions can be carried out on other devices controlled by IoT to regulate the ventilation of the place and its operational capacity.</dc:description>
</entry>
<entry>
<title>Redes sociales basadas en ubicación en Buenos Aires (2009-2015)</title>
<link href="http://sedici.unlp.edu.ar:80/handle/10915/165746" rel="alternate"/>
<author>
<name>Rocco, Leonardo Salvador</name>
</author>
<author>
<name>Soria, Marcelo A.</name>
</author>
<id>http://sedici.unlp.edu.ar:80/handle/10915/165746</id>
<updated>2024-05-08T20:04:21Z</updated>
<published>2023-01-01T00:00:00Z</published>
<summary type="text">Objeto de conferencia
Simposio Argentino de Ciencia de Datos y GRANdes DAtos (AGRANDA 2023) - JAIIO 52 (Universidad Nacional de Tres de Febrero, 4 al 8 de septiembre de 2023)
El tipo de redes sociales que se basan en la ubicación de sus usuarios recibe el nombre de redes sociales basadas en localización (LBSN) y son un medio oportuno para el análisis del comportamiento espacio temporal de las personas. Utilizando datos registrados en Foursquare, aplicación para dispositivos móviles que provee a sus usuarios búsquedas personalizadas y localizadas, se construyó la red social de usuarios con actividades en lugares de la Ciudad Autónoma de Buenos Aires entre 2009 y 2015. En este trabajo se describen en primer lugar aspectos metodológicos para la recolección y procesamiento de datos de redes sociales utilizando información pública, y en segundo lugar se estudia las características estructurales de la red social que componen estos usuarios. Entre los hallazgos más importantes se encuentra una estructura fuertemente comunitaria, de mundo pequeño y con un grado neutral de afinidad selectiva, que no se enmarca en una distribución de grados de ley de potencias.; The type of social networks that are based on the location of their users is called location-based social networks (LBSN). These networks are an adequate means for spatio-temporal users’ behavior analysis. Using data from Foursquare, an application for mobile devices that provides its users with personalized and localized searches, the social network for users was built based on activities within Buenos Aires Federal District between 2009 and 2015. In this paper in the first place the methodological aspects for the collection and processing of social network data using public information is described. Secondly the structural characteristics of this social network are analyzed. Among the most relevant findings, we could see that the network has characteristics of a strong communitary, small-world and neutral degree of assortativity structure. It was also found that this network does not fit the power-law degree.
</summary>
<dc:date>2023-01-01T00:00:00Z</dc:date>
<dc:description>El tipo de redes sociales que se basan en la ubicación de sus usuarios recibe el nombre de redes sociales basadas en localización (LBSN) y son un medio oportuno para el análisis del comportamiento espacio temporal de las personas. Utilizando datos registrados en Foursquare, aplicación para dispositivos móviles que provee a sus usuarios búsquedas personalizadas y localizadas, se construyó la red social de usuarios con actividades en lugares de la Ciudad Autónoma de Buenos Aires entre 2009 y 2015. En este trabajo se describen en primer lugar aspectos metodológicos para la recolección y procesamiento de datos de redes sociales utilizando información pública, y en segundo lugar se estudia las características estructurales de la red social que componen estos usuarios. Entre los hallazgos más importantes se encuentra una estructura fuertemente comunitaria, de mundo pequeño y con un grado neutral de afinidad selectiva, que no se enmarca en una distribución de grados de ley de potencias.

The type of social networks that are based on the location of their users is called location-based social networks (LBSN). These networks are an adequate means for spatio-temporal users’ behavior analysis. Using data from Foursquare, an application for mobile devices that provides its users with personalized and localized searches, the social network for users was built based on activities within Buenos Aires Federal District between 2009 and 2015. In this paper in the first place the methodological aspects for the collection and processing of social network data using public information is described. Secondly the structural characteristics of this social network are analyzed. Among the most relevant findings, we could see that the network has characteristics of a strong communitary, small-world and neutral degree of assortativity structure. It was also found that this network does not fit the power-law degree.</dc:description>
</entry>
<entry>
<title>Quantifying cultural diversity in social networks: a community embedding approach: Defining diversity measures through graph and machine learning techniques</title>
<link href="http://sedici.unlp.edu.ar:80/handle/10915/165745" rel="alternate"/>
<author>
<name>Oppenheim, Abi</name>
</author>
<author>
<name>Albanese, Federico</name>
</author>
<author>
<name>Feuerstein, Esteban</name>
</author>
<id>http://sedici.unlp.edu.ar:80/handle/10915/165745</id>
<updated>2024-05-08T20:04:23Z</updated>
<published>2023-01-01T00:00:00Z</published>
<summary type="text">Resumen
Simposio Argentino de Ciencia de Datos y GRANdes DAtos (AGRANDA 2023) - JAIIO 52 (Universidad Nacional de Tres de Febrero, 4 al 8 de septiembre de 2023)
The homophily phenomenon in social networks causes users to interact primarily with others who share their interests and cultural backgrounds, leading to the formation of "echo chambers" [1–3].&#13;
The notion of cultural diversity among users and communities becomes relevant in this context. While previous studies have investigated diversity in interaction graphs, to the best of our knowledge, none have explored the degree of diversity based on community embedding, which has been proven effective in measuring the positioning of communities in various social dimensions [4–7].&#13;
Building on the work of [7], we propose characterizing and measuring diversity through an innovative algorithm based on community embedding. We propose a novel algorithm based on community embedding to characterize and measure diversity. Our approach builds upon prior work on diversity in social media and involves iteratively updating values for the diversity of communities and individual users.&#13;
To demonstrate the effectiveness of our algorithm, we conduct a case study analyzing over over 800 million posts in 9 million discussion subreddits of different ethnic groups on Reddit. Next, we generated embeddings for each community using community2vec [8] and developed algorithms to quantify cultural diversity based on these embeddings.
</summary>
<dc:date>2023-01-01T00:00:00Z</dc:date>
<dc:description>The homophily phenomenon in social networks causes users to interact primarily with others who share their interests and cultural backgrounds, leading to the formation of "echo chambers" [1–3].&#13;
The notion of cultural diversity among users and communities becomes relevant in this context. While previous studies have investigated diversity in interaction graphs, to the best of our knowledge, none have explored the degree of diversity based on community embedding, which has been proven effective in measuring the positioning of communities in various social dimensions [4–7].&#13;
Building on the work of [7], we propose characterizing and measuring diversity through an innovative algorithm based on community embedding. We propose a novel algorithm based on community embedding to characterize and measure diversity. Our approach builds upon prior work on diversity in social media and involves iteratively updating values for the diversity of communities and individual users.&#13;
To demonstrate the effectiveness of our algorithm, we conduct a case study analyzing over over 800 million posts in 9 million discussion subreddits of different ethnic groups on Reddit. Next, we generated embeddings for each community using community2vec [8] and developed algorithms to quantify cultural diversity based on these embeddings.</dc:description>
</entry>
<entry>
<title>Predicción de la satisfacción del usuario a partir de chats de atención al cliente</title>
<link href="http://sedici.unlp.edu.ar:80/handle/10915/165744" rel="alternate"/>
<author>
<name>Romanisio, Alejandro</name>
</author>
<author>
<name>Gravano, Agustín</name>
</author>
<id>http://sedici.unlp.edu.ar:80/handle/10915/165744</id>
<updated>2024-05-08T20:04:25Z</updated>
<published>2023-01-01T00:00:00Z</published>
<summary type="text">Objeto de conferencia
Customer satisfaction prediction based on customer service chats
Simposio Argentino de Ciencia de Datos y GRANdes DAtos (AGRANDA 2023) - JAIIO 52 (Universidad Nacional de Tres de Febrero, 4 al 8 de septiembre de 2023)
Los servicios de atención al cliente son determinantes de la experiencia de usuario de las empresas Fintech. Este trabajo busca entender, empleando técnicas de machine learning, qué factores llevan a los clientes de una Fintech a evaluar de forma positiva su experiencia. Esto se hizo a partir de dos fuentes de datos: los registros de los usuarios y las conversaciones del servicio de atención al cliente vía WhatsApp. Experimentamos con modelos predictivos basados en XGBoost, entrenados con features del contexto del usuario, las características de las conversaciones y la semántica de las palabras utilizadas en las conversaciones. Los resultados fueron menores a lo esperado (AUC = 0.5152), pero dejan aprendizajes valiosos para quienes encaren problemas semejantes en el futuro, relacionados a los desafíos de los siguientes aspectos críticos: i. evitar el data leakage, ii. evaluar modelos y scoring metrics exhaustivamente, iii. realizar chequeos intermedios, iv. no subestimar el tiempo necesario para la transformación de datos, v. realizar un proceso de unit testing y vi. conocer el dominio. Este trabajo describe las distintas etapas de la metodología: extracción y transformación de los datos, generación de features, entrenamiento de modelos predictivos, selección del modelo óptimo y evaluación en datos de test.; Customer service is a determining factor in the user experience of Fintech companies. This work seeks to understand, using machine learning techniques, what factors lead the clients of a specific Fintech company to positively evaluate their experience. Two data sources were used to achieve this: user records from their sign up and the log of conversations with customer service via WhatsApp. We experimented with predictive models based on XGBoost, trained with features of the user context, the characteristics of the conversations and the semantics of the words used in the conversations. The results were lower than expected (AUC = 0.5152), but they leave valuable lessons for those who face similar problems in the future, related to the challenges of the following critical aspects: i. avoid data leakage, ii. evaluate models and scoring metrics thoroughly, iii. carry out intermediate checkpoints, iv. do not underestimate the time required for data transformation, v. perform a unit testing process and vi. know the domain. This paper describes the different stages of the methodology: data extraction and transformation, feature generation, predictive model training, optimal model selection and test data evaluation.
</summary>
<dc:date>2023-01-01T00:00:00Z</dc:date>
<dc:description>Los servicios de atención al cliente son determinantes de la experiencia de usuario de las empresas Fintech. Este trabajo busca entender, empleando técnicas de machine learning, qué factores llevan a los clientes de una Fintech a evaluar de forma positiva su experiencia. Esto se hizo a partir de dos fuentes de datos: los registros de los usuarios y las conversaciones del servicio de atención al cliente vía WhatsApp. Experimentamos con modelos predictivos basados en XGBoost, entrenados con features del contexto del usuario, las características de las conversaciones y la semántica de las palabras utilizadas en las conversaciones. Los resultados fueron menores a lo esperado (AUC = 0.5152), pero dejan aprendizajes valiosos para quienes encaren problemas semejantes en el futuro, relacionados a los desafíos de los siguientes aspectos críticos: i. evitar el data leakage, ii. evaluar modelos y scoring metrics exhaustivamente, iii. realizar chequeos intermedios, iv. no subestimar el tiempo necesario para la transformación de datos, v. realizar un proceso de unit testing y vi. conocer el dominio. Este trabajo describe las distintas etapas de la metodología: extracción y transformación de los datos, generación de features, entrenamiento de modelos predictivos, selección del modelo óptimo y evaluación en datos de test.

Customer service is a determining factor in the user experience of Fintech companies. This work seeks to understand, using machine learning techniques, what factors lead the clients of a specific Fintech company to positively evaluate their experience. Two data sources were used to achieve this: user records from their sign up and the log of conversations with customer service via WhatsApp. We experimented with predictive models based on XGBoost, trained with features of the user context, the characteristics of the conversations and the semantics of the words used in the conversations. The results were lower than expected (AUC = 0.5152), but they leave valuable lessons for those who face similar problems in the future, related to the challenges of the following critical aspects: i. avoid data leakage, ii. evaluate models and scoring metrics thoroughly, iii. carry out intermediate checkpoints, iv. do not underestimate the time required for data transformation, v. perform a unit testing process and vi. know the domain. This paper describes the different stages of the methodology: data extraction and transformation, feature generation, predictive model training, optimal model selection and test data evaluation.</dc:description>
</entry>
<entry>
<title>Minería de textos para clasificación y análisis de sentimientos de relatos personales</title>
<link href="http://sedici.unlp.edu.ar:80/handle/10915/165743" rel="alternate"/>
<author>
<name>Ruiz Diaz, Adriana Soledad</name>
</author>
<author>
<name>Méndez Garabetti, Miguel</name>
</author>
<id>http://sedici.unlp.edu.ar:80/handle/10915/165743</id>
<updated>2024-05-08T20:04:27Z</updated>
<published>2023-01-01T00:00:00Z</published>
<summary type="text">Objeto de conferencia
Text Mining for Classification and Sentiment Analysis of Personal Stories
Simposio Argentino de Ciencia de Datos y GRANdes DAtos (AGRANDA 2023) - JAIIO 52 (Universidad Nacional de Tres de Febrero, 4 al 8 de septiembre de 2023)
El presente trabajo busca implementar herramientas y técnicas de aprendizaje automático para automatizar el proceso de análisis de los relatos recopilados en tres ediciones del libro "Matilda y las Mujeres en Ingeniería en América Latina", con el fin de identificar factores que influyen en la elección y ejercicio de la carrera de ingeniería por parte de las mujeres. La metodología seguirá los lineamientos propuestos para un proceso de Descubrimiento de Conocimiento en Textos (KDT). El trabajo se dividirá en varias etapas: comprensión del dominio de aplicación, extracción de datos, limpieza, procesamiento y transformación de datos, y desarrollo del modelo. En la actualidad, el proyecto se encuentra en la fase de construcción del corpus y supresión de patrones de información no significativos. Luego se realizará una tokenización del texto para entender las características del mismo y se evaluará la técnica más adecuada para cuantificar el set de palabras presentes en el corpus. Se construirá un modelo de aprendizaje automático supervisado para predecir la temática principal del relato y se analizará el sentimiento del mismo en función de su temática. El análisis de sentimientos se realizará considerando el sentimiento como la suma de los sentimientos de cada una de las palabras que lo conforman.; This work aims to implement tools and machine learning techniques to automate the process of analyzing the narratives collected in three editions of the book "Matilda and Women in Engineering in Latin America." The goal is to identify factors that influence the choice and practice of an engineering career by women. The methodology will follow the proposed guidelines for a Knowledge Discovery in Texts (KDT) process. The work will be divided into several stages: understanding the application domain, data extraction, cleaning, processing and transformation of data, and model development. Currently, the project is in the phase of constructing the corpus and removing non-significant patterns of information. Next, the text will be tokenized to understand its characteristics, and the most suitable technique for quantifying the set of words present in the corpus will be evaluated. A supervised machine learning model will be built to predict the main theme of the narrative, and its sentiment will be analyzed based on that theme. The sentiment analysis will be performed by considering sentiment as the sum of the sentiments of each of the words that compose it.
</summary>
<dc:date>2023-01-01T00:00:00Z</dc:date>
<dc:description>El presente trabajo busca implementar herramientas y técnicas de aprendizaje automático para automatizar el proceso de análisis de los relatos recopilados en tres ediciones del libro "Matilda y las Mujeres en Ingeniería en América Latina", con el fin de identificar factores que influyen en la elección y ejercicio de la carrera de ingeniería por parte de las mujeres. La metodología seguirá los lineamientos propuestos para un proceso de Descubrimiento de Conocimiento en Textos (KDT). El trabajo se dividirá en varias etapas: comprensión del dominio de aplicación, extracción de datos, limpieza, procesamiento y transformación de datos, y desarrollo del modelo. En la actualidad, el proyecto se encuentra en la fase de construcción del corpus y supresión de patrones de información no significativos. Luego se realizará una tokenización del texto para entender las características del mismo y se evaluará la técnica más adecuada para cuantificar el set de palabras presentes en el corpus. Se construirá un modelo de aprendizaje automático supervisado para predecir la temática principal del relato y se analizará el sentimiento del mismo en función de su temática. El análisis de sentimientos se realizará considerando el sentimiento como la suma de los sentimientos de cada una de las palabras que lo conforman.

This work aims to implement tools and machine learning techniques to automate the process of analyzing the narratives collected in three editions of the book "Matilda and Women in Engineering in Latin America." The goal is to identify factors that influence the choice and practice of an engineering career by women. The methodology will follow the proposed guidelines for a Knowledge Discovery in Texts (KDT) process. The work will be divided into several stages: understanding the application domain, data extraction, cleaning, processing and transformation of data, and model development. Currently, the project is in the phase of constructing the corpus and removing non-significant patterns of information. Next, the text will be tokenized to understand its characteristics, and the most suitable technique for quantifying the set of words present in the corpus will be evaluated. A supervised machine learning model will be built to predict the main theme of the narrative, and its sentiment will be analyzed based on that theme. The sentiment analysis will be performed by considering sentiment as the sum of the sentiments of each of the words that compose it.</dc:description>
</entry>
</feed>
