En dominios donde el volumen de los datos crece exponencialmente y la enorme abundancia de estos desborda la capacidad humana para comprenderlos, existe una necesidad apremiante de desarrollar soluciones para aprovechar esta riqueza de datos utilizando métodos estadísticos.
El agrupamiento es la tarea descriptiva por excelencia, consiste en obtener grupos naturales a partir de los datos para luego poder describirlos de manera concisa. Ya sea para la comprensión o el resumen, el análisis de agrupamiento ha desempeñado durante mucho tiempo un papel importante en una amplia variedad de campos como psicología, ciencias sociales, biología, estadísticas, reconocimiento de patrones y recuperación de información.
El presente estudio pretende analizar diferentes técnicas de agrupamiento en el entorno distribuido Spark, que permitan describir de forma novedosa el seguimiento de casos de COVID-19 en Argentina a partir de la aplicación de modelos de agrupamiento adecuados para el desarrollo de aplicaciones de aprendizaje automático a gran escala.