El procesamiento de datos masivos propone a diario nuevos desafíos, debido tanto a cuestiones vinculadas a los datos mismos como a la variedad de aplicaciones y soluciones que requieren los usuarios. En el primero de los casos, los datos crecen a tasas exponenciales pero también existen diversidad de nuevas fuentes a considerar, incluyendo aquellas en las cuales se producen en flujos en tiempo real.
Estas características exigen mayores capacidades de hardware a los proveedores de servicios e imponen restricciones a los usuarios en la facilidad de acceso.
En este escenario, los algoritmos que resuelven problemas de búsquedas (en sentido amplio) requieren de mejoras tanto conceptuales como ingenieriles que les permitan escalar con el tamaño del problema. La eficiencia es un requerimiento fundamental para procesar datos masivos, debido al tamaño, la complejidad y la dinámica de las fuentes actuales de información digital.
Este proyecto presenta el abordaje de problemas relacionados con dos escenarios actuales. Por un lado, el procesamiento de colecciones masivas de documentos, para la construcción de motores de búsqueda de escala web. Por otro lado, el procesamiento de grafos en cuanto a las métricas de distancias, para aplicar, por ejemplo, a búsquedas de caminos más cortos entre usuarios de redes sociales. Las líneas de investigación enfatizan el estudio, diseño y evaluación de algoritmos eficientes (y estructuras de datos asociadas) que permitan aumentar las prestaciones de los sistemas de búsqueda haciendo un uso racional de los recursos de hardware.