Búsquedas selectivas sobre flujos de documentos

Ricci, Santiago; Lavallen, Pablo J.; Tolosa, Gabriel Hernán

Buscar material

Busque entre los 170948 recursos disponibles en el repositorio

Subir material

Suba sus trabajos a SEDICI, para mejorar notoriamente su visibilidad e impacto

Red de Universidades con Carreras en Informática (RedUNCI)
→
Eventos
→
WICC
→
WICC 2020

Mostrar el registro sencillo del ítem

dc.date.accessioned	2020-09-02T12:34:42Z
dc.date.available	2020-09-02T12:34:42Z
dc.date.issued	2020
dc.identifier.uri	http://sedici.unlp.edu.ar/handle/10915/103631
dc.description.abstract	La cantidad de información digital que se genera día a día impone restricciones a los usuarios en cuanto a la facilidad de acceso. Considerando la necesidad de acceder a información relevante, la alta tasa de aparición de nuevo contenido genera la necesidad de contar con herramientas de búsqueda que puedan manejar el tamaño, complejidad y dinamismo de las fuentes de información digital actuales. Este problema no puede ser resuelto en el ámbito de un solo equipo de cómputo por lo que requiere de una arquitectura que involucra procesamiento paralelo y distribuido, la cual incluye diseñar y optimizar estructuras de datos y algoritmos eficientes que las gestionen. Esta arquitectura es desafiada cuando los documentos aparecen en flujos en tiempo real como, por ejemplo, las publicaciones en las redes sociales. Un caso paradigmático son las publicaciones en Twitter, en la cual millones de usuarios alrededor del mundo publican “documentos cortos” (tweets) desde diferentes tipos de dispositivos (generalmente, móviles), los cuales deben estar disponibles casi de inmediato (segundos) por lo que las estructuras de datos deben soportar un alto dinamismo. Esto contrasta con la búsquedas web clásicas, donde el índice invertido se actualiza en modo batch ya que existe un tiempo entre actualizaciones debido a la necesidad de recolectar los nuevos documentos a indexar. Un abordaje actual a este problema es la partición de la colección en porciones (shards) de acuerdo a algún criterio (por ejemplo, temático) de manera tal de enviar las consultas solamente a un número reducido n de nodos (n C P) que contengan particiones de la colección que potencialmente pueden satisfacer la consulta. Este problema se lo conoce como “búsquedas selectivas” (selective search) e incluye métodos que permiten seleccionar los recursos adecuados, algoritmos de fusión de resultados parciales y estrategias adaptadas de caching. Este trabajo presenta las líneas de investigación en el contexto de las búsquedas en tiempo real utilizando una arquitectura basada en búsquedas selectivas. Las propuestas abarcan el estudio, diseño y evaluación de los criterios de actualización del índice invertidos por partición, las estrategias de cache a implementar y el algoritmo de búsqueda final y cómo estos impactan en la performance que se pretende optimizar (eficiencia y/o efectividad).	es
dc.format.extent	200-204	es
dc.language	es	es
dc.subject	Algoritmos de búsqueda	es
dc.subject	Estructuras de datos	es
dc.subject	Búsquedas selectivas	es
dc.title	Búsquedas selectivas sobre flujos de documentos	es
dc.type	Objeto de conferencia	es
sedici.identifier.isbn	978-987-3714-82-5	es
sedici.creator.person	Ricci, Santiago	es
sedici.creator.person	Lavallen, Pablo J.	es
sedici.creator.person	Tolosa, Gabriel Hernán	es
sedici.description.note	Eje: Base de Datos y Minería de Datos.	es
sedici.subject.materias	Ciencias Informáticas	es
sedici.description.fulltext	true	es
mods.originInfo.place	Red de Universidades con Carreras en Informática	es
sedici.subtype	Objeto de conferencia	es
sedici.rights.license	Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
sedici.rights.uri	http://creativecommons.org/licenses/by-nc-sa/4.0/
sedici.date.exposure	2020-05
sedici.relation.event	XXII Workshop de Investigadores en Ciencias de la Computación (WICC 2020, El Calafate, Santa Cruz).	es
sedici.description.peerReview	peer-review	es
sedici.relation.isRelatedWith	http://sedici.unlp.edu.ar/handle/10915/103151	es

Descargar archivos

Documento completo
Descargar archivo (337.1Kb) - PDF

Este ítem aparece en la(s) siguiente(s) colección(ones)

WICC → WICC 2020

Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)

Excepto donde se diga explícitamente, este item se publica bajo la siguiente licencia Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)

Iniciar sesión