Subir material

Suba sus trabajos a SEDICI, para mejorar notoriamente su visibilidad e impacto

 

Mostrar el registro sencillo del ítem

dc.date.accessioned 2020-09-02T12:34:42Z
dc.date.available 2020-09-02T12:34:42Z
dc.date.issued 2020
dc.identifier.uri http://sedici.unlp.edu.ar/handle/10915/103631
dc.description.abstract La cantidad de información digital que se genera día a día impone restricciones a los usuarios en cuanto a la facilidad de acceso. Considerando la necesidad de acceder a información relevante, la alta tasa de aparición de nuevo contenido genera la necesidad de contar con herramientas de búsqueda que puedan manejar el tamaño, complejidad y dinamismo de las fuentes de información digital actuales. Este problema no puede ser resuelto en el ámbito de un solo equipo de cómputo por lo que requiere de una arquitectura que involucra procesamiento paralelo y distribuido, la cual incluye diseñar y optimizar estructuras de datos y algoritmos eficientes que las gestionen. Esta arquitectura es desafiada cuando los documentos aparecen en flujos en tiempo real como, por ejemplo, las publicaciones en las redes sociales. Un caso paradigmático son las publicaciones en Twitter, en la cual millones de usuarios alrededor del mundo publican “documentos cortos” (tweets) desde diferentes tipos de dispositivos (generalmente, móviles), los cuales deben estar disponibles casi de inmediato (segundos) por lo que las estructuras de datos deben soportar un alto dinamismo. Esto contrasta con la búsquedas web clásicas, donde el índice invertido se actualiza en modo batch ya que existe un tiempo entre actualizaciones debido a la necesidad de recolectar los nuevos documentos a indexar. Un abordaje actual a este problema es la partición de la colección en porciones (shards) de acuerdo a algún criterio (por ejemplo, temático) de manera tal de enviar las consultas solamente a un número reducido n de nodos (n C P) que contengan particiones de la colección que potencialmente pueden satisfacer la consulta. Este problema se lo conoce como “búsquedas selectivas” (selective search) e incluye métodos que permiten seleccionar los recursos adecuados, algoritmos de fusión de resultados parciales y estrategias adaptadas de caching. Este trabajo presenta las líneas de investigación en el contexto de las búsquedas en tiempo real utilizando una arquitectura basada en búsquedas selectivas. Las propuestas abarcan el estudio, diseño y evaluación de los criterios de actualización del índice invertidos por partición, las estrategias de cache a implementar y el algoritmo de búsqueda final y cómo estos impactan en la performance que se pretende optimizar (eficiencia y/o efectividad). es
dc.format.extent 200-204 es
dc.language es es
dc.subject Algoritmos de búsqueda es
dc.subject Estructuras de datos es
dc.subject Búsquedas selectivas es
dc.title Búsquedas selectivas sobre flujos de documentos es
dc.type Objeto de conferencia es
sedici.identifier.isbn 978-987-3714-82-5 es
sedici.creator.person Ricci, Santiago es
sedici.creator.person Lavallen, Pablo J. es
sedici.creator.person Tolosa, Gabriel Hernán es
sedici.description.note Eje: Base de Datos y Minería de Datos. es
sedici.subject.materias Ciencias Informáticas es
sedici.description.fulltext true es
mods.originInfo.place Red de Universidades con Carreras en Informática es
sedici.subtype Objeto de conferencia es
sedici.rights.license Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
sedici.rights.uri http://creativecommons.org/licenses/by-nc-sa/4.0/
sedici.date.exposure 2020-05
sedici.relation.event XXII Workshop de Investigadores en Ciencias de la Computación (WICC 2020, El Calafate, Santa Cruz). es
sedici.description.peerReview peer-review es
sedici.relation.isRelatedWith http://sedici.unlp.edu.ar/handle/10915/103151 es


Descargar archivos

Este ítem aparece en la(s) siguiente(s) colección(ones)

Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) Excepto donde se diga explícitamente, este item se publica bajo la siguiente licencia Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)