Clustering de un flujo de datos usando MapReduce

Basgall, María José; Hasperué, Waldo; Estrebou, César Armando; Naiouf, Marcelo

Buscar material

Busque entre los 171016 recursos disponibles en el repositorio

Subir material

Suba sus trabajos a SEDICI, para mejorar notoriamente su visibilidad e impacto

Red de Universidades con Carreras en Informática (RedUNCI)
→
Eventos
→
CACIC
→
CACIC 2016

Clustering de un flujo de datos usando MapReduce

Autores: Basgall, María José | Hasperué, Waldo | Estrebou, César Armando | Naiouf, Marcelo

2016

Tipo de documento: Objeto de conferencia

Resumen

Las técnicas de agrupamiento (clustering) sobre flujo de datos (data stream) son una poderosa herramienta para determinar las características que tienen en común los datos provenientes del flujo. Para obtener buenos resultados es necesario almacenar gran parte de éste en una ventana temporal. En este artículo medimos una técnica que maneja el tamaño de la ventana temporal de manera dinámica utilizando un algoritmo de clustering implementado en el framework MapReduce. Los resultados obtenidos demuestran que esta técnica alcanza una ventana de gran tamaño logrando así que cada dato del flujo se utilice en más de una iteración del algoritmo de clustering permitiendo conseguir resultados similares independientemente de la velocidad de los datos del flujo. Los centroides resultantes de cada flujo de datos son semejantes a los que se consiguen haciendo un clustering sobre el conjunto de datos completo.

Notas

XIII Workshop Bases de datos y Minería de Datos (WBDMD).

Información general

Fecha de exposición: octubre 2016

Fecha de publicación: 2016

Idioma del documento: Español

Evento: XXII Congreso Argentino de Ciencias de la Computación (CACIC 2016).

Institución de origen: Red de Universidades con Carreras en Informática (RedUNCI)

Páginas: 682-691

Palabras claves: big data ; stream processing

Materias: Ciencias Informáticas

Descargar archivos

Documento completo
Descargar archivo (890.7Kb) - PDF

BASE

GoogleScholar

Creado el: 16 de noviembre de 2016

Disponible en SEDICI desde: 16 de noviembre de 2016

Por favor, utilice uno de estos identificadores(URI) para citar o enlazar este ítem:

http://sedici.unlp.edu.ar/handle/10915/56748

Mostrar el registro completo del ítem

Este ítem aparece en la(s) siguiente(s) colección(ones)

CACIC → CACIC 2016

Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)

Excepto donde se diga explícitamente, este item se publica bajo la siguiente licencia Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)

Iniciar sesión

Buscar material

Subir material

Clustering de un flujo de datos usando MapReduce

Resumen

Notas

Información general

Documentos relacionados

Descargar archivos

Este ítem aparece en la(s) siguiente(s) colección(ones)