Estudio comparativo entre Apache Spark y Apache Flink en el procesamiento de streaming en entornos Big Data

Fajardo, Hugo Manuel

Buscar material

Busque entre los 171119 recursos disponibles en el repositorio

Subir material

Suba sus trabajos a SEDICI, para mejorar notoriamente su visibilidad e impacto

Estudio comparativo entre Apache Spark y Apache Flink en el procesamiento de streaming en entornos Big Data

Autor: Fajardo, Hugo Manuel

2023

Tipo de documento: Trabajo de especializacion

Resumen

La sociedad hoy plantea crecientes demandas de soluciones informáticas, cuando estas soluciones requieren el procesamiento de grandes volúmenes de datos, las herramientas tradicionales de procesamiento muestran limitaciones e inconvenientes derivados de la cantidad de datos a procesar o del tiempo necesario para realizarlo. Surge así, la necesidad de herramientas específicas, llamadas herramientas de Big Data. Dentro de estas existe un grupo concreto para el procesamiento de flujos de datos (stream processing), entendiendo por flujo de datos la recepción y procesamiento continuo de datos ilimitados desde diferentes fuentes. Debido a su naturaleza sin límite, estos flujos no pueden descargarse de manera completa, y deben ser procesados en línea cuando se reciben. Dos de las principales herramientas para el procesamiento de streaming son Apache Spark y Apache Flink. El objetivo del presente trabajo es realizar una comparación entre Apache Spark y Apache Flink en el procesamiento de streaming. Para realizar la comparación entre estas herramientas se utilizará el lenguaje de desarrollo Python, ya que el mismo soporta el trabajo tanto en Spark como en Flink, y a su vez es uno de los lenguajes de programación más utilizados en la actualidad. La comparación entre los frameworks requiere el desarrollo de dos aplicaciones para el tratamiento del flujo de datos, ambas resolviendo el mismo problema. Una aplicación realizará el procesamiento de streaming en Apache Spark, mientras que la otra realizará la misma tarea en Apache Flink.

Información de la Tesis

Director: Hasperué, Waldo

Fecha de exposición: 9 de mayo de 2023

Fecha de publicación: 2023

Grado alcanzado: Especialista en Inteligencia de Datos orientada a Big Data

Institución otorgante: Universidad Nacional de La Plata

Información general

Idioma del documento: Español

Institución de origen: Facultad de Informática

Palabras claves: Streaming de Datos ; Procesamiento de Flujos ; Procesamiento Distribuido de Flujos de Datos ; Apache Spark ; Apache Flink ; Apache Kafka

Materias: Ciencias Informáticas

Descargar archivos

Documento completo
Descargar archivo (2.476Mb) - PDF

BASE

GoogleScholar

Creado el: 6 de julio de 2023

Disponible en SEDICI desde: 6 de julio de 2023

Por favor, utilice uno de estos identificadores(URI) para citar o enlazar este ítem:

http://sedici.unlp.edu.ar/handle/10915/155135

Mostrar el registro completo del ítem

Este ítem aparece en la(s) siguiente(s) colección(ones)

Facultad de Informática → Tesis

Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)

Excepto donde se diga explícitamente, este item se publica bajo la siguiente licencia Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)

Iniciar sesión