Apache Pig en Hadoop sobre Cassandra

Chávez, Susana Beatriz; Martín, Adriana Elizabeth; Rodríguez, Nelson R.; Murazzo, María Antonia

Buscar material

Busque entre los 168304 recursos disponibles en el repositorio

Subir material

Suba sus trabajos a SEDICI, para mejorar notoriamente su visibilidad e impacto

Red de Universidades con Carreras en Informática (RedUNCI)
→
Eventos
→
WICC
→
WICC 2017

Mostrar el registro sencillo del ítem

dc.date.accessioned	2017-08-15T16:14:35Z
dc.date.available	2017-08-15T16:14:35Z
dc.date.issued	2017-08-15
dc.identifier.uri	http://sedici.unlp.edu.ar/handle/10915/61629
dc.description.abstract	Los sistemas distribuidos en la web y las tecnologías informáticas distribuidas como cluster y cloud, permiten diseñar un entorno de entidades distribuidas que cooperen para resolver un problema que no puede ser resuelto individualmente. La variedad de estos sistemas pueden incluir servidores de aplicaciones, cloud privados, pequeños centros de datos y cluster para almacenamiento y búsqueda de datos. Esto explica por qué ha crecido enormemente la habilidad de recolectar y almacenar datos en las últimas décadas, incluso hoy en día, se pude decir que este apetito por los datos no muestra signos de satisfacción. Los científicos quieren ser capaces de almacenar más datos con el fin de construir mejores modelos matemáticos del mundo. Los vendedores quieren mejores datos para entender los deseos y hábitos de compra de sus clientes. Los analistas financieros quieren entender mejor el funcionamiento de sus mercados. Y todo el mundo quiere mantener todas sus fotografías, videos, correos electrónicos, etc. En consecuencia, es primordial encontrar la mejor solución para el procesamiento y análisis de esta gran escala de enormes cantidades de datos. En este sentido, un RDBMS como SQL Server o MySQL es una buena opción si el conjunto de datos de trabajo nunca va a crecer más allá de 40-50GB a lo largo de su vida útil. Incluso no necesitan ser distribuidos ya que pueden ser procesados en la memoria de una sola máquina. Sin embargo, si se construye una aplicación que tiene un conjunto de datos que crece rápidamente y ráfagas de cargas impredecibles, será necesario optar por una solución que sacrifique cierta velocidad o consistencia en pos de poder distribuirse y así procesar el gran volumen de datos. En los últimos años han surgido las bases de datos NoSQL que rompen una o más de las reglas de los sistemas de bases de datos relacionales. No esperan que los datos sean normalizados. En su lugar, los datos a los que accede una aplicación viven en una gran tabla, de modo que pocos o ningún joins son necesarios. Estos sistemas están diseñados para administrar terabytes de datos. A esto, se suma el desarrollo de muchos sistemas alternativos de procesamiento de datos como Apache Hadoop. Este proyecto ha impulsado el desarrollo de lenguajes existentes y la construcción de nuevas herramientas como Apache Pig. Esta herramienta proporciona un mayor nivel de abstracción para los usuarios de datos, dando acceso a la flexibilidad y potencia de Hadoop sin necesidad de tener que escribir extensas aplicaciones de procesamiento de datos en código Java de bajo nivel. Las bases de datos NoSql que se han integrado con Pig incluyen HBase, Accumulo y Cassandra. En este trabajo se propone realizar pruebas experimentales con Apache Pig sobre Apache Hadoop y como motor NoSql se elige Cassandra, ya que coincide muy bien con la naturaleza distribuida de Hadoop, para ejecutar consultas sobre datos que abarcan múltiples nodos.	es
dc.format.extent	223-226	es
dc.language	es	es
dc.subject	Apache Pig	en
dc.subject	Distributed Systems	es
dc.subject	Hadoop	en
dc.subject	Nosql	en
dc.subject	cloud computing	en
dc.title	Apache Pig en Hadoop sobre Cassandra	es
dc.type	Objeto de conferencia	es
sedici.identifier.isbn	978-987-42-5143-5	es
sedici.creator.person	Chávez, Susana Beatriz	es
sedici.creator.person	Martín, Adriana Elizabeth	es
sedici.creator.person	Rodríguez, Nelson R.	es
sedici.creator.person	Murazzo, María Antonia	es
sedici.description.note	Eje: Bases de datos y Minería de datos.	es
sedici.subject.materias	Ciencias Informáticas	es
sedici.description.fulltext	true	es
mods.originInfo.place	Red de Universidades con Carreras en Informática (RedUNCI)	es
sedici.subtype	Objeto de conferencia	es
sedici.rights.license	Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
sedici.rights.uri	http://creativecommons.org/licenses/by-nc-sa/4.0/
sedici.date.exposure	2017-04
sedici.relation.event	XIX Workshop de Investigadores en Ciencias de la Computación (WICC 2017, ITBA, Buenos Aires)	es
sedici.description.peerReview	peer-review	es
sedici.relation.isRelatedWith	http://sedici.unlp.edu.ar/handle/10915/61343	es

Descargar archivos

Documento completo
Descargar archivo (943.2Kb) - PDF

Este ítem aparece en la(s) siguiente(s) colección(ones)

WICC → WICC 2017

Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)

Excepto donde se diga explícitamente, este item se publica bajo la siguiente licencia Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)

Iniciar sesión