Busque entre los 168304 recursos disponibles en el repositorio
Mostrar el registro sencillo del ítem
dc.date.accessioned | 2017-08-15T16:14:35Z | |
dc.date.available | 2017-08-15T16:14:35Z | |
dc.date.issued | 2017-08-15 | |
dc.identifier.uri | http://sedici.unlp.edu.ar/handle/10915/61629 | |
dc.description.abstract | Los sistemas distribuidos en la web y las tecnologías informáticas distribuidas como cluster y cloud, permiten diseñar un entorno de entidades distribuidas que cooperen para resolver un problema que no puede ser resuelto individualmente. La variedad de estos sistemas pueden incluir servidores de aplicaciones, cloud privados, pequeños centros de datos y cluster para almacenamiento y búsqueda de datos. Esto explica por qué ha crecido enormemente la habilidad de recolectar y almacenar datos en las últimas décadas, incluso hoy en día, se pude decir que este apetito por los datos no muestra signos de satisfacción. Los científicos quieren ser capaces de almacenar más datos con el fin de construir mejores modelos matemáticos del mundo. Los vendedores quieren mejores datos para entender los deseos y hábitos de compra de sus clientes. Los analistas financieros quieren entender mejor el funcionamiento de sus mercados. Y todo el mundo quiere mantener todas sus fotografías, videos, correos electrónicos, etc. En consecuencia, es primordial encontrar la mejor solución para el procesamiento y análisis de esta gran escala de enormes cantidades de datos. En este sentido, un RDBMS como SQL Server o MySQL es una buena opción si el conjunto de datos de trabajo nunca va a crecer más allá de 40-50GB a lo largo de su vida útil. Incluso no necesitan ser distribuidos ya que pueden ser procesados en la memoria de una sola máquina. Sin embargo, si se construye una aplicación que tiene un conjunto de datos que crece rápidamente y ráfagas de cargas impredecibles, será necesario optar por una solución que sacrifique cierta velocidad o consistencia en pos de poder distribuirse y así procesar el gran volumen de datos. En los últimos años han surgido las bases de datos NoSQL que rompen una o más de las reglas de los sistemas de bases de datos relacionales. No esperan que los datos sean normalizados. En su lugar, los datos a los que accede una aplicación viven en una gran tabla, de modo que pocos o ningún joins son necesarios. Estos sistemas están diseñados para administrar terabytes de datos. A esto, se suma el desarrollo de muchos sistemas alternativos de procesamiento de datos como Apache Hadoop. Este proyecto ha impulsado el desarrollo de lenguajes existentes y la construcción de nuevas herramientas como Apache Pig. Esta herramienta proporciona un mayor nivel de abstracción para los usuarios de datos, dando acceso a la flexibilidad y potencia de Hadoop sin necesidad de tener que escribir extensas aplicaciones de procesamiento de datos en código Java de bajo nivel. Las bases de datos NoSql que se han integrado con Pig incluyen HBase, Accumulo y Cassandra. En este trabajo se propone realizar pruebas experimentales con Apache Pig sobre Apache Hadoop y como motor NoSql se elige Cassandra, ya que coincide muy bien con la naturaleza distribuida de Hadoop, para ejecutar consultas sobre datos que abarcan múltiples nodos. | es |
dc.format.extent | 223-226 | es |
dc.language | es | es |
dc.subject | Apache Pig | en |
dc.subject | Distributed Systems | es |
dc.subject | Hadoop | en |
dc.subject | Nosql | en |
dc.subject | cloud computing | en |
dc.title | Apache Pig en Hadoop sobre Cassandra | es |
dc.type | Objeto de conferencia | es |
sedici.identifier.isbn | 978-987-42-5143-5 | es |
sedici.creator.person | Chávez, Susana Beatriz | es |
sedici.creator.person | Martín, Adriana Elizabeth | es |
sedici.creator.person | Rodríguez, Nelson R. | es |
sedici.creator.person | Murazzo, María Antonia | es |
sedici.description.note | Eje: Bases de datos y Minería de datos. | es |
sedici.subject.materias | Ciencias Informáticas | es |
sedici.description.fulltext | true | es |
mods.originInfo.place | Red de Universidades con Carreras en Informática (RedUNCI) | es |
sedici.subtype | Objeto de conferencia | es |
sedici.rights.license | Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) | |
sedici.rights.uri | http://creativecommons.org/licenses/by-nc-sa/4.0/ | |
sedici.date.exposure | 2017-04 | |
sedici.relation.event | XIX Workshop de Investigadores en Ciencias de la Computación (WICC 2017, ITBA, Buenos Aires) | es |
sedici.description.peerReview | peer-review | es |
sedici.relation.isRelatedWith | http://sedici.unlp.edu.ar/handle/10915/61343 | es |