Subir material

Suba sus trabajos a SEDICI, para mejorar notoriamente su visibilidad e impacto

 

Mostrar el registro sencillo del ítem

dc.date.accessioned 2018-12-12T12:26:05Z
dc.date.available 2018-12-12T12:26:05Z
dc.date.issued 2018 es
dc.identifier.uri http://sedici.unlp.edu.ar/handle/10915/71442
dc.description.abstract Este trabajo muestra el desarrollo e implementación de un algoritmo para extraer datos de perfiles y publicaciones de Google Académico (GA) utilizando Web Scraping, técnica no estructurada de minería de datos que escanea los datos de una página web. El código del algoritmo se crea utilizando el lenguaje R el cual nos permite personalizar la extracción de datos implementando funciones de extracción de perfiles y publicaciones de una universidad. En las pruebas de extracción de datos realizadas con las herramientas web y online se logró un promedio de 2 a 8 horas para extraer un promedio de 55 perfiles y 1400 publicaciones, mientras que con el algoritmo se logra extraer la misma cantidad de perfiles y publicaciones en 4 minutos con datos estructurados en formato de tabla que pueden ser exportadas para su posterior uso. Estas pruebas fueron realizadas en un periodo de 1 año, depurando errores y mejorando tanto el tiempo de extracción de los datos de salida. Una de las limitantes del algoritmo es que en universidades con más de 2,000 perfiles, este, es bloqueado por GA debido a que el tiempo de extracción aumenta y considera que es un robot o araña quien escanea los datos, es por ello que se trabaja en mejorar el proceso de extracción. El trabajo realizado permite que este algoritmo sea una herramienta para quienes realizan análisis de datos de indicadores científicos o para quienes realizan análisis bibliométricos de revistas académicas y científicas con perfiles en GA. es
dc.language es es
dc.subject Google Académico es
dc.subject Análisis de Datos es
dc.subject escaneado web es
dc.subject minería web es
dc.subject lenguaje R es
dc.subject Google Scholar en
dc.subject Web Scraping en
dc.subject Web Mining en
dc.subject R Lenguage en
dc.subject data analysis en
dc.title Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académico es
dc.type Objeto de conferencia es
sedici.identifier.uri http://repositorio.pucp.edu.pe/index/handle/123456789/133795 es
sedici.creator.person Murillo, Danny es
sedici.creator.person Saavedra, Dalys es
sedici.creator.person Calderón, Huriviades es
sedici.subject.materias Ciencias Informáticas es
sedici.subject.materias Bibliotecología es
sedici.description.fulltext true es
mods.originInfo.place Ibero-American Science and Technology Education Consortium es
sedici.subtype Objeto de conferencia es
sedici.rights.license Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
sedici.rights.uri http://creativecommons.org/licenses/by-nc-sa/4.0/
sedici.date.exposure 2018-10
sedici.relation.event VIII Conferencia Internacional sobre Bibliotecas y Repositorios Digitales BIREDIAL-ISTEC (Lima, 2018) es
sedici.description.peerReview peer-review es


Este ítem aparece en la(s) siguiente(s) colección(ones)

Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) Excepto donde se diga explícitamente, este item se publica bajo la siguiente licencia Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)