Subir material

Suba sus trabajos a SEDICI, para mejorar notoriamente su visibilidad e impacto

 

Mostrar el registro sencillo del ítem

dc.date.accessioned 2025-06-18T14:21:57Z
dc.date.available 2025-06-18T14:21:57Z
dc.date.issued 2024
dc.identifier.uri http://sedici.unlp.edu.ar/handle/10915/180610
dc.description.abstract - Presentación del problema: El enorme volumen de recursos almacenados actualmente en los repositorios digitales representa una gran dificultad a la hora de supervisar y corregir errores o mejorar la calidad de los metadatos. El presente trabajo se enfoca en la corrección del metadato idioma en los registros de resúmenes del repositorio institucional SEDICI. - Materiales y metodología: A partir de un dataset exportado del repositorio de unos 126.081 ítems se planificó una tarea de detección automática de idiomas utilizando diferentes bibliotecas existentes compatibles con el método zero-shot (langdetect, CLD3, fastText, Polyglot, langid y TextCat). Luego se compararon los resultados obtenidos con los datos de los idiomas registrados por el personal de catalogación del repositorio. Para tratar de mejorar aún más la detección de idiomas se entrenó un modelo mBERT multilenguaje y se comparó su desempeño con el conjunto más pequeño de ítems cuya clasificación por idiomas era diferente entre humanos y la biblioteca Polyglot. - Resultados: En general, todas las bibliotecas de detección de idiomas mostraron alrededor de un 95% de coincidencia con los idiomas identificados y catalogados por los humanos. En el caso de los modelos mBERT entrenados las coincidencias obtenidas son bajas tanto para los idiomas detectados automáticamente por Polyglot como los catalogados por humanos (78,7% y 19,6% respectivamente). Se encontraron errores de catalogación atribuibles a humanos, pero también errores de las bibliotecas o de los modelos de lenguaje en la tarea de detección. es
dc.format.extent 16-31 es
dc.language es es
dc.subject repositorios institucionales es
dc.subject tareas de curaduría de datos es
dc.subject herramientas de detección de idiomas es
dc.subject modelos mBERT para detección de idiomas es
dc.subject enfoque zero-shot es
dc.subject institutional repositories es
dc.subject data curation tasks es
dc.subject language detection tools es
dc.subject mBERT Models for Language Detection es
dc.subject zero-shot approach es
dc.title Detección de idiomas como tarea de curaduría de datos para repositorios institucionales: desempeño de bibliotecas disponibles y modelos de lenguaje es
dc.type Objeto de conferencia es
sedici.identifier.isbn 978-9968-08-017-0 es
sedici.creator.person Nusch, Carlos Javier es
sedici.creator.person Cagnina, Leticia Cecilia es
sedici.creator.person Errecalde, Marcelo Luis es
sedici.creator.person Antonelli, Leandro es
sedici.creator.person De Giusti, Marisa Raquel es
sedici.subject.materias Ciencias Informáticas es
sedici.description.fulltext true es
mods.originInfo.place Ibero-American Science and Technology Education Consortium es
mods.originInfo.place Dirección PREBI-SEDICI es
sedici.subtype Objeto de conferencia es
sedici.rights.license Creative Commons Attribution 4.0 International (CC BY 4.0)
sedici.rights.uri http://creativecommons.org/licenses/by/4.0/
sedici.date.exposure 2024-10
sedici.relation.event XIII Conferencia Internacional de Bibliotecas y Repositorios Digitales (BIREDIAL-ISTEC) (Santiago de Chile, 22 al 24 de octubre de 2024) es
sedici.description.peerReview peer-review es
sedici.relation.bookTitle Actas BIREDIAL-ISTEC 2024: Conferencia Internacional BIREDIAL-ISTEC es


Descargar archivos

Este ítem aparece en la(s) siguiente(s) colección(ones)

Creative Commons Attribution 4.0 International (CC BY 4.0) Excepto donde se diga explícitamente, este item se publica bajo la siguiente licencia Creative Commons Attribution 4.0 International (CC BY 4.0)