Detección de idiomas como tarea de curaduría de datos para repositorios institucionales: desempeño de bibliotecas disponibles y modelos de lenguaje

Nusch, Carlos Javier; Cagnina, Leticia Cecilia; Errecalde, Marcelo Luis; Antonelli, Leandro; De Giusti, Marisa Raquel

Buscar material

Busque entre los 171432 recursos disponibles en el repositorio

Subir material

Suba sus trabajos a SEDICI, para mejorar notoriamente su visibilidad e impacto

Eventos
→
Conferencia Internacional BIREDIAL-ISTEC
→
2024 | XIII BIREDIAL

Mostrar el registro sencillo del ítem

dc.date.accessioned	2025-06-18T14:21:57Z
dc.date.available	2025-06-18T14:21:57Z
dc.date.issued	2024
dc.identifier.uri	http://sedici.unlp.edu.ar/handle/10915/180610
dc.description.abstract	- Presentación del problema: El enorme volumen de recursos almacenados actualmente en los repositorios digitales representa una gran dificultad a la hora de supervisar y corregir errores o mejorar la calidad de los metadatos. El presente trabajo se enfoca en la corrección del metadato idioma en los registros de resúmenes del repositorio institucional SEDICI. - Materiales y metodología: A partir de un dataset exportado del repositorio de unos 126.081 ítems se planificó una tarea de detección automática de idiomas utilizando diferentes bibliotecas existentes compatibles con el método zero-shot (langdetect, CLD3, fastText, Polyglot, langid y TextCat). Luego se compararon los resultados obtenidos con los datos de los idiomas registrados por el personal de catalogación del repositorio. Para tratar de mejorar aún más la detección de idiomas se entrenó un modelo mBERT multilenguaje y se comparó su desempeño con el conjunto más pequeño de ítems cuya clasificación por idiomas era diferente entre humanos y la biblioteca Polyglot. - Resultados: En general, todas las bibliotecas de detección de idiomas mostraron alrededor de un 95% de coincidencia con los idiomas identificados y catalogados por los humanos. En el caso de los modelos mBERT entrenados las coincidencias obtenidas son bajas tanto para los idiomas detectados automáticamente por Polyglot como los catalogados por humanos (78,7% y 19,6% respectivamente). Se encontraron errores de catalogación atribuibles a humanos, pero también errores de las bibliotecas o de los modelos de lenguaje en la tarea de detección.	es
dc.format.extent	16-31	es
dc.language	es	es
dc.subject	repositorios institucionales	es
dc.subject	tareas de curaduría de datos	es
dc.subject	herramientas de detección de idiomas	es
dc.subject	modelos mBERT para detección de idiomas	es
dc.subject	enfoque zero-shot	es
dc.subject	institutional repositories	es
dc.subject	data curation tasks	es
dc.subject	language detection tools	es
dc.subject	mBERT Models for Language Detection	es
dc.subject	zero-shot approach	es
dc.title	Detección de idiomas como tarea de curaduría de datos para repositorios institucionales: desempeño de bibliotecas disponibles y modelos de lenguaje	es
dc.type	Objeto de conferencia	es
sedici.identifier.isbn	978-9968-08-017-0	es
sedici.creator.person	Nusch, Carlos Javier	es
sedici.creator.person	Cagnina, Leticia Cecilia	es
sedici.creator.person	Errecalde, Marcelo Luis	es
sedici.creator.person	Antonelli, Leandro	es
sedici.creator.person	De Giusti, Marisa Raquel	es
sedici.subject.materias	Ciencias Informáticas	es
sedici.description.fulltext	true	es
mods.originInfo.place	Ibero-American Science and Technology Education Consortium	es
mods.originInfo.place	Dirección PREBI-SEDICI	es
sedici.subtype	Objeto de conferencia	es
sedici.rights.license	Creative Commons Attribution 4.0 International (CC BY 4.0)
sedici.rights.uri	http://creativecommons.org/licenses/by/4.0/
sedici.date.exposure	2024-10
sedici.relation.event	XIII Conferencia Internacional de Bibliotecas y Repositorios Digitales (BIREDIAL-ISTEC) (Santiago de Chile, 22 al 24 de octubre de 2024)	es
sedici.description.peerReview	peer-review	es
sedici.relation.bookTitle	Actas BIREDIAL-ISTEC 2024: Conferencia Internacional BIREDIAL-ISTEC	es

Descargar archivos

Documento completo
Descargar archivo (438.7Kb) - PDF

Este ítem aparece en la(s) siguiente(s) colección(ones)

Conferencia Internacional BIREDIAL-ISTEC → 2024 | XIII BIREDIAL

Excepto donde se diga explícitamente, este item se publica bajo la siguiente licencia Creative Commons Attribution 4.0 International (CC BY 4.0)

Iniciar sesión