Busque entre los 171432 recursos disponibles en el repositorio
Mostrar el registro sencillo del ítem
dc.date.accessioned | 2025-06-18T14:21:57Z | |
dc.date.available | 2025-06-18T14:21:57Z | |
dc.date.issued | 2024 | |
dc.identifier.uri | http://sedici.unlp.edu.ar/handle/10915/180610 | |
dc.description.abstract | - Presentación del problema: El enorme volumen de recursos almacenados actualmente en los repositorios digitales representa una gran dificultad a la hora de supervisar y corregir errores o mejorar la calidad de los metadatos. El presente trabajo se enfoca en la corrección del metadato idioma en los registros de resúmenes del repositorio institucional SEDICI. - Materiales y metodología: A partir de un dataset exportado del repositorio de unos 126.081 ítems se planificó una tarea de detección automática de idiomas utilizando diferentes bibliotecas existentes compatibles con el método zero-shot (langdetect, CLD3, fastText, Polyglot, langid y TextCat). Luego se compararon los resultados obtenidos con los datos de los idiomas registrados por el personal de catalogación del repositorio. Para tratar de mejorar aún más la detección de idiomas se entrenó un modelo mBERT multilenguaje y se comparó su desempeño con el conjunto más pequeño de ítems cuya clasificación por idiomas era diferente entre humanos y la biblioteca Polyglot. - Resultados: En general, todas las bibliotecas de detección de idiomas mostraron alrededor de un 95% de coincidencia con los idiomas identificados y catalogados por los humanos. En el caso de los modelos mBERT entrenados las coincidencias obtenidas son bajas tanto para los idiomas detectados automáticamente por Polyglot como los catalogados por humanos (78,7% y 19,6% respectivamente). Se encontraron errores de catalogación atribuibles a humanos, pero también errores de las bibliotecas o de los modelos de lenguaje en la tarea de detección. | es |
dc.format.extent | 16-31 | es |
dc.language | es | es |
dc.subject | repositorios institucionales | es |
dc.subject | tareas de curaduría de datos | es |
dc.subject | herramientas de detección de idiomas | es |
dc.subject | modelos mBERT para detección de idiomas | es |
dc.subject | enfoque zero-shot | es |
dc.subject | institutional repositories | es |
dc.subject | data curation tasks | es |
dc.subject | language detection tools | es |
dc.subject | mBERT Models for Language Detection | es |
dc.subject | zero-shot approach | es |
dc.title | Detección de idiomas como tarea de curaduría de datos para repositorios institucionales: desempeño de bibliotecas disponibles y modelos de lenguaje | es |
dc.type | Objeto de conferencia | es |
sedici.identifier.isbn | 978-9968-08-017-0 | es |
sedici.creator.person | Nusch, Carlos Javier | es |
sedici.creator.person | Cagnina, Leticia Cecilia | es |
sedici.creator.person | Errecalde, Marcelo Luis | es |
sedici.creator.person | Antonelli, Leandro | es |
sedici.creator.person | De Giusti, Marisa Raquel | es |
sedici.subject.materias | Ciencias Informáticas | es |
sedici.description.fulltext | true | es |
mods.originInfo.place | Ibero-American Science and Technology Education Consortium | es |
mods.originInfo.place | Dirección PREBI-SEDICI | es |
sedici.subtype | Objeto de conferencia | es |
sedici.rights.license | Creative Commons Attribution 4.0 International (CC BY 4.0) | |
sedici.rights.uri | http://creativecommons.org/licenses/by/4.0/ | |
sedici.date.exposure | 2024-10 | |
sedici.relation.event | XIII Conferencia Internacional de Bibliotecas y Repositorios Digitales (BIREDIAL-ISTEC) (Santiago de Chile, 22 al 24 de octubre de 2024) | es |
sedici.description.peerReview | peer-review | es |
sedici.relation.bookTitle | Actas BIREDIAL-ISTEC 2024: Conferencia Internacional BIREDIAL-ISTEC | es |