Search among the 182040 resources available in the repository
Presentación del problema: Este artículo busca continuar y optimizar las tareas de detección automática de idioma llevadas a cabo previamente en el repositorio institucional SEDICI. Se procura facilitar la catalogación de materiales ante el enorme volumen de recursos almacenados actualmente. Materiales y metodología: A partir de un dataset exportado del repositorio de unos 126.081 ítems se planificó una tarea de detección automática de idiomas utilizando diferentes bibliotecas existentes con el enfoque zero-shot (LangDetect, Polyglot y Langid). Previamente se llevaron a cabo varias tareas de limpieza de texto y preprocesamiento que buscaron mejorar el desempeño de las bibliotecas respecto de tareas anteriores. Luego se compararon los resultados obtenidos con los datos de los idiomas registrados por el personal de catalogación del repositorio y se corroboró la exactitud de uno y otro grupo. Para tratar de mejorar aún más la detección de idiomas se realizó un ajuste fino y analizó el desempeño de la biblioteca Fasttext y varios modelos (mBERT, SBERT y XLM-RoBERTa). Resultados: En general, todas las bibliotecas de detección de idiomas mostraron un alto nivel de precisión en la detección de idiomas, alrededor de un 98%. En el caso de los modelos de lenguaje también se obtuvieron muy buenos resultados, con valores de alrededor de 100% de f1 score. Las diferentes tareas llevadas a cabo también permitieron identificar y tipificar algunos errores recurrentes en los que suelen incurrir los catalogadores humanos así como realizar una corrección en lote de los metadatos erróneos.
In PortugueseApresentação do problema: Este artigo busca dar continuidade e otimizar as tarefas de detecção automática de idioma realizadas anteriormente no repositório institucional SEDICI. O objetivo é facilitar a catalogação de materiais diante do enorme volume de recursos atualmente armazenados. Materiais e metodologia: A partir de um dataset exportado do repositório, com cerca de 126.081 itens, foi planejada uma tarefa de detecção automática de idiomas utilizando diferentes bibliotecas existentes com a abordagem zero-shot (LangDetect, Polyglot e Langid). Antes disso, foram realizadas várias tarefas de limpeza e pré-processamento de texto com o intuito de melhorar o desempenho das bibliotecas em relação a trabalhos anteriores. Em seguida, os resultados obtidos foram comparados com os dados de idiomas registrados pela equipe de catalogação do repositório, verificando-se a precisão de ambos os grupos. Para tentar melhorar ainda mais a detecção, foi realizado um ajuste fino e analisado o desempenho da biblioteca FastText e de vários modelos (mBERT, SBERT e XLM-RoBERTa). Resultados: De modo geral, todas as bibliotecas de detecção de idioma apresentaram alto nível de precisão, em torno de 98%. No caso dos modelos de linguagem, também foram obtidos excelentes resultados, com valores de cerca de 100% de F1-score. As diferentes tarefas realizadas também permitiram identificar e tipificar erros recorrentes cometidos por catalogadores humanos, além de realizar uma correção em lote de metadados incorretos.
In EnglishProblem statement: This paper aims to continue and optimize the automatic language detection tasks previously carried out in the SEDICI institutional repository. The goal is to facilitate the cataloging of materials given the vast amount of resources currently stored. Materials and methodology: Based on a dataset exported from the repository containing approximately 126,081 items, an automatic language detection task was designed using several existing libraries under the zero-shot approach (LangDetect, Polyglot, and Langid). Prior to this, various text cleaning and preprocessing tasks were performed to improve the performance of the libraries compared to earlier experiments. Then, the results obtained were compared with the language metadata assigned by the repository’s cataloging staff, and the accuracy of both groups was verified. To further enhance detection performance, a fine-tuning process was applied, and the performance of the FastText library and several models (mBERT, SBERT, and XLM-RoBERTa) was analyzed. Results: Overall, all language detection libraries demonstrated a high level of accuracy, around 98%. For the language models, results were also very strong, with F1-scores close to 100%. Additionally, the different tasks carried out allowed for the identification and classification of recurring errors made by human catalogers, as well as the batch correction of incorrect metadata.
Except where otherwise noted, this item's license is described as Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)