Search among the 182038 resources available in the repository
Presentación del problema: El presente trabajo aborda la tarea de clasificación automática por materias para los contenidos albergados en el repositorio institucional SEDICI. A partir de un corpus de 126.081 ítems se propone ahora un enfoque supervisado de clasificación multilabel que permita predecir las materias asignadas a los ítems del repositorio a partir de sus resúmenes y palabras clave. Materiales y metodología: Los ítems incluyen resúmenes textuales, palabras clave y etiquetas temáticas. Se realizó un análisis de cobertura de etiquetas para obtener un subconjunto óptimo de clases que concentren la mayor parte de los ejemplos en el corpus. Luego se aplicaron distintas técnicas de representación del texto, incluyendo vectorizaciones clásicas por n-gramas (TF-IDF y frecuencia de términos) y modelos de embeddings multilingües (SBERT y LaBSE). Sobre estas representaciones se entrenaron varios clasificadores multilabel, como regresión logística, máquinas de soporte vectorial, Random Forest, Multinomial Naive Bayes y clasificadores por descenso de gradiente. La evaluación se realizó mediante métricas específicas para clasificación multilabel, incluyendo F1-score micro y macro. Resultados: Se observó que la combinación de Frecuencia de Término - Frecuencia Inversa de Documento (TF-IDF) con Máquinas de Soporte Vectorial Lineal (Linear SVC) ofreció un rendimiento destacado entre los enfoques clásicos, alcanzando los mayores valores de F1 macro y F1 micro en ambas configuraciones del conjunto de etiquetas. Los modelos basados en embeddings, especialmente LaBSE y SBERT combinados con Linear SVC, demostraron también un desempeño competitivo, superando en varios casos a los métodos clásicos, aunque a costa de mayores tiempos de entrenamiento. El Clasificador Lineal entrenado con Descenso de Gradiente Estocástico (SGD) se posicionó como una alternativa eficiente y escalable, con tiempos reducidos y métricas satisfactorias. La reducción del espacio de etiquetas de 61 a 37 materias permitió mejorar globalmente la precisión y reducir la complejidad computacional. Conclusiones: Este estudio se propuso demostrar la viabilidad de aplicar modelos supervisados para la clasificación automática de materias en grandes volúmenes de datos textuales en repositorios institucionales. La metodología propuesta es replicable y puede adaptarse a otros contextos documentales con estructuras temáticas similares, y podría contribuir a mejorar la eficiencia y calidad del proceso de curaduría de datos y materiales en repositorios institucionales.
In PortugueseApresentação do problema: O presente trabalho aborda a tarefa de classificação automática por matérias para os conteúdos hospedados no repositório institucional SEDICI. A partir de um corpus de 126.081 itens, propõe-se agora uma abordagem supervisionada de classificação multilabel, que permite prever as matérias atribuídas aos itens do repositório com base em seus resumos e palavras-chave. Materiais e metodologia: Os itens incluem resumos textuais, palavras-chave e rótulos temáticos. Foi realizada uma análise de cobertura de rótulos para obter um subconjunto ideal de classes que concentrasse a maior parte dos exemplos no corpus. Em seguida, aplicaram-se diferentes técnicas de representação textual, incluindo vetorizações clássicas por n-gramas (TF-IDF e frequência de termos) e modelos de embeddings multilíngues (SBERT e LaBSE). Sobre essas representações, foram treinados vários classificadores multilabel, como Regressão Logística, Máquinas de Vetores de Suporte (SVM), Random Forest, Naive Bayes Multinomial e classificadores baseados em Descida de Gradiente. A avaliação foi realizada utilizando métricas específicas para classificação multilabel, incluindo F1-score micro e macro. Resultados: Observou-se que a combinação de Frequência de Termo – Frequência Inversa de Documento (TF-IDF) com Máquinas de Vetores de Suporte Lineares (Linear SVC) apresentou um desempenho destacado entre as abordagens clássicas, alcançando os maiores valores de F1 macro e F1 micro em ambas as configurações do conjunto de rótulos. Os modelos baseados em embeddings, especialmente LaBSE e SBERT combinados com Linear SVC, também demonstraram desempenho competitivo, superando em vários casos os métodos clássicos, embora com maiores tempos de treinamento. O classificador linear treinado com Descida de Gradiente Estocástica (SGD) destacou-se como uma alternativa eficiente e escalável, apresentando tempos reduzidos e métricas satisfatórias. A redução do espaço de rótulos de 61 para 37 matérias permitiu melhorar globalmente a precisão e reduzir a complexidade computacional. Conclusões: Este estudo procurou demonstrar a viabilidade da aplicação de modelos supervisionados para a classificação automática de matérias em grandes volumes de dados textuais de repositórios institucionais. A metodologia proposta é replicável e pode ser adaptada a outros contextos documentais com estruturas temáticas semelhantes, podendo contribuir para melhorar a eficiência e a qualidade do processo de curadoria de dados e materiais em repositórios institucionais.
In EnglishProblem Statement: This work addresses the task of automatic subject classification for the contents hosted in the SEDICI institutional repository. Based on a corpus of 126,081 items, we propose a supervised multilabel classification approach to predict the subjects assigned to repository items from their abstracts and keywords. Materials and Methods: The items include textual abstracts, keywords, and subject tags. We conducted a label coverage analysis to obtain an optimal subset of classes that concentrates most examples in the corpus. We then applied different text representation techniques, including classical n-gram vectorizations (TF-IDF and term frequency) and multilingual embedding models (SBERT and LaBSE). On top of these representations, we trained several multilabel classifiers such as Logistic Regression, Support Vector Machines, Random Forest, Multinomial Naive Bayes, and Stochastic Gradient Descent classifiers. Evaluation was performed using metrics specific to multilabel classification, including micro and macro F1-score. Results: The combination of Term Frequency–Inverse Document Frequency (TF-IDF) with Linear Support Vector Machines (Linear SVC) delivered standout performance among the classical approaches, achieving the highest macro- and micro-F1 values under both label-set configurations. Embedding-based models—especially LaBSE and SBERT paired with Linear SVC—also showed competitive performance, often outperforming classical methods, albeit at the cost of longer training times. The Linear Classifier trained with Stochastic Gradient Descent (SGD) emerged as an efficient and scalable alternative, with reduced training times and satisfactory metrics. Reducing the label space from 61 to 37 subjects improved overall accuracy and lowered computational complexity. Conclusions: This study demonstrates the feasibility of applying supervised models to automatic subject classification over large volumes of textual data in institutional repositories. The proposed methodology is replicable and can be adapted to other documentary contexts with similar thematic structures, and it may help improve the efficiency and quality of data and materials curation processes in institutional repositories.
Except where otherwise noted, this item's license is described as Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)