In English
This paper proposes the use of machine learning models in the "Aprender" standardized assessment tests implemented in Argentina. These tests measure language and mathematics performance in primary and secondary school. The proposed study used data from the 2018 edition of the sixth-grade primary education assessment. During the research phase, language and mathematics performance were analyzed, the results of which are presented in this article. To this end, a preliminary feature selection was performed, followed by a preselection of some of the models used in this experiment, belonging to the Python library Scikit-Learn (Sklearn). The following classifier methods were considered: Extra Tree Classifier, Decision Tree Classifier, Random Forest Classifier, Gradient Boosting Classifier, and Kneighbors Classifier. Of these, the model that achieved the highest level of accuracy was identified. In addition, the datasets used underwent preliminary processing, during which missing and negative data were filled using the median of each column. Finally, the most significant features that lead to the best results were identified.
In Spanish
Este trabajo propone el uso de modelos de aprendizaje automático en las pruebas de evaluación estandarizadas "Aprender" implementadas en Argentina. Estas pruebas miden el rendimiento en lenguaje y matemáticas en escuelas primarias y secundarias. El estudio propuesto utilizó datos de la edición 2018 de la evaluación de sexto grado de educación primaria. Durante la fase de investigación, se analizó el rendimiento en lenguaje y matemáticas, cuyos resultados se presentan en este artículo. Para ello, se realizó una selección preliminar de características, seguida de una preselección de algunos de los modelos utilizados en este experimento, pertenecientes a la biblioteca de Python Scikit-Learn (Sklearn). Se consideraron los siguientes métodos de clasificación: Clasificador de Árbol Extra, Clasificador de Árbol de Decisión, Clasificador de Bosque Aleatorio, Clasificador de Potenciación de Gradiente y Clasificador de Vecinos. De estos, se identificó el modelo que alcanzó el mayor nivel de precisión. Además, los conjuntos de datos utilizados se sometieron a un procesamiento preliminar, durante el cual los datos faltantes y negativos se completaron utilizando la mediana de cada columna. Finalmente, se identificaron las características más significativas que conducen a los mejores resultados.