La detección de bots es un desafío crítico para los repositorios digitales académicos como SEDICI, con implicaciones para la seguridad cibernética, el análisis de tráfico y las estadísticas de acceso y uso.
Este estudio aborda la escasez de datos públicos y la necesidad de métodos eficaces para distinguir entre accesos humanos y automatizados en entornos web. Presentamos un nuevo dataset de logs web derivado de SEDICI y evaluamos diversos algoritmos de aprendizaje automático para la clasificación de accesos.
Nuestro análisis comparativo abarca desde métodos clásicos como Regresión Logística hasta técnicas avanzadas de ensemble como XGBoost y Random Forest. Los resultados muestran un rendimiento sobresaliente de los modelos basados en árboles con una efectividad superior al 97%.
Además, discutimos las implicaciones prácticas de implementar estos modelos en SEDICI para mejorar la precisión de las estadísticas de acceso y proporcionamos una base para futuras investigaciones en la detección de bots en repositorios digitales.
Información general
Fecha de exposición:octubre 2024
Fecha de publicación:2024
Idioma del documento:Español
Evento:XXX Congreso Argentino de Ciencias de la Computación (CACIC) (La Plata, 7 al 11 de octubre de 2024)
Institución de origen:Red de Universidades con Carreras en Informática
Excepto donde se diga explícitamente, este item se publica bajo la siguiente licencia Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)