Durante los últimos años, se han aplicado varios enfoques basados en el aprendizaje automático (AA) para aligerar el análisis y el reconocimiento de comportamientos maliciosos en las redes informáticas. Estos enfoques se han centrado en facilitar la tarea del personal de seguridad de la red, en mejorar su capacidad de detección y en intentar aumentar el nivel de automatización en el reconocimiento y el análisis de los comportamientos maliciosos. Sin embargo, todos estos enfoques requieren un conjunto de datos anotados con etiquetas. Al utilizar conjuntos de datos etiquetados, estos sistemas pueden generalizar comportamientos no observados previamente. Por desgracia, los conjuntos de datos etiquetados no suelen tener la representatividad y la precisión necesarias. Esta última carencia está asociada, entre otros factores, a la falta de recursos humanos formados y a la dificultad en el proceso de creación de estos conjuntos de datos etiquetados.
En consecuencia, el objetivo general de este proyecto es desarrollar estrategias para reducir el esfuerzo humano durante el proceso de etiquetado y análisis de conjuntos de datos con tráfico de red.
Estas estrategias se centran en la aplicación de diferentes técnicas de Aprendizaje por Refuerzo (RL) para establecer políticas adecuadas que minimicen el grado de interacción del usuario durante el proceso de etiquetado. Al utilizar RL es posible aprender nuevas políticas que tengan en consideración otras recompensas como ser la experiencia o capacidad del usuario junto a aspectos distintivos del proceso de etiquetado como ser la calidad, oportunidad y relevancia, entre otros. De esta manera se evita depender de una única política a la hora de tomar la decisión de consultar al usuario. Esto último resulta fundamental para el desarrollo de sistemas de detección basados en técnicas de AA.
La principal contribución que se espera obtener de la investigación propuesta en el corto plazo es disponer de un conjunto de técnicas que faciliten el proceso de etiquetado en trazas de tráfico de red para su utilización en sistemas de detección de comportamiento malicioso basados en algoritmos de AA, mejorando de manera continua su capacidad de detección.