Este artículo describe, en forma resumida, los trabajos de investigación y desarrollo que se están llevando a cabo en la línea “Agentes y Sistemas Inteligentes” del LIDIC, en el área de categorización de textos. Otras líneas de investigación del LIDIC, también abordan problemas de categorización pero, en nuestro caso, nos centramos en problemas que involucran documentos. Por este motivo, en nuestra línea se presta especial atención a técnicas vinculadas al procesamiento del lenguaje natural, la lingüistica computacional y la recuperación de la información. En este sentido, buena parte de los desarrollos en estos temas, se han realizado en forma conjunta con grupos de investigación con una experiencia considerable en el procesamiento del lenguaje natural, como por ejemplo, el NLEL de la Universidad Politécnica de Valencia, España.
Los enfoques utilizados en nuestra línea de trabajo, buscan mejorar los procesos de categorización automática de textos en base a dos mecanismos principales: 1) el uso de técnicas de representación de textos más elaboradas, 2) el uso de algoritmos de categorización más eficientes y efectivos. Respecto al primer punto, nuestros trabajos incluyen el uso de representaciones que incorporan información semántica (conceptos) a los métodos tradicionales basados en términos y representaciones basadas en LSI (Latent Semantic Indexing). Las soluciones algorítmicas por su parte, incluyen el ensamblaje de clasificadores y los métodos de optimización bio-inspirados.