Adotamos o m etodo da indexação da semântica latente (LSI) para classifi car documentos que estejam relacionados por algum meio não restrito apenas aos termos presentes, mas buscando outras formas de similaridades.
A redu cão de dimensionalidade da matriz Termo-Documento n~ao e novidade, sendo normalmente adotado entre 200 a 300 dimensões.
Nesse trabalho, transformamos o LSI em um algoritmo semi-supervisionado e determinamos o n umero ideal de dimensão durante a fase de treinamento.
O algoritmo utiliza um espa co isom etrico a aquele de nido pela matriz Termo-Documento para acelerar os c alculos.