El descubrimiento de conocimiento a través de Web Mining involucra el proceso de recuperar datos de fuentes de textos disponibles en la Web tales como boletines de noticias, grupos de noticias, documentos HTML, base de datos, etc. Estos recursos poseen diversos formatos por lo cual antes de ser usados para la extracción de conocimiento necesitan algún tipo de procesamiento preliminar. Formalizar este procesamiento constituye un desafío por la gran diversidad de formatos existentes y la necesidad de evitar redundancias en la manipulación y representación de la información.
Este trabajo sintetiza los principales aspectos de una línea de investigación que se ha comenzado a desarrollar para abordar el problema antes planteado. El eje principal del acercamiento propuesto involucra la definición de un lenguaje de marcaje estandarizado que permita facilitar la tarea de web mining.