Actualmente han surgido una cantidad de nuevos repositorios de información, en los cuales los datos son no estructurados y no se adaptan fácilmente al modelo re- lacional. Esto se debe tanto a la evolución de las tecnologías de información y comunicación, como a la gran cantidad y variedad de información disponible en formato digital. Estos diferentes tipos de datos tales como texto libre, imágenes, audio, video, secuencias biológicas de ADN o proteínas, entre otros; o bien no pueden ser fácilmente estucturados en claves y registros, o bien tal estructuración carece de sentido práctico, restringiendo de antemano los diversos tipos de consultas que se pueden requerir sobre ellos. Todo esto deja en evidencia la necesidad de procesar grandes conjuntos de datos, para obtener información útil a partir de ellos.
El objetivo de cualquier sistema de recuperación de información es obtener, desde una base de datos, lo que podría ser útil o relevante para el usuario a partir de una consulta. Para ello se utiliza alguna estructura de almacenamiento sobre dichos datos (índice), diseñadas especialmente para ese propósito, que permita responder a la consulta de manera eficiente.