Con el gran avance de los sistemas distribuidos en la web y las tecnologías informáticas distribuidas como Cluster y Cloud, el software como servicio (SaaS), los servicios en el Cloud y los constantes requerimientos de procesamiento y análisis a gran escala de enormes cantidades de datos, los sistemas tradicionales de base de datos son insuficientes. Las Bases de Datos NoSQL llenan una importante carencia de las bases de datos relacionales en cuanto a la capacidad que estas tienen en escalabilidad, distribución y manejo de datos no estructurados. Estas 3 características son cada día más relevantes debido precisamente al avance de Cloud Computing, y a los múltiples y diversos servicios cuyo crecimiento y replicación distribuida son extremadamente necesarios.
El framework Hadoop Map/Reduce permiten realizar procesamiento distribuido de grandes volúmenes de datos. La naturaleza distribuida de Cassandra coincide muy bien con la naturaleza distribuida de MapReduce, para ejecutar consultas sobre datos que abarcan múltiples nodos. La sencillez y flexibilidad de Cassandra, su lenguaje de consulta (CQL) y el soporte del controlador múltiple como la capa de almacenamiento de datos para MapReduce, tanto para la entrada y salida de datos; permiten sobreponerse a las limitaciones del Sistema de Archivo de Hadoop (HDFS).