El aprendizaje de tareas en robots móviles, mediante aprendizaje por refuerzo, involucra la construcción de una política que permita al agente decidir qué acción tomar en cada situación censada. Construir esta política en problemas reales implica el manejo de grandes espacios de situaciones y acciones. Por lo tanto, es necesario recurrir a técnicas de clustering para tratar con estos espacios de una forma computacionalmente manejable. Si el agente no es capaz de clasificar adecuadamente las situaciones censadas, asignando a cada clase la acción correcta, el aprendizaje será perjudicado por el clusterting-aliasing, o por un clustering excesivamente refinado, con el cual desperdiciará recursos y perderá capacidad para generalizar. El grado de clusterización debe depender no sólo de la complejidad del ambiente, sino también la complejidad de la tarea a aprender. En el mismo ambiente, una tarea sencilla para ser aprendida con éxito, debería requerir menos distinciones de situaciones que una más compleja. Encontrar la cantidad justa de clusters que se necesita no es una tarea trivial [10].
En este trabajo se propone una métrica para medir el grado de cluster-aliasing, y un nuevo algoritmo para aproximar la cantidad justa de clusters disminuyendo el grado de cluster-aliasing. Presentaremos resultados experimentales en robots móviles Khepera que respaldan la performance del algoritmo propuesto.