El vertiginoso aumento de datos generados en los últimos años, ha servido de incentivo al desarrollo y evolución de la Ciencia de Datos.
Big Data es un término aplicado a conjuntos de datos cuyo tamaño o tipo está más allá de la capacidad de las bases de datos relacionales tradicionales tanto para capturar, gestionar o procesar los datos con baja latencia. Esos datos provienen de sensores, video/audio, redes, archivos de registro, transacciones, web y redes sociales, gran parte de ellos generados en tiempo real y en gran escala. El análisis de Big Data permite a diferentes tipos de usuarios (analistas, investigadores, usuarios comerciales) tomar decisiones utilizando los datos que antes eran inaccesibles o inutilizables. Mediante el uso de técnicas avanzadas de análisis como análisis de texto, aprendizaje automático, análisis predictivo, minería de datos y estadísticas, las organizaciones pueden analizar diversas fuentes de datos no tratadas previamente para obtener nuevas ideas que les permitan tomar mejores y más rápidas decisiones. A las cuatro V, que representan las dimensiones de Big Data propuestas por IBM: Volumen, Variedad, Veracidad y Velocidad, se le suma una quinta V, o dimensión: Visualización, que hace referencia a la representación visual, comprensible de los datos. En el marco de Ciencia de Datos, esta línea de investigación propone analizar y caracterizar diferentes estrategias y herramientas de búsqueda de conocimiento para la toma de decisiones, según sus potencialidades de Visualización de Información y principios de Deep Learning.
Éstas se aplicarán a conjuntos de datos obtenidos desde diversas fuentes, en especial los disponibles bajo el nombre Open Data. De acuerdo a la naturaleza y magnitud de los datos, se considerarán variadas herramientas de software libre disponibles en el mercado, atendiendo a las potencialidades de visualización que las mismas ofrecen.