A principios de los 2000 el analista Doug Laney definió el Big Data con tres características denominadas “las tres V”: Volumen, Velocidad y Variedad de Datos. Sin embargo, se ha demostrado que el Big Data es no solo ciencia y tecnología, sino que responde a una visión estratégica del negocio. En definitiva, en Big Data no es tan importante el volumen de datos como los conocimientos que nos proporcionan y nos permiten tomar mejores decisiones y hacer mejores movimientos estratégicos.

Hasta la irrupción del Big Data (Datos Masivos en español), la Inteligencia de Negocio trabajaba con lo que ahora denominamos Small Data. Hoy estamos en condiciones de diferenciarlos:

  • Small Data trabaja con menores volúmenes de datos, mientras que el Big Data trabaja desde 2012 con petabytes en lugar de Terabytes, dado que se recogen datos de fuentes tan variadas como transacciones comerciales, Social Media y sensores en máquinas. Se habla de Big Data a partir de 4 ó 5 terabytes, pero como hemos dicho los años recientes ya hablamos de pentabytes.
  • Small Data trabaja con datos procesados y estructurados y la gestión y análisis se elabora a partir de los mismos, mientras que Big Data gestiona y analiza datos cambiantes prácticamente en tiempo real.
  • Small data trabaja con datos de distintas fuentes, pero siempre estructurados, mientas que Big Data trabaja con variedades de datos multiestructurados, no solo los datos estructurados numéricos; sino también no estructurados provenientes de redes sociales, e-mail, vídeos, audios o transacciones comerciales.

Small Data trabaja con software OLTP (Procesamientos de datos en línea) y EDW (Enterprise Data Warehouse) para la gestión y análisis de los datos sobre DBMS (Sistemas de Gestión de Bases de Datos). Los sistemas de gestión de bases de datos más usados son MySQL, Microsoft Access, SQL Server, FileMaker, Oracle, RDBMS, dBASE, Clipper y FoxPro.

Big Data utiliza Data Warehouse que gestiona los datos estructurados como como registros financieros, datos de clientes y de ventas y lo combina con Sistemas Big Data que almacenan los datos no estructurados. Además, incorpora sistemas emergentes como Hadoop, framework de software libre preparado para trabajar con sistemas de Gestión de Bases de Datos NoSQL (datos no estructurados) e incorpora Stream Computing para integrar datos en movimiento de distintas fuentes, garantizando mediante un gran número de procesadores una respuesta en milisegundos.

En definitiva, si hasta ahora nuestros sistemas de bases de datos se alimentaban de grandes volúmenes de datos estructurados, la complejidad que ha supuesto que los datos provengan de diferentes plataformas, sumado a la estacionalidad de los mismos y los picos de entrada de datos; ha requerido un software que permita al área directiva de la empresa gestionar toda esa información para poder tomar mejores decisiones y adoptar una estrategia acertada en un entorno empresarial siempre cambiante ante el que hay que reaccionar con rapidez.