Las 5 v del big data

Inicio » Las 5 v del big data

Las 5 v del big data del momento

características del big data

Comenzó en el año 2001 con 3 V, a saber, Volumen, Velocidad y Variedad. Luego se añadió la Veracidad, convirtiéndose en 4 V’s. Luego se añadió el valor, convirtiéndolo en 5 V. Más tarde llegaron las 8 V, las 10 V, etc. Hablaremos de las más importantes (5 V): Volumen, Velocidad, Variedad, Veracidad y Valor.

Datos estructurados: Son los datos tradicionales que están organizados y se ajustan a la estructura formal de los datos. Estos datos pueden almacenarse en una base de datos relacional. Ejemplo: Extracto bancario que contiene fecha, hora, importe, etc.

Se refiere a la garantía de calidad/integridad/credibilidad/exactitud de los datos. Dado que los datos se recogen de múltiples fuentes, debemos comprobar su exactitud antes de utilizarlos para obtener información empresarial.

El hecho de que hayamos recogido muchos datos no tiene ningún valor si no obtenemos alguna información de ellos. El valor se refiere a la utilidad de los datos en la toma de decisiones. Tenemos que extraer el valor de los Big Data utilizando la analítica adecuada.

Viscosidad (complejidad o grado de correlación), Variabilidad (inconsistencia en el flujo de datos), Volatilidad (durabilidad o cuánto tiempo son válidos los datos y cuánto tiempo deben ser almacenados), Viabilidad (capacidad de estar vivos y activos), Validez (comprensible para encontrar las relaciones ocultas).

big data ibm

Para definir dónde empieza el Big Data y a partir de qué punto el uso dirigido de los datos se convierte en un proyecto de Big Data, es necesario echar un vistazo a los detalles y las características clave del Big Data. Su definición se basa comúnmente en el modelo de las 3 V de los analistas de Gartner y, aunque este modelo es ciertamente importante y correcto, ha llegado el momento de añadir otros dos factores cruciales.

Como escribimos en nuestra anterior entrada del blog, definir Big Data no es tan fácil, ya que el término se relaciona con muchos aspectos y disciplinas. Y para muchos lo más importante es el éxito de las empresas (Valor), cuya clave es la obtención de nueva información -que debe estar disponible para muchos usuarios muy rápidamente (Velocidad)- utilizando enormes cantidades de datos (Volumen) procedentes de fuentes muy diversas (Variedad) y de distinta calidad (Validez), con el fin de poder tomar rápidamente decisiones importantes para ganar o mantener la ventaja competitiva.

En el libro “Big Data – Using smart Big Data analytics and metrics to make better decisions and improve performance”, Bernard Marr escribe que si el Big Data no se tradujera finalmente en una ventaja, sería inútil. No podríamos estar más de acuerdo.

5v big data

Hace poco hablé con Mark Masselli y Margaret Flinter para un episodio de su programa de radio “Conversations on Health Care”, en el que les expliqué cómo la plataforma Explorys de IBM Watson aprovechaba el poder del procesamiento y la analítica avanzados para convertir los datos de fuentes dispares en información procesable. Mis anfitriones querían saber qué aspecto tienen estos datos. Y se preguntaban por qué las características de los big data son relevantes para las organizaciones sanitarias en particular.

Resulta que los científicos de datos casi siempre describen los “grandes datos” como algo que tiene al menos tres dimensiones distintas: volumen, velocidad y variedad. Algunos añaden más Vs a la lista, para incluir también -en mi caso- la variabilidad y el valor. Así es como defino las “cinco V de los grandes datos”, y lo que les dije a Mark y Margaret sobre su impacto en la atención al paciente.

Los big data tienen que ser ante todo “grandes”, y el tamaño en este caso se mide como volumen. Desde los datos clínicos asociados a las pruebas de laboratorio y a las visitas de los médicos, hasta los datos administrativos relacionados con los pagos y los pagadores, este pozo de información ya se está expandiendo. Cuando esos datos se unan a un mayor uso de la medicina de precisión, se producirá una explosión de big data en la atención sanitaria, especialmente a medida que los datos genómicos y ambientales se vuelvan más omnipresentes.

Ir arriba