Características de los big data
El uso actual del término big data tiende a referirse al uso de la analítica predictiva, la analítica del comportamiento del usuario o algunos otros métodos avanzados de análisis de datos que extraen valor de los big data, y rara vez a un tamaño concreto del conjunto de datos. «Hay pocas dudas de que las cantidades de datos disponibles ahora son realmente grandes, pero esa no es la característica más relevante de este nuevo ecosistema de datos»[4].
El tamaño y el número de conjuntos de datos disponibles han crecido rápidamente a medida que los datos son recogidos por dispositivos como los móviles, los baratos y numerosos dispositivos de detección de información del Internet de las cosas, los aéreos (teledetección), los registros de software, las cámaras, los micrófonos, los lectores de identificación por radiofrecuencia (RFID) y las redes de sensores inalámbricos. [8][9] La capacidad tecnológica per cápita del mundo para almacenar información se ha duplicado aproximadamente cada 40 meses desde la década de 1980;[10] en 2012 [actualización], cada día se generaban 2,5 exabytes (2,5×260 bytes) de datos[11] Según la predicción de un informe de IDC, se preveía que el volumen mundial de datos crecería exponencialmente de 4,4 zettabytes a 44 zettabytes entre 2013 y 2020. Para 2025, IDC predice que habrá 163 zettabytes de datos[12]. Una cuestión que se plantea a las grandes empresas es determinar quién debe ser el propietario de las iniciativas de big data que afectan a toda la organización[13].
Valor de los big data
Big data es un término que describe los grandes volúmenes de datos difíciles de gestionar -tanto estructurados como no estructurados- que inundan las empresas en su día a día. Pero lo importante no es sólo el tipo o la cantidad de datos, sino lo que las organizaciones hacen con ellos. Los grandes datos pueden analizarse para obtener información que mejore las decisiones y dé confianza para tomar medidas empresariales estratégicas.
El término «big data» se refiere a los datos que son tan grandes, rápidos o complejos que son difíciles o imposibles de procesar con los métodos tradicionales. El acto de acceder y almacenar grandes cantidades de información para su análisis existe desde hace mucho tiempo. Pero el concepto de big data cobró impulso a principios de la década de 2000, cuando el analista de la industria Doug Laney articuló la definición de big data, que ahora es la más extendida, como las tres V:
Volumen. Las organizaciones recopilan datos de una gran variedad de fuentes, como transacciones, dispositivos inteligentes (IoT), equipos industriales, vídeos, imágenes, audio, redes sociales y mucho más. En el pasado, almacenar todos esos datos habría sido demasiado costoso, pero el almacenamiento más barato mediante lagos de datos, Hadoop y la nube ha aliviado la carga.
Big data qué es
En pocas palabras, los big data son conjuntos de datos más grandes y complejos, especialmente los procedentes de nuevas fuentes de datos. Estos conjuntos de datos son tan voluminosos que el software tradicional de procesamiento de datos no puede gestionarlos. Pero estos volúmenes masivos de datos pueden utilizarse para resolver problemas de negocio que antes no habrían podido abordarse.
La velocidad es la rapidez con la que se reciben los datos y (quizás) se actúa sobre ellos. Normalmente, la mayor velocidad de los datos se transmite directamente a la memoria en lugar de escribirse en el disco. Algunos productos inteligentes con acceso a Internet operan en tiempo real o casi en tiempo real y requerirán una evaluación y acción en tiempo real.
La variedad se refiere a los muchos tipos de datos disponibles. Los tipos de datos tradicionales estaban estructurados y encajaban perfectamente en una base de datos relacional. Con el auge del big data, los datos se presentan en nuevos tipos de datos no estructurados. Los tipos de datos no estructurados y semiestructurados, como el texto, el audio y el vídeo, requieren un preprocesamiento adicional para derivar el significado y soportar los metadatos.
En los últimos años han surgido otras dos V: valor y veracidad. Los datos tienen un valor intrínseco. Pero no sirven de nada hasta que se descubre ese valor. Igualmente importante es saber hasta qué punto los datos son veraces y hasta qué punto se puede confiar en ellos.
Ejemplos de fuentes de big data
Antes de la invención de Hadoop, las tecnologías en las que se basan los sistemas modernos de almacenamiento y computación eran relativamente básicas, lo que limitaba a las empresas sobre todo al análisis de «datos pequeños». Sin embargo, incluso esta forma relativamente básica de análisis podía resultar difícil, especialmente la integración de nuevas fuentes de datos.
Con la analítica de datos tradicional, que se basa en el uso de bases de datos relacionales (como las bases de datos SQL), formadas por tablas de datos estructurados, cada byte de datos en bruto debe formatearse de una manera específica antes de poder introducirse en la base de datos para su análisis. Este proceso, a menudo largo, conocido como extracción, transformación y carga (o ETL) es necesario para cada nueva fuente de datos. El principal problema de este proceso y enfoque en tres partes es que requiere mucho tiempo y trabajo, a veces hasta 18 meses para que los científicos de datos y los ingenieros lo implementen o modifiquen.
Sin embargo, una vez que los datos estaban dentro de la base de datos, en la mayoría de los casos era bastante fácil para los analistas de datos consultarlos y analizarlos. Pero entonces aparecieron Internet, el comercio electrónico, las redes sociales, los dispositivos móviles, la automatización del marketing, los dispositivos del Internet de las cosas (IoT), etc., y el tamaño, el volumen y la complejidad de los datos en bruto se convirtieron en algo demasiado grande para que todas las instituciones, salvo unas pocas, pudieran analizarlos en el curso normal de su actividad.