¿Qué es variabilidad en big data?

Inicio » ¿Qué es variabilidad en big data?

7

“El big data es como el sexo entre adolescentes. Todos hablan de ello pero nadie sabe realmente cómo es”. Así concluía Óscar Herencia, director general de la aseguradora MetLife Iberia y profesor de MBA en la Universidad Antonio de Nebrija, su ponencia sobre el impacto del big data en el sector asegurador en la 13ª edición de OmExpo, la popular cumbre de marketing digital y ecommerce que se celebra en Madrid.

Desde la medicina hasta las finanzas, las tecnologías de procesamiento de datos a gran escala ya están empezando a cumplir su promesa de transformar las sociedades contemporáneas. Los cambios sociales de gran alcance no se producen de la noche a la mañana. Poco a poco, se convierten en parte de nuestra vida cotidiana, hasta que su carácter revolucionario se disipa. Hace años, los coches híbridos empezaron a llamar la atención de la gente. Hoy, los coches eléctricos son cada vez menos raros, al menos en las grandes ciudades.

Parafraseando las cinco famosas W del periodismo, la presentación de Herencia se basó en lo que él llamó las “cinco V del big data”, y su impacto en el negocio. Son volumen, velocidad, variedad, veracidad y valor.

Qué es el big data

Aquí en GutCheck, hablamos mucho de las 4 V de los Big Data: volumen, variedad, velocidad y veracidad. Hay una “V” en la que destacamos la importancia por encima de todas las demás: la veracidad. La veracidad de los datos es el área que todavía tiene potencial de mejora y plantea el mayor reto en lo que respecta a los grandes datos. Con tantos datos disponibles, asegurarse de que son relevantes y de alta calidad es la diferencia entre los que utilizan con éxito los big data y los que tienen dificultades para entenderlos.

Comprender la importancia de la veracidad de los datos es el primer paso para discernir la señal del ruido cuando se trata de big data. En otras palabras, la veracidad ayuda a filtrar lo que es importante y lo que no lo es, y al final, genera una comprensión más profunda de los datos y de cómo contextualizarlos para tomar medidas.

La veracidad de los datos, en general, es el grado de exactitud o veracidad de un conjunto de datos. Sin embargo, en el contexto de los big data, adquiere un significado algo mayor. Más concretamente, cuando se trata de la exactitud de los big data, no se trata sólo de la calidad de los datos en sí, sino de la fiabilidad de la fuente de datos, el tipo y el procesamiento de los mismos. La eliminación de elementos como el sesgo, las anomalías o incoherencias, la duplicación y la volatilidad son sólo algunos de los aspectos que contribuyen a mejorar la precisión de los big data.

5

El uso actual del término big data tiende a referirse al uso de la analítica predictiva, la analítica del comportamiento del usuario o algunos otros métodos avanzados de análisis de datos que extraen valor de los big data, y rara vez a un tamaño concreto del conjunto de datos. “Hay pocas dudas de que las cantidades de datos disponibles ahora son realmente grandes, pero esa no es la característica más relevante de este nuevo ecosistema de datos”[4].

El tamaño y el número de conjuntos de datos disponibles han crecido rápidamente a medida que los datos son recogidos por dispositivos como los móviles, los baratos y numerosos dispositivos de detección de información del Internet de las cosas, los aéreos (teledetección), los registros de software, las cámaras, los micrófonos, los lectores de identificación por radiofrecuencia (RFID) y las redes de sensores inalámbricos. [8][9] La capacidad tecnológica per cápita del mundo para almacenar información se ha duplicado aproximadamente cada 40 meses desde la década de 1980;[10] en 2012 [actualización], cada día se generaban 2,5 exabytes (2,5×260 bytes) de datos[11] Según la predicción de un informe de IDC, se preveía que el volumen mundial de datos crecería exponencialmente de 4,4 zettabytes a 44 zettabytes entre 2013 y 2020. Para 2025, IDC predice que habrá 163 zettabytes de datos[12]. Una cuestión que se plantea a las grandes empresas es determinar quién debe ser el propietario de las iniciativas de big data que afectan a toda la organización[13].

Validez de los grandes datos

Los diferentes productos de software pueden configurarse basándose en la personalización de los activos de software. Para llevar a cabo la configuración de los productos de software, todos los activos de software relacionados con un área de negocio específica se recopilan en la ingeniería de dominio. Estos activos de software se clasifican en dos grupos: activos comunes y activos variantes. Los activos comunes se incluyen en todos los productos de software, es decir, deben seleccionarse en cada configuración. Por ejemplo, la opción de guardar es un activo de software común en todos los programas de procesamiento de textos. Los activos variantes son opciones que cambian de un producto a otro. Por ejemplo, enviar como correo electrónico es un activo variante porque no se incluye en todos los programas de tratamiento de textos.

Se refiere a la medida en que estos puntos de datos difieren entre sí. Hay cuatro medidas de variabilidad comúnmente utilizadas: rango, media, varianza y desviación estándar. La percepción del riesgo de una clase de activos es directamente proporcional a la variabilidad de sus rendimientos.

La observación de que las características de los dispositivos de silicio fabricados que fueron diseñados como idénticos no serán idénticos después de la fabricación. Una amplia gama de efectos contribuyen a la variación del consumo de energía, la frecuencia de reloj máxima y la vida útil de las características.

Ir arriba