Velocidad en big data

Inicio » Velocidad en big data

Big data 3 v

Hay tres propiedades definitorias que pueden ayudar a desglosar el término. Apodadas las tres V: volumen, velocidad y variedad, son la clave para entender cómo podemos medir los big data y lo diferentes que son los “big data” de los datos tradicionales.

Empezaremos por la más obvia. El big data es volumen. Volúmenes de datos que pueden alcanzar cotas sin precedentes, de hecho. Se calcula que cada día se crean 2,5 quintillones de bytes de datos, por lo que en 2020 habrá 40 zettabytes de datos creados, lo que pone de manifiesto un aumento de 300 veces desde 2005. Como resultado, ahora no es raro que las grandes empresas tengan Terabytes -e incluso Petabytes- de datos en dispositivos de almacenamiento y en servidores. Estos datos ayudan a perfilar el futuro de una empresa y sus acciones, a la vez que hacen un seguimiento del progreso.

El crecimiento de los datos, y su consiguiente importancia, ha cambiado nuestra forma de verlos. Hubo un tiempo en el que no veíamos la importancia de los datos en el mundo corporativo, pero con el cambio en la forma de recopilarlos, hemos llegado a depender de ellos día a día. La velocidad mide esencialmente la rapidez con la que llegan los datos. Algunos datos llegarán en tiempo real, mientras que otros llegarán a trompicones, enviados por lotes. Y como no todas las plataformas experimentarán la entrada de datos al mismo ritmo, es importante no generalizar, descontar o sacar conclusiones sin tener todos los datos.

Validez de los Big Data

Las infraestructuras actuales para dar soporte a las aplicaciones científicas de Big Data siguen un enfoque tradicional centrado en el control, en el que el comportamiento, y no los datos y las operaciones de datos, es el principal constructo organizador de su diseño. Esto limita las capacidades potenciales de manejo de datos de dichas infraestructuras. Por ejemplo, dificulta el manejo explícito de los datos en varias capas del sistema (por ejemplo, la red y el sistema de archivos) para satisfacer requisitos multidominio, como la seguridad, el rendimiento y la gestión de datos con conciencia de los recursos para reducir los costes operativos.

Uno de los principales retos es el hecho de que las herramientas de software y la infraestructura de apoyo a la colaboración han evolucionado de forma poco sistemática.    Las tecnologías de gestión de datos, como las rejillas de datos, permiten que operaciones sofisticadas integren datos de múltiples dominios administrativos en una sola abstracción. Los modelos de nube, como la infraestructura como servicio (IaaS), facilitan el rápido despliegue de la infraestructura virtual en red (es decir, las nubes) y la rápida transferencia de datos. Por un lado, estas tecnologías no abordan el reto de los Big Data trabajando de forma independiente. Por otro lado, presentan APIs complejas y opacas y utilizan diferentes abstracciones de recursos que dificultan su integración, lo que impide que los datos desempeñen un papel central en la toma de decisiones de forma automatizada.

Uso de Big Data

Big data es un término que se ha utilizado mucho en los últimos años, pero ¿qué es en realidad? En este blog nos pondremos al día sobre el big data, qué es, qué hace y cómo puede empezar a utilizarlo.

Big data es todo lo que tiene que ver con los datos en grandes volúmenes. Desde recibirlos hasta procesarlos y almacenarlos, pero también obtener información útil a partir de grandes cantidades de datos. Los datos masivos tienen que ver tanto con las estadísticas como con la infraestructura de TI, con el resultado de conocimientos que forman la base de las decisiones estratégicas.

Por lo general, no se obtienen terabytes de almacenamiento sólo de sus análisis o sólo de su almacenamiento de transacciones. Los big data se componen de muchas fuentes de datos diferentes, cada una de las cuales proporciona datos de forma muy diferente a la siguiente. Hay datos estructurados, semiestructurados y no estructurados. Los datos estructurados proceden de fuentes como las bases de datos relacionales SQL, por ejemplo, los usuarios registrados en un sitio web. En este caso, una dirección de correo electrónico está claramente vinculada a un nombre, una dirección e incluso un carrito de la compra. Los datos semiestructurados son cosas como un flujo de datos de un sensor IoT o datos de registro de un sitio web. Por último, los datos no estructurados pueden proceder de bases de datos NoSQL o no relacionales y de sistemas de almacenamiento de documentos.

Valor de los grandes datos

Su innovador invento -patentado por Telekom- supera dos obstáculos. En primer lugar, descifra los formatos de datos, supuestamente imprevisibles, y los agrupa en piezas técnicas relacionadas lógicamente (llamadas chunks). Estos se ponen “en la cuna” del sistema informático como una especie de segunda lengua extranjera. Y en segundo lugar, la solución -un “transcodificador” similar a un convertidor de MP3 en los equipos de audio modernos- garantiza un almacenamiento rápido y comprimido, incluso en la nube. Cuando un motor funciona más rápido, la temperatura o la presión del aceite no siempre cambian repentinamente más rápido. El procesamiento de señales basado en software resultante (“procesamiento de señales de big data”) aprovecha este hecho y puede así operar sin pérdida de información en una fracción de los datos originales, pero al mismo tiempo en cada núcleo de ordenador de un clúster proporcionado. La velocidad alcanzada en la práctica es 40 veces superior a la de los métodos anteriores; la cantidad de datos almacenados se reduce, en función de los canales medidos, hasta un 10 por ciento del volumen original. “A diferencia de lo que están acostumbrados los usuarios de MP3 privados, también podemos devolver los datos exactamente a su forma original. Así, si un ingeniero quiere investigar en detalle una anomalía detectada y necesita el detalle parcial correspondiente en su totalidad, esto es posible en cualquier momento con nuestro método de datos enormes”, revela Jung.

Ir arriba