¿Qué se considera Big Data?

Inicio » ¿Qué se considera Big Data?

Hechos de big data

En una época en la que casi todo se promociona como “big data”, ¿cómo definimos lo que entendemos por “big data” y qué cuenta exactamente como análisis de “big data”? ¿Cuenta la mera búsqueda de palabras clave en un conjunto de datos de varios petabytes? ¿Cuenta como “big data” el uso de un filtro de fechas para extraer unos pocos millones de tuits del archivo completo de un billón de tuits? ¿Cuenta el funcionamiento de un servidor de archivos de cien petabytes o el mero almacenamiento de una copia de seguridad de cien petabytes? ¿Qué debería contar exactamente como “big data” hoy en día?

Solía comenzar mis charlas sobre ciencia de datos en 2013 diciendo que acababa de realizar varios cientos de análisis el día anterior sobre una base de datos de 100 petabytes que sumaba más de 30 billones de filas, con más de 200 indicadores incorporados al análisis. Cuando preguntaba a la audiencia si esto contaba como un análisis de “big data”, había un asentimiento unánime.

Además, muchas plataformas comerciales de análisis de medios sociales que ofrecen herramientas avanzadas como la minería de sentimientos o el etiquetado temático, aplican sus algoritmos sólo a una muestra aleatoria del total de resultados, a veces tan sólo 1.000 tuits seleccionados al azar del total de resultados de la búsqueda.

El valor de los big data

Data Science Stack Exchange es un sitio de preguntas y respuestas para profesionales de la ciencia de los datos, especialistas en aprendizaje automático y aquellos interesados en aprender más sobre este campo. Sólo se necesita un minuto para registrarse.

Mucha gente utiliza el término big data de una manera más bien comercial, como un medio para indicar que hay grandes conjuntos de datos involucrados en el cálculo, y por lo tanto las soluciones potenciales deben tener un buen rendimiento. Por supuesto, los big data siempre llevan asociados términos como escalabilidad y eficiencia, pero ¿qué es lo que define exactamente un problema como de big data?

¿El cálculo tiene que estar relacionado con un conjunto de propósitos específicos, como la minería de datos o la recuperación de información, o podría un algoritmo para problemas gráficos generales ser etiquetado como big data si el conjunto de datos fuera lo suficientemente grande? Además, ¿qué tamaño es lo suficientemente grande (si es posible definirlo)?

“Big Data” y “Bad Data” están estrechamente relacionados. Las bases de datos relacionales requieren “datos prístinos”. Si los datos están en la base de datos, son precisos, limpios y 100% fiables. Las bases de datos relacionales requieren “Grandes Datos” y se dedica una enorme cantidad de tiempo, dinero y responsabilidad a asegurarse de que los datos están bien preparados antes de cargarlos en la base de datos. Si los datos están en la base de datos, son un “evangelio” y definen la comprensión de la realidad por parte del sistema.

Análisis de grandes datos

En pocas palabras, los big data son conjuntos de datos más grandes y complejos, especialmente los procedentes de nuevas fuentes de datos. Estos conjuntos de datos son tan voluminosos que el software de procesamiento de datos tradicional no puede gestionarlos. Sin embargo, estos volúmenes masivos de datos pueden utilizarse para resolver problemas empresariales que antes no habrían podido abordarse.

La velocidad es la rapidez con la que se reciben los datos y (quizás) se actúa sobre ellos. Normalmente, la mayor velocidad de los datos se transmite directamente a la memoria en lugar de escribirse en el disco. Algunos productos inteligentes con acceso a Internet operan en tiempo real o casi en tiempo real y requerirán una evaluación y acción en tiempo real.

La variedad se refiere a los muchos tipos de datos disponibles. Los tipos de datos tradicionales estaban estructurados y encajaban perfectamente en una base de datos relacional. Con el auge del big data, los datos se presentan en nuevos tipos de datos no estructurados. Los tipos de datos no estructurados y semiestructurados, como el texto, el audio y el vídeo, requieren un preprocesamiento adicional para derivar el significado y soportar los metadatos.

En los últimos años han surgido otras dos V: valor y veracidad. Los datos tienen un valor intrínseco. Pero no sirven de nada hasta que se descubre ese valor. Igualmente importante es saber hasta qué punto los datos son veraces y hasta qué punto se puede confiar en ellos.

Qué es el big data

En las últimas décadas, el uso de datos e información ha aumentado exponencialmente. Mientras que la recopilación de datos es una faceta esperada y, por tanto, normalizada de la vida, reforzada por los numerosos protocolos burocráticos a los que se adhiere la gente para vivir, trabajar y viajar, es profundamente diferente en las operaciones militares, donde el procesamiento de datos es la clave para lograr resultados efectivos. El abrumador volumen de datos, combinado con su complejidad, hace que cualquier toma de decisiones necesaria sea un proceso largo, prolongado y cíclico que afecta a las operaciones en curso. De hecho, el cerebro humano carece de la capacidad para gestionar la información en un plazo corto y encontrar la respuesta adecuada rápidamente. Por estas razones, la cuestión de los Big Data, relacionada con las nuevas tecnologías y las modernas operaciones multidominio, ha sido un área de atención crítica en los recientes debates de la OTAN. Las teorías actuales son incapaces de definir el concepto de Big Data de forma coherente o consistente, principalmente debido a la complejidad y ambigüedad de la idea1. El objetivo de este artículo es arrojar luz sobre el Big Data y sus posibles propósitos en la Inteligencia, Vigilancia y Reconocimiento (ISR) en términos de enfoque de gestión de datos.

Ir arriba