Que es big data y data science

Inicio » Que es big data y data science

Diferencia entre big data y ciencia de datos

¿Qué es el big data? Esa es una buena pregunta. Parece que hay tantas definiciones de big data como empresas, organizaciones sin ánimo de lucro, agencias gubernamentales y personas que quieren beneficiarse de él.

Una interpretación popular de big data se refiere a conjuntos de datos extremadamente grandes. Un informe del Instituto Nacional de Estándares y Tecnología definió los big data como “conjuntos de datos extensos -principalmente en las características de volumen, velocidad y/o variabilidad- que requieren una arquitectura escalable para un almacenamiento, manipulación y análisis eficientes”. Algunos han definido los big data como una cantidad de datos que supera un petabyte -un millón de gigabytes-.

Estos datos proceden de innumerables fuentes: teléfonos inteligentes y publicaciones en las redes sociales; sensores, como señales de tráfico y contadores de servicios públicos; terminales de puntos de venta; dispositivos portátiles de los consumidores, como los medidores de peso; historiales médicos electrónicos; y un largo etcétera.

En las profundidades de estos datos hay inmensas oportunidades para las organizaciones que tienen el talento y la tecnología para transformar sus vastos almacenes de datos en una visión procesable, una mejor toma de decisiones y una ventaja competitiva.

Relación entre big data y ciencia de datos

En pocas palabras, los big data son conjuntos de datos más grandes y complejos, especialmente los procedentes de nuevas fuentes de datos. Estos conjuntos de datos son tan voluminosos que el software tradicional de procesamiento de datos no puede gestionarlos. Sin embargo, estos volúmenes masivos de datos pueden utilizarse para resolver problemas empresariales que antes no habrían podido abordarse.

La velocidad es la rapidez con la que se reciben los datos y (quizás) se actúa sobre ellos. Normalmente, la mayor velocidad de los datos se transmite directamente a la memoria en lugar de escribirse en el disco. Algunos productos inteligentes con acceso a Internet operan en tiempo real o casi en tiempo real y requerirán una evaluación y acción en tiempo real.

La variedad se refiere a los muchos tipos de datos disponibles. Los tipos de datos tradicionales estaban estructurados y encajaban perfectamente en una base de datos relacional. Con el auge del big data, los datos se presentan en nuevos tipos de datos no estructurados. Los tipos de datos no estructurados y semiestructurados, como el texto, el audio y el vídeo, requieren un preprocesamiento adicional para derivar el significado y soportar los metadatos.

En los últimos años han surgido otras dos V: valor y veracidad. Los datos tienen un valor intrínseco. Pero no sirven de nada hasta que se descubre ese valor. Igualmente importante es saber hasta qué punto los datos son veraces y hasta qué punto se puede confiar en ellos.

Proyectos de big data y ciencia de datos

Puede que no haya mucha diferencia, pero big data vs data science siempre ha instigado la mente de muchos y los ha puesto en un dilema. Hoy vamos a revelar la verdadera diferencia entre estos dos términos de una manera elocuente que le ayudará a entender los conceptos básicos que hay detrás de ellos y cómo se diferencian el uno del otro. En primer lugar, la ciencia de los datos es una extensión evolutiva de la estadística que se ocupa de grandes conjuntos de datos con la ayuda de las tecnologías informáticas. Muchos confunden la ciencia de los datos con un aprendizaje automático absolutamente erróneo. Aunque el aprendizaje automático es un subconjunto de la ciencia de los datos, no son lo mismo.

Por otra parte, el big data se ocupa de la vasta colección de datos heterogéneos de diferentes fuentes y no está disponible en los formatos de base de datos estándar que conocemos. Esto implica que los datos no se tabulan en una tabla o un gráfico.

Mientras que los datos estructurados son bastante sencillos de entender, los no estructurados requieren técnicas de modelización personalizadas para extraer información de los datos, lo que se hace con la ayuda de herramientas informáticas, estadísticas y otros enfoques de la ciencia de los datos.

Análisis de datos frente a ciencia de datos

El enfoque de los big data no puede lograrse fácilmente con los métodos tradicionales de análisis de datos. En su lugar, los datos no estructurados requieren técnicas, herramientas y sistemas de modelado de datos especializados para extraer las ideas y la información que necesitan las organizaciones. La ciencia de los datos es un enfoque científico que aplica ideas matemáticas y estadísticas y herramientas informáticas para el procesamiento de big data. La ciencia de los datos es un campo especializado que combina múltiples áreas como la estadística, las matemáticas, las técnicas de captura inteligente de datos, la limpieza de datos, la minería y la programación para preparar y alinear los big data para un análisis inteligente que permita extraer ideas e información.

En la actualidad, todos asistimos a un crecimiento sin precedentes de la información generada en todo el mundo y en Internet que da lugar al concepto de big data. La ciencia de los datos es un área bastante desafiante debido a las complejidades que implica la combinación y aplicación de diferentes métodos, algoritmos y complejas técnicas de programación para realizar análisis inteligentes en grandes volúmenes de datos. De ahí que el campo de la ciencia de los datos haya evolucionado a partir del big data, o que el big data y la ciencia de los datos sean inseparables.

Ir arriba