Diferencia entre big data y data warehouse

Inicio » Diferencia entre big data y data warehouse

Diferencia entre big data y data warehouse en línea

almacén de datos frente a banco de datos

En las últimas décadas, los almacenes de datos (Data Warehouse) han ido abriendo camino y hoy es el Big Data la última revolución tecnológica. Una pregunta que se hace a menudo es si el Big Data sustituirá al Data Warehousing.

Aunque tanto el Big Data como el Data Warehousing tienen similitudes, son dos tecnologías diferentes y hay una gran diferencia entre ambas. Antes de profundizar en las desemejanzas, es importante saber qué son el Data Warehousing y el Big Data. A grandes rasgos, una solución de big data es una tecnología basada en el volumen, la velocidad y la variedad, mientras que el data warehousing es un concepto arquitectónico de la informática de datos.

El almacenamiento de datos se refiere a los datos que se extraen de una o más fuentes de datos homogéneas o heterogéneas, y luego se transforman los datos antes de cargarlos en un repositorio de datos para su análisis. Este análisis de datos es útil y ayuda a juzgar mejor para mejorar el rendimiento y puede utilizarse para la elaboración de informes.

Se trata de una arquitectura conceptual destinada a almacenar datos estructurados, orientados a temas concretos, con variantes temporales y no volátiles para la toma de decisiones. El almacén de datos suele almacenar los datos históricos, una copia de los datos de las transacciones estructurada específicamente para su consulta y análisis.

el big data en el warehousing

Tanto el Big Data como el Data Warehouse se utilizan como fuente principal de entrada para el Business Intelligence, como la creación de resultados analíticos y la generación de informes, con el fin de proporcionar procesos de toma de decisiones empresariales eficaces. El Big Data permite datos sin procesar de cualquier fuente, pero el Data Warehouse sólo permite datos procesados, ya que tiene que mantener la fiabilidad y consistencia de los datos. Los datos no procesados en los sistemas de Big Data pueden ser de cualquier tamaño, dependiendo del tipo de sus formatos. Casi todos los datos en Data Warehouse son de tamaño común debido a su refinada organización estructurada del sistema.

El almacén de datos es principalmente una arquitectura, no una tecnología. Extrae los datos de variedades de fuentes de datos basadas en SQL (principalmente bases de datos relacionales) y ayuda a generar informes analíticos. En términos de definición, el repositorio de datos, que utiliza para cualquier informe analítico, se ha generado a partir de un proceso, que no es más que el almacén de datos.

Big Data es principalmente una tecnología que se basa en el volumen, la velocidad y la variedad de los datos. Los volúmenes definen la cantidad de datos procedentes de diferentes fuentes, la velocidad se refiere a la velocidad de procesamiento de datos, y las variedades se refieren al número de tipos de datos (principalmente el apoyo a todo tipo de formato de datos).

diferencia entre base de datos y big data

Sé que este es un hilo más antiguo, pero ha habido algunos avances en el último año más o menos. Comparar el almacén de datos con Hadoop es como comparar manzanas con naranjas. El almacén de datos es un concepto: datos limpios, integrados y de alta calidad. No creo que la necesidad de un almacén de datos desaparezca pronto. Hadoop, en cambio, es una tecnología. Es un marco informático distribuido para procesar grandes volúmenes de datos. En el pasado, los almacenes de datos se construían normalmente sobre bases de datos relacionales y dispositivos de almacenamiento de datos. Sin embargo, en los dos últimos años han surgido varias limitaciones de los RDBMS (costes de licencia crecientes ante el aumento de los volúmenes de datos, poca adecuación a la consulta de gráficos y jerarquías y a la incorporación de tipos de datos no estructurados, etc.). Al mismo tiempo, han aparecido motores de consulta SQL MPP en Hadoop, como Apache Drill, que ahora permiten consultar los datos que se encuentran en Hadoop.

Es importante dividir las técnicas de data warehousing de la implementación. Hadoop (y la llegada de las bases de datos NoSQL) augurará la desaparición de los dispositivos de almacenamiento de datos y la implementación “tradicional” de una sola base de datos de un almacén de datos.

Ir arriba