¿Qué es una distribución de Hadoop?

Inicio » ¿Qué es una distribución de Hadoop?

Distribución gratuita de Hadoop

Basado en distribuciones y soporte comercial, Las siguientes empresas proporcionan productos que incluyen Apache Hadoop, un trabajo derivado del mismo, soporte comercial, y/o herramientas y utilidades relacionadas con Hadoop.

Algunas empresas publican o venden productos que incluyen los archivos oficiales de Apache Hadoop, y/o sus propias herramientas y otras útiles. Otras empresas u organizaciones publican productos que incluyen artefactos construidos a partir de versiones modificadas o ampliadas del árbol de fuentes de Apache Hadoop. El equipo de Apache no da soporte a estas obras derivadas: todas las cuestiones de soporte deben dirigirse a los propios proveedores.

Hadoop cloudera

Apache HadoopAutor(es) original(es)Doug Cutting, Mike CafarellaDesarrollador(es)Apache Software FoundationLanzamiento inicial1 de abril de 2006; hace 15 años (2006-04-01)[1]Lanzamiento estable2.7.x2.7.7 / 31 de mayo de 2018; hace 3 años (2018-05-31)[2]2.8.x2.8.5 / 15 de septiembre de 2018; hace 3 años (2018-09-15)[2]2.9.x2. 9.2 / 9 de noviembre de 2018; hace 3 años (2018-11-09)[2]2.10.x2.10.1 / 21 de septiembre de 2020; hace 16 meses (2020-09-21)[2]3.1.x3.1. 4 / 3 de agosto de 2020; hace 17 meses (2020-08-03)[2]3.2.x3.2.2 / 9 de enero de 2021; hace 12 meses (2021-01-09)[2]3.3.x3.3.1 / 15 de junio de 2021; hace 7 meses (2021-06-15)[2]

Apache Hadoop ( /həˈduːp/) es una colección de utilidades de software de código abierto que facilita el uso de una red de muchos ordenadores para resolver problemas que implican cantidades masivas de datos y cálculos. Proporciona un marco de software para el almacenamiento distribuido y el procesamiento de big data utilizando el modelo de programación MapReduce. Hadoop se diseñó originalmente para clústeres de ordenadores construidos con hardware básico, que sigue siendo el uso habitual[3]. Desde entonces, también se ha utilizado en clústeres de hardware de gama alta[4][5] Todos los módulos de Hadoop están diseñados con la suposición fundamental de que los fallos de hardware son habituales y deben ser gestionados automáticamente por el marco[6].

Ecosistema Hadoop

Apache Hadoop es una plataforma de software de código abierto basada en Java que gestiona el procesamiento y almacenamiento de datos para aplicaciones de big data. Hadoop funciona distribuyendo grandes conjuntos de datos y trabajos de análisis entre los nodos de un clúster informático, dividiéndolos en cargas de trabajo más pequeñas que pueden ejecutarse en paralelo. Hadoop puede procesar datos estructurados y no estructurados y escalar de forma fiable desde un único servidor hasta miles de máquinas.

Hadoop supuso un gran avance en el ámbito de los grandes datos. De hecho, se le atribuye ser la base del moderno lago de datos en la nube. Hadoop democratizó la potencia de cálculo e hizo posible que las empresas analizaran y consultaran grandes conjuntos de datos de forma escalable utilizando software gratuito de código abierto y hardware barato y disponible. Esto supuso un avance importante, ya que ofrecía una alternativa viable a las soluciones de almacén de datos (DW) propietarias y a los formatos de datos cerrados que habían imperado hasta entonces. Con la introducción de Hadoop, las organizaciones tuvieron rápidamente acceso a la capacidad de almacenar y procesar enormes cantidades de datos, una mayor potencia de cálculo, tolerancia a los fallos, flexibilidad en la gestión de los datos, menores costes en comparación con los DW y una mayor escalabilidad: basta con seguir añadiendo más nodos. En última instancia, Hadoop allanó el camino para futuros desarrollos en el análisis de grandes datos, como la introducción de Apache Spark™.

Apache spark vs hadoop

La arquitectura flexible e infinitamente escalable de Hadoop (basada en el sistema de archivos HDFS) permite a las organizaciones almacenar y analizar cantidades y tipos de datos ilimitados, todo ello en una única plataforma de código abierto en el hardware estándar del sector.

Transforme datos complejos, a escala, utilizando múltiples opciones de acceso a los datos (Apache Hive, Apache Pig) para el procesamiento por lotes (MR2) o rápido en memoria (Apache Spark™). Procese los datos en streaming a medida que llegan a su clúster mediante Spark Streaming.

Los analistas interactúan con datos de total fidelidad sobre la marcha con Apache Impala, el almacén de datos para Hadoop. Con Impala, los analistas experimentan un rendimiento y una funcionalidad SQL de calidad BI, además de la compatibilidad con las principales herramientas BI.

Con Hadoop, los analistas y científicos de datos tienen la flexibilidad de desarrollar e iterar modelos estadísticos avanzados utilizando una mezcla de tecnologías de socios, así como marcos de código abierto como Apache Spark™.

Ir arriba