¿quién desarrollo hadoop?

Inicio » ¿quién desarrollo hadoop?

sistema de archivos distribuidos hadoop

Apache Hadoop es un marco de software de código abierto para el almacenamiento y el procesamiento a gran escala de conjuntos de datos en clusters de hardware básico. Hadoop es un proyecto de alto nivel de Apache que está siendo construido y utilizado por una comunidad global de colaboradores y usuarios. Tiene una licencia Apache 2.0.

Hadoop fue creado por Doug Cutting y Mike Cafarella en 2005. Se desarrolló originalmente para apoyar la distribución del proyecto de motor de búsqueda Nutch. Doug, que por aquel entonces trabajaba en Yahoo! y ahora es arquitecto jefe de Cloudera, bautizó el proyecto con el nombre del elefante de juguete de su hijo. El hijo de Cutting tenía entonces 2 años y acababa de empezar a hablar. Llamaba a su querido elefante amarillo de peluche “Hadoop” (con el acento en la primera sílaba). Ahora, con 12 años, el hijo de Doug exclama a menudo: “¿Por qué no dices mi nombre y por qué no recibo derechos de autor? Me merezco ser famoso por esto”.

Para los usuarios finales, aunque el código Java de MapReduce es común, cualquier lenguaje de programación puede utilizarse con “Hadoop Streaming” para implementar las partes “map” y “reduce” del programa del usuario. Apache Pig y Apache Hive, entre otros proyectos relacionados, exponen interfaces de usuario de nivel superior como Pig latin y una variante de SQL respectivamente. El marco de trabajo de Hadoop está escrito principalmente en el lenguaje de programación Java, con algo de código nativo en C y utilidades de línea de comandos escritas como shell-scripts.

documentación sobre hadoop

Hadoop es un marco de trabajo de código abierto supervisado por la Apache Software Foundation que está escrito en Java para el almacenamiento y el procesamiento de enormes conjuntos de datos con el clúster de hardware básico. Los grandes datos plantean principalmente dos problemas. El primero es almacenar una cantidad tan grande de datos y el segundo es procesar los datos almacenados. El enfoque tradicional como RDBMS no es suficiente debido a la heterogeneidad de los datos. Así que Hadoop es la solución al problema de los grandes datos, es decir, el almacenamiento y el procesamiento de los grandes datos con algunas capacidades adicionales. Hay principalmente dos componentes de Hadoop que son Hadoop Distributed File System (HDFS) y Yet Another Resource Negotiator (YARN).

Hadoop se inició con Doug Cutting y Mike Cafarella en el año 2002 cuando ambos comenzaron a trabajar en el proyecto Apache Nutch. El proyecto Apache Nutch fue el proceso de construcción de un sistema de motor de búsqueda que puede indexar mil millones de páginas. Después de mucha investigación sobre Nutch, llegaron a la conclusión de que un sistema de este tipo costaría alrededor de medio millón de dólares en hardware, y junto con un coste mensual de funcionamiento de 30, 000 dólares aproximadamente, lo cual es muy caro. Por lo tanto, se dieron cuenta de que la arquitectura de su proyecto no sería lo suficientemente capaz de hacer frente a miles de millones de páginas en la web. Así que buscaban una solución viable que pudiera reducir el coste de implementación, así como el problema de almacenamiento y procesamiento de grandes conjuntos de datos.

hdfs

En 2002, los investigadores de Internet sólo querían un motor de búsqueda mejor, y preferiblemente uno de código abierto. Fue entonces cuando Doug Cutting y Mike Cafarella decidieron darles lo que querían, y llamaron a su proyecto “Nutch”. Hadoop fue diseñado originalmente como parte de la infraestructura de Nutch, y fue presentado en el año 2005.

El ecosistema Hadoop se refiere en sentido estricto a los diferentes componentes de software disponibles en Apache Hadoop Commons (utilidades y bibliotecas que soportan Hadoop), e incluye las herramientas y accesorios ofrecidos por la Apache Software Foundation y la forma en que trabajan juntos. Hadoop utiliza un marco de trabajo basado en Java que resulta útil para manejar y analizar grandes cantidades de datos. Tanto el paquete básico de Hadoop como la mayoría de sus accesorios son proyectos de código abierto con licencia de Apache. El concepto de ecosistema Hadoop incluye las diferentes partes del núcleo de Hadoop, como MapReduce, el sistema de archivos distribuidos Hadoop (HDFS) y YARN, un gestor de recursos Hadoop.

hadoop vs spark

Apache HadoopAutor(es) original(es)Doug Cutting, Mike CafarellaDesarrollador(es)Apache Software FoundationLanzamiento inicial1 de abril de 2006; hace 15 años (2006-04-01)[1]Lanzamiento estable2.7.x2.7.7 / 31 de mayo de 2018; hace 3 años (2018-05-31)[2]2.8.x2.8.5 / 15 de septiembre de 2018; hace 3 años (2018-09-15)[2]2.9.x2. 9.2 / 9 de noviembre de 2018; hace 3 años (2018-11-09)[2]2.10.x2.10.1 / 21 de septiembre de 2020; hace 15 meses (2020-09-21)[2]3.1.x3.1. 4 / 3 de agosto de 2020; hace 17 meses (2020-08-03)[2]3.2.x3.2.2 / 9 de enero de 2021; hace 11 meses (2021-01-09)[2]3.3.x3.3.1 / 15 de junio de 2021; hace 6 meses (2021-06-15)[2]

Apache Hadoop ( /həˈduːp/) es una colección de utilidades de software de código abierto que facilita el uso de una red de muchos ordenadores para resolver problemas que implican cantidades masivas de datos y cálculos. Proporciona un marco de software para el almacenamiento distribuido y el procesamiento de big data utilizando el modelo de programación MapReduce. Hadoop se diseñó originalmente para clústeres de ordenadores construidos con hardware básico, que sigue siendo el uso habitual[3]. Desde entonces, también se ha utilizado en clústeres de hardware de gama alta[4][5] Todos los módulos de Hadoop están diseñados con la suposición fundamental de que los fallos de hardware son habituales y deben ser gestionados automáticamente por el marco[6].

Ir arriba