¿Qué es Hadoop y cuáles son sus componentes básicos?

Inicio » ¿Qué es Hadoop y cuáles son sus componentes básicos?

Qué es hdfs

Hadoop es un marco de software de código abierto para almacenar datos y ejecutar aplicaciones en clústeres de hardware básico. Ofrece un almacenamiento masivo para cualquier tipo de datos, una enorme capacidad de procesamiento y la posibilidad de gestionar tareas o trabajos concurrentes prácticamente ilimitados.

A medida que la World Wide Web crecía a finales del siglo XX y principios de la década de 2000, se crearon motores de búsqueda e índices para ayudar a localizar información relevante entre el contenido basado en texto. En los primeros años, los resultados de las búsquedas eran devueltos por humanos. Pero a medida que la web crecía, pasando de docenas a millones de páginas, se hizo necesaria la automatización. Se crearon rastreadores web, muchos de ellos como proyectos de investigación dirigidos por universidades, y las empresas de motores de búsqueda despegaron (Yahoo, AltaVista, etc.).

La programación MapReduce no sirve para todos los problemas. Es buena para las solicitudes de información simples y los problemas que pueden dividirse en unidades independientes, pero no es eficiente para las tareas analíticas iterativas e interactivas. MapReduce hace un uso intensivo de archivos. Debido a que los nodos no se intercomunican excepto a través de ordenaciones y barajados, los algoritmos iterativos requieren múltiples fases de map-shuffle/sort-reduce para completarse. Esto crea múltiples archivos entre las fases de MapReduce y es ineficiente para la computación analítica avanzada.

Ejemplo de Mapreduce

Hadoop es una colección de utilidades de software de código abierto que facilitan el uso de una red de muchos ordenadores para resolver problemas que implican cantidades masivas de datos y cálculos. Proporciona un marco de software para el almacenamiento distribuido y el procesamiento de big data utilizando el modelo de programación MapReduce. Es un marco que permite el procesamiento distribuido de grandes conjuntos de datos a través de clusters de ordenadores utilizando modelos de programación sencillos. Está diseñado para escalar desde servidores individuales hasta miles de máquinas, cada una de las cuales ofrece cálculo y almacenamiento local.

Hadoop Conjunto predefinido de utilidades y bibliotecas que pueden ser utilizadas por otros módulos dentro del ecosistema Hadoop. Por ejemplo, si HBase y Hive quieren acceder a HDFS necesitan hacer de los archivos Java (archivos JAR) que se almacenan en él.    Es una parte o módulo esencial del marco de Apache Hadoop, junto con el sistema de archivos distribuidos Hadoop (HDFS), YARN y MapReduce. Al igual que el resto de los módulos, asume que los fallos de hardware son comunes y que éstos deben ser manejados automáticamente en el software por el Marco Hadoop.

Visión general de Hadoop

Hadoop es un marco de trabajo de código abierto de Apache escrito en java que permite el procesamiento distribuido de grandes conjuntos de datos a través de clusters de ordenadores utilizando modelos de programación sencillos. La aplicación del marco Hadoop funciona en un entorno que proporciona almacenamiento y cálculo distribuidos en clusters de ordenadores. Hadoop está diseñado para escalar desde un único servidor hasta miles de máquinas, cada una de las cuales ofrece computación y almacenamiento local.

Es bastante caro construir servidores más grandes con configuraciones pesadas que manejen el procesamiento a gran escala, pero como alternativa, se pueden unir muchos ordenadores básicos con una sola CPU, como un único sistema funcional distribuido y prácticamente, las máquinas agrupadas pueden leer el conjunto de datos en paralelo y proporcionar un rendimiento mucho mayor. Además, es más barato que un servidor de gama alta. Así que este es el primer factor de motivación detrás de la utilización de Hadoop que se ejecuta a través de máquinas agrupadas y de bajo costo.

Arquitectura de Hadoop

Gracias al big data, Hadoop se ha convertido en un término familiar y ha encontrado su protagonismo en el mundo digital actual. Cuando cualquiera puede generar cantidades masivas de datos con un solo clic, el marco Hadoop es vital. ¿Te has preguntado alguna vez qué es Hadoop y a qué se debe todo este alboroto? Este artículo le dará las respuestas. Aprenderás todo sobre Hadoop y su relación con el Big Data.

Hadoop es un marco de trabajo que utiliza el almacenamiento distribuido y el procesamiento en paralelo para almacenar y gestionar big data. Es el software más utilizado por los analistas de datos para manejar big data, y su tamaño de mercado sigue creciendo. Hay tres componentes de Hadoop:

Antes de entrar en los tecnicismos de Hadoop, y de ayudarle a comprender qué es Hadoop, vamos a entenderlo a través de una interesante historia. Al final de esta historia, comprenderás Hadoop, Big Data y la necesidad de Hadoop.

Presentamos a Jack, un agricultor de uvas. Recoge las uvas en otoño, las almacena en un depósito y finalmente las vende en la ciudad cercana. Mantuvo esta ruta durante años hasta que la gente empezó a demandar otras frutas. Este aumento de la demanda le llevó a cultivar manzanas y naranjas, además de uvas.

Ir arriba