¿cómo funciona sqoop?

Inicio » ¿cómo funciona sqoop?

Diagrama de arquitectura de sqoop

Sqoop es una herramienta diseñada para transferir datos entre Hadoop y las bases de datos relacionales. Se puede utilizar Sqoop para importar datos de un sistema de gestión de bases de datos relacionales (RDBMS) como MySQL u Oracle en el Sistema de Archivos Distribuidos de Hadoop (HDFS), transformar los datos en Hadoop MapReduce, y luego exportar los datos de nuevo a un RDBMS.

Sqoop automatiza la mayor parte de este proceso, confiando en la base de datos para describir el esquema de los datos a importar. Sqoop utiliza MapReduce para importar y exportar los datos, lo que proporciona un funcionamiento paralelo, así como tolerancia a fallos.

Este documento describe cómo empezar a utilizar Sqoop para mover datos entre bases de datos y Hadoop y proporciona información de referencia para el funcionamiento del conjunto de herramientas de línea de comandos de Sqoop. Este documento está dirigido a:

Antes de poder utilizar Sqoop, se debe instalar y configurar una versión de Hadoop. Le recomendamos que descargue la distribución de Cloudera para Hadoop (CDH3) desde el archivo de software de Cloudera en http://archive.cloudera.com para una instalación sencilla de Hadoop en sistemas Linux.

Comandos de sqoop

Muchos de nosotros todavía nos preguntamos qué es Apache Sqoop, su arquitectura, sus características, sus usos y cómo se relaciona con el big data. En este escrito sobre Sqoop, hablaremos de todo junto con sus requisitos. Empecemos. Apache Sqoop es una herramienta de big data para transferir datos entre Hadoop y servidores de bases de datos relacionales. Sqoop se utiliza para transferir datos de RDBMS (sistema de gestión de bases de datos relacionales) como MySQL y Oracle a HDFS (sistema de archivos distribuidos de Hadoop). Big Data Sqoop también se puede utilizar para transformar los datos en Hadoop MapReduce y luego exportarlos a RDBMS. Sqoop es una herramienta de recolección e ingestión de datos que se utiliza para importar y exportar datos entre RDBMS y HDFS.

La herramienta Sqoop en Big Data se utiliza principalmente para la transferencia masiva de datos hacia y desde bases de datos relacionales o mainframes. Sqoop en Big Data puede importar desde tablas enteras o permitir al usuario especificar predicados para restringir la selección de datos. Puede escribir directamente en HDFS como archivos de secuencia o Avro. Sqoop en Big Data puede llevar los datos directamente a Hive o Hbase con los argumentos adecuados en la línea de comandos. Por último, también puede exportar los datos de vuelta a las bases de datos relacionales utilizando Sqoop en Big Data. Un flujo de trabajo típico con Sqoop en Big Data es aquel en el que los datos se llevan a Hive, de modo que las tareas intermedias de procesamiento y transformación pueden realizarse en Apache Hadoop. Una vez realizado el procesamiento, los datos pueden ser exportados de nuevo a una base de datos. Esta es una de las muchas formas de realizar la “descarga del almacén de datos”, en la que Hadoop se utiliza para fines de ETL.

Sqoop export parquet

especificar estos y otros argumentos a Sqoop.6. Herramientas de Sqoop6.1. Uso de alias de comandos6.2. Control de la instalación de Hadoop6.3. Uso de argumentos genéricos y específicos6.4. Uso de archivos de opciones para pasar argumentos6.5. Uso de herramientasSqoop es una colección de herramientas relacionadas. Para utilizar Sqoop, las

Las herramientas se enumeran en el orden más probable en que las encontrará útiles.7. sqoop-import7.1. Propósito7.2. Sintaxis7.2.1. Conectarse a un servidor de bases de datos7.2.2. Selección de los datos a importar7.2.3. Importación de consultas de forma libre7.2.4. Control del paralelismo7.2.5. Control del proceso de importación7.2.6. Control de la asignación de tipos7.2.7. Importaciones incrementales7.2.8. Formatos de archivo7.2.9. Objetos grandes7.2.10. Importación de datos a Hive7.2.11. Importación de datos a HBase7.3. Ejemplo de invocación7.1.  PropósitoLa herramienta de importación importa una tabla individual de un RDBMS a HDFS.

representación binaria como Avro o SequenceFiles.7.2.  Sintaxis7.2.1. Conectarse a un servidor de base de datos7.2.2. Selección de los datos a importar7.2.3. 7.2.3. Importación de consultas de forma libre Control del paralelismo7.2.5. Control del proceso de importación7.2.6. Control de la asignación de tipos7.2.7. Importaciones incrementales7.2.8. Formatos de archivo7.2.9. Objetos grandes7.2.10. Importación de datos a Hive7.2.11. Importación de datos a HBase$ sqoop import (generic-args) (import-args)

Argumentos de sqoop

Apache Sqoop es una aplicación de interfaz de línea de comandos utilizada para transferir datos entre bases de datos relacionales y Hadoop. El objetivo de este blog es hacer que los lectores entiendan a fondo Apache Sqoop y su despliegue.

Apache Sqoop forma parte del ecosistema Hadoop. Dado que muchos de los datos tenían que ser transferidos de los sistemas de bases de datos relacionales a Hadoop, había una necesidad de una herramienta dedicada a hacer esta tarea rápidamente. Aquí es donde apareció Apache Sqoop, que ahora se utiliza ampliamente para transferir datos de archivos RDBMS al ecosistema Hadoop para el procesamiento MapReduce, etc.

Cuando se trata de transferir datos, hay una serie de requisitos que hay que tener en cuenta. Entre ellos se encuentran los siguientes: Los datos tienen que tener consistencia; deben estar preparados para el aprovisionamiento del pipeline descendente, y los usuarios deben asegurar el consumo de los recursos del sistema de producción; entre otras cosas. La aplicación MapReduce no puede acceder directamente a los datos que residen en bases de datos relacionales externas. Este método puede exponer al sistema al riesgo de generar demasiada carga desde los nodos del cluster.

Ir arriba