Arquitectura big data azure

Inicio » Arquitectura big data azure

Azure olap

Internet of Things (IoT) es un subconjunto especializado de soluciones de big data. El siguiente diagrama muestra una posible arquitectura lógica para IoT. El diagrama hace hincapié en los componentes de flujo de eventos de la arquitectura.

Los dispositivos pueden enviar eventos directamente a la pasarela de la nube o a través de una pasarela de campo. Una pasarela de campo es un dispositivo o software especializado, normalmente colocado con los dispositivos, que recibe los eventos y los reenvía a la pasarela de la nube. La pasarela de campo también puede preprocesar los eventos brutos de los dispositivos, realizando funciones como el filtrado, la agregación o la transformación de protocolos.

Azure data lake storage gen2

PaaS (plataforma como servicio):    Azure data lake analytics (ADLA), Azure Databricks…. Estas infraestructuras de servicios están gestionadas por Microsoft Azure y nos ofrecen unos interesantes SLA (service License Agreement)

Microsoft ha construido ADLA en la extensión YARN y el equipo de producto de ADLA ha hecho un buen trabajo mientras lo construía, hoy puedes construir tus trabajos USQL en ADLA y tus trabajos USQL se ejecutarán una aplicación YRAN.

Proveedor de identidad: La identidad de ADLS está respaldada por Azure Active Directory (AAD). AAD se utiliza para la autenticación y autorización de todas las solicitudes y operaciones en ADLS, sin embargo la belleza es la integración entre AAD y los permisos POSIX en ADLS.

Control de acceso basado en roles (RBCA): ADLS como todos los otros servicios de Azure está respaldado por RBCA , lo que significa que usted puede definir los privilegios para sus equipos utilizando los roles de azure (propietario, colaborador, lector,…) y puede crear un perfil de rol personalizado.

Seguridad: Los datos en ADLS están encriptados tanto en reposo como en transición: en transición los datos están encriptados con certificado SSL proporcionado por Microsoft. Y los datos en reposo también pueden ser encriptados con claves que se almacenan y gestionan en Azure Key Vault, Microsoft gestiona la Key vault sin problemas, pero usted puede crear su azure key vault y gestionar las claves.

Arquitectura Kappa

Una arquitectura de big data está diseñada para gestionar la ingestión, el procesamiento y el análisis de datos demasiado grandes o complejos para los sistemas de bases de datos tradicionales. El umbral en el que las organizaciones entran en el ámbito de los big data difiere, dependiendo de las capacidades de los usuarios y de sus herramientas. Para algunos, puede significar cientos de gigabytes de datos, mientras que para otros significa cientos de terabytes. A medida que avanzan las herramientas para trabajar con grandes conjuntos de datos, también lo hace el significado de big data. Cada vez más, este término se relaciona con el valor que se puede extraer de los conjuntos de datos a través de la analítica avanzada, y no estrictamente con el tamaño de los datos, aunque en estos casos suelen ser bastante grandes.

Con los años, el panorama de los datos ha cambiado. Lo que se puede hacer, o se espera que se haga, con los datos ha cambiado. El coste del almacenamiento se ha reducido drásticamente, mientras que los medios de recogida de datos no dejan de crecer. Algunos datos llegan a un ritmo rápido, exigiendo constantemente ser recogidos y observados. Otros datos llegan más lentamente, pero en trozos muy grandes, a menudo en forma de décadas de datos históricos. Es posible que nos encontremos ante un problema de análisis avanzado o que requiera aprendizaje automático. Estos son los retos que las arquitecturas de big data tratan de resolver.

Plataforma de datos Azure

La nube de Microsoft Azure hace hincapié en los servicios de IA y analítica en su oferta. Se trata de una gran opción para aquellos que quieran combinar las ventajas de la analítica de big data con la computación en la nube. La plataforma Azure facilita el procesamiento de datos estructurados y no estructurados en grandes volúmenes. También viene con análisis en tiempo real y una infraestructura totalmente gestionada que incluye servicios de bases de datos Azure, servicios de análisis, aprendizaje automático y soluciones de ingeniería de datos.

Si está interesado en un servicio totalmente gestionado, puede utilizar Cosmos DB by Azure. Cosmos es un servicio escalable, flexible y de baja latencia que soporta el despliegue global y la replicación de múltiples motores de bases de datos. Sus APIs son compatibles con una amplia gama de herramientas, incluyendo MongoDB, Cassandra, Apache Spark, SQL, Jupyter Notebook, Table Storage, Gremlin, y más.

Analysis Services proporciona un motor de análisis de clase empresarial que puede recopilar datos de múltiples fuentes y convertirlos en un modelo de BI semántico fácil de usar. El servicio integra modelos de bases de datos predefinidos y puede generar cuadros de mando e informes interactivos. No es necesario escribir código ni gestionar el procesamiento de datos.

Ir arriba