Ecosistema de big data

Inicio » Ecosistema de big data

Ecosistema de la ciencia de los datos

Para los no iniciados, el panorama de Big Data puede ser desalentador. La gran proliferación de tecnologías en este mercado competitivo significa que no hay una única solución para empezar a construir su arquitectura de Big Data. En esta serie de artículos, examinaremos el ecosistema de Big Data y las diversas tecnologías que existen para ayudar a las empresas a aprovechar sus datos. Este primer artículo pretende servir como un mapa básico, una breve visión general de las principales opciones disponibles para aquellos que dan los primeros pasos en el reino enormemente rentable de Big Data y Analytics.

En definitiva, un entorno de Big Data debe permitir almacenar, procesar, analizar y visualizar los datos. Todo comienza con la infraestructura y la selección de las herramientas adecuadas para almacenar, procesar y, a menudo, analizar. A continuación, existen herramientas analíticas especializadas que le ayudarán a encontrar la información que contienen los datos. Además, hay aplicaciones que funcionan con los datos procesados y analizados. Todos ellos son componentes valiosos del ecosistema de Big Data.

Cómo utiliza amazon los big data

El concepto de big data puede describirse en términos de retos de gestión de datos que -debido al creciente volumen, velocidad y variedad de los mismos- no pueden resolverse con las bases de datos tradicionales. Aunque hay muchas definiciones de big data, la mayoría de ellas incluyen el concepto de lo que comúnmente se conoce como “las tres V” de big data:

Velocidad: Cada vez más, las empresas tienen requisitos estrictos desde el momento en que se generan los datos hasta el momento en que se entregan a los usuarios los conocimientos procesables. Por lo tanto, los datos deben recogerse, almacenarse, procesarse y analizarse en plazos relativamente cortos, que van desde el día a la hora real.

A pesar de la publicidad, muchas organizaciones no se dan cuenta de que tienen un problema de big data o simplemente no piensan en ello en términos de big data. En general, es probable que una organización se beneficie de las tecnologías de big data cuando las bases de datos y las aplicaciones existentes ya no pueden escalar para soportar los aumentos repentinos de volumen, variedad y velocidad de los datos.

Si no se abordan correctamente los retos del big data, pueden aumentar los costes, así como reducir la productividad y la competitividad. Por otro lado, una buena estrategia de big data puede ayudar a las organizaciones a reducir costes y ganar eficiencia operativa mediante la migración de las pesadas cargas de trabajo existentes a las tecnologías de big data, así como el despliegue de nuevas aplicaciones para aprovechar las nuevas oportunidades.

Infraestructura de big data

Cuando piensa en los datos de su empresa, su mente puede evocar imágenes de hojas de cálculo, bases de datos, gráficos y diagramas. Aunque son importantes para la estructura de datos de su organización, son pequeñas partes de un amplio ecosistema de datos.

Tanto si eres un aspirante a científico de datos o analista que quiere trabajar directamente con los datos como si eres un directivo que depende de los datos para la toma de decisiones, es fundamental que conozcas bien los componentes que conforman el ecosistema de datos de tu organización.

El término ecosistema de datos se refiere a los lenguajes de programación, los paquetes, los algoritmos, los servicios de computación en la nube y la infraestructura general que utiliza una organización para recopilar, almacenar, analizar y aprovechar los datos.

No hay dos organizaciones que aprovechen los mismos datos de la misma manera. Por ello, cada organización tiene un ecosistema de datos único. Estos ecosistemas pueden solaparse en algunos casos, sobre todo cuando los datos se extraen o se raspan de una fuente pública, o cuando se recurre a proveedores de terceros (por ejemplo, proveedores de almacenamiento en la nube).

Ecosistema Hadoop

ResumenLos ecosistemas de big data son complejos sistemas físico-digitales de uso intensivo de datos. Los ecosistemas de datos intensivos ofrecen una serie de beneficios; sin embargo, también presentan desafíos. Uno de los principales retos está relacionado con la privacidad y la seguridad. A lo largo del tiempo se han propuesto varios modelos, técnicas y algoritmos de privacidad y seguridad. La limitación es que estas soluciones se centran principalmente en un individuo o en un contexto organizativo aislado. Es necesario estudiar y ofrecer soluciones completas de extremo a extremo que garanticen la seguridad y la privacidad a lo largo del ciclo de vida de los datos en todo el ecosistema, más allá de los límites de un sistema individual o de un contexto organizativo. Los resultados del presente estudio proporcionan una revisión de los retos y soluciones existentes en materia de privacidad y seguridad utilizando el enfoque de la revisión bibliográfica sistemática (SLR). Sobre la base del enfoque SLR, se seleccionaron y analizaron 79 artículos aplicables. La información de estos artículos se extrajo para compilar un catálogo de retos de seguridad y privacidad en los ecosistemas de big data y destacar sus interdependencias. Los resultados se clasificaron desde el punto de vista teórico, utilizando la arquitectura empresarial adaptativa, y desde el punto de vista práctico, utilizando el marco DAMA como lente guía. Los resultados de esta investigación ayudarán a identificar las lagunas de investigación y a trazar nuevas direcciones de investigación en el contexto de la privacidad y la seguridad en los ecosistemas de grandes datos.

Ir arriba