Big data ciencia de datos
big data small data
Los datos se han convertido en el factor más crítico de los negocios hoy en día. Como resultado, se han inventado diferentes tecnologías, metodologías y sistemas para procesar, transformar, analizar y almacenar datos en este mundo impulsado por los datos.
Sin embargo, todavía hay mucha confusión en cuanto a las áreas clave de Big Data, Data Analytics y Data Science. En este post, desmitificaremos estos conceptos para entender mejor cada tecnología y cómo se relacionan entre sí.
Cada una de estas tecnologías se complementa entre sí, pero pueden utilizarse como entidades separadas. Por ejemplo, el big data puede utilizarse para almacenar grandes conjuntos de datos, y las técnicas de análisis de datos pueden extraer información de conjuntos de datos más simples.
Como su nombre indica, big data se refiere simplemente a conjuntos de datos extremadamente grandes. Este tamaño, combinado con la complejidad y la naturaleza evolutiva de estos conjuntos de datos, les ha permitido superar las capacidades de las herramientas tradicionales de gestión de datos. De este modo, los almacenes de datos y los lagos de datos han surgido como las soluciones de referencia para gestionar los big data, superando con creces la potencia de las bases de datos tradicionales.
3vs big data
El uso actual del término big data tiende a referirse al uso de la analítica predictiva, la analítica del comportamiento del usuario o algunos otros métodos avanzados de análisis de datos que extraen valor de los big data, y rara vez a un tamaño concreto del conjunto de datos. “Hay pocas dudas de que las cantidades de datos disponibles ahora son realmente grandes, pero esa no es la característica más relevante de este nuevo ecosistema de datos”[4].
El tamaño y el número de conjuntos de datos disponibles han crecido rápidamente a medida que los datos son recogidos por dispositivos como los móviles, los baratos y numerosos dispositivos de detección de información del Internet de las cosas, los aéreos (teledetección), los registros de software, las cámaras, los micrófonos, los lectores de identificación por radiofrecuencia (RFID) y las redes de sensores inalámbricos. [8][9] La capacidad tecnológica per cápita del mundo para almacenar información se ha duplicado aproximadamente cada 40 meses desde la década de 1980;[10] en 2012 [actualización], cada día se generaban 2,5 exabytes (2,5×260 bytes) de datos[11] Según la predicción de un informe de IDC, se preveía que el volumen mundial de datos crecería exponencialmente de 4,4 zettabytes a 44 zettabytes entre 2013 y 2020. Para 2025, IDC predice que habrá 163 zettabytes de datos[12]. Una cuestión para las grandes empresas es determinar quién debe ser el propietario de las iniciativas de big data que afectan a toda la organización[13].
¿cuál es la diferencia entre la ciencia de los datos y la analítica de datos?
Los datos están en todas partes y forman parte de nuestra vida cotidiana en más formas de las que la mayoría de nosotros nos damos cuenta en nuestro día a día. La cantidad de datos digitales que existen -que creamos- está creciendo exponencialmente. Según las estimaciones, en 2021 habrá 74 zetabytes de datos generados. Se espera que esta cifra se duplique en 2024.
Estos tres términos se escuchan con frecuencia en la industria, y aunque sus significados comparten algunas similitudes, también significan cosas diferentes. Este artículo le permitirá comprender claramente el significado, la aplicación y las habilidades necesarias para convertirse en científico de datos, especialista en Big Data y analista de datos, así como otros temas en detalle.
La ciencia de los datos es la combinación de la estadística, las matemáticas, la programación, la resolución de problemas, la captura de datos de forma ingeniosa, la capacidad de ver las cosas de forma diferente y la actividad de limpiar, preparar y alinear los datos. Este término general incluye varias técnicas que se utilizan para extraer información y conocimientos de los datos.
Big data se refiere a volúmenes significativos de datos que no pueden ser procesados eficazmente con las aplicaciones tradicionales que se utilizan actualmente. El procesamiento de big data comienza con datos en bruto que no están agregados y que, en la mayoría de los casos, son imposibles de almacenar en la memoria de un solo ordenador.
ejemplos de big data
La ciencia de los datos es un campo interdisciplinario que utiliza métodos, procesos, algoritmos y sistemas científicos para extraer conocimientos y perspectivas de datos ruidosos, estructurados y no estructurados,[1][2] y aplicar conocimientos y perspectivas procesables de los datos en una amplia gama de dominios de aplicación. La ciencia de los datos está relacionada con la minería de datos, el aprendizaje automático y el big data.
La ciencia de los datos es un “concepto para unificar la estadística, el análisis de datos, la informática y sus métodos relacionados” con el fin de “comprender y analizar fenómenos reales” con datos[3]. Utiliza técnicas y teorías extraídas de muchos campos dentro del contexto de las matemáticas, la estadística, la informática, la ciencia de la información y el conocimiento del dominio. Sin embargo, la ciencia de los datos es diferente de la informática y la ciencia de la información. El ganador del Premio Turing, Jim Gray, imaginó la ciencia de los datos como un “cuarto paradigma” de la ciencia (empírica, teórica, computacional y, ahora, basada en datos) y afirmó que “todo lo relacionado con la ciencia está cambiando debido al impacto de la tecnología de la información” y al diluvio de datos[4][5].