Procesamiento de datos big data

Inicio » Procesamiento de datos big data

Procesamiento de datos big data

pasos del procesamiento de big data

El uso actual del término big data tiende a referirse al uso de la analítica predictiva, la analítica del comportamiento del usuario o algunos otros métodos avanzados de análisis de datos que extraen valor de los big data, y rara vez a un tamaño concreto del conjunto de datos. «Hay pocas dudas de que las cantidades de datos ahora disponibles son realmente grandes, pero esa no es la característica más relevante de este nuevo ecosistema de datos»[4].

El tamaño y el número de conjuntos de datos disponibles han crecido rápidamente a medida que los datos son recogidos por dispositivos como los móviles, los baratos y numerosos dispositivos de detección de información del Internet de las cosas, los aéreos (teledetección), los registros de software, las cámaras, los micrófonos, los lectores de identificación por radiofrecuencia (RFID) y las redes de sensores inalámbricos. [8][9] La capacidad tecnológica per cápita del mundo para almacenar información se ha duplicado aproximadamente cada 40 meses desde la década de 1980;[10] en 2012 [actualización], cada día se generaban 2,5 exabytes (2,5×260 bytes) de datos[11] Según la predicción de un informe de IDC, se preveía que el volumen mundial de datos crecería exponencialmente de 4,4 zettabytes a 44 zettabytes entre 2013 y 2020. Para 2025, IDC predice que habrá 163 zettabytes de datos[12]. Una cuestión que se plantea a las grandes empresas es determinar quién debe ser el propietario de las iniciativas de big data que afectan a toda la organización[13].

herramientas de procesamiento de grandes datos

El tamaño y el número de conjuntos de datos disponibles han crecido rápidamente a medida que los datos son recogidos por dispositivos como los móviles, los baratos y numerosos dispositivos de detección de información del Internet de las cosas, los aéreos (teledetección), los registros de software, las cámaras, los micrófonos, los lectores de identificación por radiofrecuencia (RFID) y las redes de sensores inalámbricos. [8][9] La capacidad tecnológica per cápita del mundo para almacenar información se ha duplicado aproximadamente cada 40 meses desde la década de 1980;[10] en 2012 [actualización], cada día se generaban 2,5 exabytes (2,5×260 bytes) de datos[11] Según la predicción de un informe de IDC, se preveía que el volumen mundial de datos crecería exponencialmente de 4,4 zettabytes a 44 zettabytes entre 2013 y 2020. Para 2025, IDC predice que habrá 163 zettabytes de datos[12]. Una cuestión para las grandes empresas es determinar quién debe ser el propietario de las iniciativas de big data que afectan a toda la organización[13].

Los sistemas de gestión de bases de datos relacionales y los paquetes de software estadístico de escritorio utilizados para visualizar los datos suelen tener dificultades para procesar y analizar los big data. El procesamiento y análisis de big data puede requerir «software masivamente paralelo que se ejecuta en decenas, cientos o incluso miles de servidores»[14] Lo que se califica como «big data» varía en función de las capacidades de quienes lo analizan y de sus herramientas. Además, la ampliación de las capacidades hace de los big data un objetivo móvil. «Para algunas organizaciones, enfrentarse a cientos de gigabytes de datos por primera vez puede provocar la necesidad de reconsiderar las opciones de gestión de datos. Para otras, pueden ser necesarias decenas o cientos de terabytes antes de que el tamaño de los datos se convierta en una consideración significativa»[15].

algoritmos de procesamiento de big data

El uso actual del término big data tiende a referirse al uso de la analítica predictiva, la analítica del comportamiento del usuario o algunos otros métodos avanzados de análisis de datos que extraen valor de los big data, y rara vez a un tamaño concreto del conjunto de datos. «Hay pocas dudas de que las cantidades de datos disponibles ahora son realmente grandes, pero esa no es la característica más relevante de este nuevo ecosistema de datos»[4].

El tamaño y el número de conjuntos de datos disponibles han crecido rápidamente a medida que los datos son recogidos por dispositivos como los móviles, los baratos y numerosos dispositivos de detección de información del Internet de las cosas, los aéreos (teledetección), los registros de software, las cámaras, los micrófonos, los lectores de identificación por radiofrecuencia (RFID) y las redes de sensores inalámbricos. [8][9] La capacidad tecnológica per cápita del mundo para almacenar información se ha duplicado aproximadamente cada 40 meses desde la década de 1980;[10] en 2012 [actualización], cada día se generaban 2,5 exabytes (2,5×260 bytes) de datos[11] Según la predicción de un informe de IDC, se preveía que el volumen mundial de datos crecería exponencialmente de 4,4 zettabytes a 44 zettabytes entre 2013 y 2020. Para 2025, IDC predice que habrá 163 zettabytes de datos[12]. Una cuestión que se plantea a las grandes empresas es determinar quién debe ser el propietario de las iniciativas de big data que afectan a toda la organización[13].

curso de procesamiento de big data

La recopilación de datos es diferente para cada organización. Con la tecnología actual, las organizaciones pueden recopilar datos estructurados y no estructurados de una variedad de fuentes, desde el almacenamiento en la nube hasta las aplicaciones móviles y los sensores IoT en las tiendas, entre otros. Algunos datos se almacenarán en almacenes de datos donde las herramientas y soluciones de inteligencia empresarial pueden acceder a ellos fácilmente. A los datos crudos o no estructurados que son demasiado diversos o complejos para un almacén se les pueden asignar metadatos y almacenar en un lago de datos.

Una vez recogidos y almacenados los datos, deben organizarse adecuadamente para obtener resultados precisos en las consultas analíticas, especialmente cuando son grandes y no están estructurados. Los datos disponibles crecen exponencialmente, lo que convierte el procesamiento de datos en un reto para las organizaciones. Una opción de procesamiento es el procesamiento por lotes, que examina grandes bloques de datos a lo largo del tiempo. El procesamiento por lotes es útil cuando hay un tiempo más largo entre la recogida y el análisis de los datos. El procesamiento de flujos examina pequeños lotes de datos a la vez, acortando el tiempo de espera entre la recogida y el análisis para una toma de decisiones más rápida. El procesamiento de flujos es más complejo y a menudo más caro.

Scroll al inicio
Ir arriba