Proceso de big data

Inicio » Proceso de big data

Proceso de big data

Big data wikipedia

Cantidades, caracteres o símbolos sobre los que un ordenador realiza operaciones, que pueden almacenarse y transmitirse en forma de señales eléctricas y grabarse en medios de grabación magnéticos, ópticos o mecánicos.

El Big Data es una colección de datos de gran volumen que crece exponencialmente con el tiempo. Es un dato con un tamaño y una complejidad tan grandes que ninguna de las herramientas tradicionales de gestión de datos puede almacenarlo o procesarlo de forma eficiente. Big data es también un dato pero de enorme tamaño.

Cualquier dato que pueda ser almacenado, accedido y procesado en forma de formato fijo se denomina dato «estructurado». A lo largo del tiempo, el talento de la informática ha logrado un mayor éxito en el desarrollo de técnicas para trabajar con este tipo de datos (cuyo formato se conoce de antemano) y también para obtener valor de ellos. Sin embargo, hoy en día, estamos previendo problemas cuando el tamaño de tales datos crece en gran medida, los tamaños típicos están siendo en la rabia de múltiples zettabytes.

Todos los datos con forma o estructura desconocida se clasifican como datos no estructurados. Además de su enorme tamaño, los datos no estructurados plantean múltiples retos en cuanto a su procesamiento para obtener valor de ellos. Un ejemplo típico de datos no estructurados es una fuente de datos heterogénea que contiene una combinación de archivos de texto simple, imágenes, vídeos, etc. Hoy en día, las organizaciones disponen de una gran cantidad de datos, pero desgraciadamente no saben cómo sacarles valor, ya que estos datos se encuentran en su forma bruta o no estructurada.

Qué es el big data

ResumenEl crecimiento masivo de la escala de datos se ha observado en los últimos años siendo un factor clave del escenario de Big Data. El Big Data puede definirse como un alto volumen, velocidad y variedad de datos que requieren un nuevo procesamiento de alto rendimiento. Abordar el Big Data es una tarea desafiante y exigente en términos de tiempo que requiere una gran infraestructura computacional para garantizar el éxito del procesamiento y análisis de los datos. En este artículo se revisa la presencia de métodos de preprocesamiento de datos para la minería de datos en big data. Se introduce la definición, las características y la categorización de los enfoques de preprocesamiento de datos en big data. También se examina la conexión entre el big data y el preprocesamiento de datos en todas las familias de métodos y tecnologías de big data, incluyendo una revisión del estado del arte. Además, se discuten los retos de la investigación, centrándose en los desarrollos en diferentes marcos de big data, como Hadoop, Spark y Flink, y el estímulo en la dedicación de esfuerzos de investigación sustanciales en algunas familias de métodos de preprocesamiento de datos y aplicaciones en nuevos paradigmas de aprendizaje de big data.

Arquitectura de big data

Cada búsqueda o clic que hacemos en Internet es indexado y utilizado por las empresas para entender mejor nuestras preferencias. Si una empresa puede capturar y almacenar los datos de sus clientes, puede analizar estos datos y utilizar los conocimientos derivados para tomar decisiones valiosas.

Pero la cuestión es que usted no es la única persona que busca un par de zapatillas para correr en un momento dado, y hay cientos de minoristas esperando hacer negocios con usted. Dado que hay otros factores que influyen en su decisión de compra, como el comportamiento de compra anterior, datos demográficos como la edad y la época del año, los minoristas también deben tenerlos en cuenta.

En cualquier momento, la cantidad de datos de clientes que se genera es enorme. Para los seres humanos, es una tarea hercúlea dar sentido a esos enormes volúmenes de datos. Aunque es imposible utilizar completamente los datos generados, se puede conseguir mucho con la ayuda de herramientas de análisis de big data.

La analítica de grandes datos (BDA) es el proceso de análisis de grandes volúmenes de datos para obtener información de ellos. Estos conocimientos pueden ser correlaciones, patrones ocultos, tendencias del mercado, preferencias de los clientes o cualquier cosa que pueda ayudar a las organizaciones a tomar decisiones empresariales mejores y más informadas.

Análisis de grandes datos

La recopilación de datos es diferente para cada organización. Con la tecnología actual, las organizaciones pueden recopilar datos estructurados y no estructurados de diversas fuentes, desde el almacenamiento en la nube hasta las aplicaciones móviles, pasando por los sensores IoT de las tiendas y otros. Algunos datos se almacenarán en almacenes de datos donde las herramientas y soluciones de inteligencia empresarial pueden acceder a ellos fácilmente. A los datos crudos o no estructurados que son demasiado diversos o complejos para un almacén se les pueden asignar metadatos y almacenarlos en un lago de datos.

Una vez recogidos y almacenados los datos, deben organizarse adecuadamente para obtener resultados precisos en las consultas analíticas, especialmente cuando son grandes y no están estructurados. Los datos disponibles crecen exponencialmente, lo que convierte el procesamiento de datos en un reto para las organizaciones. Una opción de procesamiento es el procesamiento por lotes, que examina grandes bloques de datos a lo largo del tiempo. El procesamiento por lotes es útil cuando hay un tiempo más largo entre la recogida y el análisis de los datos. El procesamiento de flujos examina pequeños lotes de datos a la vez, acortando el tiempo de espera entre la recogida y el análisis para una toma de decisiones más rápida. El procesamiento de flujos es más complejo y a menudo más caro.

Scroll al inicio
Ir arriba