Desafíos de la calidad de datos en big data

Inicio » Desafíos de la calidad de datos en big data

Problemas de calidad de los datos

Fig. 3¿Cuál es la importancia de la calidad en el ciclo de vida de los big data? Imagen a tamaño completoProblemas de calidad de los datosLos problemas de calidad de los datos suelen aparecer cuando no se cumplen los requisitos de calidad de los valores de los datos [41]. Estos problemas se deben a varios factores o procesos que se producen a diferentes niveles:

El BDQP contiene el conjunto de datos de entrada DS, el conjunto de datos de salida DS’ y los requisitos de calidad. Los requisitos de calidad se presentan como una tupla de conjuntos Req = (D, L, A), donde:Los requisitos de calidad de los datos pueden actualizarse con algunos aspectos más, mientras que el componente de elaboración de perfiles proporciona información bien detallada sobre los datos (DQP Nivel 0). Esta actualización se realiza dentro del componente de mapeo de la calidad y se relaciona con los expertos del usuario para refinar, reconfirmar y reestructurar sus parámetros de calidad de datos sobre los atributos de los mismos.

El Dr. Ikbal Taleb es actualmente profesor adjunto de la Facultad de Información Tecnológica de la Universidad de Zayed, en Abu Dhabi (Emiratos Árabes Unidos). Obtuvo su doctorado en ingeniería de la información y de los sistemas en la Universidad de Concordia en 2019, y un máster en ingeniería del software en la Universidad de Montreal (Canadá) en 2006. Sus intereses de investigación incluyen la calidad de los datos y Big data, el perfil de calidad, la evaluación de la calidad, la computación en la nube, los servicios web y los servicios web móviles.

¿Qué es el reto de la calidad del Big Data?

Problemas de crecimiento de datos

Uno de los principales retos urgentes de los datos masivos es el almacenamiento adecuado de estos enormes conjuntos de conocimiento. La cantidad de conocimiento que se almacena en los centros de datos y en las bases de datos de las empresas está aumentando rápidamente. A medida que estos conjuntos de datos crecen exponencialmente con el tiempo, se hace difícil manejarlos.

¿Qué es la calidad de los datos en Big Data?

La calidad de los datos es la medida de la idoneidad de un conjunto de datos para servir a su propósito específico. Las medidas de calidad de los datos se basan en características de calidad de los datos como la precisión, la integridad, la coherencia, la validez, la unicidad y la actualidad.

¿Por qué la calidad de los datos es un reto?

El mayor obstáculo para la calidad de los datos somos nosotros. Los empleados y los agentes pueden cometer errores de escritura, lo que provoca problemas de calidad de datos, errores y conjuntos de datos incorrectos. La única forma de limitar esto es minimizar el esfuerzo humano en la medida de lo posible. Vivimos en un mundo en el que la IA hace que la automatización sea cada vez más posible.

Los retos de la calidad de los datos y la evaluación de la calidad de los datos en la era del big data

Los datos ya no son lo que eran. Diferentes organizaciones están encontrando nuevos usos para sus datos, gracias en parte a la transformación digital. Estos datos son cada vez más importantes para la ventaja competitiva y varían considerablemente de los datos con los que nos hemos familiarizado. Mientras que los antiguos datos eran en gran medida transaccionales, capturados predominantemente de fuentes internas, los nuevos datos son una combinación de no estructurados y transaccionales, recopilados de forma privada y disponibles públicamente. El valor de estos nuevos datos reside en la forma en que pueden agregarse y analizarse. Estos nuevos datos pueden dividirse en dos grupos distintos: Big Data y datos rápidos.

El paradigma resultante de Big Data y datos rápidos ha creado una arquitectura totalmente nueva para los centros de datos privados y públicos. Y como resultado han surgido nuevos retos que dificultan la precisión y la calidad de los datos. Veamos algunos de estos retos:

Normalmente, una organización conectará datos de numerosas fuentes, lo que dificulta el control de la eficacia del proceso de integración. Muchos de los problemas relacionados con la inexactitud de los datos pueden remontarse a la forma en que se recogen, verifican, almacenan y utilizan los datos. El problema es que, cuando se trabaja en sectores intensivos y sensibles a los datos, hasta el más mínimo error puede resultar fatal para el éxito del proceso global.

¿Cuáles son los cinco retos del big data en términos de V?

Volumen, velocidad, variedad, veracidad y valor son las cinco claves para hacer del big data un gran negocio.

¿Cuáles son las métricas de calidad de datos para el big data más importantes?

En la calidad de los Big Data, el tamaño, la variedad y la veracidad de los datos son características clave que deben tenerse en cuenta.

¿Cómo se garantiza la calidad de los big data?

Mejores prácticas en la gestión de la calidad de los big data

Establezca estructuras de gobernanza sólidas, que incluyan la administración de los datos, la supervisión proactiva y las revisiones periódicas de los datos. Definir la validación de los datos y las normas empresariales integradas en los procesos y sistemas existentes.

La calidad de los datos: la otra cara del big data

Si alguna vez se ha enfrentado a la elaboración de informes y a la creación de una estrategia de datos desde cero, habrá tenido problemas con la calidad de los datos. La calidad de los datos se da cuando la información inexacta llega al informe, lo que hace que los números se desvíen y que las conclusiones sean incorrectas, lo que minimiza su credibilidad.

Cuando tenemos varios sistemas aislados, como suele ocurrir en los viajes de empresa, la duplicación de datos es inevitable. El mismo viaje puede reservarse a través de una agencia y aparecer al mismo tiempo en la tarjeta de crédito. Ambos sistemas deben combinarse para obtener el coste total del viaje, lo que nos deja un registro duplicado.

Asegúrese de que usted o su proveedor de datos dispone de un proceso de verificación de datos adecuado, con herramientas de deduplicación de datos, para peinar los datos e identificar los registros duplicados, incluso si el registro o el nombre no son exactamente iguales, pero tienen algún tipo de similitud. Como cada proveedor de datos tiene un método diferente de escribir la misma información, como el nombre de la propiedad del hotel, por ejemplo, asegúrese de que su herramienta de deduplicación de datos reconoce los puntos de datos similares y puede marcarlos para su deduplicación.

¿Qué tipo de datos son los big data?

Los big data también abarcan una amplia variedad de tipos de datos, entre los que se incluyen los siguientes: datos estructurados, como transacciones y registros financieros; datos no estructurados, como texto, documentos y archivos multimedia; y. datos semiestructurados, como registros de servidores web y datos de streaming procedentes de sensores.

¿Cuáles son los tipos de problemas relacionados con la calidad de los datos?

Los problemas de calidad de los datos pueden provenir de datos duplicados, datos no estructurados, datos incompletos, diferentes formatos de datos o la dificultad de acceso a los datos.

¿Cuáles son las causas de los errores de datos?

Los fallos del hardware y del software son las dos causas principales de la pérdida de datos. La radiación de fondo, las caídas de los cabezales y el envejecimiento o desgaste del dispositivo de almacenamiento entran en la primera categoría, mientras que los fallos de software suelen producirse por errores en el código. Los rayos cósmicos son la causa de la mayoría de los errores blandos en la DRAM.

Control de la calidad de los datos

Los problemas de calidad de los datos pueden provenir de datos duplicados, datos no estructurados, datos incompletos, diferentes formatos de datos o la dificultad de acceso a los datos. En este artículo, hablaremos de los problemas de calidad de datos más comunes y de cómo superarlos.

Múltiples copias de los mismos registros suponen un peaje en la computación y el almacenamiento, pero también pueden producir ideas sesgadas o incorrectas cuando no se detectan. Uno de los problemas críticos puede ser un error humano -alguien que introduzca los datos varias veces por accidente- o un algoritmo que haya salido mal.

La solución propuesta para este problema se llama “deduplicación de datos”. Se trata de una combinación de intuición humana, análisis de datos y algoritmos para detectar posibles duplicados basándose en puntuaciones de azar y en el sentido común para determinar en qué casos los registros parecen casi coincidir.

Muchas veces, si los datos no se han introducido correctamente en el sistema, o algunos archivos pueden estar corruptos, los datos restantes tienen muchas variables que faltan. Por ejemplo, si la dirección no contiene ningún código postal, los datos restantes pueden ser de poco interés, porque será difícil determinar la dimensión geográfica.

Ir arriba