Calidad de datos en big data

Inicio » Calidad de datos en big data

Calidad de datos en big data

Calidad de los datos ciencia de los datos

Fig. 3¿Cuál es la importancia de la calidad en el ciclo de vida de los big data? Imagen completaProblemas de calidad de los datosLos problemas de calidad de los datos suelen aparecer cuando no se cumplen los requisitos de calidad de los valores de los datos [41]. Estos problemas se deben a varios factores o procesos que se producen a diferentes niveles:

El BDQP contiene el conjunto de datos de entrada DS, el conjunto de datos de salida DS’ y los requisitos de calidad. Los requisitos de calidad se presentan como una tupla de conjuntos Req = (D, L, A), donde:Los requisitos de calidad de los datos pueden actualizarse con algunos aspectos más, mientras que el componente de elaboración de perfiles proporciona información bien detallada sobre los datos (DQP Nivel 0). Esta actualización se realiza dentro del componente de mapeo de la calidad y se relaciona con los expertos del usuario para refinar, reconfirmar y reestructurar sus parámetros de calidad de datos sobre los atributos de los mismos.

El Dr. Ikbal Taleb es actualmente profesor adjunto de la Facultad de Información Tecnológica de la Universidad de Zayed, Abu Dhabi, U.A.E. Obtuvo su doctorado en ingeniería de la información y los sistemas en la Universidad de Concordia en 2019, y un máster en ingeniería de software en la Universidad de Montreal, Canadá, en 2006. Sus intereses de investigación incluyen la calidad de los datos y Big data, el perfil de calidad, la evaluación de la calidad, la computación en la nube, los servicios web y los servicios web móviles.

Ejemplo de marco de calidad de datos

¿Qué impulsa el éxito del big data? Puede que lo primero en lo que piense sea en la precisión de los análisis o en la cantidad de datos disponibles para procesar. Pero si no está pensando en la calidad de los datos, puede estar socavando la eficacia de toda su operación de big data.

La calidad de los datos se refiere a la capacidad de un determinado conjunto de datos para cumplir un propósito previsto. El hecho de que un conjunto de datos contenga o no información de calidad viene determinado, en última instancia, por lo que se quiere conseguir. Sin embargo, en general depende de que la información esté libre de errores, incoherencias, redundancias, mal formato y otros problemas que puedan impedir que se utilice fácilmente.

La cantidad de datos que se recogen también es importante. No hay una definición oficial de cuántos datos equivalen a big data, pero en general, cuantos más datos de calidad tengas a tu disposición, más precisos y detallados serán tus resultados de análisis.

La encuesta de calidad de datos empresariales de 2019 de Precisely explora los desafíos y las oportunidades para las organizaciones que buscan llevar datos de calidad a toda la empresa a medida que crecen los volúmenes y surgen nuevas tecnologías. Descargue este informe para conocer los aspectos más destacados de la encuesta, así como una mirada más profunda a los resultados completos.

La importancia de la calidad de los datos en el big data

Validio, una plataforma automatizada de validación y control de calidad de datos en tiempo real. Tiene un doctorado en Administración de Empresas (así como un máster y una licenciatura) por la Escuela de Economía de Estocolmo, y una licenciatura en Ingeniería Física con un máster en IA y aprendizaje automático por el KTH Royal Institute of Technology. Patrik es también el presidente de Stockholm AI.

Ha pasado algo más de una década desde que The Economist nos advirtió de que pronto nos ahogaríamos en datos. La pila de datos moderna ha surgido como una propuesta de chaleco salvavidas para esta inundación de datos, encabezada por startups de Silicon Valley como Snowflake, Databricks y Confluent.

Hoy en día, cualquier empresario puede apuntarse a BigQuery o Snowflake y disponer de una solución de datos que puede escalar con su negocio en cuestión de horas. La aparición de soluciones de almacenamiento de datos baratas, flexibles y escalables fue en gran medida una respuesta a las necesidades cambiantes estimuladas por la explosión masiva de datos.

Actualmente, el mundo produce 2,5 quintillones de bytes de datos al día (hay 18 ceros en un quintillón). La explosión de datos continúa en la década de los 20, tanto en términos de generación como de almacenamiento: se espera que la cantidad de datos almacenados siga duplicándose al menos cada cuatro años. Sin embargo, una parte integral de la infraestructura de datos moderna sigue careciendo de soluciones adecuadas para la era del big data y sus retos: La supervisión de la calidad de los datos y su validación.

Qué es el big data

Nota del editor: Este artículo se incluyó originalmente como respuesta a una pregunta planteada en nuestra serie 17 preguntas y respuestas imprescindibles para una entrevista sobre ciencia de datos a principios de este año. La respuesta era lo suficientemente exhaustiva como para merecer un artículo propio.

En el entorno tradicional de los almacenes de datos, la evaluación exhaustiva de la calidad de los datos y la elaboración de informes era al menos posible (si no, ideal). Sin embargo, en los proyectos de Big Data la escala de los datos lo hace imposible. Así, las mediciones de la calidad de los datos pueden ser, en el mejor de los casos, aproximaciones (es decir, deben describirse en términos de probabilidad e intervalos de confianza, y no en términos de valores absolutos). También es necesario redefinir la mayoría de las métricas de calidad de los datos en función de las características específicas del proyecto Big Data, de modo que esas métricas puedan tener un significado claro, ser medidas (una buena aproximación) y ser utilizadas para evaluar las estrategias alternativas de mejora de la calidad de los datos.

A pesar del gran volumen de datos subyacentes, no es raro descubrir que algunos datos deseados no fueron capturados o no están disponibles por otras razones (como el alto coste, el retraso en su obtención, etc.). Es irónico, pero cierto, que la disponibilidad de los datos siga siendo una de las principales preocupaciones en materia de calidad de datos en la era del Big Data.

Scroll al inicio
Ir arriba