Limpieza de datos big data
Qué es la limpieza de datos en la investigación
La limpieza de datos o depuración de datos es el proceso de detectar y corregir (o eliminar) los registros corruptos o inexactos de un conjunto de registros, una tabla o una base de datos, y se refiere a la identificación de las partes incompletas, incorrectas, inexactas o irrelevantes de los datos y, a continuación, a la sustitución, modificación o eliminación de los datos sucios o gruesos[1]. La limpieza de datos puede realizarse de forma interactiva con herramientas de depuración de datos, o como procesamiento por lotes mediante scripts[2].
Tras la limpieza, un conjunto de datos debe ser coherente con otros conjuntos de datos similares del sistema. Las incoherencias detectadas o eliminadas pueden haber sido causadas originalmente por errores de entrada del usuario, por corrupción en la transmisión o el almacenamiento, o por diferentes definiciones del diccionario de datos de entidades similares en diferentes almacenes. La limpieza de datos se diferencia de la validación de datos en que la validación significa casi siempre que los datos se rechazan del sistema en el momento de la entrada y se realiza en el momento de la entrada, en lugar de en lotes de datos.
El proceso real de limpieza de datos puede implicar la eliminación de errores tipográficos o la validación y corrección de valores con respecto a una lista conocida de entidades. La validación puede ser estricta (como rechazar cualquier dirección que no tenga un código postal válido), o con una coincidencia de cadenas difusa o aproximada (como corregir los registros que coinciden parcialmente con registros existentes y conocidos). Algunas soluciones de limpieza de datos limpian los datos mediante una comprobación cruzada con un conjunto de datos validados. Una práctica habitual de limpieza de datos es la mejora de los mismos, en la que los datos se completan añadiendo información relacionada. Por ejemplo, añadiendo las direcciones con los números de teléfono relacionados con esa dirección. La limpieza de datos también puede implicar la armonización (o normalización) de los datos, que es el proceso de reunir datos de «diferentes formatos de archivo, convenciones de nomenclatura y columnas»,[3] y transformarlos en un conjunto de datos cohesivo; un ejemplo sencillo es la ampliación de las abreviaturas («st, rd, etc.» a «street, road, etcetera»).
Una revisión de los métodos de limpieza de datos para el big data
Cuando se utilizan datos, la mayoría de la gente está de acuerdo en que los conocimientos y el análisis son tan buenos como los datos que se utilizan. Esencialmente, la basura que entra en los datos es la basura que sale del análisis. La limpieza de datos, también conocida como limpieza de datos y depuración de datos, es uno de los pasos más importantes para su organización si quiere crear una cultura en torno a la toma de decisiones sobre datos de calidad.
La limpieza de datos es el proceso de arreglar o eliminar datos incorrectos, corruptos, mal formateados, duplicados o incompletos dentro de un conjunto de datos. Cuando se combinan múltiples fuentes de datos, hay muchas oportunidades de que los datos estén duplicados o mal etiquetados. Si los datos son incorrectos, los resultados y los algoritmos no son fiables, aunque parezcan correctos. No hay una forma absoluta de prescribir los pasos exactos del proceso de limpieza de datos, porque los procesos variarán de un conjunto de datos a otro. Sin embargo, es fundamental establecer una plantilla para el proceso de limpieza de datos, de modo que se sepa que se está haciendo siempre de la manera correcta.
La limpieza de datos es el proceso que elimina los datos que no pertenecen a su conjunto de datos. La transformación de datos es el proceso de convertir los datos de un formato o estructura a otro. Los procesos de transformación también pueden denominarse «gestión de datos» o «manipulación de datos», y consisten en transformar y mapear los datos de una forma «cruda» a otro formato para su almacenamiento y análisis. Este artículo se centra en los procesos de limpieza de esos datos.
Documento de investigación sobre la limpieza de datos
Los datos son una parte esencial de la analítica de datos, la seguridad de datos y la ciencia de datos. Eso es evidente. Sin embargo, a veces esos datos pueden ensuciarse un poco. No, no como en una película de gángsters. Más bien como cuando de repente tenemos que lidiar con «datos sucios» tras un atraco en un centro de datos. Cuando hay un error en la ortografía, la disposición, el formato o la construcción que ha hecho que esos datos sean poco claros. Por estas razones, cada cierto tiempo hay que aplicar la limpieza de datos.
La limpieza de datos puede parecer un concepto extraño para algunos. Pero, en realidad, es una parte vital de la ciencia de datos. El uso de diferentes técnicas para limpiar los datos ayudará en el proceso de análisis de datos. También ayuda a mejorar la comunicación con sus equipos y con los usuarios finales. Además de prevenir cualquier problema informático en el futuro.
Desgraciadamente, la limpieza de datos puede suponer una gran cantidad de tiempo para los científicos de datos. Sin embargo, como tener datos pobres o erróneos puede ser perjudicial para una tarea, es algo importante que hay que hacer. Sin embargo, no todo es malo. Los datos de alta calidad que se han limpiado pueden facilitar mucho el trabajo.
Por qué es importante la limpieza de datos en el aprendizaje automático
La limpieza de datos es, de hecho, un tema muy vivo que ha desempeñado un papel importante en la historia de la gestión de datos y la analítica de datos, y todavía está experimentando un rápido desarrollo. Además, la limpieza de datos se considera un reto importante en la era del big data, debido al creciente volumen, velocidad y variedad de datos en muchas aplicaciones. El objetivo de este artículo es ofrecer una visión general de los trabajos recientes sobre diferentes aspectos de la limpieza de datos: métodos de detección de errores, algoritmos de reparación de datos y un sistema de limpieza de datos generalizado. También incluye una discusión sobre nuestros esfuerzos de métodos de limpieza de datos desde la perspectiva de los big data, en términos de volumen, velocidad y variedad.