Consigna:
La calidad de datos se refiere tanto a las características asociadas con los datos de alta calidad como a los procesos utilizados para medir o mejorar los datos.
Los datos son de alta calidad en la medida en que satisfacen las expectativas y necesidades de los consumidores de datos.
Gestionar la calidad es definir y ejecutar de manera recurrente un conjunto de actividades y técnicas para mantener los datos en el mejor estado posible.
Costos de Calidad:
Directos: | Indirectos: |
---|---|
Pérdidas de ingreso |
Pérdida de oportunidades |
Exposición al fraude |
Pérdida de mercado |
Incumplimientos regulatorios |
Pérdida de reputación |
Multas |
|
Pérdidas por malas decisiones impulsaadas por datos incorrectos (Garbage in-Garbage out) |
Transformaciones.
Solucionar problemas.
Completitud.
Integridad.
Consistencia.
Validez.
Razonabilidad.
Frescura.
Unicidad.
Aplicación de las dimensiones al contexto:
Rangos de Edad.
Rangos de Fechas.
Existencia de outliers.
Valores correctos pero que no pueden existir en la realidad.
Duplicación.
Gestión Reactiva vs Gestión Proactiva.
Es necesario medir y anticipar los impactos.
Requiere liderazgo, compromiso y recursos.
Requiere cambio cultural.
Perfilados de datos:
- Pandas profiling
- DataCleaner
- Great expectations
Limpieza y Enriquecimiento de datos:
- OpenRefine.
- Paquete Dplyr lenguaje R.
Data set de información de personas. Problemas de calidad de datos
El Data set está compuesto por: 327000 filas y 10 columnas con los siguientes nombres:
names(calidad)
## [1] "...1" "ID" "Nombre"
## [4] "Email" "Teléfono" "Sexo"
## [7] "Fecha de Nacimiento" "Dirección" "Cantidad de Hijos"
## [10] "Estado Civil"
head(calidad, 10)
## # A tibble: 10 × 10
## ...1 ID Nombre Email Teléfono Sexo `Fecha de Nacimiento` Dirección
## <dbl> <dbl> <chr> <chr> <chr> <chr> <date> <chr>
## 1 0 101476 Garza, Che pvel… 1-577-4… M 1982-08-04 Paseo Sa…
## 2 1 230236 Tiziano Be… mia-… 9999999 1 1959-01-09 87 Viadu…
## 3 2 157934 Sanchez, M… <NA> 9999999 f NA 4796 Urb…
## 4 3 290239 Alma Valen… olim… +54 9 3… M 1965-11-12 58817424
## 5 4 189243 Jenaro Gar… no_t… <NA> M NA 31 Alame…
## 6 5 146880 Eugenio, C… <NA> 9999999 M 1983-01-21 55004321
## 7 6 20219 Olivia, Fe… a@a.… 9999999 2 NA 33436
## 8 7 139259 Nicolas Ga… a@a.… +54 9 3… Feme… NA Calzada …
## 9 8 146306 Sergio Cin… rang… +54 15 … 1 1913-05-10 2 Blv. P…
## 10 9 147364 Emma Aliaga <NA> 9999999 Masc… NA 10048967
## # ℹ 2 more variables: `Cantidad de Hijos` <dbl>, `Estado Civil` <chr>
Error 1: Variable “…1” comienza con punto, no determina a qué representa los valores de dicha columna. Podría transformarse en cantidad de entradas corrigiendo la segunda fila que comienza con “0”.
Error 2 Contenidos de variable ” Nombre”, para gestionar mejor los datos, podrían separarse el nombre del apellido, o que tengan el mismo orden, ya que algunas entradas comienzan con el nombre y otras con el apellido. Además de los signos como “,” y otros ausentes. que no permiten alinear criterios para luego transformarlos.
Error 3 Campos vacíos que se observan desde las 10 primeras filas en las siguientes columnas: email, Teléfono, Fecha de Nacimiento.
Error 4 Repetición de datos. Por ejemplo E-mail: a@a.com en filas 8 y 9.También se observa en variable teléfono.
Error5 Sintaxis
Del nro. de teléfono. la estructura no es homogénea en las
entradas.
En algunos campos se observa por ejemplos tres valores: en filas 9, 10,
código de país, código de provincia y número de tel. También cantidad de
números, extensión, que se debería permitir.
En la variable dirección. estructura no homogénea en las entradas. Más de un valor por campo.
Error6 Falta de unificación en categorías (factor) en variable Sexo. Debería ser por ejemplo: 0 = M, 1 = F o al revés y utilizar una categoría numérica o la categoría de carácter.
Error7 Fecha de Nacimiento: falla en algunos no hay una edad válida, algunos no mayores de edad, otros no tienen completo el dato.
Error8 en la variable cantidad de hijos. Hay campos con valores no válidos. por ejemplo -3.
Error9 en la variable estado civil. Se observa categoría sin valor para el análisis ” no tiene”.
A simple viste ya se observan varias fallas de calidad de datos. El ejercicio para continuar es entender a qué dimensión de calidad pertenece cada error. Luego transformar la tabla de datos para poder luego analizarlos.