En el siguiente informe revisaremos una base de datos que contienen los niveles de PhoMol (Fosforo), CaMol (Calcio), ALP (Fosfatasa Alcalina), analizados por diferentes laboratorios para pacientes entre los 65 y 89 años de edad.
Observemos un resumen de los datos;
## tibble [178 × 8] (S3: tbl_df/tbl/data.frame)
## $ Observacion: num [1:178] 1 2 3 4 5 6 7 8 9 10 ...
## $ Age : num [1:178] 78 72 72 NA 73 73 65 68 89 84 ...
## $ Sex : chr [1:178] "2" "2" "2" "2" ...
## $ ALP : num [1:178] 83 117 132 102 114 88 213 153 86 108 ...
## $ Lab : chr [1:178] "4" "4" "4" "4" ...
## $ CaMol : num [1:178] 2.53 2.5 2.43 2.48 2.33 2.13 2.55 2.45 2.25 2.43 ...
## $ PhoMol : num [1:178] 1.07 1.16 1.13 0.81 1.13 0.84 1.26 1.23 0.65 0.84 ...
## $ AgeG : chr [1:178] "75 - 79" "70 - 74" "70 - 74" "70 - 74" ...
## Observacion Age Sex ALP
## Min. : 1.00 Min. : 65.00 Length:178 Min. : 9.00
## 1st Qu.: 45.25 1st Qu.: 69.00 Class :character 1st Qu.: 71.00
## Median : 89.50 Median : 72.00 Mode :character Median : 85.00
## Mean : 89.50 Mean : 83.65 Mean : 92.03
## 3rd Qu.:133.75 3rd Qu.: 75.50 3rd Qu.:109.00
## Max. :178.00 Max. :771.00 Max. :219.00
## NA's :3 NA's :1
## Lab CaMol PhoMol AgeG
## Length:178 Min. : 1.050 Min. :0.09 Length:178
## Class :character 1st Qu.: 2.280 1st Qu.:0.97 Class :character
## Mode :character Median : 2.350 Median :1.13 Mode :character
## Mean : 3.921 Mean :1.16
## 3rd Qu.: 2.480 3rd Qu.:1.23
## Max. :25.300 Max. :8.84
## NA's :1 NA's :1
Si se observa bien, el resumen nos muestra algunas inconsistencias presentadas en la base de datos; algunos errores logicos, como lo son las edades y sus respectivos intervalos, son necesarios revisar directamente en la base de datos para analizarlo con detenimiento.
Se realiza las consistencias correpondientes para revisar cuales son los datos que fallan con un orden logico. Revisando la siguiente grafica se puede ver la frecuencia con la que se cometen estos fallos.
Las reglas realizadas son especificas para saber si las edades de los
pacientes corresponden a los intervalos de edades de los mismos, ya que,
al analizar la trabla se dectaron algunas inconsistencias para los
rangos de edad.
Seguidamente, tambien se observar los datos faltantes de la tabla, en la cual se puede ver a simple vista, que la mayor frecuencia de estos datos faltantes son por la edad de los pacientes, sin embargo, estos datos faltantes pueden ser debidos a omisiones en el proceso de digitación de la base de datos.
Al revisarse nuevamente la base de datos, algunas observaciones como; la 4, 6, 11 presentaban inconsistencias en el procesamiento de la tabla, por ende, se añade estas observaciones omitidas en la digitción inical a los anteriores datos faltantes.
Ahora visualizamos los datos faltantes
Utilizamos la función miss para poder saber con
presición los datos faltantes y aque variable pertenece
Despues de corregir errores de la tabla con los datos, ánalizamos los datos atipicos univariados
Lo hacemos con cada variable númerica
## $Age
## $Age$stats
## [,1]
## [1,] 65
## [2,] 69
## [3,] 72
## [4,] 75
## [5,] 84
##
## $Age$n
## [1] 177
##
## $Age$conf
## [,1]
## [1,] 71.28744
## [2,] 72.71256
##
## $Age$out
## [1] 89 88 86
##
## $Age$group
## [1] 1 1 1
##
## $Age$names
## [1] "1"
##
##
## $ALP
## $ALP$stats
## [,1]
## [1,] 42
## [2,] 71
## [3,] 85
## [4,] 109
## [5,] 163
##
## $ALP$n
## [1] 178
##
## $ALP$conf
## [,1]
## [1,] 80.49981
## [2,] 89.50019
##
## $ALP$out
## [1] 213 9 168 193 219 171
##
## $ALP$group
## [1] 1 1 1 1 1 1
##
## $ALP$names
## [1] "1"
##
##
## $CaMol
## $CaMol$stats
## [,1]
## [1,] 2.10
## [2,] 2.28
## [3,] 2.35
## [4,] 2.48
## [5,] 2.75
##
## $CaMol$n
## [1] 177
##
## $CaMol$conf
## [,1]
## [1,] 2.326248
## [2,] 2.373752
##
## $CaMol$out
## [1] 3.20 25.30 20.00 22.30 24.30 25.00 23.30 24.00 25.00 25.00 23.50 22.50
## [13] 24.50 23.30 1.90 1.05
##
## $CaMol$group
## [1] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
##
## $CaMol$names
## [1] "1"
##
##
## $PhoMol
## $PhoMol$stats
## [,1]
## [1,] 0.65
## [2,] 0.97
## [3,] 1.13
## [4,] 1.23
## [5,] 1.61
##
## $PhoMol$n
## [1] 177
##
## $PhoMol$conf
## [,1]
## [1,] 1.099122
## [2,] 1.160878
##
## $PhoMol$out
## [1] 0.52 3.21 0.09 8.84 2.16
##
## $PhoMol$group
## [1] 1 1 1 1 1
##
## $PhoMol$names
## [1] "1"
Imputamos todos los datos que se puedan por la media
## [1] 3.921017
## [1] 1.159605
Los datos que no pudimos imputar, los omitimos
Visualizamos nuevamente los datos
## Age ALP CaMol PhoMol
## Age 1.00000000 -0.07526241 0.05594117 -0.05281420
## ALP -0.07526241 1.00000000 -0.12107312 -0.03962344
## CaMol 0.05594117 -0.12107312 1.00000000 0.01104319
## PhoMol -0.05281420 -0.03962344 0.01104319 1.00000000
Identificamos los datos atipicos
Identificamos los outliers multivariados
los visualizamos
Imputamos y creamos una nueva tabla
Una vez lista la tabla, ánalizamos los datos, primero por frecuencias
#Análizamos la variable edad
En este histograma que evalua la edad, podemos fijarnos que la mayor concentración de datos la econtramos en el intervalo de edad desde los 69 años hasta los 71 años.
En este histograma que evalua la edad, nos podemos dar cuenta
Por último, en este histograma que evalua la cantidad de pacientes
estudiados por laboratorio, nos podemos dar cuenta que en el estudio el
laboratorio que realizo más obervaciones fue Metpath.