Introduccion

En el siguiente informe revisaremos una base de datos que contienen los niveles de PhoMol (Fosforo), CaMol (Calcio), ALP (Fosfatasa Alcalina), analizados por diferentes laboratorios para pacientes entre los 65 y 89 años de edad.

Observemos un resumen de los datos;

## tibble [178 × 8] (S3: tbl_df/tbl/data.frame)
##  $ Observacion: num [1:178] 1 2 3 4 5 6 7 8 9 10 ...
##  $ Age        : num [1:178] 78 72 72 NA 73 73 65 68 89 84 ...
##  $ Sex        : chr [1:178] "2" "2" "2" "2" ...
##  $ ALP        : num [1:178] 83 117 132 102 114 88 213 153 86 108 ...
##  $ Lab        : chr [1:178] "4" "4" "4" "4" ...
##  $ CaMol      : num [1:178] 2.53 2.5 2.43 2.48 2.33 2.13 2.55 2.45 2.25 2.43 ...
##  $ PhoMol     : num [1:178] 1.07 1.16 1.13 0.81 1.13 0.84 1.26 1.23 0.65 0.84 ...
##  $ AgeG       : chr [1:178] "75 - 79" "70 - 74" "70 - 74" "70 - 74" ...
##   Observacion          Age             Sex                 ALP        
##  Min.   :  1.00   Min.   : 65.00   Length:178         Min.   :  9.00  
##  1st Qu.: 45.25   1st Qu.: 69.00   Class :character   1st Qu.: 71.00  
##  Median : 89.50   Median : 72.00   Mode  :character   Median : 85.00  
##  Mean   : 89.50   Mean   : 83.65                      Mean   : 92.03  
##  3rd Qu.:133.75   3rd Qu.: 75.50                      3rd Qu.:109.00  
##  Max.   :178.00   Max.   :771.00                      Max.   :219.00  
##                   NA's   :3                           NA's   :1       
##      Lab                CaMol            PhoMol         AgeG          
##  Length:178         Min.   : 1.050   Min.   :0.09   Length:178        
##  Class :character   1st Qu.: 2.280   1st Qu.:0.97   Class :character  
##  Mode  :character   Median : 2.350   Median :1.13   Mode  :character  
##                     Mean   : 3.921   Mean   :1.16                     
##                     3rd Qu.: 2.480   3rd Qu.:1.23                     
##                     Max.   :25.300   Max.   :8.84                     
##                     NA's   :1        NA's   :1

Si se observa bien, el resumen nos muestra algunas inconsistencias presentadas en la base de datos; algunos errores logicos, como lo son las edades y sus respectivos intervalos, son necesarios revisar directamente en la base de datos para analizarlo con detenimiento.

Consistencias

Se realiza las consistencias correpondientes para revisar cuales son los datos que fallan con un orden logico. Revisando la siguiente grafica se puede ver la frecuencia con la que se cometen estos fallos.

Las reglas realizadas son especificas para saber si las edades de los pacientes corresponden a los intervalos de edades de los mismos, ya que, al analizar la trabla se dectaron algunas inconsistencias para los rangos de edad.

Seguidamente, tambien se observar los datos faltantes de la tabla, en la cual se puede ver a simple vista, que la mayor frecuencia de estos datos faltantes son por la edad de los pacientes, sin embargo, estos datos faltantes pueden ser debidos a omisiones en el proceso de digitación de la base de datos.

Una revisión sobre la base de datos inicial

Al revisarse nuevamente la base de datos, algunas observaciones como; la 4, 6, 11 presentaban inconsistencias en el procesamiento de la tabla, por ende, se añade estas observaciones omitidas en la digitción inical a los anteriores datos faltantes.

Ahora visualizamos los datos faltantes

Utilizamos la función miss para poder saber con presición los datos faltantes y aque variable pertenece

Despues de corregir errores de la tabla con los datos, ánalizamos los datos atipicos univariados

Lo hacemos con cada variable númerica

## $Age
## $Age$stats
##      [,1]
## [1,]   65
## [2,]   69
## [3,]   72
## [4,]   75
## [5,]   84
## 
## $Age$n
## [1] 177
## 
## $Age$conf
##          [,1]
## [1,] 71.28744
## [2,] 72.71256
## 
## $Age$out
## [1] 89 88 86
## 
## $Age$group
## [1] 1 1 1
## 
## $Age$names
## [1] "1"
## 
## 
## $ALP
## $ALP$stats
##      [,1]
## [1,]   42
## [2,]   71
## [3,]   85
## [4,]  109
## [5,]  163
## 
## $ALP$n
## [1] 178
## 
## $ALP$conf
##          [,1]
## [1,] 80.49981
## [2,] 89.50019
## 
## $ALP$out
## [1] 213   9 168 193 219 171
## 
## $ALP$group
## [1] 1 1 1 1 1 1
## 
## $ALP$names
## [1] "1"
## 
## 
## $CaMol
## $CaMol$stats
##      [,1]
## [1,] 2.10
## [2,] 2.28
## [3,] 2.35
## [4,] 2.48
## [5,] 2.75
## 
## $CaMol$n
## [1] 177
## 
## $CaMol$conf
##          [,1]
## [1,] 2.326248
## [2,] 2.373752
## 
## $CaMol$out
##  [1]  3.20 25.30 20.00 22.30 24.30 25.00 23.30 24.00 25.00 25.00 23.50 22.50
## [13] 24.50 23.30  1.90  1.05
## 
## $CaMol$group
##  [1] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
## 
## $CaMol$names
## [1] "1"
## 
## 
## $PhoMol
## $PhoMol$stats
##      [,1]
## [1,] 0.65
## [2,] 0.97
## [3,] 1.13
## [4,] 1.23
## [5,] 1.61
## 
## $PhoMol$n
## [1] 177
## 
## $PhoMol$conf
##          [,1]
## [1,] 1.099122
## [2,] 1.160878
## 
## $PhoMol$out
## [1] 0.52 3.21 0.09 8.84 2.16
## 
## $PhoMol$group
## [1] 1 1 1 1 1
## 
## $PhoMol$names
## [1] "1"

Imputamos todos los datos que se puedan por la media

## [1] 3.921017
## [1] 1.159605

Los datos que no pudimos imputar, los omitimos

Visualizamos nuevamente los datos

##                Age         ALP       CaMol      PhoMol
## Age     1.00000000 -0.07526241  0.05594117 -0.05281420
## ALP    -0.07526241  1.00000000 -0.12107312 -0.03962344
## CaMol   0.05594117 -0.12107312  1.00000000  0.01104319
## PhoMol -0.05281420 -0.03962344  0.01104319  1.00000000

Identificamos los datos atipicos

Identificamos los outliers multivariados

los visualizamos

Imputamos y creamos una nueva tabla

Una vez lista la tabla, ánalizamos los datos, primero por frecuencias

#Análizamos la variable edad

En este histograma que evalua la edad, podemos fijarnos que la mayor concentración de datos la econtramos en el intervalo de edad desde los 69 años hasta los 71 años.

En este histograma que evalua la edad, nos podemos dar cuenta

Por último, en este histograma que evalua la cantidad de pacientes estudiados por laboratorio, nos podemos dar cuenta que en el estudio el laboratorio que realizo más obervaciones fue Metpath.