P1 Limpie el enviroment para comenzar desde cero. (1 punto)
rm(list=ls())
P2 Cargue los paquetes necesarios para trabajar con DT. (1 punto)
library(data.table)
library(car)
## Loading required package: carData
P3 Abra las bases de datos egresos y Enfermedades. (3 puntos)
Egresos<-readRDS("C:/Users/jose/Desktop/R/Data Science/Control 1/egresos.RDS")
Enfermedades<-fread ("C:/Users/jose/Desktop/R/Data Science/Control 1/Enfermedades.csv")
Egresos<-data.table(Egresos)
P4 Muestre cuántas personas de cada región hay en la base egresos. (3 puntos)
Egresos[Egresos$REGION,.N, by=REGION]
## REGION N
## 1: 13 171656
## 2: 1 516477
## 3: 6 23380
## 4: 2 154757
## 5: 15 64371
## 6: 99 18543
## 7: 5 18721
## 8: 14 51373
P5 Solucione el problema de la pregunta anterior y considere solo las 15 regiones de Chile.
Egresos<-Egresos[!(Egresos$REGION=="99")]
Egresos<-Egresos[!(Egresos$REGION=="4")]
Egresos<-Egresos[!(Egresos$REGION=="3")]
Egresos<-Egresos[!(Egresos$REGION=="7")]
Egresos<-Egresos[!(Egresos$REGION=="8")]
Egresos<-Egresos[!(Egresos$REGION=="11")]
Egresos<-Egresos[!(Egresos$REGION=="10")]
Egresos<-Egresos[!(Egresos$REGION=="2000")]
Egresos<-Egresos[!(Egresos$REGION=="51")]
Egresos<-Egresos[!(Egresos$REGION=="54")]
Egresos<-Egresos[!(Egresos$REGION=="591")]
P6 Existe una inconsistencia en la base de datos egresos, ya que hay personas que tienen más días de estadía en el hospital que días vividos. Por lo tanto, debemos eliminar estos casos de la base de datos. Para esto, cree una nueva variable que corresponda a los días de vida de una persona y elimine aquellas observaciones que tengan más días de estadía en un hospital que días de vida. (5 puntos)
Edad_Dias<-Egresos[, Edad_Dias:=EDAD*365]
Egresos[!(Egresos$Edad_Dias>DIAS_ESTAD)]
## Tipo_Tratamiento ESTAB Seremi ServicioSalud SEXO EDAD PREVI BENEF MOD
## 1: A 113150 NA 13 Hombre 0 1 C 1
## 2: A 107100 NA 7 Hombre 0 1 A 1
## 3: A 114103 NA 14 Hombre 0 1 A 1
## 4: A 103101 NA 3 Hombre 0 1 C 1
## 5: A 112200 13 NA Mujer 0 2 <NA> NA
## ---
## 43281: Z 109100 NA 9 Hombre 0 1 B 1
## 43282: Z 113180 NA 13 Mujer 0 3 <NA> NA
## 43283: Z 109100 NA 9 Mujer 0 1 B 1
## 43284: Z 113180 NA 13 Mujer 0 3 <NA> NA
## 43285: Z 109100 NA 9 Mujer 0 1 A 1
## COMUNA REGION SERV_RES FECHA_EGR SERC_EGR DIAG1 DIAG2 DIAS_ESTAD
## 1: 13402 13 13 2017-01-04 407 A084 <NA> 2
## 2: 5109 5 7 2017-10-27 407 A379 <NA> 10
## 3: 13112 13 14 2017-10-29 413 A501 <NA> 9
## 4: 2201 2 3 2017-05-29 413 A509 <NA> 10
## 5: 13114 13 12 2017-11-24 411 A870 <NA> 2
## ---
## 43281: 13301 13 9 2017-11-10 413 Z762 <NA> 1
## 43282: 13105 13 13 2017-08-07 413 Z609 <NA> 21
## 43283: 13107 13 9 2017-11-27 413 Z762 <NA> 1
## 43284: 13401 13 13 2017-08-23 413 Z762 <NA> 1
## 43285: 13127 13 9 2017-12-09 413 Z762 <NA> 1
## COND_EGR INTERV_Q Prevision CodRegion_ESTAB
## 1: 1 No FONASA 13
## 2: 1 No FONASA 5
## 3: 1 No FONASA 13
## 4: 1 No FONASA 2
## 5: 1 No ISAPRE 13
## ---
## 43281: 1 No FONASA 13
## 43282: 1 No SIN PREVISION 13
## 43283: 1 No FONASA 13
## 43284: 1 No SIN PREVISION 13
## 43285: 1 No FONASA 13
## Tipo_ESTAB Edad_Dias
## 1: Establecimiento Mediana Complejidad 0
## 2: Establecimiento Alta Complejidad 0
## 3: Establecimiento Alta Complejidad 0
## 4: Establecimiento Alta Complejidad 0
## 5: Clínica 0
## ---
## 43281: Establecimiento Alta Complejidad 0
## 43282: Establecimiento Alta Complejidad 0
## 43283: Establecimiento Alta Complejidad 0
## 43284: Establecimiento Alta Complejidad 0
## 43285: Establecimiento Alta Complejidad 0
P7 ¿Cuántas personas hay según previsión en la base egresos? (3 puntos)
Egresos[,.N, by=Prevision]
## Prevision N
## 1: FONASA 549742
## 2: ISAPRE 212169
## 3: DIPRECA 18419
## 4: CAPREDENA 20572
## 5: SIN PREVISION 23485
## 6: OTRA 18066
## 7: IGNORADA 2831
P8 Realice un resumen de las características de las personas de la base egresos según su previsión y sexo. Este resumen debe contener: edad promedio y días de estadía promedio en un hospital. (5 puntos)
Egresos[,.N, by=Prevision]
## Prevision N
## 1: FONASA 549742
## 2: ISAPRE 212169
## 3: DIPRECA 18419
## 4: CAPREDENA 20572
## 5: SIN PREVISION 23485
## 6: OTRA 18066
## 7: IGNORADA 2831
Egresos[,.N, by=SEXO]
## SEXO N
## 1: Hombre 339231
## 2: Mujer 506039
## 3: Otro 14
Las personas se caracterizan por tener de provisión de salud, predominantemente, a FONASA e ISAPRE. Siguiente a esto, la mayoría son mujeres.
P9 Cree un nuevo objeto que corresponda a un merge entre la base egresos y Enfermedades. (5 puntos) Pista: la variable identificador en la base egresos se llama Tipo_Tratamiento y en la base Enfermedades se llama Codigo. Por lo tanto, puede que renombrar una variable para que queden con el mismo nombre.
names(Enfermedades)[1]<-"Tipo_Tratamiento"
Clasificacion<-merge(x=Egresos,y=Enfermedades,by="Tipo_Tratamiento")
P10 Ahora queremos identificar, con este nuevo objeto, la proporción de enfermos que hay por región y tipo de tratamiento,es decir, del total de enfermos por región cuántos corresponden a cada tratamiento. (8 puntos)
tabla1<-Clasificacion[,sum(COND_EGR==1,na.rm = T),by=.(REGION,Tipo_Tratamiento)]
P11 ¿En qué región se atienden los individuos que tienen que realizarse cirugías y de qué región provienen?. (5 puntos)
P12 ¿Las personas suelen atenderse en sus regiones?. Para poder responder esta pregunta, es recomendable modificar el objeto anterior y así poder visualizar mejor la información. Para esto, se aconseja realizar un reshape y reemplazar los NApor valores 0. (5 puntos)