Cristian Guzmán-Soto
Universidad del Norte
Maestría en estadística Aplicada
Visualización de datos con R & Paython
2020
Objetivo general
Objetivos especificos
Caracterizar la población de personas infectadas por el Chagas en los departamentos del Colombia, 2018
Describir la distribución de la riqueza de insectos vectores del Chagas en los departamentos de Colombia
(http://portalsivigila.ins.gov.co/Paginas/Buscador.aspx#)
#str(DatosVF)
names(DatosVF)
## [1] "CONSECUTIVE" "COD_EVE"
## [3] "FEC_NOT" "SEMANA"
## [5] "ANO" "COD_PRE"
## [7] "COD_SUB" "EDAD"
## [9] "UNI_MED" "SEXO"
## [11] "COD_PAIS_O" "COD_DPTO_O"
## [13] "COD_MUN_O" "AREA"
## [15] "LOCALIDAD" "CEN_POBLA"
## [17] "VEREDA" "BAR_VER"
## [19] "OCUPACION" "TIP_SS"
## [21] "COD_ASE" "PER_ETN"
## [23] "GRU_POB" "GP_DISCAPA"
## [25] "GP_DESPLAZ" "GP_MIGRANT"
## [27] "GP_CARCELA" "GP_GESTAN"
## [29] "GP_INDIGEN" "GP_POBICFB"
## [31] "GP_MAD_COM" "GP_DESMOVI"
## [33] "GP_PSIQUIA" "GP_VIC_VIO"
## [35] "GP_OTROS" "COD_DPTO_R"
## [37] "COD_MUN_R" "COD_DPTO_N"
## [39] "COD_MUN_N" "FEC_CON"
## [41] "INI_SIN" "TIP_CAS"
## [43] "PAC_HOS" "FEC_HOS"
## [45] "CON_FIN" "FEC_DEF"
## [47] "AJUSTE" "FECHA_NTO"
## [49] "CER_DEF" "CBMTE"
## [51] "FEC_ARC_XL" "FEC_AJU"
## [53] "FM_FUERZA" "FM_UNIDAD"
## [55] "FM_GRADO" "VERSION"
## [57] "confirmados" "est_f_caso"
## [59] "Evento" "estado_final_de_caso"
## [61] "Departanento_ocurrencia" "Municipio_ocurrencia"
## [63] "Departamento_residencia" "Municipio_residencia"
dim(DatosVF)
## [1] 401 64
#De caracter a Date
DatosVF$FEC_NOT %<>% dmy()
#De numérico a factor
DatosVF$PER_ETN %<>% as.factor
#De caractera factor
DatosVF %<>% mutate_if(is.character, as.factor)
Filtro 1
ch_col <- subset(DatosVF,subset=(COD_PAIS_O==170))
ch_col %<>% droplevels
unique(ch_col$ANO)
## [1] 2018
unique(year(ch_col$FEC_NOT))
## [1] 2018 2019
Nueva variable (año de la notificación) para filtrar
ch_col %<>% mutate(anio=year(ch_col$FEC_NOT))
Filtro 2
ch_col <- subset(ch_col,subset=(anio==2018))
ch_col %<>% droplevels
Nueva variable
ch_col %<>% mutate(dia_anio=yday(ch_col$FEC_NOT))
missmap(ch_col)
Selección de variables de interés
ch_col%<>% select(dia_anio,Departanento_ocurrencia,Departamento_residencia,PER_ETN,EDAD,SEXO)
ch_col %<>% droplevels
ch_col %>% glimpse
## Rows: 382
## Columns: 6
## $ dia_anio <int> 261, 51, 243, 19, 341, 207, 207, 207, 207, ...
## $ Departanento_ocurrencia <fct> CESAR, NORTE SANTANDER, GUAJIRA, CUNDINAMAR...
## $ Departamento_residencia <fct> CESAR, NORTE SANTANDER, GUAJIRA, CUNDINAMAR...
## $ PER_ETN <fct> 1, 6, 6, 6, 6, 1, 1, 1, 1, 1, 1, 6, 6, 6, 6...
## $ EDAD <dbl> 30, 39, 43, 55, 38, 5, 7, 28, 20, 10, 13, 4...
## $ SEXO <fct> F, M, F, F, F, M, F, F, M, F, M, F, M, F, M...
summary(ch_col)
## dia_anio Departanento_ocurrencia Departamento_residencia PER_ETN
## Min. : 3 CESAR :117 CESAR :118 1:247
## 1st Qu.:207 GUAJIRA : 99 GUAJIRA : 98 5: 2
## Median :261 CASANARE : 66 CASANARE: 65 6:133
## Mean :224 ARAUCA : 53 ARAUCA : 53
## 3rd Qu.:261 SANTANDER: 12 BOGOTA : 8
## Max. :361 BOYACA : 11 BOYACA : 8
## (Other) : 24 (Other) : 32
## EDAD SEXO
## Min. : 3.00 F:215
## 1st Qu.:20.00 M:167
## Median :33.00
## Mean :33.53
## 3rd Qu.:43.00
## Max. :88.00
##
missmap(ch_col)
unique(ch_col$Departanento_ocurrencia)
## [1] CESAR NORTE SANTANDER GUAJIRA
## [4] CUNDINAMARCA CASANARE BOYACA
## [7] SANTANDER SUCRE ATLANTICO
## [10] ARAUCA PROCEDENCIA DESCONOCIDA MAGDALENA
## [13] CHOCO TOLIMA PUTUMAYO
## 15 Levels: ARAUCA ATLANTICO BOYACA CASANARE CESAR CHOCO ... TOLIMA
table(ch_col$Departanento_ocurrencia)
##
## ARAUCA ATLANTICO BOYACA
## 53 1 11
## CASANARE CESAR CHOCO
## 66 117 1
## CUNDINAMARCA GUAJIRA MAGDALENA
## 5 99 1
## NORTE SANTANDER PROCEDENCIA DESCONOCIDA PUTUMAYO
## 8 1 4
## SANTANDER SUCRE TOLIMA
## 12 1 2
dplyr::filter(ch_col,Departanento_ocurrencia=="PROCEDENCIA DESCONOCIDA")
## # A tibble: 1 x 6
## dia_anio Departanento_ocurrencia Departamento_residencia PER_ETN EDAD SEXO
## <int> <fct> <fct> <fct> <dbl> <fct>
## 1 223 PROCEDENCIA DESCONOCIDA CUNDINAMARCA 6 24 F
#Asumiendo que donde recide ocirrió el evento
ch_col$Departanento_ocurrencia[ch_col$Departanento_ocurrencia=="PROCEDENCIA DESCONOCIDA"]<-"CUNDINAMARCA"
unique(ch_col$Departamento_residencia)
## [1] CESAR NORTE SANTANDER GUAJIRA
## [4] CUNDINAMARCA CASANARE BOYACA
## [7] SANTANDER SUCRE ATLANTICO
## [10] BOGOTA ARAUCA PROCEDENCIA DESCONOCIDA
## [13] MAGDALENA CHOCO TOLIMA
## [16] PUTUMAYO
## 16 Levels: ARAUCA ATLANTICO BOGOTA BOYACA CASANARE CESAR CHOCO ... TOLIMA
table(ch_col$Departanento_residencia)
## Warning: Unknown or uninitialised column: `Departanento_residencia`.
## < table of extent 0 >
dplyr::filter(ch_col,Departamento_residencia=="PROCEDENCIA DESCONOCIDA")
## # A tibble: 3 x 6
## dia_anio Departanento_ocurrencia Departamento_residencia PER_ETN EDAD SEXO
## <int> <fct> <fct> <fct> <dbl> <fct>
## 1 146 BOYACA PROCEDENCIA DESCONOCIDA 6 16 F
## 2 146 BOYACA PROCEDENCIA DESCONOCIDA 6 10 M
## 3 244 CASANARE PROCEDENCIA DESCONOCIDA 6 27 F
unique(ch_col$PER_ETN)
## [1] 1 6 5
## Levels: 1 5 6
ch_col$PER_ETN[ch_col$PER_ETN=="5"]<-"6"
ch_col %<>% droplevels
barplot(table(ch_col$PER_ETN))
par(mfrow=c(1,2))
hist(ch_col$dia_anio, main = "")
V_aux_dpto<-table(ch_col$Departanento_ocurrencia)
barplot(sort(V_aux_dpto,decreasing = FALSE),las=1,horiz = 1)
par(mfrow=c(2,2))
boxplot(ch_col$EDAD)
boxplot(ch_col$EDAD~ch_col$Departanento_ocurrencia,horizontal = 1,las=1,ylab = "")
boxplot(ch_col$EDAD~ch_col$SEXO)
boxplot(ch_col$EDAD~ch_col$PER_ETN,horizontal = 1,las=1,ylab = "")
Figura 5. Distribución de la edad por sexo (A) y por etnia (B)
Resumen 1 y nueva variable
## # A tibble: 3 x 5
## # Groups: Departanento_ocurrencia, PER_ETN [2]
## Departanento_ocurrencia PER_ETN SEXO Edad Casos
## <fct> <fct> <fct> <dbl> <int>
## 1 ARAUCA 1 F 23.7 12
## 2 ARAUCA 1 M 27.9 10
## 3 ARAUCA 6 F 44.1 20
## # A tibble: 3 x 6
## # Groups: Departanento_ocurrencia, PER_ETN [2]
## Departanento_ocurrencia PER_ETN SEXO Edad Casos proporcion
## <fct> <fct> <fct> <dbl> <int> <dbl>
## 1 ARAUCA 1 F 23.7 12 3.14
## 2 ARAUCA 1 M 27.9 10 2.62
## 3 ARAUCA 6 F 44.1 20 5.24
Figura 7. Proporción media de infectados de las etnias por departamento
Figura 8. Distribución de la proporción de infectados de Chagas según la etnia a la que pertenece y el sexo
Resumen 2 y nueva variable
## # A tibble: 3 x 4
## Departanento_ocurrencia Edad Casos_col proporcion_col
## <fct> <dbl> <int> <dbl>
## 1 ARAUCA 39.3 53 13.9
## 2 ATLANTICO 59 1 0.262
## 3 BOYACA 16.6 11 2.88
## [1] ARAUCA ATLANTICO BOYACA CASANARE
## [5] CESAR CHOCO CUNDINAMARCA GUAJIRA
## [9] MAGDALENA NORTE SANTANDER PUTUMAYO SANTANDER
## [13] SUCRE TOLIMA
## 14 Levels: ARAUCA ATLANTICO BOYACA CASANARE CESAR CHOCO ... TOLIMA
Filtro 3
Resumen 3 y nueva variable
## # A tibble: 3 x 4
## Departanento_ocurrencia Edad Casos_I proporcion_I
## <fct> <dbl> <int> <dbl>
## 1 ARAUCA 25.6 22 8.91
## 2 BOYACA 13.8 6 2.43
## 3 CASANARE 22 1 0.405
## [1] ARAUCA BOYACA CASANARE CESAR GUAJIRA PUTUMAYO TOLIMA
## Levels: ARAUCA BOYACA CASANARE CESAR GUAJIRA PUTUMAYO TOLIMA
## Reading layer `COLOMBIA' from data source `C:\Users\Guzman\Documents\Guzman Soto CJ\UNorte\Sem III\R y Python\coordenadas\Colombia\COLOMBIA.shp' using driver `ESRI Shapefile'
## Simple feature collection with 33 features and 11 fields
## geometry type: MULTIPOLYGON
## dimension: XY
## bbox: xmin: -81.73575 ymin: -4.227907 xmax: -66.84735 ymax: 13.39453
## geographic CRS: WGS 84
## NULL
## [1] "ANTIOQUIA" "ATLANTICO"
## [3] "BOGOTA D.C." "BOLIVAR"
## [5] "BOYACA" "CALDAS"
## [7] "CAQUETA" "CAUCA"
## [9] "CESAR" "CORDOBA"
## [11] "CUNDINAMARCA" "CHOCO"
## [13] "HUILA" "LA GUAJIRA"
## [15] "MAGDALENA" "META"
## [17] "NARIÑO" "NORTE DE SANTANDER"
## [19] "QUINDIO" "RISARALDA"
## [21] "SANTANDER" "SUCRE"
## [23] "TOLIMA" "VALLE DEL CAUCA"
## [25] "ARAUCA" "CASANARE"
## [27] "PUTUMAYO" "AMAZONAS"
## [29] "GUAINIA" "GUAVIARE"
## [31] "VAUPES" "VICHADA"
## [33] "ARCHIPIELAGO DE SAN ANDRES"
## NULL
Figura 9. Distribución esapcial de la proporcion de colombianos infectados por Chagas
Figura 10. Distribución esapcial de la proporcion de indigenas colombianos infectados por Chagas
Especies vectores del Chagas
Figura 11. Distribución de la riqueza de especies vectores de Chaga por departamento Figura 12. Distribución espacial de la riqueza de especies vectores por departamento
Se buscará relacionar - El número de … infectados con la riqueza de especies vectores de Chaga mediante modelos lineales - El número de infectados en función de otras variables explicativas como ambientales o biologícas a travez de un Análisis de Correspondencia Canónica
Departamentos representativos de la región Caribe (Cesar, La Guajira) y Orinoquía (Arauca, Casanare) presentaron moderadas proporciones de infectados por Chaga
Los indigenas muestran una tendencia a ser más afectados en relación a otras etnias, y en espacial los hombres
El segundo semestre de 2018 evidenció el mayor número de casos de Chagas en general