Objetivo:

Analizar conjunto de registros de personas posibles resultados de CORONAVIRUS.

Descripción.

En el portal de datos abiertos: https://www.gob.mx/salud/documentos/datos-abiertos-152127 se encuentra la base de datos de registros de personas que acuden a Instituciones de Salubridad para realizarse un diagnóstico sobre su estado de salud en relación a la enfermedad de Coronavirus. Los datos son proporcionados por la Secretaría de Saludo del Gobierno de México.

Se solicita realizar un análisi de los datos para derminar tablas de frecuencias y visualizaciones de los datos.

1. Cargar librerías

Identificar las librerías necesarias de R par el CASO:

readr dplyr; lubridate, fdth, ggplot

library(readr)      # Cargar datos csv
library(fdth)       # Tablas de frecuencias
library(dplyr)      # Filtros, Select, mutate, arrange, grou_by, summarize, %>%
library(lubridate)  # Para manejo de fechas
library(ggplot2)

2. Cargar los datos

Asegurarse el directorio de trabajo

#setwd("C:/Users/Usuario/Documents/Mis clases ITD/Semestre Septiembre 2020 - Enero 2021/AnAlisis Inteligente de Datos 13")
getwd()

## [1] "C:/Users/Usuario/Documents/Mis clases ITD/Semestre Septiembre 2020 - Enero 2021/AnAlisis Inteligente de Datos 13/markdown"

Cargar los datos

datos.covid <- read.csv("../datos/200909COVID19MEXICO.csv",encoding = "UTF-8")

3. Exploración inicial de los datos antes de limpieza

summary(datos.covid)

##  FECHA_ACTUALIZACION ID_REGISTRO            ORIGEN          SECTOR      
##  Length:1465693      Length:1465693     Min.   :1.000   Min.   : 1.000  
##  Class :character    Class :character   1st Qu.:1.000   1st Qu.: 4.000  
##  Mode  :character    Mode  :character   Median :2.000   Median :12.000  
##                                         Mean   :1.668   Mean   : 9.336  
##                                         3rd Qu.:2.000   3rd Qu.:12.000  
##                                         Max.   :2.000   Max.   :99.000  
##    ENTIDAD_UM         SEXO        ENTIDAD_NAC     ENTIDAD_RES   
##  Min.   : 1.00   Min.   :1.000   Min.   : 1.00   Min.   : 1.00  
##  1st Qu.: 9.00   1st Qu.:1.000   1st Qu.: 9.00   1st Qu.: 9.00  
##  Median :14.00   Median :1.000   Median :15.00   Median :15.00  
##  Mean   :15.55   Mean   :1.492   Mean   :16.35   Mean   :15.79  
##  3rd Qu.:22.00   3rd Qu.:2.000   3rd Qu.:24.00   3rd Qu.:22.00  
##  Max.   :32.00   Max.   :2.000   Max.   :99.00   Max.   :32.00  
##  MUNICIPIO_RES   TIPO_PACIENTE   FECHA_INGRESO      FECHA_SINTOMAS    
##  Min.   :  1.0   Min.   :1.000   Length:1465693     Length:1465693    
##  1st Qu.:  8.0   1st Qu.:1.000   Class :character   Class :character  
##  Median : 20.0   Median :1.000   Mode  :character   Mode  :character  
##  Mean   : 37.2   Mean   :1.175                                        
##  3rd Qu.: 46.0   3rd Qu.:1.000                                        
##  Max.   :999.0   Max.   :2.000                                        
##   FECHA_DEF            INTUBADO        NEUMONIA           EDAD      
##  Length:1465693     Min.   : 1.00   Min.   : 1.000   Min.   :  0.0  
##  Class :character   1st Qu.:97.00   1st Qu.: 2.000   1st Qu.: 30.0  
##  Mode  :character   Median :97.00   Median : 2.000   Median : 41.0  
##                     Mean   :80.33   Mean   : 1.873   Mean   : 42.2  
##                     3rd Qu.:97.00   3rd Qu.: 2.000   3rd Qu.: 53.0  
##                     Max.   :99.00   Max.   :99.000   Max.   :120.0  
##   NACIONALIDAD      EMBARAZO     HABLA_LENGUA_INDIG    DIABETES     
##  Min.   :1.000   Min.   : 1.00   Min.   : 1.00      Min.   : 1.000  
##  1st Qu.:1.000   1st Qu.: 2.00   1st Qu.: 2.00      1st Qu.: 2.000  
##  Median :1.000   Median : 2.00   Median : 2.00      Median : 2.000  
##  Mean   :1.005   Mean   :49.05   Mean   : 5.44      Mean   : 2.161  
##  3rd Qu.:1.000   3rd Qu.:97.00   3rd Qu.: 2.00      3rd Qu.: 2.000  
##  Max.   :2.000   Max.   :98.00   Max.   :99.00      Max.   :98.000  
##       EPOC             ASMA           INMUSUPR       HIPERTENSION   
##  Min.   : 1.000   Min.   : 1.000   Min.   : 1.000   Min.   : 1.000  
##  1st Qu.: 2.000   1st Qu.: 2.000   1st Qu.: 2.000   1st Qu.: 2.000  
##  Median : 2.000   Median : 2.000   Median : 2.000   Median : 2.000  
##  Mean   : 2.238   Mean   : 2.222   Mean   : 2.258   Mean   : 2.104  
##  3rd Qu.: 2.000   3rd Qu.: 2.000   3rd Qu.: 2.000   3rd Qu.: 2.000  
##  Max.   :98.000   Max.   :98.000   Max.   :98.000   Max.   :98.000  
##     OTRA_COM      CARDIOVASCULAR      OBESIDAD      RENAL_CRONICA   
##  Min.   : 1.000   Min.   : 1.000   Min.   : 1.000   Min.   : 1.000  
##  1st Qu.: 2.000   1st Qu.: 2.000   1st Qu.: 2.000   1st Qu.: 2.000  
##  Median : 2.000   Median : 2.000   Median : 2.000   Median : 2.000  
##  Mean   : 2.382   Mean   : 2.237   Mean   : 2.096   Mean   : 2.235  
##  3rd Qu.: 2.000   3rd Qu.: 2.000   3rd Qu.: 2.000   3rd Qu.: 2.000  
##  Max.   :98.000   Max.   :98.000   Max.   :98.000   Max.   :98.000  
##    TABAQUISMO       OTRO_CASO       RESULTADO        MIGRANTE    
##  Min.   : 1.000   Min.   : 1.00   Min.   :1.000   Min.   : 1.00  
##  1st Qu.: 2.000   1st Qu.: 1.00   1st Qu.:1.000   1st Qu.:99.00  
##  Median : 2.000   Median : 2.00   Median :2.000   Median :99.00  
##  Mean   : 2.189   Mean   :15.81   Mean   :1.615   Mean   :98.64  
##  3rd Qu.: 2.000   3rd Qu.: 2.00   3rd Qu.:2.000   3rd Qu.:99.00  
##  Max.   :98.000   Max.   :99.00   Max.   :3.000   Max.   :99.00  
##  PAIS_NACIONALIDAD  PAIS_ORIGEN             UCI       
##  Length:1465693     Length:1465693     Min.   : 1.00  
##  Class :character   Class :character   1st Qu.:97.00  
##  Mode  :character   Mode  :character   Median :97.00  
##                                        Mean   :80.34  
##                                        3rd Qu.:97.00  
##                                        Max.   :99.00

str(datos.covid)

## 'data.frame':    1465693 obs. of  35 variables:
##  $ FECHA_ACTUALIZACION: chr  "2020-09-09" "2020-09-09" "2020-09-09" "2020-09-09" ...
##  $ ID_REGISTRO        : chr  "0fa3df" "04b5e9" "005e0d" "12667d" ...
##  $ ORIGEN             : int  2 2 2 2 2 2 2 2 2 2 ...
##  $ SECTOR             : int  3 4 4 4 4 4 3 4 4 4 ...
##  $ ENTIDAD_UM         : int  15 15 30 9 9 15 8 13 30 21 ...
##  $ SEXO               : int  2 2 2 1 2 1 1 1 2 2 ...
##  $ ENTIDAD_NAC        : int  15 15 30 9 9 9 8 13 30 21 ...
##  $ ENTIDAD_RES        : int  15 15 30 9 9 15 8 13 30 21 ...
##  $ MUNICIPIO_RES      : int  115 62 193 5 13 104 37 56 193 114 ...
##  $ TIPO_PACIENTE      : int  1 2 1 1 1 1 1 2 2 2 ...
##  $ FECHA_INGRESO      : chr  "2020-06-15" "2020-04-13" "2020-04-16" "2020-03-29" ...
##  $ FECHA_SINTOMAS     : chr  "2020-06-10" "2020-04-06" "2020-04-09" "2020-03-23" ...
##  $ FECHA_DEF          : chr  "9999-99-99" "2020-04-15" "9999-99-99" "9999-99-99" ...
##  $ INTUBADO           : int  97 2 97 97 97 97 97 2 2 2 ...
##  $ NEUMONIA           : int  1 1 2 2 2 2 2 1 1 2 ...
##  $ EDAD               : int  48 26 40 33 29 46 47 46 73 80 ...
##  $ NACIONALIDAD       : int  1 1 1 1 1 1 1 1 1 1 ...
##  $ EMBARAZO           : int  97 97 97 2 97 2 2 2 97 97 ...
##  $ HABLA_LENGUA_INDIG : int  2 2 2 2 1 2 2 2 2 2 ...
##  $ DIABETES           : int  2 2 1 2 2 2 2 2 2 2 ...
##  $ EPOC               : int  2 2 2 2 2 2 2 2 2 2 ...
##  $ ASMA               : int  2 2 2 2 2 2 2 2 2 2 ...
##  $ INMUSUPR           : int  2 2 2 2 2 2 2 2 2 2 ...
##  $ HIPERTENSION       : int  1 2 1 2 2 2 1 1 2 2 ...
##  $ OTRA_COM           : int  2 2 2 2 2 2 2 1 2 2 ...
##  $ CARDIOVASCULAR     : int  2 2 2 2 2 2 2 2 2 2 ...
##  $ OBESIDAD           : int  2 1 1 2 2 2 1 2 2 1 ...
##  $ RENAL_CRONICA      : int  2 2 2 2 2 2 2 1 2 2 ...
##  $ TABAQUISMO         : int  2 2 2 2 2 2 2 2 2 2 ...
##  $ OTRO_CASO          : int  2 99 99 1 1 1 1 99 99 99 ...
##  $ RESULTADO          : int  1 1 1 1 1 1 1 1 1 1 ...
##  $ MIGRANTE           : int  99 99 99 99 99 99 99 99 99 99 ...
##  $ PAIS_NACIONALIDAD  : chr  "México" "México" "México" "México" ...
##  $ PAIS_ORIGEN        : chr  "99" "99" "99" "99" ...
##  $ UCI                : int  97 2 97 97 97 97 97 2 2 2 ...

4. Limpiar datos.

Modificar los tipos de datos de aquellos que datos que deban ser categóricos (factor()) y traen consigo valores numéricos.
Modificar los atributos tipo fecha a ymd().

datos.covid$ORIGEN <- factor(datos.covid$ORIGEN)
datos.covid$SECTOR <- factor(datos.covid$SECTOR)
datos.covid$ENTIDAD_UM <- factor(datos.covid$ENTIDAD_UM)
datos.covid$SEXO <- factor(datos.covid$SEXO)
datos.covid$ENTIDAD_NAC <- factor(datos.covid$ENTIDAD_NAC)
datos.covid$ENTIDAD_RES <- factor(datos.covid$ENTIDAD_RES)

datos.covid$ENTIDAD_RES <- factor(datos.covid$ENTIDAD_RES)
datos.covid$MUNICIPIO_RES <- factor(datos.covid$MUNICIPIO_RES)
datos.covid$TIPO_PACIENTE <- factor(datos.covid$TIPO_PACIENTE)

datos.covid$NACIONALIDAD <- factor(datos.covid$NACIONALIDAD)
datos.covid$HABLA_LENGUA_INDIG <- factor(datos.covid$HABLA_LENGUA_INDIG)
datos.covid$MIGRANTE <- factor(datos.covid$MIGRANTE)
datos.covid$PAIS_ORIGEN <- factor(datos.covid$PAIS_ORIGEN)

# Cambiar fecha. Aquí es donde actúa la librería lubridate 
# para habilitar la función ymd() de esa librería
datos.covid$FECHA_ACTUALIZACION <- ymd(datos.covid$FECHA_ACTUALIZACION)
datos.covid$FECHA_INGRESO <- ymd(datos.covid$FECHA_INGRESO)
datos.covid$FECHA_SINTOMAS <- ymd(datos.covid$FECHA_SINTOMAS)
datos.covid$FECHA_DEF <- ymd(datos.covid$FECHA_DEF)

# Diagnóstico de enfermedadades o condición clinica
datos.covid$INTUBADO <- factor(datos.covid$INTUBADO)
datos.covid$NEUMONIA <- factor(datos.covid$NEUMONIA)
datos.covid$EMBARAZO <- factor(datos.covid$EMBARAZO)
datos.covid$DIABETES <- factor(datos.covid$DIABETES)
datos.covid$EPOC <- factor(datos.covid$EPOC)
datos.covid$ASMA <- factor(datos.covid$ASMA)
datos.covid$INMUSUPR <- factor(datos.covid$INMUSUPR)
datos.covid$HIPERTENSION <- factor(datos.covid$HIPERTENSION)
datos.covid$OTRA_COM <- factor(datos.covid$OTRA_COM)
datos.covid$CARDIOVASCULAR <- factor(datos.covid$CARDIOVASCULAR)
datos.covid$OBESIDAD <- factor(datos.covid$OBESIDAD)
datos.covid$RENAL_CRONICA <- factor(datos.covid$RENAL_CRONICA)
datos.covid$TABAQUISMO <- factor(datos.covid$TABAQUISMO)
datos.covid$OTRO_CASO <- factor(datos.covid$OTRO_CASO)

# Resultado
datos.covid$RESULTADO <- factor(datos.covid$RESULTADO)
datos.covid$UCI <- factor(datos.covid$UCI)

5. Descripción de los datos después de limpieza de los datos

Existe difetencia en la exploración de los datos antes y después de limpie

summary(datos.covid)

##  FECHA_ACTUALIZACION  ID_REGISTRO        ORIGEN         SECTOR      
##  Min.   :2020-09-09   Length:1465693     1:486628   12     :912162  
##  1st Qu.:2020-09-09   Class :character   2:979065   4      :376524  
##  Median :2020-09-09   Mode  :character              6      : 55449  
##  Mean   :2020-09-09                                 9      : 54262  
##  3rd Qu.:2020-09-09                                 3      : 26622  
##  Max.   :2020-09-09                                 8      : 12665  
##                                                     (Other): 28009  
##    ENTIDAD_UM     SEXO        ENTIDAD_NAC      ENTIDAD_RES    
##  9      :355169   1:744869   9      :318376   9      :301109  
##  15     :129322   2:720824   15     :163016   15     :179873  
##  11     : 83524              11     : 79886   11     : 83483  
##  19     : 76065              30     : 64546   19     : 75448  
##  21     : 63794              19     : 62336   21     : 61943  
##  28     : 60188              21     : 61458   28     : 60099  
##  (Other):697631              (Other):716075   (Other):703738  
##  MUNICIPIO_RES     TIPO_PACIENTE FECHA_INGRESO        FECHA_SINTOMAS      
##  7      :  64455   1:1208690     Min.   :2020-01-01   Min.   :2020-01-01  
##  5      :  63170   2: 257003     1st Qu.:2020-06-09   1st Qu.:2020-06-05  
##  4      :  55368                 Median :2020-07-11   Median :2020-07-07  
##  39     :  52435                 Mean   :2020-07-06   Mean   :2020-07-03  
##  2      :  51993                 3rd Qu.:2020-08-10   3rd Qu.:2020-08-05  
##  17     :  43949                 Max.   :2020-09-09   Max.   :2020-09-09  
##  (Other):1134323                                                          
##    FECHA_DEF          INTUBADO     NEUMONIA          EDAD       NACIONALIDAD
##  Min.   :2020-01-13   1 :  39263   1 : 187398   Min.   :  0.0   1:1458956   
##  1st Qu.:2020-06-01   2 : 217550   2 :1278276   1st Qu.: 30.0   2:   6737   
##  Median :2020-07-02   97:1208690   99:     19   Median : 41.0               
##  Mean   :2020-06-30   99:    190                Mean   : 42.2               
##  3rd Qu.:2020-07-31                             3rd Qu.: 53.0               
##  Max.   :2020-09-09                             Max.   :120.0               
##  NA's   :1377463                                                            
##  EMBARAZO    HABLA_LENGUA_INDIG DIABETES     EPOC         ASMA        
##  1 : 11898   1 :  12374         1 : 179106   1 :  19463   1 :  42192  
##  2 :727762   2 :1401213         2 :1282260   2 :1442399   2 :1419674  
##  97:720824   99:  52106         98:   4327   98:   3831   98:   3827  
##  98:  5209                                                            
##                                                                       
##                                                                       
##                                                                       
##  INMUSUPR     HIPERTENSION OTRA_COM     CARDIOVASCULAR OBESIDAD    
##  1 :  18431   1 : 235843   1 :  36075   1 :  28475     1 : 227973  
##  2 :1443137   2 :1225813   2 :1423417   2 :1433296     2 :1233876  
##  98:   4125   98:   4037   98:   6201   98:   3922     98:   3844  
##                                                                    
##                                                                    
##                                                                    
##                                                                    
##  RENAL_CRONICA TABAQUISMO   OTRO_CASO   RESULTADO  MIGRANTE    
##  1 :  25879    1 : 119326   1 :711206   1:647507   1 :   1505  
##  2 :1435957    2 :1342239   2 :538453   2:734649   2 :   3991  
##  98:   3857    98:   4128   99:216034   3: 83537   99:1460197  
##                                                                
##                                                                
##                                                                
##                                                                
##  PAIS_NACIONALIDAD                        PAIS_ORIGEN      UCI         
##  Length:1465693     99                          :1464188   1 :  21962  
##  Class :character   Estados Unidos de Am<e9>rica:    234   2 : 234841  
##  Mode  :character   Rep<fa>blica de Honduras    :    164   97:1208690  
##                     Venezuela                   :    151   99:    200  
##                     Colombia                    :    143               
##                     Cuba                        :    140               
##                     (Other)                     :    673

6. Análisis de los datos

a. Construir el histograma de CONFIRMADOS de EDAD; hist()

Determinar los casos POSITIVO O CONFIRMADOS.
POSITIVO == 1 o sea los CONFIRMADOS

positivo.COVID <- filter(datos.covid, RESULTADO == '1')

Se hacen las gráficas mediante ggplot()

ggplot(positivo.COVID, aes(EDAD)) +
    geom_histogram(position = "stack", bins = 30)

b. Determinar tabla de frecuencias de EDADES

Un tip… … No potenciación 10e. No Notación Científica. options(scipen = 999)

options(scipen = 999) # Para que no se expresen los números en notación científica
frecuencia.edades <- fdt(positivo.COVID$EDAD)
frecuencia.edades <- data.frame(frecuencia.edades$table)
frecuencia.edades

##         Class.limits     f             rf         rf...     cf       cf...
## 1        [0,5.67524)  4376 0.006758228096  0.6758228096   4376   0.6758228
## 2  [5.67524,11.3505)  4461 0.006889500808  0.6889500808   8837   1.3647729
## 3  [11.3505,17.0257)  9231 0.014256216535  1.4256216535  18068   2.7903945
## 4   [17.0257,22.701) 22888 0.035347880409  3.5347880409  40956   6.3251826
## 5   [22.701,28.3762) 67228 0.103825904585 10.3825904585 108184  16.7077730
## 6  [28.3762,34.0514) 85980 0.132786209261 13.2786209261 194164  29.9863940
## 7  [34.0514,39.7267) 72240 0.111566361445 11.1566361445 266404  41.1430301
## 8  [39.7267,45.4019) 83610 0.129126017170 12.9126017170 350014  54.0556318
## 9  [45.4019,51.0771) 82162 0.126889747910 12.6889747910 432176  66.7446066
## 10 [51.0771,56.7524) 58295 0.090029914735  9.0029914735 490471  75.7475981
## 11 [56.7524,62.4276) 56119 0.086669333305  8.6669333305 546590  84.4145314
## 12 [62.4276,68.1029) 40940 0.063227115691  6.3227115691 587530  90.7372430
## 13 [68.1029,73.7781) 23978 0.037031259894  3.7031259894 611508  94.4403690
## 14 [73.7781,79.4533) 19197 0.029647555934  2.9647555934 630705  97.4051246
## 15 [79.4533,85.1286) 10968 0.016938813017  1.6938813017 641673  99.0990059
## 16 [85.1286,90.8038)  4115 0.006355143651  0.6355143651 645788  99.7345202
## 17  [90.8038,96.479)  1400 0.002162138788  0.2162138788 647188  99.9507341
## 18  [96.479,102.154)   286 0.000441694067  0.0441694067 647474  99.9949035
## 19  [102.154,107.83)    25 0.000038609621  0.0038609621 647499  99.9987645
## 20  [107.83,113.505)     3 0.000004633155  0.0004633155 647502  99.9992278
## 21  [113.505,119.18)     5 0.000007721924  0.0007721924 647507 100.0000000

Diagrama de barra Frecuencias edades

ggplot(frecuencia.edades, aes(1:21, rf, fill=Class.limits)) +
        geom_bar(stat = "identity")

c. Determinar frecuencias por género o sexo

frecuencia.sexo <- fdt_cat(positivo.COVID$SEXO)
frecuencia.sexo <- data.frame(frecuencia.sexo)
frecuencia.sexo

##   Category      f        rf    rf...     cf     cf...
## 1        2 338337 0.5225225 52.25225 338337  52.25225
## 2        1 309170 0.4774775 47.74775 647507 100.00000

Gráfica de Barra
¿Qué significa 1 y 2?
1 MUJER
2 HOMBRE

ggplot(frecuencia.sexo, aes(Category, rf, fill=Category)) +
        geom_bar(stat = "identity")

d. Determinar tablas de frecuencias por estados de REP MEXICANA.

Por ENTIDAD_RES Significa Entidad de Residencia
CLAVE_ENTIDAD ENTIDAD_FEDERATIVA ABREVIATURA
01 AGUASCALIENTES AS
02 BAJA CALIFORNIA BC
03 BAJA CALIFORNIA SUR BS
04 CAMPECHE CC
05 COAHUILA DE ZARAGOZA CL
06 COLIMA CM
07 CHIAPAS CS
08 CHIHUAHUA CH
09 CIUDAD DE MÉXICO DF
10 DURANGO DG
11 GUANAJUATO GT
12 GUERRERO GR
13 HIDALGO HG
14 JALISCO JC
15 MÉXICO MC
16 MICHOACÁN DE OCAMPO MN
17 MORELOS MS
18 NAYARIT NT
19 NUEVO LEÓN NL
20 OAXACA OC
21 PUEBLA PL
22 QUERÉTARO QT
23 QUINTANA ROO QR
24 SAN LUIS POTOSÍ SP
25 SINALOA SL
26 SONORA SR
27 TABASCO TC
28 TAMAULIPAS TS
29 TLAXCALA TL
30 VERACRUZ DE IGNACIO DE LA LLAVE VZ
31 YUCATÁN YN
32 ZACATECAS ZS 36 ESTADOS UNIDOS MEXICANOS EUM 97 NO APLICA NA 98 SE IGNORA SI 99 NO ESPECIFICADO NE

frecuencia.estado <- fdt_cat(positivo.COVID$ENTIDAD_RES)
frecuencia.estado <- data.frame(frecuencia.estado)
frecuencia.estado

##    Category      f          rf      rf...     cf     cf...
## 1         9 107613 0.166195887 16.6195887 107613  16.61959
## 2        15  71994 0.111186443 11.1186443 179607  27.73823
## 3        11  35182 0.054334548  5.4334548 214789  33.17169
## 4        19  32317 0.049909885  4.9909885 247106  38.16268
## 5        30  30077 0.046450463  4.6450463 277183  42.80772
## 6        27  29601 0.045715336  4.5715336 306784  47.37926
## 7        21  28426 0.043900684  4.3900684 335210  51.76932
## 8        28  26159 0.040399563  4.0399563 361369  55.80928
## 9         5  23440 0.036200381  3.6200381 384809  59.42932
## 10       26  22601 0.034904642  3.4904642 407410  62.91978
## 11       14  22369 0.034546345  3.4546345 429779  66.37442
## 12       24  20000 0.030887697  3.0887697 449779  69.46319
## 13        2  17870 0.027598157  2.7598157 467649  72.22300
## 14       25  16996 0.026248365  2.6248365 484645  74.84784
## 15       16  16840 0.026007441  2.6007441 501485  77.44858
## 16       31  16013 0.024730235  2.4730235 517498  79.92161
## 17       12  15950 0.024632938  2.4632938 533448  82.38490
## 18       20  14499 0.022392036  2.2392036 547947  84.62410
## 19       13  11113 0.017162749  1.7162749 559060  86.34038
## 20       23  10872 0.016790552  1.6790552 569932  88.01943
## 21        8   8663 0.013379006  1.3379006 578595  89.35734
## 22        3   8529 0.013172058  1.3172058 587124  90.67454
## 23       22   7298 0.011270921  1.1270921 594422  91.80163
## 24       10   7295 0.011266287  1.1266287 601717  92.92826
## 25       29   6751 0.010426142  1.0426142 608468  93.97088
## 26        7   6341 0.009792944  0.9792944 614809  94.95017
## 27        1   6147 0.009493334  0.9493334 620956  95.89950
## 28       32   6017 0.009292564  0.9292564 626973  96.82876
## 29        4   5744 0.008870947  0.8870947 632717  97.71585
## 30       17   5442 0.008404542  0.8404542 638159  98.55631
## 31       18   5312 0.008203772  0.8203772 643471  99.37669
## 32        6   4036 0.006233137  0.6233137 647507 100.00000

Gráfica de Barra
¿Qué significa 01,02, 03…32?

ggplot(frecuencia.estado, aes(Category, rf, fill=Category)) + geom_bar(stat = "identity")

e. Determinar tablas de frecuencias de POSITIVOS NO POSITIVOS

Primero determinar el valor de los casos POSITIVOS
Segundo determinar el valor de los casos NEGATIVOS
La variable de interés es RESULTADO del conjunto de datos original datos.covid

CLAVE	DESCRIPCIÓN
1	Positivo SARS-CoV-2
2	No positivo SARS-CoV-2
3	Resultado pendiente

Por medio de funciones group_by(), summarize() y pipes %>% combinadas como parte de la librerías dplyr

tabla.frecuencia.RESULTADOS <- datos.covid %>%
  group_by(RESULTADO) %>%
  summarise(frecuencia = n())

## `summarise()` ungrouping output (override with `.groups` argument)

tabla.frecuencia.RESULTADOS

## # A tibble: 3 x 2
##   RESULTADO frecuencia
##   <fct>          <int>
## 1 1             647507
## 2 2             734649
## 3 3              83537

O por medio e fdt_cat() de la la librería fdth
La función data.frame() conviertes a conjunto de datos del tipo data.frame la tabla generada por fdt_cat()
La función names() cambia los nombres a columnas del data.fame

tabla.frecuencia.RESULTADOS.2 <- data.frame(fdt_cat(datos.covid$RESULTADO))

names(tabla.frecuencia.RESULTADOS.2) <- c("Resultado", "Freq", "Freq.rel", "Freq.porc","Freq.acum", "Freq.acum.porc")
tabla.frecuencia.RESULTADOS.2

##   Resultado   Freq   Freq.rel Freq.porc Freq.acum Freq.acum.porc
## 1         2 734649 0.50122979 50.122979    734649       50.12298
## 2         1 647507 0.44177532 44.177532   1382156       94.30051
## 3         3  83537 0.05699488  5.699488   1465693      100.00000

Visualizar gráfica de barra usando funciones de ggplot2

ggplot(data = tabla.frecuencia.RESULTADOS.2, aes(Resultado, Freq.porc, fill=Resultado)) +
    geom_bar(stat = "identity")

f. Determinar tablas de frecuencias de AMBULATORIOS Y HOSPITALIZADOS

La variable de interés es TIPO_PACIENTE

CLAVE	DESCRIPCIÓN
1	AMBULATORIO
2	HOSPITALIZADO
99	NO ESPECIFICADO

tabla.frecuencia.TIPO_PACIENTE <- data.frame(fdt_cat(datos.covid$TIPO_PACIENTE))

names(tabla.frecuencia.TIPO_PACIENTE) <- c("Tipo", "Freq", "Freq.rel", "Freq.porc","Freq.acum", "Freq.acum.porc")
tabla.frecuencia.TIPO_PACIENTE

##   Tipo    Freq  Freq.rel Freq.porc Freq.acum Freq.acum.porc
## 1    1 1208690 0.8246543  82.46543   1208690       82.46543
## 2    2  257003 0.1753457  17.53457   1465693      100.00000

Visualizar gráfica de barra usando funciones de ggplot2

ggplot(data = tabla.frecuencia.TIPO_PACIENTE, aes(x = Tipo, 
                                                  y = Freq.porc, fill=Tipo)) +
    geom_bar(stat = "identity") +
         geom_text(aes(label=Freq))

g. Determinar tablas de frecuencias de DECESOS

La variable de interés es…FECHA_DEF
A través de la función mutate() generar una nueva variable llamada DECESO que significa SI fallecidos o NO fallecidos

datos.covid <- datos.covid %>%
  mutate(DECESO = ifelse(is.na(FECHA_DEF), 'NO', 'SI'))

tabla.frecuencia.DECESO <- data.frame(fdt_cat(datos.covid$DECESO))

names(tabla.frecuencia.DECESO) <- c("Deceso", "Freq", "Freq.rel", "Freq.porc","Freq.acum", "Freq.acum.porc")
tabla.frecuencia.DECESO

##   Deceso    Freq   Freq.rel Freq.porc Freq.acum Freq.acum.porc
## 1     NO 1377463 0.93980322 93.980322   1377463       93.98032
## 2     SI   88230 0.06019678  6.019678   1465693      100.00000

Visualizar la frecuencia de DECESO

ggplot(data = tabla.frecuencia.DECESO, aes(x = Deceso, 
                                                  y = Freq.porc, fill=Deceso)) +
    geom_bar(stat = "identity") +
         geom_text(aes(label=Freq))

h. Determinar tablas de frecuencias de UCI

Pendiente

i. Determinar frecuencias por meses

Se cagarán unicamente los datos de POSITIVOS. positivo.COVID
La variable de interés es FECHA_INGRESO

meses <- month(positivo.COVID$FECHA_INGRESO)
# meses

tabla.frecuencia.MESES <- data.frame(fdt_cat(as.character(meses)))

names(tabla.frecuencia.MESES) <- c("Mes", "Freq", "Freq.rel", "Freq.porc","Freq.acum", "Freq.acum.porc")

tabla.frecuencia.MESES

##   Mes   Freq      Freq.rel    Freq.porc Freq.acum Freq.acum.porc
## 1   7 199172 0.30759821902 30.759821902    199172       30.75982
## 2   8 154813 0.23909085153 23.909085153    353985       54.66891
## 3   6 152882 0.23610864439 23.610864439    506867       78.27977
## 4   5  86513 0.13360936639 13.360936639    593380       91.64071
## 5   4  26562 0.04102195034  4.102195034    619942       95.74290
## 6   9  25025 0.03864823083  3.864823083    644967       99.60773
## 7   3   2530 0.00390729367  0.390729367    647497       99.99846
## 8   2      8 0.00001235508  0.001235508    647505       99.99969
## 9   1      2 0.00000308877  0.000308877    647507      100.00000

Visualizar lineal los datos de POSITIVOS en meses

ggplot(data = tabla.frecuencia.MESES, aes(x = Mes, y = Freq)) +
  geom_bar(stat = "identity")

7. Interpretación de los análisis de acuerdo a los datos

De las respuestas a las preguntas realizar una descripción de texto libre con ideas claras y secuenciales de entre 170 y 200 palabras

Caso 2. COVID19

Rubén Pizarro

21/9/2020