Objetivo: Analizar conjunto de registros de personas posibles resultados de CORONAVIRUS.

Descripción. En el portal de datos abiertos: https://www.gob.mx/salud/documentos/datos-abiertos-152127 se encuentra la base de datos de registros de personas que acuden a Instituciones de Salubridad para realizarse un diagnóstico sobre su estado de salud en relación a la enfermedad de Coronavirus.

1. Cargar librerías

library(readr)      # Cargar datos csv
library(fdth)       # Tablas de frecuencias
## 
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
## 
##     sd, var
library(dplyr)      # Filtros, Select, mutate, arrange, grou_by, summarize, %>%
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(lubridate)  # Para manejo de fechas
## 
## Attaching package: 'lubridate'
## The following objects are masked from 'package:base':
## 
##     date, intersect, setdiff, union
library(ggplot2)

2. Cargar los datos

datos.covid <- read.csv("C:/Users/JoseC/Desktop/8 Semestre/Analisis inteligente de datos/Datos/200920COVID19MEXICO.csv",encoding = "UTF-8")

3. Exploración inicial de los datos antes de limpieza

summary(datos.covid)
##  FECHA_ACTUALIZACION ID_REGISTRO            ORIGEN         SECTOR      
##  Length:1586191      Length:1586191     Min.   :1.00   Min.   : 1.000  
##  Class :character    Class :character   1st Qu.:1.00   1st Qu.: 4.000  
##  Mode  :character    Mode  :character   Median :2.00   Median :12.000  
##                                         Mean   :1.67   Mean   : 9.364  
##                                         3rd Qu.:2.00   3rd Qu.:12.000  
##                                         Max.   :2.00   Max.   :99.000  
##    ENTIDAD_UM         SEXO        ENTIDAD_NAC     ENTIDAD_RES   
##  Min.   : 1.00   Min.   :1.000   Min.   : 1.00   Min.   : 1.00  
##  1st Qu.: 9.00   1st Qu.:1.000   1st Qu.: 9.00   1st Qu.: 9.00  
##  Median :14.00   Median :1.000   Median :15.00   Median :15.00  
##  Mean   :15.49   Mean   :1.491   Mean   :16.31   Mean   :15.73  
##  3rd Qu.:22.00   3rd Qu.:2.000   3rd Qu.:23.00   3rd Qu.:22.00  
##  Max.   :32.00   Max.   :2.000   Max.   :99.00   Max.   :32.00  
##  MUNICIPIO_RES    TIPO_PACIENTE   FECHA_INGRESO      FECHA_SINTOMAS    
##  Min.   :  1.00   Min.   :1.000   Length:1586191     Length:1586191    
##  1st Qu.:  8.00   1st Qu.:1.000   Class :character   Class :character  
##  Median : 20.00   Median :1.000   Mode  :character   Mode  :character  
##  Mean   : 36.96   Mean   :1.171                                        
##  3rd Qu.: 46.00   3rd Qu.:1.000                                        
##  Max.   :999.00   Max.   :2.000                                        
##   FECHA_DEF            INTUBADO        NEUMONIA           EDAD       
##  Length:1586191     Min.   : 1.00   Min.   : 1.000   Min.   :  0.00  
##  Class :character   1st Qu.:97.00   1st Qu.: 2.000   1st Qu.: 30.00  
##  Mode  :character   Median :97.00   Median : 2.000   Median : 41.00  
##                     Mean   :80.72   Mean   : 1.877   Mean   : 42.09  
##                     3rd Qu.:97.00   3rd Qu.: 2.000   3rd Qu.: 53.00  
##                     Max.   :99.00   Max.   :99.000   Max.   :120.00  
##   NACIONALIDAD      EMBARAZO     HABLA_LENGUA_INDIG    DIABETES     
##  Min.   :1.000   Min.   : 1.00   Min.   : 1.000     Min.   : 1.000  
##  1st Qu.:1.000   1st Qu.: 2.00   1st Qu.: 2.000     1st Qu.: 2.000  
##  Median :1.000   Median : 2.00   Median : 2.000     Median : 2.000  
##  Mean   :1.005   Mean   :48.94   Mean   : 5.462     Mean   : 2.168  
##  3rd Qu.:1.000   3rd Qu.:97.00   3rd Qu.: 2.000     3rd Qu.: 2.000  
##  Max.   :2.000   Max.   :98.00   Max.   :99.000     Max.   :98.000  
##       EPOC             ASMA           INMUSUPR       HIPERTENSION   
##  Min.   : 1.000   Min.   : 1.000   Min.   : 1.000   Min.   : 1.000  
##  1st Qu.: 2.000   1st Qu.: 2.000   1st Qu.: 2.000   1st Qu.: 2.000  
##  Median : 2.000   Median : 2.000   Median : 2.000   Median : 2.000  
##  Mean   : 2.244   Mean   : 2.228   Mean   : 2.262   Mean   : 2.109  
##  3rd Qu.: 2.000   3rd Qu.: 2.000   3rd Qu.: 2.000   3rd Qu.: 2.000  
##  Max.   :98.000   Max.   :98.000   Max.   :98.000   Max.   :98.000  
##     OTRA_COM      CARDIOVASCULAR      OBESIDAD      RENAL_CRONICA   
##  Min.   : 1.000   Min.   : 1.000   Min.   : 1.000   Min.   : 1.000  
##  1st Qu.: 2.000   1st Qu.: 2.000   1st Qu.: 2.000   1st Qu.: 2.000  
##  Median : 2.000   Median : 2.000   Median : 2.000   Median : 2.000  
##  Mean   : 2.386   Mean   : 2.242   Mean   : 2.102   Mean   : 2.239  
##  3rd Qu.: 2.000   3rd Qu.: 2.000   3rd Qu.: 2.000   3rd Qu.: 2.000  
##  Max.   :98.000   Max.   :98.000   Max.   :98.000   Max.   :98.000  
##    TABAQUISMO       OTRO_CASO       RESULTADO       MIGRANTE    
##  Min.   : 1.000   Min.   : 1.00   Min.   :1.00   Min.   : 1.00  
##  1st Qu.: 2.000   1st Qu.: 1.00   1st Qu.:1.00   1st Qu.:99.00  
##  Median : 2.000   Median : 2.00   Median :2.00   Median :99.00  
##  Mean   : 2.191   Mean   :14.58   Mean   :1.61   Mean   :98.64  
##  3rd Qu.: 2.000   3rd Qu.: 2.00   3rd Qu.:2.00   3rd Qu.:99.00  
##  Max.   :98.000   Max.   :99.00   Max.   :3.00   Max.   :99.00  
##  PAIS_NACIONALIDAD  PAIS_ORIGEN             UCI       
##  Length:1586191     Length:1586191     Min.   : 1.00  
##  Class :character   Class :character   1st Qu.:97.00  
##  Mode  :character   Mode  :character   Median :97.00  
##                                        Mean   :80.73  
##                                        3rd Qu.:97.00  
##                                        Max.   :99.00
str(datos.covid)
## 'data.frame':    1586191 obs. of  35 variables:
##  $ FECHA_ACTUALIZACION: chr  "2020-09-20" "2020-09-20" "2020-09-20" "2020-09-20" ...
##  $ ID_REGISTRO        : chr  "058818" "10c8c0" "08f0a7" "001a82" ...
##  $ ORIGEN             : int  1 2 1 2 2 2 2 2 2 2 ...
##  $ SECTOR             : int  4 12 12 4 12 12 4 12 4 4 ...
##  $ ENTIDAD_UM         : int  26 20 9 9 25 20 9 9 30 2 ...
##  $ SEXO               : int  1 2 2 1 1 1 2 2 1 2 ...
##  $ ENTIDAD_NAC        : int  26 20 9 9 25 20 9 9 30 2 ...
##  $ ENTIDAD_RES        : int  26 20 9 9 25 20 9 9 30 2 ...
##  $ MUNICIPIO_RES      : int  43 64 3 16 11 83 6 5 193 2 ...
##  $ TIPO_PACIENTE      : int  1 2 2 2 2 1 1 1 2 2 ...
##  $ FECHA_INGRESO      : chr  "2020-05-28" "2020-05-27" "2020-05-28" "2020-05-28" ...
##  $ FECHA_SINTOMAS     : chr  "2020-05-24" "2020-05-26" "2020-05-25" "2020-05-21" ...
##  $ FECHA_DEF          : chr  "2020-06-19" "9999-99-99" "2020-06-04" "9999-99-99" ...
##  $ INTUBADO           : int  97 2 1 2 2 97 97 97 2 2 ...
##  $ NEUMONIA           : int  1 2 1 1 2 2 2 2 1 1 ...
##  $ EDAD               : int  55 68 70 45 37 59 42 46 36 62 ...
##  $ NACIONALIDAD       : int  1 1 1 1 1 1 1 1 1 1 ...
##  $ EMBARAZO           : int  2 97 97 2 2 2 97 97 2 97 ...
##  $ HABLA_LENGUA_INDIG : int  2 2 2 2 2 2 2 2 2 2 ...
##  $ DIABETES           : int  2 2 2 2 2 2 2 2 2 2 ...
##  $ EPOC               : int  2 2 2 2 2 2 2 2 2 2 ...
##  $ ASMA               : int  2 2 2 2 2 2 2 2 2 2 ...
##  $ INMUSUPR           : int  2 2 2 2 2 2 2 2 2 2 ...
##  $ HIPERTENSION       : int  1 2 1 2 2 1 2 2 2 2 ...
##  $ OTRA_COM           : int  2 2 2 1 2 2 2 2 2 2 ...
##  $ CARDIOVASCULAR     : int  2 2 2 2 2 2 2 2 2 2 ...
##  $ OBESIDAD           : int  2 1 2 2 2 2 2 2 2 2 ...
##  $ RENAL_CRONICA      : int  2 2 2 2 2 2 2 2 1 2 ...
##  $ TABAQUISMO         : int  2 2 2 2 2 2 2 2 2 2 ...
##  $ OTRO_CASO          : int  99 2 1 99 2 1 1 2 99 99 ...
##  $ RESULTADO          : int  1 1 1 1 1 1 1 1 1 1 ...
##  $ MIGRANTE           : int  99 99 99 99 99 99 99 99 99 99 ...
##  $ PAIS_NACIONALIDAD  : chr  "México" "México" "México" "México" ...
##  $ PAIS_ORIGEN        : chr  "99" "99" "99" "99" ...
##  $ UCI                : int  97 2 1 2 2 97 97 97 2 2 ...

4. Limpiar datos.

datos.covid$ORIGEN <- factor(datos.covid$ORIGEN)
datos.covid$SECTOR <- factor(datos.covid$SECTOR)
datos.covid$ENTIDAD_UM <- factor(datos.covid$ENTIDAD_UM)
datos.covid$SEXO <- factor(datos.covid$SEXO)
datos.covid$ENTIDAD_NAC <- factor(datos.covid$ENTIDAD_NAC)
datos.covid$ENTIDAD_RES <- factor(datos.covid$ENTIDAD_RES)

datos.covid$ENTIDAD_RES <- factor(datos.covid$ENTIDAD_RES)
datos.covid$MUNICIPIO_RES <- factor(datos.covid$MUNICIPIO_RES)
datos.covid$TIPO_PACIENTE <- factor(datos.covid$TIPO_PACIENTE)

datos.covid$NACIONALIDAD <- factor(datos.covid$NACIONALIDAD)
datos.covid$HABLA_LENGUA_INDIG <- factor(datos.covid$HABLA_LENGUA_INDIG)
datos.covid$MIGRANTE <- factor(datos.covid$MIGRANTE)
datos.covid$PAIS_ORIGEN <- factor(datos.covid$PAIS_ORIGEN)

# Cambiar fecha. Aquí es donde actúa la librería lubridate 
# para habilitar la función ymd() de esa librería
datos.covid$FECHA_ACTUALIZACION <- ymd(datos.covid$FECHA_ACTUALIZACION)
datos.covid$FECHA_INGRESO <- ymd(datos.covid$FECHA_INGRESO)
datos.covid$FECHA_SINTOMAS <- ymd(datos.covid$FECHA_SINTOMAS)
datos.covid$FECHA_DEF <- ymd(datos.covid$FECHA_DEF)
## Warning: 1492307 failed to parse.
# Diagnóstico de enfermedadades o condición clinica
datos.covid$INTUBADO <- factor(datos.covid$INTUBADO)
datos.covid$NEUMONIA <- factor(datos.covid$NEUMONIA)
datos.covid$EMBARAZO <- factor(datos.covid$EMBARAZO)
datos.covid$DIABETES <- factor(datos.covid$DIABETES)
datos.covid$EPOC <- factor(datos.covid$EPOC)
datos.covid$ASMA <- factor(datos.covid$ASMA)
datos.covid$INMUSUPR <- factor(datos.covid$INMUSUPR)
datos.covid$HIPERTENSION <- factor(datos.covid$HIPERTENSION)
datos.covid$OTRA_COM <- factor(datos.covid$OTRA_COM)
datos.covid$CARDIOVASCULAR <- factor(datos.covid$CARDIOVASCULAR)
datos.covid$OBESIDAD <- factor(datos.covid$OBESIDAD)
datos.covid$RENAL_CRONICA <- factor(datos.covid$RENAL_CRONICA)
datos.covid$TABAQUISMO <- factor(datos.covid$TABAQUISMO)
datos.covid$OTRO_CASO <- factor(datos.covid$OTRO_CASO)

# Resultado
datos.covid$RESULTADO <- factor(datos.covid$RESULTADO)
datos.covid$UCI <- factor(datos.covid$UCI)

5. Descripción de los datos después de limpieza de los datos

summary(datos.covid)
##  FECHA_ACTUALIZACION  ID_REGISTRO        ORIGEN          SECTOR      
##  Min.   :2020-09-20   Length:1586191     1: 522879   12     :993199  
##  1st Qu.:2020-09-20   Class :character   2:1063312   4      :403283  
##  Median :2020-09-20   Mode  :character               6      : 60156  
##  Mean   :2020-09-20                                  9      : 58082  
##  3rd Qu.:2020-09-20                                  3      : 28066  
##  Max.   :2020-09-20                                  8      : 13403  
##                                                      (Other): 30002  
##    ENTIDAD_UM     SEXO        ENTIDAD_NAC      ENTIDAD_RES    
##  9      :390030   1:808002   9      :348383   9      :331474  
##  15     :137361   2:778189   15     :175489   15     :192189  
##  11     : 91947              11     : 87814   11     : 91869  
##  19     : 83356              30     : 68872   19     : 82685  
##  21     : 67931              19     : 68207   21     : 65598  
##  28     : 64035              21     : 65271   28     : 63962  
##  (Other):751531              (Other):772155   (Other):758414  
##  MUNICIPIO_RES     TIPO_PACIENTE FECHA_INGRESO        FECHA_SINTOMAS      
##  7      :  69636   1:1314644     Min.   :2020-01-01   Min.   :2020-01-01  
##  5      :  69086   2: 271547     1st Qu.:2020-06-11   1st Qu.:2020-06-08  
##  4      :  59462                 Median :2020-07-16   Median :2020-07-12  
##  39     :  56876                 Mean   :2020-07-12   Mean   :2020-07-08  
##  2      :  55654                 3rd Qu.:2020-08-17   3rd Qu.:2020-08-13  
##  17     :  48194                 Max.   :2020-09-20   Max.   :2020-09-20  
##  (Other):1227283                                                          
##    FECHA_DEF          INTUBADO     NEUMONIA          EDAD        NACIONALIDAD
##  Min.   :2020-01-13   1 :  40556   1 : 197717   Min.   :  0.00   1:1578954   
##  1st Qu.:2020-06-03   2 : 230788   2 :1388453   1st Qu.: 30.00   2:   7237   
##  Median :2020-07-05   97:1314644   99:     21   Median : 41.00               
##  Mean   :2020-07-04   99:    203                Mean   : 42.09               
##  3rd Qu.:2020-08-05                             3rd Qu.: 53.00               
##  Max.   :2020-09-20                             Max.   :120.00               
##  NA's   :1492307                                                             
##  EMBARAZO    HABLA_LENGUA_INDIG DIABETES     EPOC         ASMA        
##  1 : 13154   1 :  13210         1 : 192176   1 :  20699   1 :  45209  
##  2 :789256   2 :1516238         2 :1389235   2 :1561247   2 :1536739  
##  97:778189   99:  56743         98:   4780   98:   4245   98:   4243  
##  98:  5592                                                            
##                                                                       
##                                                                       
##                                                                       
##  INMUSUPR     HIPERTENSION OTRA_COM     CARDIOVASCULAR OBESIDAD    
##  1 :  19574   1 : 253474   1 :  38296   1 :  30391     1 : 243869  
##  2 :1562078   2 :1328278   2 :1541122   2 :1551485     2 :1338097  
##  98:   4539   98:   4439   98:   6773   98:   4315     98:   4225  
##                                                                    
##                                                                    
##                                                                    
##                                                                    
##  RENAL_CRONICA TABAQUISMO   OTRO_CASO   RESULTADO  MIGRANTE    
##  1 :  27660    1 : 129913   1 :768898   1:697663   1 :   1620  
##  2 :1554300    2 :1451765   2 :603605   2:809373   2 :   4327  
##  98:   4231    98:   4513   99:213688   3: 79155   99:1580244  
##                                                                
##                                                                
##                                                                
##                                                                
##  PAIS_NACIONALIDAD                        PAIS_ORIGEN      UCI         
##  Length:1586191     99                          :1584571   1 :  23162  
##  Class :character   Estados Unidos de Am<e9>rica:    258   2 : 248172  
##  Mode  :character   Rep<fa>blica de Honduras    :    172   97:1314644  
##                     Venezuela                   :    165   99:    213  
##                     Colombia                    :    158               
##                     Cuba                        :    144               
##                     (Other)                     :    723

6. Análisis de los datos

positivo.COVID <- filter(datos.covid, RESULTADO == '1') 
ggplot(positivo.COVID, aes(EDAD)) + geom_histogram(position = "stack", bins = 30)

options(scipen = 999)
frecuencia.edades <- fdt(positivo.COVID$EDAD)
frecuencia.edades <- data.frame(frecuencia.edades$table)
frecuencia.edades
##         Class.limits     f             rf         rf...     cf       cf...
## 1        [0,5.67524)  4713 0.006755410564  0.6755410564   4713   0.6755411
## 2  [5.67524,11.3505)  4942 0.007083649269  0.7083649269   9655   1.3839060
## 3  [11.3505,17.0257) 10256 0.014700507265  1.4700507265  19911   2.8539567
## 4   [17.0257,22.701) 25387 0.036388628894  3.6388628894  45298   6.4928196
## 5   [22.701,28.3762) 73274 0.105027785621 10.5027785621 118572  16.9955982
## 6  [28.3762,34.0514) 92589 0.132713072071 13.2713072071 211161  30.2669054
## 7  [34.0514,39.7267) 77517 0.111109518492 11.1109518492 288678  41.3778572
## 8  [39.7267,45.4019) 89674 0.128534837020 12.8534837020 378352  54.2313409
## 9  [45.4019,51.0771) 88225 0.126457903028 12.6457903028 466577  66.8771312
## 10 [51.0771,56.7524) 62597 0.089723835147  8.9723835147 529174  75.8495147
## 11 [56.7524,62.4276) 60168 0.086242211498  8.6242211498 589342  84.4737359
## 12 [62.4276,68.1029) 43942 0.062984564181  6.2984564181 633284  90.7721923
## 13 [68.1029,73.7781) 25765 0.036930437761  3.6930437761 659049  94.4652361
## 14 [73.7781,79.4533) 20577 0.029494182721  2.9494182721 679626  97.4146544
## 15 [79.4533,85.1286) 11777 0.016880642947  1.6880642947 691403  99.1027186
## 16 [85.1286,90.8038)  4411 0.006322536812  0.6322536812 695814  99.7349723
## 17  [90.8038,96.479)  1514 0.002170102184  0.2170102184 697328  99.9519825
## 18  [96.479,102.154)   296 0.000424273611  0.0424273611 697624  99.9944099
## 19  [102.154,107.83)    29 0.000041567347  0.0041567347 697653  99.9985666
## 20  [107.83,113.505)     4 0.000005733427  0.0005733427 697657  99.9991400
## 21  [113.505,119.18)     6 0.000008600141  0.0008600141 697663 100.0000000
ggplot(frecuencia.edades, aes(1:21, rf, fill=Class.limits)) + geom_bar(stat = "identity")

frecuencia.sexo <- fdt_cat(positivo.COVID$SEXO)
frecuencia.sexo <- data.frame(frecuencia.sexo)
frecuencia.sexo
##   Category      f        rf    rf...     cf     cf...
## 1        2 363283 0.5207142 52.07142 363283  52.07142
## 2        1 334380 0.4792858 47.92858 697663 100.00000
ggplot(frecuencia.sexo, aes(Category, rf, fill=Category)) + geom_bar(stat = "identity")

frecuencia.estado <- fdt_cat(positivo.COVID$ENTIDAD_RES)
frecuencia.estado <- data.frame(frecuencia.estado)
frecuencia.estado
##    Category      f          rf      rf...     cf     cf...
## 1         9 117420 0.168304755 16.8304755 117420  16.83048
## 2        15  77015 0.110389973 11.0389973 194435  27.86947
## 3        11  38577 0.055294605  5.5294605 233012  33.39893
## 4        19  36358 0.052113986  5.2113986 269370  38.61033
## 5        30  31737 0.045490445  4.5490445 301107  43.15938
## 6        27  30860 0.044233391  4.4233391 331967  47.58272
## 7        21  29998 0.042997837  4.2997837 361965  51.88250
## 8        28  27719 0.039731217  3.9731217 389684  55.85562
## 9         5  24894 0.035681984  3.5681984 414578  59.42382
## 10       14  24643 0.035322211  3.5322211 439221  62.95604
## 11       26  23861 0.034201326  3.4201326 463082  66.37617
## 12       24  21632 0.031006374  3.1006374 484714  69.47681
## 13       16  18843 0.027008742  2.7008742 503557  72.17768
## 14        2  18529 0.026558668  2.6558668 522086  74.83355
## 15       25  17853 0.025589719  2.5589719 539939  77.39252
## 16       12  17367 0.024893107  2.4893107 557306  79.88183
## 17       31  17306 0.024805673  2.4805673 574612  82.36240
## 18       20  15532 0.022262898  2.2262898 590144  84.58869
## 19       13  12017 0.017224649  1.7224649 602161  86.31116
## 20       23  11373 0.016301567  1.6301567 613534  87.94131
## 21        8   9497 0.013612589  1.3612589 623031  89.30257
## 22        3   9480 0.013588222  1.3588222 632511  90.66139
## 23       22   8195 0.011746359  1.1746359 640706  91.83603
## 24       10   8139 0.011666091  1.1666091 648845  93.00264
## 25       29   7209 0.010333069  1.0333069 656054  94.03595
## 26       32   6817 0.009771193  0.9771193 662871  95.01307
## 27        1   6652 0.009534689  0.9534689 669523  95.96653
## 28        7   6433 0.009220784  0.9220784 675956  96.88861
## 29        4   5863 0.008403771  0.8403771 681819  97.72899
## 30       17   5707 0.008180167  0.8180167 687526  98.54701
## 31       18   5698 0.008167267  0.8167267 693224  99.36373
## 32        6   4439 0.006362671  0.6362671 697663 100.00000
ggplot(frecuencia.estado, aes(Category, rf, fill=Category)) + geom_bar(stat ="identity")

frecuencia.positivo <- fdt_cat(datos.covid$RESULTADO)
frecuencia.positivo <- data.frame(frecuencia.positivo)
frecuencia.positivo
##   Category      f         rf     rf...      cf     cf...
## 1        2 809373 0.51026201 51.026201  809373  51.02620
## 2        1 697663 0.43983543 43.983543 1507036  95.00974
## 3        3  79155 0.04990257  4.990257 1586191 100.00000
ggplot(frecuencia.positivo, aes(Category, f, fill=Category)) + geom_bar(stat ="identity")

frecuencia.ambulatorio <- fdt_cat(positivo.COVID$TIPO_PACIENTE)
frecuencia.ambulatorio <- data.frame(frecuencia.ambulatorio)
frecuencia.ambulatorio
##   Category      f        rf    rf...     cf     cf...
## 1        1 527631 0.7562835 75.62835 527631  75.62835
## 2        2 170032 0.2437165 24.37165 697663 100.00000
ggplot(frecuencia.ambulatorio, aes(Category, f, fill=Category)) + geom_bar(stat ="identity")

datos.covid <- datos.covid %>%
  mutate(DECESO = ifelse(is.na(FECHA_DEF), 'NO', 'SI'))

tabla.frecuencia.DECESO <- data.frame(fdt_cat(datos.covid$DECESO))

names(tabla.frecuencia.DECESO) <- c("Deceso", "Freq", "Freq.rel", "Freq.porc","Freq.acum", "Freq.acum.porc")
tabla.frecuencia.DECESO
##   Deceso    Freq   Freq.rel Freq.porc Freq.acum Freq.acum.porc
## 1     NO 1492307 0.94081167 94.081167   1492307       94.08117
## 2     SI   93884 0.05918833  5.918833   1586191      100.00000
ggplot(data = tabla.frecuencia.DECESO, aes(x = Deceso, 
                                                  y = Freq.porc, fill=Deceso)) +
    geom_bar(stat = "identity") +
         geom_text(aes(label=Freq))

tabla.frecuencia.UCI <- data.frame(fdt_cat(positivo.COVID$UCI))
tabla.frecuencia.UCI
##   Category      f           rf       rf...     cf     cf...
## 1       97 527631 0.7562834778 75.62834778 527631  75.62835
## 2        2 155260 0.2225429756 22.25429756 682891  97.88265
## 3        1  14605 0.0209341760  2.09341760 697496  99.97606
## 4       99    167 0.0002393706  0.02393706 697663 100.00000
ggplot(tabla.frecuencia.UCI, aes(Category, f, fill=Category)) + geom_bar(stat ="identity")

meses <- month(positivo.COVID$FECHA_INGRESO)
tabla.frecuencia.MESES <- fdt_cat(as.character(meses))
tabla.frecuencia.MESES
##  Category      f   rf rf(%)     cf  cf(%)
##         7 200023 0.29 28.67 200023  28.67
##         8 157022 0.23 22.51 357045  51.18
##         6 153194 0.22 21.96 510239  73.14
##         5  86634 0.12 12.42 596873  85.55
##         9  71636 0.10 10.27 668509  95.82
##         4  26605 0.04  3.81 695114  99.63
##         3   2539 0.00  0.36 697653 100.00
##         2      8 0.00  0.00 697661 100.00
##         1      2 0.00  0.00 697663 100.00
ggplot(tabla.frecuencia.MESES, aes(Category, f, fill=Category)) + geom_bar(stat ="identity")

7.Interpretación de los análisis de acuerdo a los datos

a. ¿Cuál rango de edad es la más frecuente?

R= de 28 a 34 años.

b. ¿Hay alguna diferencia notable del género con respeto a los casos POSITIVO?

R= No es muy notable ya que solo es del 5% aproximadamente.

c. ¿Cuál estado de la República Mexicana tiene más casos?

R= CIUDAD DE MÉXICO es el estado con más casos registrados.

d. ¿Cuál es la relación entre casos POSITIVOS Y NEGATIVOS?, es decir, de todos los casos, ¿cuántos son positivos?, ¿qué porcentaje?

R= Contamos con un 51% de casos positivos contra 44% negativos y 5% no especificado.

e. De los casos POSITIVOS, ¿cuántos y qué porcentaje son hospitalizados?

R= 76 % de los casos positivos son ambulatorios y el restante 24% son hospitalizados.

f. De los casos POSITIVOS, ¿cuántos y qué porcentaje son decesos?

R= 6% es el porcentaje de decesos en casos positivos de COVID-19

g. De los casos POSITIVOS, ¿cuántos y qué porcentaje pasan a cuidados intensivos?

R= Solo el 2% de los casos positivos se encuentra en la unidad de cuidados intensivos.

h. De todos los casos POSITIVOS, ¿cuáles son los meses de mayor frecuencia?

R= Hastal el momento Julio es el mes que regista una frecuencia alta del 29%