Objetivo

Analizar conjunto de registros de personas posibles resultados de coronavirus.

Descripción

En el portal de datos abiertos: https://www.gob.mx/salud/documentos/datos-abiertos-152127 se encuentra la base de datos de registros de personas que acuden a Instituciones de Salubridad para realizarse un diagnóstico sobre su estado de salud en relación a la enfermedad de Coronavirus. En el enlace también existen los descriptores y las tablas catálogos que ayudan a la comprensión de los datos.

1. Librerías

library(readr)
library(dplyr)
library(fdth)
library(lubridate)
library(ggplot2)

2. Cargar datos

datos_covid <- read.csv("C:/Users/cinth/Documents/ITD/Analisis inteligente de datos/Datos/200909COVID19MEXICO.csv")

3. Exploración inicial antes de limpieza

summary(datos_covid) 
 FECHA_ACTUALIZACION ID_REGISTRO            ORIGEN          SECTOR      
 Length:1465693      Length:1465693     Min.   :1.000   Min.   : 1.000  
 Class :character    Class :character   1st Qu.:1.000   1st Qu.: 4.000  
 Mode  :character    Mode  :character   Median :2.000   Median :12.000  
                                        Mean   :1.668   Mean   : 9.336  
                                        3rd Qu.:2.000   3rd Qu.:12.000  
                                        Max.   :2.000   Max.   :99.000  
   ENTIDAD_UM         SEXO        ENTIDAD_NAC     ENTIDAD_RES   
 Min.   : 1.00   Min.   :1.000   Min.   : 1.00   Min.   : 1.00  
 1st Qu.: 9.00   1st Qu.:1.000   1st Qu.: 9.00   1st Qu.: 9.00  
 Median :14.00   Median :1.000   Median :15.00   Median :15.00  
 Mean   :15.55   Mean   :1.492   Mean   :16.35   Mean   :15.79  
 3rd Qu.:22.00   3rd Qu.:2.000   3rd Qu.:24.00   3rd Qu.:22.00  
 Max.   :32.00   Max.   :2.000   Max.   :99.00   Max.   :32.00  
 MUNICIPIO_RES   TIPO_PACIENTE   FECHA_INGRESO      FECHA_SINTOMAS    
 Min.   :  1.0   Min.   :1.000   Length:1465693     Length:1465693    
 1st Qu.:  8.0   1st Qu.:1.000   Class :character   Class :character  
 Median : 20.0   Median :1.000   Mode  :character   Mode  :character  
 Mean   : 37.2   Mean   :1.175                                        
 3rd Qu.: 46.0   3rd Qu.:1.000                                        
 Max.   :999.0   Max.   :2.000                                        
  FECHA_DEF            INTUBADO        NEUMONIA           EDAD      
 Length:1465693     Min.   : 1.00   Min.   : 1.000   Min.   :  0.0  
 Class :character   1st Qu.:97.00   1st Qu.: 2.000   1st Qu.: 30.0  
 Mode  :character   Median :97.00   Median : 2.000   Median : 41.0  
                    Mean   :80.33   Mean   : 1.873   Mean   : 42.2  
                    3rd Qu.:97.00   3rd Qu.: 2.000   3rd Qu.: 53.0  
                    Max.   :99.00   Max.   :99.000   Max.   :120.0  
  NACIONALIDAD      EMBARAZO     HABLA_LENGUA_INDIG    DIABETES     
 Min.   :1.000   Min.   : 1.00   Min.   : 1.00      Min.   : 1.000  
 1st Qu.:1.000   1st Qu.: 2.00   1st Qu.: 2.00      1st Qu.: 2.000  
 Median :1.000   Median : 2.00   Median : 2.00      Median : 2.000  
 Mean   :1.005   Mean   :49.05   Mean   : 5.44      Mean   : 2.161  
 3rd Qu.:1.000   3rd Qu.:97.00   3rd Qu.: 2.00      3rd Qu.: 2.000  
 Max.   :2.000   Max.   :98.00   Max.   :99.00      Max.   :98.000  
      EPOC             ASMA           INMUSUPR       HIPERTENSION   
 Min.   : 1.000   Min.   : 1.000   Min.   : 1.000   Min.   : 1.000  
 1st Qu.: 2.000   1st Qu.: 2.000   1st Qu.: 2.000   1st Qu.: 2.000  
 Median : 2.000   Median : 2.000   Median : 2.000   Median : 2.000  
 Mean   : 2.238   Mean   : 2.222   Mean   : 2.258   Mean   : 2.104  
 3rd Qu.: 2.000   3rd Qu.: 2.000   3rd Qu.: 2.000   3rd Qu.: 2.000  
 Max.   :98.000   Max.   :98.000   Max.   :98.000   Max.   :98.000  
    OTRA_COM      CARDIOVASCULAR      OBESIDAD      RENAL_CRONICA   
 Min.   : 1.000   Min.   : 1.000   Min.   : 1.000   Min.   : 1.000  
 1st Qu.: 2.000   1st Qu.: 2.000   1st Qu.: 2.000   1st Qu.: 2.000  
 Median : 2.000   Median : 2.000   Median : 2.000   Median : 2.000  
 Mean   : 2.382   Mean   : 2.237   Mean   : 2.096   Mean   : 2.235  
 3rd Qu.: 2.000   3rd Qu.: 2.000   3rd Qu.: 2.000   3rd Qu.: 2.000  
 Max.   :98.000   Max.   :98.000   Max.   :98.000   Max.   :98.000  
   TABAQUISMO       OTRO_CASO       RESULTADO        MIGRANTE    
 Min.   : 1.000   Min.   : 1.00   Min.   :1.000   Min.   : 1.00  
 1st Qu.: 2.000   1st Qu.: 1.00   1st Qu.:1.000   1st Qu.:99.00  
 Median : 2.000   Median : 2.00   Median :2.000   Median :99.00  
 Mean   : 2.189   Mean   :15.81   Mean   :1.615   Mean   :98.64  
 3rd Qu.: 2.000   3rd Qu.: 2.00   3rd Qu.:2.000   3rd Qu.:99.00  
 Max.   :98.000   Max.   :99.00   Max.   :3.000   Max.   :99.00  
 PAIS_NACIONALIDAD  PAIS_ORIGEN             UCI       
 Length:1465693     Length:1465693     Min.   : 1.00  
 Class :character   Class :character   1st Qu.:97.00  
 Mode  :character   Mode  :character   Median :97.00  
                                       Mean   :80.34  
                                       3rd Qu.:97.00  
                                       Max.   :99.00  

4. Limpiar datos

Especificaciones geograficas

datos_covid$ORIGEN <- factor(datos_covid$ORIGEN)
datos_covid$SECTOR <- factor(datos_covid$SECTOR)
datos_covid$ENTIDAD_UM <- factor(datos_covid$ENTIDAD_UM)
datos_covid$ENTIDAD_NAC <- factor(datos_covid$ENTIDAD_NAC)
datos_covid$ENTIDAD_RES <- factor(datos_covid$ENTIDAD_RES)
datos_covid$MUNICIPIO_RES <- factor(datos_covid$MUNICIPIO_RES)
datos_covid$NACIONALIDAD <- factor(datos_covid$NACIONALIDAD)
datos_covid$PAIS_NACIONALIDAD <- factor(datos_covid$PAIS_NACIONALIDAD)
datos_covid$PAIS_ORIGEN <- factor(datos_covid$PAIS_ORIGEN)
datos_covid$MIGRANTE <- factor(datos_covid$MIGRANTE)

Datos de pacientes

datos_covid$SEXO <- factor(datos_covid$SEXO)
datos_covid$TIPO_PACIENTE <- factor(datos_covid$TIPO_PACIENTE)
datos_covid$HABLA_LENGUA_INDIG <- factor(datos_covid$HABLA_LENGUA_INDIG)

Condiciones médicas de las personas contagiadas

datos_covid$NEUMONIA <- factor(datos_covid$NEUMONIA)
datos_covid$EMBARAZO <- factor(datos_covid$EMBARAZO)
datos_covid$DIABETES <- factor(datos_covid$DIABETES)
datos_covid$EPOC <- factor(datos_covid$EPOC)
datos_covid$ASMA <- factor(datos_covid$ASMA)
datos_covid$INMUSUPR <- factor(datos_covid$INMUSUPR)
datos_covid$HIPERTENSION <- factor(datos_covid$HIPERTENSION)
datos_covid$CARDIOVASCULAR <- factor(datos_covid$CARDIOVASCULAR)
datos_covid$OBESIDAD <- factor(datos_covid$OBESIDAD)
datos_covid$RENAL_CRONICA <- factor(datos_covid$RENAL_CRONICA)
datos_covid$TABAQUISMO <- factor(datos_covid$TABAQUISMO)
datos_covid$OTRA_COM <- factor(datos_covid$OTRA_COM)

Generalidades COVID

datos_covid$INTUBADO <- factor(datos_covid$INTUBADO)
datos_covid$OTRO_CASO <- factor(datos_covid$OTRO_CASO)
datos_covid$RESULTADO <- factor(datos_covid$RESULTADO)
datos_covid$UCI <- factor(datos_covid$UCI)

Cambiar formatos de fecha

datos_covid$FECHA_INGRESO <- ymd(datos_covid$FECHA_INGRESO)
datos_covid$FECHA_SINTOMAS <- ymd(datos_covid$FECHA_SINTOMAS)
datos_covid$FECHA_DEF <- ymd(datos_covid$FECHA_DEF)
datos_covid$FECHA_ACTUALIZACION <- ymd(datos_covid$FECHA_ACTUALIZACION)

5. Descripción de los datos después de limpieza

Total registros:

nrow(datos_covid)
[1] 1465693

Total variables:

ncol(datos_covid)
[1] 35

Resumen de datos post-limpieza

summary(datos_covid)
 FECHA_ACTUALIZACION  ID_REGISTRO        ORIGEN         SECTOR      
 Min.   :2020-09-09   Length:1465693     1:486628   12     :912162  
 1st Qu.:2020-09-09   Class :character   2:979065   4      :376524  
 Median :2020-09-09   Mode  :character              6      : 55449  
 Mean   :2020-09-09                                 9      : 54262  
 3rd Qu.:2020-09-09                                 3      : 26622  
 Max.   :2020-09-09                                 8      : 12665  
                                                    (Other): 28009  
   ENTIDAD_UM     SEXO        ENTIDAD_NAC      ENTIDAD_RES    
 9      :355169   1:744869   9      :318376   9      :301109  
 15     :129322   2:720824   15     :163016   15     :179873  
 11     : 83524              11     : 79886   11     : 83483  
 19     : 76065              30     : 64546   19     : 75448  
 21     : 63794              19     : 62336   21     : 61943  
 28     : 60188              21     : 61458   28     : 60099  
 (Other):697631              (Other):716075   (Other):703738  
 MUNICIPIO_RES     TIPO_PACIENTE FECHA_INGRESO        FECHA_SINTOMAS      
 7      :  64455   1:1208690     Min.   :2020-01-01   Min.   :2020-01-01  
 5      :  63170   2: 257003     1st Qu.:2020-06-09   1st Qu.:2020-06-05  
 4      :  55368                 Median :2020-07-11   Median :2020-07-07  
 39     :  52435                 Mean   :2020-07-06   Mean   :2020-07-03  
 2      :  51993                 3rd Qu.:2020-08-10   3rd Qu.:2020-08-05  
 17     :  43949                 Max.   :2020-09-09   Max.   :2020-09-09  
 (Other):1134323                                                          
   FECHA_DEF          INTUBADO     NEUMONIA          EDAD       NACIONALIDAD
 Min.   :2020-01-13   1 :  39263   1 : 187398   Min.   :  0.0   1:1458956   
 1st Qu.:2020-06-01   2 : 217550   2 :1278276   1st Qu.: 30.0   2:   6737   
 Median :2020-07-02   97:1208690   99:     19   Median : 41.0               
 Mean   :2020-06-30   99:    190                Mean   : 42.2               
 3rd Qu.:2020-07-31                             3rd Qu.: 53.0               
 Max.   :2020-09-09                             Max.   :120.0               
 NA's   :1377463                                                            
 EMBARAZO    HABLA_LENGUA_INDIG DIABETES     EPOC         ASMA        
 1 : 11898   1 :  12374         1 : 179106   1 :  19463   1 :  42192  
 2 :727762   2 :1401213         2 :1282260   2 :1442399   2 :1419674  
 97:720824   99:  52106         98:   4327   98:   3831   98:   3827  
 98:  5209                                                            
                                                                      
                                                                      
                                                                      
 INMUSUPR     HIPERTENSION OTRA_COM     CARDIOVASCULAR OBESIDAD    
 1 :  18431   1 : 235843   1 :  36075   1 :  28475     1 : 227973  
 2 :1443137   2 :1225813   2 :1423417   2 :1433296     2 :1233876  
 98:   4125   98:   4037   98:   6201   98:   3922     98:   3844  
                                                                   
                                                                   
                                                                   
                                                                   
 RENAL_CRONICA TABAQUISMO   OTRO_CASO   RESULTADO  MIGRANTE    
 1 :  25879    1 : 119326   1 :711206   1:647507   1 :   1505  
 2 :1435957    2 :1342239   2 :538453   2:734649   2 :   3991  
 98:   3857    98:   4128   99:216034   3: 83537   99:1460197  
                                                               
                                                               
                                                               
                                                               
                  PAIS_NACIONALIDAD                      PAIS_ORIGEN     
 México                   :1458959   99                       :1464188  
 Estados Unidos de América:   1772   Estados Unidos de América:    234  
 Colombia                  :    607   República de Honduras    :    164  
 Venezuela                 :    568   Venezuela                :    151  
 Cuba                      :    499   Colombia                 :    143  
 España                   :    295   Cuba                     :    140  
 (Other)                   :   2993   (Other)                  :    673  
 UCI         
 1 :  21962  
 2 : 234841  
 97:1208690  
 99:    200  
             
             
             

6. Análisis de los datos

positivos_covid <- filter(datos_covid, RESULTADO == "1")

a. Tabla de frecuencia de las edades de personas confirmadas.

options(scipen = 999)
frecuencia_edades <- fdt(positivos_covid$EDAD)
frecuencia_edades <- data.frame(frecuencia_edades$table)
frecuencia_edades
        Class.limits     f             rf         rf...     cf       cf...
1        [0,5.67524)  4376 0.006758228096  0.6758228096   4376   0.6758228
2  [5.67524,11.3505)  4461 0.006889500808  0.6889500808   8837   1.3647729
3  [11.3505,17.0257)  9231 0.014256216535  1.4256216535  18068   2.7903945
4   [17.0257,22.701) 22888 0.035347880409  3.5347880409  40956   6.3251826
5   [22.701,28.3762) 67228 0.103825904585 10.3825904585 108184  16.7077730
6  [28.3762,34.0514) 85980 0.132786209261 13.2786209261 194164  29.9863940
7  [34.0514,39.7267) 72240 0.111566361445 11.1566361445 266404  41.1430301
8  [39.7267,45.4019) 83610 0.129126017170 12.9126017170 350014  54.0556318
9  [45.4019,51.0771) 82162 0.126889747910 12.6889747910 432176  66.7446066
10 [51.0771,56.7524) 58295 0.090029914735  9.0029914735 490471  75.7475981
11 [56.7524,62.4276) 56119 0.086669333305  8.6669333305 546590  84.4145314
12 [62.4276,68.1029) 40940 0.063227115691  6.3227115691 587530  90.7372430
13 [68.1029,73.7781) 23978 0.037031259894  3.7031259894 611508  94.4403690
14 [73.7781,79.4533) 19197 0.029647555934  2.9647555934 630705  97.4051246
15 [79.4533,85.1286) 10968 0.016938813017  1.6938813017 641673  99.0990059
16 [85.1286,90.8038)  4115 0.006355143651  0.6355143651 645788  99.7345202
17  [90.8038,96.479)  1400 0.002162138788  0.2162138788 647188  99.9507341
18  [96.479,102.154)   286 0.000441694067  0.0441694067 647474  99.9949035
19  [102.154,107.83)    25 0.000038609621  0.0038609621 647499  99.9987645
20  [107.83,113.505)     3 0.000004633155  0.0004633155 647502  99.9992278
21  [113.505,119.18)     5 0.000007721924  0.0007721924 647507 100.0000000

Histograma:

ggplot(frecuencia_edades, aes(1:21, f, fill=Class.limits)) +
  geom_bar(stat = "identity") +
  labs(x = "Edad", y = "Frecuencia")

El rango de edades más frecuente es 28 a 34 años, desmintiendo que es a las personas mayores a las que más afecta esta enfermedad.

c. Tabla de frecuencia de género.

frecuencia_genero <- data.frame(fdt_cat(positivos_covid$SEXO))
frecuencia_genero
  Category      f        rf    rf...     cf     cf...
1        2 338337 0.5225225 52.25225 338337  52.25225
2        1 309170 0.4774775 47.74775 647507 100.00000

Histograma:

ggplot(frecuencia_genero, aes(Category, f, fill=Category)) +
  geom_bar(stat = "identity")  +
  labs(x = "Género", y = "Frecuencia")

La diferencia entre hombres(2) y mujeres(1) infectados por COVID es de:

cat(338337 - 309170)
29167

En panorama general de infectados no existe una diferencia significativa.

d. Tabla de frecuencia por estado de la república.

frecuencia_estado <- data.frame(fdt_cat(positivos_covid$ENTIDAD_RES))
frecuencia_estado
   Category      f          rf      rf...     cf     cf...
1         9 107613 0.166195887 16.6195887 107613  16.61959
2        15  71994 0.111186443 11.1186443 179607  27.73823
3        11  35182 0.054334548  5.4334548 214789  33.17169
4        19  32317 0.049909885  4.9909885 247106  38.16268
5        30  30077 0.046450463  4.6450463 277183  42.80772
6        27  29601 0.045715336  4.5715336 306784  47.37926
7        21  28426 0.043900684  4.3900684 335210  51.76932
8        28  26159 0.040399563  4.0399563 361369  55.80928
9         5  23440 0.036200381  3.6200381 384809  59.42932
10       26  22601 0.034904642  3.4904642 407410  62.91978
11       14  22369 0.034546345  3.4546345 429779  66.37442
12       24  20000 0.030887697  3.0887697 449779  69.46319
13        2  17870 0.027598157  2.7598157 467649  72.22300
14       25  16996 0.026248365  2.6248365 484645  74.84784
15       16  16840 0.026007441  2.6007441 501485  77.44858
16       31  16013 0.024730235  2.4730235 517498  79.92161
17       12  15950 0.024632938  2.4632938 533448  82.38490
18       20  14499 0.022392036  2.2392036 547947  84.62410
19       13  11113 0.017162749  1.7162749 559060  86.34038
20       23  10872 0.016790552  1.6790552 569932  88.01943
21        8   8663 0.013379006  1.3379006 578595  89.35734
22        3   8529 0.013172058  1.3172058 587124  90.67454
23       22   7298 0.011270921  1.1270921 594422  91.80163
24       10   7295 0.011266287  1.1266287 601717  92.92826
25       29   6751 0.010426142  1.0426142 608468  93.97088
26        7   6341 0.009792944  0.9792944 614809  94.95017
27        1   6147 0.009493334  0.9493334 620956  95.89950
28       32   6017 0.009292564  0.9292564 626973  96.82876
29        4   5744 0.008870947  0.8870947 632717  97.71585
30       17   5442 0.008404542  0.8404542 638159  98.55631
31       18   5312 0.008203772  0.8203772 643471  99.37669
32        6   4036 0.006233137  0.6233137 647507 100.00000

Histograma

ggplot(frecuencia_estado, aes(Category, f, fill=Category)) +
  geom_bar(stat = "identity") +
  labs(x = "Estado de la república", y = "Frecuencia")

El estado de la república con más casos es la Ciudad de México con 107613 casos al 9 de septiembre del 2020.

e. Tabla de frecuencia: positivos y no positivos.

resultados <- data.frame(fdt_cat(datos_covid$RESULTADO))
resultados
  Category      f         rf     rf...      cf     cf...
1        2 734649 0.50122979 50.122979  734649  50.12298
2        1 647507 0.44177532 44.177532 1382156  94.30051
3        3  83537 0.05699488  5.699488 1465693 100.00000

Histograma:

ggplot(resultados, aes(Category, f, fill=Category)) +
  geom_bar(stat = "identity") +
  labs(x = "Positivo/No positivo/Otro", y = "Frecuencia")

El total de casos positivos al 9 de septiembre del 2020 es de 647507, siendo el 44.17% del total de la población analizada.

f. Tabla de frecuencia: paciente ambulatorios y hospitalizados.

frecuencia_paciente <- data.frame(fdt_cat(positivos_covid$TIPO_PACIENTE))
frecuencia_paciente
  Category      f        rf    rf...     cf     cf...
1        1 486437 0.7512459 75.12459 486437  75.12459
2        2 161070 0.2487541 24.87541 647507 100.00000

Histograma:

ggplot(frecuencia_paciente, aes(Category, f, fill=Category)) +
  geom_bar(stat = "identity") +
  labs(x = "Tipo paciente", y = "Frecuencia")

De los casos positivos los que se encuentran hospitalizados son 161070, siendo el 24.87% del total de la población analizada.

g. Tabla de frecuencias de decesos.

mes_deceso <- month(positivos_covid$FECHA_DEF)
frecuencia_deceso <- data.frame(fdt_cat(factor(mes_deceso)))
frecuencia_deceso
  Category     f          rf      rf...    cf     cf...
1        7 19129 0.276850713 27.6850713 19129  27.68507
2        6 17298 0.250350966 25.0350966 36427  52.72017
3        8 14515 0.210073088 21.0073088 50942  73.72748
4        5 12382 0.179202547 17.9202547 63324  91.64773
5        4  3543 0.051277227  5.1277227 66867  96.77545
6        9  2148 0.031087633  3.1087633 69015  99.88422
7        3    80 0.001157826  0.1157826 69095 100.00000

Histograma:

ggplot(frecuencia_deceso, aes(Category, f, fill=Category)) +
  geom_bar(stat = "identity") +
  labs(x = "Mes", y = "Frecuencia")

De los casos positivos, lamentablemente encontramos en total de decesos de 69,095, siendo el:

(69095*100)/647507
[1] 10.67093

porciento de toda la población afectada analizada.

h. Tabla de frecuencias de UCI.

frecuencia_uci <- data.frame(fdt_cat(positivos_covid$UCI))
frecuencia_uci
  Category      f           rf       rf...     cf     cf...
1       97 486437 0.7512459325 75.12459325 486437  75.12459
2        2 147038 0.2270832593 22.70832593 633475  97.83292
3        1  13878 0.0214329729  2.14329729 647353  99.97622
4       99    154 0.0002378353  0.02378353 647507 100.00000

Histograma:

ggplot(frecuencia_uci, aes(Category, f, fill=Category)) +
  geom_bar(stat = "identity") +
  labs(x = "UCI", y = "Frecuencia")

Del total de casos positivos los que pasan a UCI son 13,878, siendo el:

(13878*100)/647507
## [1] 2.143297

porciento de toda la población afectada analizada.

i. Tabla de frecuencias por meses.

Por fecha de ingreso:

mes_ingreso <- month(positivos_covid$FECHA_INGRESO)
frecuencia_ingreso <- data.frame(fdt_cat(factor(mes_ingreso)))
frecuencia_ingreso
  Category      f            rf        rf...     cf     cf...
1        7 199172 0.30759821902 30.759821902 199172  30.75982
2        8 154813 0.23909085153 23.909085153 353985  54.66891
3        6 152882 0.23610864439 23.610864439 506867  78.27977
4        5  86513 0.13360936639 13.360936639 593380  91.64071
5        4  26562 0.04102195034  4.102195034 619942  95.74290
6        9  25025 0.03864823083  3.864823083 644967  99.60773
7        3   2530 0.00390729367  0.390729367 647497  99.99846
8        2      8 0.00001235508  0.001235508 647505  99.99969
9        1      2 0.00000308877  0.000308877 647507 100.00000

Histograma:

ggplot(frecuencia_ingreso, aes(Category, f, fill=Category)) +
  geom_bar(stat = "identity") +
  labs(x = "Mes ingreso", y = "Frecuencia")

En cuanto a la fecha de ingreso el mes que más reportes tiene es julio con un total de 199,172 personas.

Por fecha de sintomas:

mes_sintomas <- month(positivos_covid$FECHA_SINTOMAS)
frecuencia_sintomas <- data.frame(fdt_cat(factor(mes_sintomas)))
frecuencia_sintomas
  Category      f            rf        rf...     cf     cf...
1        7 194196 0.29991336001 29.991336001 194196  29.99134
2        6 160346 0.24763593289 24.763593289 354542  54.75493
3        8 150558 0.23251949400 23.251949400 505100  78.00688
4        5  98405 0.15197519100 15.197519100 603505  93.20440
5        4  31827 0.04915313657  4.915313657 635332  98.11971
6        9   8235 0.01271800923  1.271800923 643567  99.39151
7        3   3923 0.00605862176  0.605862176 647490  99.99737
8        2     15 0.00002316577  0.002316577 647505  99.99969
9        1      2 0.00000308877  0.000308877 647507 100.00000

Histograma:

ggplot(frecuencia_sintomas, aes(Category, f, fill=Category)) +
  geom_bar(stat = "identity") +
  labs(x = "Mes sintomas", y = "Frecuencia")

Y con base en la fecha en que se presentaron los sintomas, también julio es el mes con más personas reportadas con un total de 194,196 personas.

j. Tablas de frecuencias por antecedentes médicos:

Neumonia

neumonia <- data.frame(fdt_cat(positivos_covid$NEUMONIA))
neumonia
  Category      f            rf        rf...     cf     cf...
1        2 523984 0.80923295038 80.923295038 523984  80.92330
2        1 123516 0.19075623893 19.075623893 647500  99.99892
3       99      7 0.00001081069  0.001081069 647507 100.00000
ggplot(neumonia, aes(Category, f, fill=Category)) +
  geom_bar(stat = "identity") +
  labs(x = "Sí/No/Otro", y = "Frecuencia")

Diabetes

diabetes <- data.frame(fdt_cat(positivos_covid$DIABETES))
diabetes
  Category      f          rf      rf...     cf     cf...
1        2 544273 0.840566975 84.0566975 544273  84.05670
2        1 101257 0.156379777 15.6379777 645530  99.69468
3       98   1977 0.003053249  0.3053249 647507 100.00000
ggplot(diabetes, aes(Category, f, fill=Category)) +
  geom_bar(stat = "identity") +
  labs(x = "Sí/No/Otro", y = "Frecuencia")

EPOC

epoc <- data.frame(fdt_cat(positivos_covid$EPOC))
epoc
  Category      f          rf      rf...     cf     cf...
1        2 636156 0.982469688 98.2469688 636156  98.24697
2        1   9613 0.014846172  1.4846172 645769  99.73159
3       98   1738 0.002684141  0.2684141 647507 100.00000
ggplot(epoc, aes(Category, f, fill=Category)) +
  geom_bar(stat = "identity") +
  labs(x = "Sí/No/Otro", y = "Frecuencia")

Asma

asma <- data.frame(fdt_cat(positivos_covid$ASMA))
asma
  Category      f         rf     rf...     cf     cf...
1        2 628801 0.97111074 97.111074 628801  97.11107
2        1  16975 0.02621593  2.621593 645776  99.73267
3       98   1731 0.00267333  0.267333 647507 100.00000
ggplot(asma, aes(Category, f, fill=Category)) +
  geom_bar(stat = "identity") +
  labs(x = "Sí/No/Otro", y = "Frecuencia")

Inmunosupresión

inmusupr <- data.frame(fdt_cat(positivos_covid$INMUSUPR))
inmusupr
  Category      f          rf      rf...     cf     cf...
1        2 638459 0.986026406 98.6026406 638459  98.60264
2        1   7174 0.011079417  1.1079417 645633  99.71058
3       98   1874 0.002894177  0.2894177 647507 100.00000
ggplot(inmusupr, aes(Category, f, fill=Category)) +
  geom_bar(stat = "identity") +
  labs(x = "Sí/No/Otro", y = "Frecuencia")

Hipertensión

hipertension <- data.frame(fdt_cat(positivos_covid$HIPERTENSION))
hipertension
  Category      f          rf      rf...     cf     cf...
1        2 519112 0.801708707 80.1708707 519112  80.17087
2        1 126551 0.195443447 19.5443447 645663  99.71522
3       98   1844 0.002847846  0.2847846 647507 100.00000
ggplot(hipertension, aes(Category, f, fill=Category)) +
  geom_bar(stat = "identity") +
  labs(x = "Sí/No/Otro", y = "Frecuencia")

Cardiovascular

cardiovascular <- data.frame(fdt_cat(positivos_covid$CARDIOVASCULAR))
cardiovascular
  Category      f          rf      rf...     cf     cf...
1        2 632681 0.977102950 97.7102950 632681  97.71030
2        1  13010 0.020092447  2.0092447 645691  99.71954
3       98   1816 0.002804603  0.2804603 647507 100.00000
ggplot(cardiovascular, aes(Category, f, fill=Category)) +
  geom_bar(stat = "identity") +
  labs(x = "Sí/No/Otro", y = "Frecuencia")

Obesidad

obesidad <- data.frame(fdt_cat(positivos_covid$OBESIDAD))
obesidad
  Category      f          rf      rf...     cf     cf...
1        2 527220 0.814230580 81.4230580 527220  81.42306
2        1 118498 0.183006516 18.3006516 645718  99.72371
3       98   1789 0.002762904  0.2762904 647507 100.00000
ggplot(obesidad, aes(Category, f, fill=Category)) +
  geom_bar(stat = "identity") +
  labs(x = "Sí/No/Otro", y = "Frecuencia")

Renal

renal <- data.frame(fdt_cat(positivos_covid$RENAL_CRONICA))
renal
  Category      f          rf      rf...     cf     cf...
1        2 633338 0.978117611 97.8117611 633338  97.81176
2        1  12391 0.019136473  1.9136473 645729  99.72541
3       98   1778 0.002745916  0.2745916 647507 100.00000
ggplot(renal, aes(Category, f, fill=Category)) +
  geom_bar(stat = "identity") +
  labs(x = "Sí/No/Otro", y = "Frecuencia")

Tabaquismo

tabaquismo <- data.frame(fdt_cat(positivos_covid$TABAQUISMO))
tabaquismo
  Category      f          rf      rf...     cf     cf...
1        2 598954 0.925015482 92.5015482 598954  92.50155
2        1  46665 0.072068719  7.2068719 645619  99.70842
3       98   1888 0.002915799  0.2915799 647507 100.00000
ggplot(tabaquismo, aes(Category, f, fill=Category)) +
  geom_bar(stat = "identity") +
  labs(x = "Sí/No/Otro", y = "Frecuencia")

Otras complicaciones

otras <- data.frame(fdt_cat(positivos_covid$OTRA_COM))
otras
  Category      f          rf      rf...     cf     cf...
1        2 628702 0.970957843 97.0957843 628702  97.09578
2        1  15761 0.024341050  2.4341050 644463  99.52989
3       98   3044 0.004701107  0.4701107 647507 100.00000
ggplot(otras, aes(Category, f, fill=Category)) +
  geom_bar(stat = "identity") +
  labs(x = "Sí/No/Otro", y = "Frecuencia")

Interpretación:

Del total de registros (1,465,693) y variables (35) al día 9 de septiembre del 2020 se obtuvieron los siguientes resultados:

* El rango de edades de personas que presentan COVID está entre 28 y 34 años, desmintiendo que los adultos mayores son más propensos a esta enfermedad. En cuanto al género no hay diferencia significativa de casos entre hombres y mujeres, dado que hay 29,167 casos de diferencia (tomando en cuenta el panorama general).

* Geográficamente, el estado con más casos positivos de COVID es la Ciudad de México, con 107,613. Dentro de toda la república el total de casos positivos son 647,507, siendo la CDMX el 44.17% de la población.

* De casos positivos el total que se encuentra hospitalizado es de 161,070, correspondiente al 24.87%, lamentablemente los decesos por esta enfermedad son del 10.67%, correspondiente a 60,095 casos. Los que pasan a UCI son un total de 13,878, correspondiente al 2.14% de la población.

* En meses para fecha de ingreso y de presentar sintomas por primera vez, se encontró que el mes de más frecuencia es julio, con 199,172 y 194,196 respectivamente.

* Por último, la complicación médica más presentada en la población positiva es hipertensión con 126,551 casos.