6. Análisis de los datos
positivos_covid <- filter(datos_covid, RESULTADO == "1")
a. Tabla de frecuencia de las edades de personas confirmadas.
options(scipen = 999)
frecuencia_edades <- fdt(positivos_covid$EDAD)
frecuencia_edades <- data.frame(frecuencia_edades$table)
frecuencia_edades
Class.limits f rf rf... cf cf...
1 [0,5.67524) 4376 0.006758228096 0.6758228096 4376 0.6758228
2 [5.67524,11.3505) 4461 0.006889500808 0.6889500808 8837 1.3647729
3 [11.3505,17.0257) 9231 0.014256216535 1.4256216535 18068 2.7903945
4 [17.0257,22.701) 22888 0.035347880409 3.5347880409 40956 6.3251826
5 [22.701,28.3762) 67228 0.103825904585 10.3825904585 108184 16.7077730
6 [28.3762,34.0514) 85980 0.132786209261 13.2786209261 194164 29.9863940
7 [34.0514,39.7267) 72240 0.111566361445 11.1566361445 266404 41.1430301
8 [39.7267,45.4019) 83610 0.129126017170 12.9126017170 350014 54.0556318
9 [45.4019,51.0771) 82162 0.126889747910 12.6889747910 432176 66.7446066
10 [51.0771,56.7524) 58295 0.090029914735 9.0029914735 490471 75.7475981
11 [56.7524,62.4276) 56119 0.086669333305 8.6669333305 546590 84.4145314
12 [62.4276,68.1029) 40940 0.063227115691 6.3227115691 587530 90.7372430
13 [68.1029,73.7781) 23978 0.037031259894 3.7031259894 611508 94.4403690
14 [73.7781,79.4533) 19197 0.029647555934 2.9647555934 630705 97.4051246
15 [79.4533,85.1286) 10968 0.016938813017 1.6938813017 641673 99.0990059
16 [85.1286,90.8038) 4115 0.006355143651 0.6355143651 645788 99.7345202
17 [90.8038,96.479) 1400 0.002162138788 0.2162138788 647188 99.9507341
18 [96.479,102.154) 286 0.000441694067 0.0441694067 647474 99.9949035
19 [102.154,107.83) 25 0.000038609621 0.0038609621 647499 99.9987645
20 [107.83,113.505) 3 0.000004633155 0.0004633155 647502 99.9992278
21 [113.505,119.18) 5 0.000007721924 0.0007721924 647507 100.0000000
Histograma:
ggplot(frecuencia_edades, aes(1:21, f, fill=Class.limits)) +
geom_bar(stat = "identity") +
labs(x = "Edad", y = "Frecuencia")

El rango de edades más frecuente es 28 a 34 años, desmintiendo que es a las personas mayores a las que más afecta esta enfermedad.
c. Tabla de frecuencia de género.
frecuencia_genero <- data.frame(fdt_cat(positivos_covid$SEXO))
frecuencia_genero
Category f rf rf... cf cf...
1 2 338337 0.5225225 52.25225 338337 52.25225
2 1 309170 0.4774775 47.74775 647507 100.00000
Histograma:
ggplot(frecuencia_genero, aes(Category, f, fill=Category)) +
geom_bar(stat = "identity") +
labs(x = "Género", y = "Frecuencia")

La diferencia entre hombres(2) y mujeres(1) infectados por COVID es de:
cat(338337 - 309170)
29167
En panorama general de infectados no existe una diferencia significativa.
d. Tabla de frecuencia por estado de la república.
frecuencia_estado <- data.frame(fdt_cat(positivos_covid$ENTIDAD_RES))
frecuencia_estado
Category f rf rf... cf cf...
1 9 107613 0.166195887 16.6195887 107613 16.61959
2 15 71994 0.111186443 11.1186443 179607 27.73823
3 11 35182 0.054334548 5.4334548 214789 33.17169
4 19 32317 0.049909885 4.9909885 247106 38.16268
5 30 30077 0.046450463 4.6450463 277183 42.80772
6 27 29601 0.045715336 4.5715336 306784 47.37926
7 21 28426 0.043900684 4.3900684 335210 51.76932
8 28 26159 0.040399563 4.0399563 361369 55.80928
9 5 23440 0.036200381 3.6200381 384809 59.42932
10 26 22601 0.034904642 3.4904642 407410 62.91978
11 14 22369 0.034546345 3.4546345 429779 66.37442
12 24 20000 0.030887697 3.0887697 449779 69.46319
13 2 17870 0.027598157 2.7598157 467649 72.22300
14 25 16996 0.026248365 2.6248365 484645 74.84784
15 16 16840 0.026007441 2.6007441 501485 77.44858
16 31 16013 0.024730235 2.4730235 517498 79.92161
17 12 15950 0.024632938 2.4632938 533448 82.38490
18 20 14499 0.022392036 2.2392036 547947 84.62410
19 13 11113 0.017162749 1.7162749 559060 86.34038
20 23 10872 0.016790552 1.6790552 569932 88.01943
21 8 8663 0.013379006 1.3379006 578595 89.35734
22 3 8529 0.013172058 1.3172058 587124 90.67454
23 22 7298 0.011270921 1.1270921 594422 91.80163
24 10 7295 0.011266287 1.1266287 601717 92.92826
25 29 6751 0.010426142 1.0426142 608468 93.97088
26 7 6341 0.009792944 0.9792944 614809 94.95017
27 1 6147 0.009493334 0.9493334 620956 95.89950
28 32 6017 0.009292564 0.9292564 626973 96.82876
29 4 5744 0.008870947 0.8870947 632717 97.71585
30 17 5442 0.008404542 0.8404542 638159 98.55631
31 18 5312 0.008203772 0.8203772 643471 99.37669
32 6 4036 0.006233137 0.6233137 647507 100.00000
Histograma
ggplot(frecuencia_estado, aes(Category, f, fill=Category)) +
geom_bar(stat = "identity") +
labs(x = "Estado de la república", y = "Frecuencia")

El estado de la república con más casos es la Ciudad de México con 107613 casos al 9 de septiembre del 2020.
e. Tabla de frecuencia: positivos y no positivos.
resultados <- data.frame(fdt_cat(datos_covid$RESULTADO))
resultados
Category f rf rf... cf cf...
1 2 734649 0.50122979 50.122979 734649 50.12298
2 1 647507 0.44177532 44.177532 1382156 94.30051
3 3 83537 0.05699488 5.699488 1465693 100.00000
Histograma:
ggplot(resultados, aes(Category, f, fill=Category)) +
geom_bar(stat = "identity") +
labs(x = "Positivo/No positivo/Otro", y = "Frecuencia")

El total de casos positivos al 9 de septiembre del 2020 es de 647507, siendo el 44.17% del total de la población analizada.
f. Tabla de frecuencia: paciente ambulatorios y hospitalizados.
frecuencia_paciente <- data.frame(fdt_cat(positivos_covid$TIPO_PACIENTE))
frecuencia_paciente
Category f rf rf... cf cf...
1 1 486437 0.7512459 75.12459 486437 75.12459
2 2 161070 0.2487541 24.87541 647507 100.00000
Histograma:
ggplot(frecuencia_paciente, aes(Category, f, fill=Category)) +
geom_bar(stat = "identity") +
labs(x = "Tipo paciente", y = "Frecuencia")

De los casos positivos los que se encuentran hospitalizados son 161070, siendo el 24.87% del total de la población analizada.
g. Tabla de frecuencias de decesos.
mes_deceso <- month(positivos_covid$FECHA_DEF)
frecuencia_deceso <- data.frame(fdt_cat(factor(mes_deceso)))
frecuencia_deceso
Category f rf rf... cf cf...
1 7 19129 0.276850713 27.6850713 19129 27.68507
2 6 17298 0.250350966 25.0350966 36427 52.72017
3 8 14515 0.210073088 21.0073088 50942 73.72748
4 5 12382 0.179202547 17.9202547 63324 91.64773
5 4 3543 0.051277227 5.1277227 66867 96.77545
6 9 2148 0.031087633 3.1087633 69015 99.88422
7 3 80 0.001157826 0.1157826 69095 100.00000
Histograma:
ggplot(frecuencia_deceso, aes(Category, f, fill=Category)) +
geom_bar(stat = "identity") +
labs(x = "Mes", y = "Frecuencia")

De los casos positivos, lamentablemente encontramos en total de decesos de 69,095, siendo el:
(69095*100)/647507
[1] 10.67093
porciento de toda la población afectada analizada.
h. Tabla de frecuencias de UCI.
frecuencia_uci <- data.frame(fdt_cat(positivos_covid$UCI))
frecuencia_uci
Category f rf rf... cf cf...
1 97 486437 0.7512459325 75.12459325 486437 75.12459
2 2 147038 0.2270832593 22.70832593 633475 97.83292
3 1 13878 0.0214329729 2.14329729 647353 99.97622
4 99 154 0.0002378353 0.02378353 647507 100.00000
Histograma:
ggplot(frecuencia_uci, aes(Category, f, fill=Category)) +
geom_bar(stat = "identity") +
labs(x = "UCI", y = "Frecuencia")

Del total de casos positivos los que pasan a UCI son 13,878, siendo el:
(13878*100)/647507
## [1] 2.143297
porciento de toda la población afectada analizada.
i. Tabla de frecuencias por meses.
Por fecha de ingreso:
mes_ingreso <- month(positivos_covid$FECHA_INGRESO)
frecuencia_ingreso <- data.frame(fdt_cat(factor(mes_ingreso)))
frecuencia_ingreso
Category f rf rf... cf cf...
1 7 199172 0.30759821902 30.759821902 199172 30.75982
2 8 154813 0.23909085153 23.909085153 353985 54.66891
3 6 152882 0.23610864439 23.610864439 506867 78.27977
4 5 86513 0.13360936639 13.360936639 593380 91.64071
5 4 26562 0.04102195034 4.102195034 619942 95.74290
6 9 25025 0.03864823083 3.864823083 644967 99.60773
7 3 2530 0.00390729367 0.390729367 647497 99.99846
8 2 8 0.00001235508 0.001235508 647505 99.99969
9 1 2 0.00000308877 0.000308877 647507 100.00000
Histograma:
ggplot(frecuencia_ingreso, aes(Category, f, fill=Category)) +
geom_bar(stat = "identity") +
labs(x = "Mes ingreso", y = "Frecuencia")

En cuanto a la fecha de ingreso el mes que más reportes tiene es julio con un total de 199,172 personas.
Por fecha de sintomas:
mes_sintomas <- month(positivos_covid$FECHA_SINTOMAS)
frecuencia_sintomas <- data.frame(fdt_cat(factor(mes_sintomas)))
frecuencia_sintomas
Category f rf rf... cf cf...
1 7 194196 0.29991336001 29.991336001 194196 29.99134
2 6 160346 0.24763593289 24.763593289 354542 54.75493
3 8 150558 0.23251949400 23.251949400 505100 78.00688
4 5 98405 0.15197519100 15.197519100 603505 93.20440
5 4 31827 0.04915313657 4.915313657 635332 98.11971
6 9 8235 0.01271800923 1.271800923 643567 99.39151
7 3 3923 0.00605862176 0.605862176 647490 99.99737
8 2 15 0.00002316577 0.002316577 647505 99.99969
9 1 2 0.00000308877 0.000308877 647507 100.00000
Histograma:
ggplot(frecuencia_sintomas, aes(Category, f, fill=Category)) +
geom_bar(stat = "identity") +
labs(x = "Mes sintomas", y = "Frecuencia")

Y con base en la fecha en que se presentaron los sintomas, también julio es el mes con más personas reportadas con un total de 194,196 personas.
j. Tablas de frecuencias por antecedentes médicos:
Neumonia
neumonia <- data.frame(fdt_cat(positivos_covid$NEUMONIA))
neumonia
Category f rf rf... cf cf...
1 2 523984 0.80923295038 80.923295038 523984 80.92330
2 1 123516 0.19075623893 19.075623893 647500 99.99892
3 99 7 0.00001081069 0.001081069 647507 100.00000
ggplot(neumonia, aes(Category, f, fill=Category)) +
geom_bar(stat = "identity") +
labs(x = "Sí/No/Otro", y = "Frecuencia")

Diabetes
diabetes <- data.frame(fdt_cat(positivos_covid$DIABETES))
diabetes
Category f rf rf... cf cf...
1 2 544273 0.840566975 84.0566975 544273 84.05670
2 1 101257 0.156379777 15.6379777 645530 99.69468
3 98 1977 0.003053249 0.3053249 647507 100.00000
ggplot(diabetes, aes(Category, f, fill=Category)) +
geom_bar(stat = "identity") +
labs(x = "Sí/No/Otro", y = "Frecuencia")

EPOC
epoc <- data.frame(fdt_cat(positivos_covid$EPOC))
epoc
Category f rf rf... cf cf...
1 2 636156 0.982469688 98.2469688 636156 98.24697
2 1 9613 0.014846172 1.4846172 645769 99.73159
3 98 1738 0.002684141 0.2684141 647507 100.00000
ggplot(epoc, aes(Category, f, fill=Category)) +
geom_bar(stat = "identity") +
labs(x = "Sí/No/Otro", y = "Frecuencia")

Asma
asma <- data.frame(fdt_cat(positivos_covid$ASMA))
asma
Category f rf rf... cf cf...
1 2 628801 0.97111074 97.111074 628801 97.11107
2 1 16975 0.02621593 2.621593 645776 99.73267
3 98 1731 0.00267333 0.267333 647507 100.00000
ggplot(asma, aes(Category, f, fill=Category)) +
geom_bar(stat = "identity") +
labs(x = "Sí/No/Otro", y = "Frecuencia")

Inmunosupresión
inmusupr <- data.frame(fdt_cat(positivos_covid$INMUSUPR))
inmusupr
Category f rf rf... cf cf...
1 2 638459 0.986026406 98.6026406 638459 98.60264
2 1 7174 0.011079417 1.1079417 645633 99.71058
3 98 1874 0.002894177 0.2894177 647507 100.00000
ggplot(inmusupr, aes(Category, f, fill=Category)) +
geom_bar(stat = "identity") +
labs(x = "Sí/No/Otro", y = "Frecuencia")

Hipertensión
hipertension <- data.frame(fdt_cat(positivos_covid$HIPERTENSION))
hipertension
Category f rf rf... cf cf...
1 2 519112 0.801708707 80.1708707 519112 80.17087
2 1 126551 0.195443447 19.5443447 645663 99.71522
3 98 1844 0.002847846 0.2847846 647507 100.00000
ggplot(hipertension, aes(Category, f, fill=Category)) +
geom_bar(stat = "identity") +
labs(x = "Sí/No/Otro", y = "Frecuencia")

Cardiovascular
cardiovascular <- data.frame(fdt_cat(positivos_covid$CARDIOVASCULAR))
cardiovascular
Category f rf rf... cf cf...
1 2 632681 0.977102950 97.7102950 632681 97.71030
2 1 13010 0.020092447 2.0092447 645691 99.71954
3 98 1816 0.002804603 0.2804603 647507 100.00000
ggplot(cardiovascular, aes(Category, f, fill=Category)) +
geom_bar(stat = "identity") +
labs(x = "Sí/No/Otro", y = "Frecuencia")

Obesidad
obesidad <- data.frame(fdt_cat(positivos_covid$OBESIDAD))
obesidad
Category f rf rf... cf cf...
1 2 527220 0.814230580 81.4230580 527220 81.42306
2 1 118498 0.183006516 18.3006516 645718 99.72371
3 98 1789 0.002762904 0.2762904 647507 100.00000
ggplot(obesidad, aes(Category, f, fill=Category)) +
geom_bar(stat = "identity") +
labs(x = "Sí/No/Otro", y = "Frecuencia")

Renal
renal <- data.frame(fdt_cat(positivos_covid$RENAL_CRONICA))
renal
Category f rf rf... cf cf...
1 2 633338 0.978117611 97.8117611 633338 97.81176
2 1 12391 0.019136473 1.9136473 645729 99.72541
3 98 1778 0.002745916 0.2745916 647507 100.00000
ggplot(renal, aes(Category, f, fill=Category)) +
geom_bar(stat = "identity") +
labs(x = "Sí/No/Otro", y = "Frecuencia")

Tabaquismo
tabaquismo <- data.frame(fdt_cat(positivos_covid$TABAQUISMO))
tabaquismo
Category f rf rf... cf cf...
1 2 598954 0.925015482 92.5015482 598954 92.50155
2 1 46665 0.072068719 7.2068719 645619 99.70842
3 98 1888 0.002915799 0.2915799 647507 100.00000
ggplot(tabaquismo, aes(Category, f, fill=Category)) +
geom_bar(stat = "identity") +
labs(x = "Sí/No/Otro", y = "Frecuencia")

Otras complicaciones
otras <- data.frame(fdt_cat(positivos_covid$OTRA_COM))
otras
Category f rf rf... cf cf...
1 2 628702 0.970957843 97.0957843 628702 97.09578
2 1 15761 0.024341050 2.4341050 644463 99.52989
3 98 3044 0.004701107 0.4701107 647507 100.00000
ggplot(otras, aes(Category, f, fill=Category)) +
geom_bar(stat = "identity") +
labs(x = "Sí/No/Otro", y = "Frecuencia")

Interpretación:
Del total de registros (1,465,693) y variables (35) al día 9 de septiembre del 2020 se obtuvieron los siguientes resultados:
* El rango de edades de personas que presentan COVID está entre 28 y 34 años, desmintiendo que los adultos mayores son más propensos a esta enfermedad. En cuanto al género no hay diferencia significativa de casos entre hombres y mujeres, dado que hay 29,167 casos de diferencia (tomando en cuenta el panorama general).
* Geográficamente, el estado con más casos positivos de COVID es la Ciudad de México, con 107,613. Dentro de toda la república el total de casos positivos son 647,507, siendo la CDMX el 44.17% de la población.
* De casos positivos el total que se encuentra hospitalizado es de 161,070, correspondiente al 24.87%, lamentablemente los decesos por esta enfermedad son del 10.67%, correspondiente a 60,095 casos. Los que pasan a UCI son un total de 13,878, correspondiente al 2.14% de la población.
* En meses para fecha de ingreso y de presentar sintomas por primera vez, se encontró que el mes de más frecuencia es julio, con 199,172 y 194,196 respectivamente.
* Por último, la complicación médica más presentada en la población positiva es hipertensión con 126,551 casos.