Objetivo: Analizar conjunto de registros de personas posibles resultados de CORONAVIRUS.

Descripción. En el portal de datos abiertos: https://www.gob.mx/salud/documentos/datos-abiertos-152127 se encuentra la base de datos de registros de personas que acuden a Instituciones de Salubridad para realizarse un diagnóstico sobre su estado de salud en relación a la enfermedad de Coronavirus.

1.Cargar Libreria

library(readr)      # Cargar datos csv
library(fdth)       # Tablas de frecuencias
## 
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
## 
##     sd, var
library(dplyr)      # Filtros, Select, mutate, arrange, grou_by, summarize, %>%
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(lubridate)  # Para manejo de fechas
## 
## Attaching package: 'lubridate'
## The following objects are masked from 'package:base':
## 
##     date, intersect, setdiff, union
library(ggplot2)
  1. Cargar los datos
getwd()
## [1] "C:/Users/Francisco Favela/Documents/FranciscoShark/Nube/Tecnologico Agosto - Diciembre 2020/Analisis Inteligentes De Datos/scrips"
datos.covid <- read.csv("200909COVID19MEXICO.csv",encoding = "UTF-8")
  1. Exploración inicial de los datos antes de limpieza
summary(datos.covid)
##  FECHA_ACTUALIZACION ID_REGISTRO            ORIGEN          SECTOR      
##  Length:1465693      Length:1465693     Min.   :1.000   Min.   : 1.000  
##  Class :character    Class :character   1st Qu.:1.000   1st Qu.: 4.000  
##  Mode  :character    Mode  :character   Median :2.000   Median :12.000  
##                                         Mean   :1.668   Mean   : 9.336  
##                                         3rd Qu.:2.000   3rd Qu.:12.000  
##                                         Max.   :2.000   Max.   :99.000  
##    ENTIDAD_UM         SEXO        ENTIDAD_NAC     ENTIDAD_RES   
##  Min.   : 1.00   Min.   :1.000   Min.   : 1.00   Min.   : 1.00  
##  1st Qu.: 9.00   1st Qu.:1.000   1st Qu.: 9.00   1st Qu.: 9.00  
##  Median :14.00   Median :1.000   Median :15.00   Median :15.00  
##  Mean   :15.55   Mean   :1.492   Mean   :16.35   Mean   :15.79  
##  3rd Qu.:22.00   3rd Qu.:2.000   3rd Qu.:24.00   3rd Qu.:22.00  
##  Max.   :32.00   Max.   :2.000   Max.   :99.00   Max.   :32.00  
##  MUNICIPIO_RES   TIPO_PACIENTE   FECHA_INGRESO      FECHA_SINTOMAS    
##  Min.   :  1.0   Min.   :1.000   Length:1465693     Length:1465693    
##  1st Qu.:  8.0   1st Qu.:1.000   Class :character   Class :character  
##  Median : 20.0   Median :1.000   Mode  :character   Mode  :character  
##  Mean   : 37.2   Mean   :1.175                                        
##  3rd Qu.: 46.0   3rd Qu.:1.000                                        
##  Max.   :999.0   Max.   :2.000                                        
##   FECHA_DEF            INTUBADO        NEUMONIA           EDAD      
##  Length:1465693     Min.   : 1.00   Min.   : 1.000   Min.   :  0.0  
##  Class :character   1st Qu.:97.00   1st Qu.: 2.000   1st Qu.: 30.0  
##  Mode  :character   Median :97.00   Median : 2.000   Median : 41.0  
##                     Mean   :80.33   Mean   : 1.873   Mean   : 42.2  
##                     3rd Qu.:97.00   3rd Qu.: 2.000   3rd Qu.: 53.0  
##                     Max.   :99.00   Max.   :99.000   Max.   :120.0  
##   NACIONALIDAD      EMBARAZO     HABLA_LENGUA_INDIG    DIABETES     
##  Min.   :1.000   Min.   : 1.00   Min.   : 1.00      Min.   : 1.000  
##  1st Qu.:1.000   1st Qu.: 2.00   1st Qu.: 2.00      1st Qu.: 2.000  
##  Median :1.000   Median : 2.00   Median : 2.00      Median : 2.000  
##  Mean   :1.005   Mean   :49.05   Mean   : 5.44      Mean   : 2.161  
##  3rd Qu.:1.000   3rd Qu.:97.00   3rd Qu.: 2.00      3rd Qu.: 2.000  
##  Max.   :2.000   Max.   :98.00   Max.   :99.00      Max.   :98.000  
##       EPOC             ASMA           INMUSUPR       HIPERTENSION   
##  Min.   : 1.000   Min.   : 1.000   Min.   : 1.000   Min.   : 1.000  
##  1st Qu.: 2.000   1st Qu.: 2.000   1st Qu.: 2.000   1st Qu.: 2.000  
##  Median : 2.000   Median : 2.000   Median : 2.000   Median : 2.000  
##  Mean   : 2.238   Mean   : 2.222   Mean   : 2.258   Mean   : 2.104  
##  3rd Qu.: 2.000   3rd Qu.: 2.000   3rd Qu.: 2.000   3rd Qu.: 2.000  
##  Max.   :98.000   Max.   :98.000   Max.   :98.000   Max.   :98.000  
##     OTRA_COM      CARDIOVASCULAR      OBESIDAD      RENAL_CRONICA   
##  Min.   : 1.000   Min.   : 1.000   Min.   : 1.000   Min.   : 1.000  
##  1st Qu.: 2.000   1st Qu.: 2.000   1st Qu.: 2.000   1st Qu.: 2.000  
##  Median : 2.000   Median : 2.000   Median : 2.000   Median : 2.000  
##  Mean   : 2.382   Mean   : 2.237   Mean   : 2.096   Mean   : 2.235  
##  3rd Qu.: 2.000   3rd Qu.: 2.000   3rd Qu.: 2.000   3rd Qu.: 2.000  
##  Max.   :98.000   Max.   :98.000   Max.   :98.000   Max.   :98.000  
##    TABAQUISMO       OTRO_CASO       RESULTADO        MIGRANTE    
##  Min.   : 1.000   Min.   : 1.00   Min.   :1.000   Min.   : 1.00  
##  1st Qu.: 2.000   1st Qu.: 1.00   1st Qu.:1.000   1st Qu.:99.00  
##  Median : 2.000   Median : 2.00   Median :2.000   Median :99.00  
##  Mean   : 2.189   Mean   :15.81   Mean   :1.615   Mean   :98.64  
##  3rd Qu.: 2.000   3rd Qu.: 2.00   3rd Qu.:2.000   3rd Qu.:99.00  
##  Max.   :98.000   Max.   :99.00   Max.   :3.000   Max.   :99.00  
##  PAIS_NACIONALIDAD  PAIS_ORIGEN             UCI       
##  Length:1465693     Length:1465693     Min.   : 1.00  
##  Class :character   Class :character   1st Qu.:97.00  
##  Mode  :character   Mode  :character   Median :97.00  
##                                        Mean   :80.34  
##                                        3rd Qu.:97.00  
##                                        Max.   :99.00
str(datos.covid)
## 'data.frame':    1465693 obs. of  35 variables:
##  $ FECHA_ACTUALIZACION: chr  "2020-09-09" "2020-09-09" "2020-09-09" "2020-09-09" ...
##  $ ID_REGISTRO        : chr  "0fa3df" "04b5e9" "005e0d" "12667d" ...
##  $ ORIGEN             : int  2 2 2 2 2 2 2 2 2 2 ...
##  $ SECTOR             : int  3 4 4 4 4 4 3 4 4 4 ...
##  $ ENTIDAD_UM         : int  15 15 30 9 9 15 8 13 30 21 ...
##  $ SEXO               : int  2 2 2 1 2 1 1 1 2 2 ...
##  $ ENTIDAD_NAC        : int  15 15 30 9 9 9 8 13 30 21 ...
##  $ ENTIDAD_RES        : int  15 15 30 9 9 15 8 13 30 21 ...
##  $ MUNICIPIO_RES      : int  115 62 193 5 13 104 37 56 193 114 ...
##  $ TIPO_PACIENTE      : int  1 2 1 1 1 1 1 2 2 2 ...
##  $ FECHA_INGRESO      : chr  "2020-06-15" "2020-04-13" "2020-04-16" "2020-03-29" ...
##  $ FECHA_SINTOMAS     : chr  "2020-06-10" "2020-04-06" "2020-04-09" "2020-03-23" ...
##  $ FECHA_DEF          : chr  "9999-99-99" "2020-04-15" "9999-99-99" "9999-99-99" ...
##  $ INTUBADO           : int  97 2 97 97 97 97 97 2 2 2 ...
##  $ NEUMONIA           : int  1 1 2 2 2 2 2 1 1 2 ...
##  $ EDAD               : int  48 26 40 33 29 46 47 46 73 80 ...
##  $ NACIONALIDAD       : int  1 1 1 1 1 1 1 1 1 1 ...
##  $ EMBARAZO           : int  97 97 97 2 97 2 2 2 97 97 ...
##  $ HABLA_LENGUA_INDIG : int  2 2 2 2 1 2 2 2 2 2 ...
##  $ DIABETES           : int  2 2 1 2 2 2 2 2 2 2 ...
##  $ EPOC               : int  2 2 2 2 2 2 2 2 2 2 ...
##  $ ASMA               : int  2 2 2 2 2 2 2 2 2 2 ...
##  $ INMUSUPR           : int  2 2 2 2 2 2 2 2 2 2 ...
##  $ HIPERTENSION       : int  1 2 1 2 2 2 1 1 2 2 ...
##  $ OTRA_COM           : int  2 2 2 2 2 2 2 1 2 2 ...
##  $ CARDIOVASCULAR     : int  2 2 2 2 2 2 2 2 2 2 ...
##  $ OBESIDAD           : int  2 1 1 2 2 2 1 2 2 1 ...
##  $ RENAL_CRONICA      : int  2 2 2 2 2 2 2 1 2 2 ...
##  $ TABAQUISMO         : int  2 2 2 2 2 2 2 2 2 2 ...
##  $ OTRO_CASO          : int  2 99 99 1 1 1 1 99 99 99 ...
##  $ RESULTADO          : int  1 1 1 1 1 1 1 1 1 1 ...
##  $ MIGRANTE           : int  99 99 99 99 99 99 99 99 99 99 ...
##  $ PAIS_NACIONALIDAD  : chr  "México" "México" "México" "México" ...
##  $ PAIS_ORIGEN        : chr  "99" "99" "99" "99" ...
##  $ UCI                : int  97 2 97 97 97 97 97 2 2 2 ...
  1. Limpiar datos. Modificar los tipos de datos de aquellos que datos que deban ser categóricos (factor()) y traen consigo valores numéricos. Modificar los atributos tipo fecha a ymd()
datos.covid$ORIGEN <- factor(datos.covid$ORIGEN)
datos.covid$SECTOR <- factor(datos.covid$SECTOR)
datos.covid$ENTIDAD_UM <- factor(datos.covid$ENTIDAD_UM)
datos.covid$SEXO <- factor(datos.covid$SEXO)
datos.covid$ENTIDAD_NAC <- factor(datos.covid$ENTIDAD_NAC)
datos.covid$ENTIDAD_RES <- factor(datos.covid$ENTIDAD_RES)

datos.covid$MUNICIPIO_RES <- factor(datos.covid$MUNICIPIO_RES)
datos.covid$TIPO_PACIENTE <- factor(datos.covid$TIPO_PACIENTE)

datos.covid$NACIONALIDAD <- factor(datos.covid$NACIONALIDAD)
datos.covid$HABLA_LENGUA_INDIG <- factor(datos.covid$HABLA_LENGUA_INDIG)
datos.covid$MIGRANTE <- factor(datos.covid$MIGRANTE)
datos.covid$PAIS_ORIGEN <- factor(datos.covid$PAIS_ORIGEN)

# Cambiar fecha. Aquí es donde actúa la librería lubridate 
# para habilitar la función ymd() de esa librería
datos.covid$FECHA_ACTUALIZACION <- ymd(datos.covid$FECHA_ACTUALIZACION)
datos.covid$FECHA_INGRESO <- ymd(datos.covid$FECHA_INGRESO)
datos.covid$FECHA_SINTOMAS <- ymd(datos.covid$FECHA_SINTOMAS)
datos.covid$FECHA_DEF <- ymd(datos.covid$FECHA_DEF)
## Warning: 1377463 failed to parse.
# Diagnóstico de enfermedadades o condición clinica
datos.covid$INTUBADO <- factor(datos.covid$INTUBADO)
datos.covid$NEUMONIA <- factor(datos.covid$NEUMONIA)
datos.covid$EMBARAZO <- factor(datos.covid$EMBARAZO)
datos.covid$DIABETES <- factor(datos.covid$DIABETES)
datos.covid$EPOC <- factor(datos.covid$EPOC)
datos.covid$ASMA <- factor(datos.covid$ASMA)
datos.covid$INMUSUPR <- factor(datos.covid$INMUSUPR)
datos.covid$HIPERTENSION <- factor(datos.covid$HIPERTENSION)
datos.covid$OTRA_COM <- factor(datos.covid$OTRA_COM)
datos.covid$CARDIOVASCULAR <- factor(datos.covid$CARDIOVASCULAR)
datos.covid$OBESIDAD <- factor(datos.covid$OBESIDAD)
datos.covid$RENAL_CRONICA <- factor(datos.covid$RENAL_CRONICA)
datos.covid$TABAQUISMO <- factor(datos.covid$TABAQUISMO)
datos.covid$OTRO_CASO <- factor(datos.covid$OTRO_CASO)

# Resultado
datos.covid$RESULTADO <- factor(datos.covid$RESULTADO)
datos.covid$UCI <- factor(datos.covid$UCI)
  1. Descripción de los datos después de limpieza de los datos Existe difetencia en la exploración de los datos antes y después de limpie
summary(datos.covid)
##  FECHA_ACTUALIZACION  ID_REGISTRO        ORIGEN         SECTOR      
##  Min.   :2020-09-09   Length:1465693     1:486628   12     :912162  
##  1st Qu.:2020-09-09   Class :character   2:979065   4      :376524  
##  Median :2020-09-09   Mode  :character              6      : 55449  
##  Mean   :2020-09-09                                 9      : 54262  
##  3rd Qu.:2020-09-09                                 3      : 26622  
##  Max.   :2020-09-09                                 8      : 12665  
##                                                     (Other): 28009  
##    ENTIDAD_UM     SEXO        ENTIDAD_NAC      ENTIDAD_RES    
##  9      :355169   1:744869   9      :318376   9      :301109  
##  15     :129322   2:720824   15     :163016   15     :179873  
##  11     : 83524              11     : 79886   11     : 83483  
##  19     : 76065              30     : 64546   19     : 75448  
##  21     : 63794              19     : 62336   21     : 61943  
##  28     : 60188              21     : 61458   28     : 60099  
##  (Other):697631              (Other):716075   (Other):703738  
##  MUNICIPIO_RES     TIPO_PACIENTE FECHA_INGRESO        FECHA_SINTOMAS      
##  7      :  64455   1:1208690     Min.   :2020-01-01   Min.   :2020-01-01  
##  5      :  63170   2: 257003     1st Qu.:2020-06-09   1st Qu.:2020-06-05  
##  4      :  55368                 Median :2020-07-11   Median :2020-07-07  
##  39     :  52435                 Mean   :2020-07-06   Mean   :2020-07-03  
##  2      :  51993                 3rd Qu.:2020-08-10   3rd Qu.:2020-08-05  
##  17     :  43949                 Max.   :2020-09-09   Max.   :2020-09-09  
##  (Other):1134323                                                          
##    FECHA_DEF          INTUBADO     NEUMONIA          EDAD       NACIONALIDAD
##  Min.   :2020-01-13   1 :  39263   1 : 187398   Min.   :  0.0   1:1458956   
##  1st Qu.:2020-06-01   2 : 217550   2 :1278276   1st Qu.: 30.0   2:   6737   
##  Median :2020-07-02   97:1208690   99:     19   Median : 41.0               
##  Mean   :2020-06-30   99:    190                Mean   : 42.2               
##  3rd Qu.:2020-07-31                             3rd Qu.: 53.0               
##  Max.   :2020-09-09                             Max.   :120.0               
##  NA's   :1377463                                                            
##  EMBARAZO    HABLA_LENGUA_INDIG DIABETES     EPOC         ASMA        
##  1 : 11898   1 :  12374         1 : 179106   1 :  19463   1 :  42192  
##  2 :727762   2 :1401213         2 :1282260   2 :1442399   2 :1419674  
##  97:720824   99:  52106         98:   4327   98:   3831   98:   3827  
##  98:  5209                                                            
##                                                                       
##                                                                       
##                                                                       
##  INMUSUPR     HIPERTENSION OTRA_COM     CARDIOVASCULAR OBESIDAD    
##  1 :  18431   1 : 235843   1 :  36075   1 :  28475     1 : 227973  
##  2 :1443137   2 :1225813   2 :1423417   2 :1433296     2 :1233876  
##  98:   4125   98:   4037   98:   6201   98:   3922     98:   3844  
##                                                                    
##                                                                    
##                                                                    
##                                                                    
##  RENAL_CRONICA TABAQUISMO   OTRO_CASO   RESULTADO  MIGRANTE    
##  1 :  25879    1 : 119326   1 :711206   1:647507   1 :   1505  
##  2 :1435957    2 :1342239   2 :538453   2:734649   2 :   3991  
##  98:   3857    98:   4128   99:216034   3: 83537   99:1460197  
##                                                                
##                                                                
##                                                                
##                                                                
##  PAIS_NACIONALIDAD                        PAIS_ORIGEN      UCI         
##  Length:1465693     99                          :1464188   1 :  21962  
##  Class :character   Estados Unidos de Am<e9>rica:    234   2 : 234841  
##  Mode  :character   Rep<fa>blica de Honduras    :    164   97:1208690  
##                     Venezuela                   :    151   99:    200  
##                     Colombia                    :    143               
##                     Cuba                        :    140               
##                     (Other)                     :    673
  1. análisis de los datos
positivo.COVID <- filter(datos.covid, RESULTADO == '1') 

ggplot(positivo.COVID, aes(EDAD)) +
    geom_histogram(position = "stack", bins = 60,color="darkblue", fill="lightblue")

  1. Determinar tabla de frecuencias de EDADES # Un tip… … No potenciación 10e. No Notación Científica. options(scipen = 999)
options(scipen = 999)
frecuencia.edades <- fdt(positivo.COVID$EDAD)
frecuencia.edades <- data.frame(frecuencia.edades$table)
frecuencia.edades
##         Class.limits     f             rf         rf...     cf       cf...
## 1        [0,5.67524)  4376 0.006758228096  0.6758228096   4376   0.6758228
## 2  [5.67524,11.3505)  4461 0.006889500808  0.6889500808   8837   1.3647729
## 3  [11.3505,17.0257)  9231 0.014256216535  1.4256216535  18068   2.7903945
## 4   [17.0257,22.701) 22888 0.035347880409  3.5347880409  40956   6.3251826
## 5   [22.701,28.3762) 67228 0.103825904585 10.3825904585 108184  16.7077730
## 6  [28.3762,34.0514) 85980 0.132786209261 13.2786209261 194164  29.9863940
## 7  [34.0514,39.7267) 72240 0.111566361445 11.1566361445 266404  41.1430301
## 8  [39.7267,45.4019) 83610 0.129126017170 12.9126017170 350014  54.0556318
## 9  [45.4019,51.0771) 82162 0.126889747910 12.6889747910 432176  66.7446066
## 10 [51.0771,56.7524) 58295 0.090029914735  9.0029914735 490471  75.7475981
## 11 [56.7524,62.4276) 56119 0.086669333305  8.6669333305 546590  84.4145314
## 12 [62.4276,68.1029) 40940 0.063227115691  6.3227115691 587530  90.7372430
## 13 [68.1029,73.7781) 23978 0.037031259894  3.7031259894 611508  94.4403690
## 14 [73.7781,79.4533) 19197 0.029647555934  2.9647555934 630705  97.4051246
## 15 [79.4533,85.1286) 10968 0.016938813017  1.6938813017 641673  99.0990059
## 16 [85.1286,90.8038)  4115 0.006355143651  0.6355143651 645788  99.7345202
## 17  [90.8038,96.479)  1400 0.002162138788  0.2162138788 647188  99.9507341
## 18  [96.479,102.154)   286 0.000441694067  0.0441694067 647474  99.9949035
## 19  [102.154,107.83)    25 0.000038609621  0.0038609621 647499  99.9987645
## 20  [107.83,113.505)     3 0.000004633155  0.0004633155 647502  99.9992278
## 21  [113.505,119.18)     5 0.000007721924  0.0007721924 647507 100.0000000
ggplot(frecuencia.edades, aes(1:21, rf, fill=Class.limits)) +
        geom_bar(stat = "identity")

  1. Determinar frecuencias por género o sexo
frecuencia.sexo <- fdt_cat(positivo.COVID$SEXO)
frecuencia.sexo <- data.frame(frecuencia.sexo)
frecuencia.sexo
##   Category      f        rf    rf...     cf     cf...
## 1        2 338337 0.5225225 52.25225 338337  52.25225
## 2        1 309170 0.4774775 47.74775 647507 100.00000
ggplot(frecuencia.sexo, aes(Category, rf, fill=Category)) +
        geom_bar(stat = "identity") +
         geom_text(aes(label=f))

  1. Determinar tablas de frecuencias por estados de REP MEXICANA.
frecuencia.estado <- fdt_cat(positivo.COVID$ENTIDAD_RES)
frecuencia.estado <- data.frame(frecuencia.estado)
frecuencia.estado
##    Category      f          rf      rf...     cf     cf...
## 1         9 107613 0.166195887 16.6195887 107613  16.61959
## 2        15  71994 0.111186443 11.1186443 179607  27.73823
## 3        11  35182 0.054334548  5.4334548 214789  33.17169
## 4        19  32317 0.049909885  4.9909885 247106  38.16268
## 5        30  30077 0.046450463  4.6450463 277183  42.80772
## 6        27  29601 0.045715336  4.5715336 306784  47.37926
## 7        21  28426 0.043900684  4.3900684 335210  51.76932
## 8        28  26159 0.040399563  4.0399563 361369  55.80928
## 9         5  23440 0.036200381  3.6200381 384809  59.42932
## 10       26  22601 0.034904642  3.4904642 407410  62.91978
## 11       14  22369 0.034546345  3.4546345 429779  66.37442
## 12       24  20000 0.030887697  3.0887697 449779  69.46319
## 13        2  17870 0.027598157  2.7598157 467649  72.22300
## 14       25  16996 0.026248365  2.6248365 484645  74.84784
## 15       16  16840 0.026007441  2.6007441 501485  77.44858
## 16       31  16013 0.024730235  2.4730235 517498  79.92161
## 17       12  15950 0.024632938  2.4632938 533448  82.38490
## 18       20  14499 0.022392036  2.2392036 547947  84.62410
## 19       13  11113 0.017162749  1.7162749 559060  86.34038
## 20       23  10872 0.016790552  1.6790552 569932  88.01943
## 21        8   8663 0.013379006  1.3379006 578595  89.35734
## 22        3   8529 0.013172058  1.3172058 587124  90.67454
## 23       22   7298 0.011270921  1.1270921 594422  91.80163
## 24       10   7295 0.011266287  1.1266287 601717  92.92826
## 25       29   6751 0.010426142  1.0426142 608468  93.97088
## 26        7   6341 0.009792944  0.9792944 614809  94.95017
## 27        1   6147 0.009493334  0.9493334 620956  95.89950
## 28       32   6017 0.009292564  0.9292564 626973  96.82876
## 29        4   5744 0.008870947  0.8870947 632717  97.71585
## 30       17   5442 0.008404542  0.8404542 638159  98.55631
## 31       18   5312 0.008203772  0.8203772 643471  99.37669
## 32        6   4036 0.006233137  0.6233137 647507 100.00000
ggplot(frecuencia.estado, aes(Category, rf, fill=Category)) + geom_bar(stat = "identity")

  1. Determinar tabla de frecuencia de positivos y no positivos
frecuencia.resultado <- fdt_cat(datos.covid$RESULTADO)
frecuencia.resultado <- data.frame(frecuencia.resultado)
frecuencia.resultado
##   Category      f         rf     rf...      cf     cf...
## 1        2 734649 0.50122979 50.122979  734649  50.12298
## 2        1 647507 0.44177532 44.177532 1382156  94.30051
## 3        3  83537 0.05699488  5.699488 1465693 100.00000
ggplot(frecuencia.resultado, aes(Category, rf, fill=Category)) + geom_bar(stat = "identity")+
         geom_text(aes(label=f))

  1. Determinar tabla de frecuencia de ambulatorios y hospitalizados
frecuencia.tipop <- fdt_cat(datos.covid$TIPO_PACIENTE)
frecuencia.tipop <- data.frame(frecuencia.tipop)
frecuencia.tipop
##   Category       f        rf    rf...      cf     cf...
## 1        1 1208690 0.8246543 82.46543 1208690  82.46543
## 2        2  257003 0.1753457 17.53457 1465693 100.00000
ggplot(frecuencia.tipop, aes(Category, rf, fill=Category)) + geom_bar(stat = "identity")+
         geom_text(aes(label=f))

  1. Determinar la tabla de frecuencia de UCI
frecuencia.uci <- fdt_cat(datos.covid$UCI)
frecuencia.uci <- data.frame(frecuencia.uci)
frecuencia.uci
##   Category       f           rf       rf...      cf     cf...
## 1       97 1208690 0.8246542762 82.46542762 1208690  82.46543
## 2        2  234841 0.1602252313 16.02252313 1443531  98.48795
## 3        1   21962 0.0149840383  1.49840383 1465493  99.98635
## 4       99     200 0.0001364542  0.01364542 1465693 100.00000
ggplot(frecuencia.uci, aes(Category, rf, fill=Category)) + geom_bar(stat = "identity")+
         geom_text(aes(label=f))

g. Decesos

datos.covid <- datos.covid %>%
  mutate(DECESO = ifelse(is.na(FECHA_DEF), 'NO', 'SI'))
tabla.frecuencia.DECESO <- data.frame(fdt_cat(datos.covid$DECESO))

names(tabla.frecuencia.DECESO) <- c("Deceso", "Freq", "Freq.rel", "Freq.porc","Freq.acum", "Freq.acum.porc")
tabla.frecuencia.DECESO
##   Deceso    Freq   Freq.rel Freq.porc Freq.acum Freq.acum.porc
## 1     NO 1377463 0.93980322 93.980322   1377463       93.98032
## 2     SI   88230 0.06019678  6.019678   1465693      100.00000
ggplot(data = tabla.frecuencia.DECESO, aes(x = Deceso, 
                                                  y = Freq.porc, fill=Deceso)) +
    geom_bar(stat = "identity") +
         geom_text(aes(label=Freq))

  1. Determinar la tabla de frecuencia por meses
meses = month(positivo.COVID$FECHA_INGRESO)
frecuencia.meses=fdt_cat(as.character(meses))
frecuencia.meses = data.frame(frecuencia.meses)
frecuencia.meses
##   Category      f            rf        rf...     cf     cf...
## 1        7 199172 0.30759821902 30.759821902 199172  30.75982
## 2        8 154813 0.23909085153 23.909085153 353985  54.66891
## 3        6 152882 0.23610864439 23.610864439 506867  78.27977
## 4        5  86513 0.13360936639 13.360936639 593380  91.64071
## 5        4  26562 0.04102195034  4.102195034 619942  95.74290
## 6        9  25025 0.03864823083  3.864823083 644967  99.60773
## 7        3   2530 0.00390729367  0.390729367 647497  99.99846
## 8        2      8 0.00001235508  0.001235508 647505  99.99969
## 9        1      2 0.00000308877  0.000308877 647507 100.00000
ggplot(frecuencia.meses, aes(Category, rf, fill=Category)) + geom_bar(stat = "identity")+
         geom_text(aes(label=f))

  1. Interpretación de los análisis de acuerdo a los datos
  1. ¿Cuál rango de edad es la más frecuente? De 28 a 34
  2. ¿Hay alguna diferencia notable del género con respeto a los casos POSITIVO? No es notable la diferencia
  3. ¿Cuál estado de la República Mexicana tiene más casos? Ciudad De Mexico
  4. ¿Cuál es la relación entre casos POSITIVOS Y NEGATIVOS?, es decir, de todos los casos, ¿cuántos son positivos?, ¿qué porcentaje? El mayor porcentaje son casos positivos con una relacion de 40% 647507
  5. De los casos POSITIVOS, ¿cuántos y qué porcentaje son hospitalizados? 1208690 es el 20%
  6. De los casos POSITIVOS, ¿cuántos y qué porcentaje son decesos? 68,484 decesos igual a 12%
  7. De los casos POSITIVOS, ¿cuántos y qué porcentaje pasan a cuidados intensivos? 21962 menos del 10%
  8. De todos los casos POSITIVOS, ¿cuáles son los meses de mayor frecuencia? abril
  9. Cuál es la condición de enfermedad: NEUMONIA, DIABETES, EPOC, ASMA, INMUSUPR, HIPERTENSION, OTRAS_COM, CARDIOVASCULAR, OBESIDAD, RENAL_CRONICA, TABAQUISMO que existe con mayor frecuencia en casos POSITIVOS.
  1. Interpretación

En cuanto a la interpretacion de la edad podemos ver que tiende a mantenerse la mayor densidad de positivos entre 25 y 50 años pero se puede deber a que la gran mayoria de la ploblacion se mantiene en ese rango de edad y la poblacion mayor a ese rango es una minoria.

En cuanto a los casos positivos por genero no hay una diferencia muy minima a favor de los hombres.

En la cantidad de estados infectados la cuidad de mexico,guanajuato,distrito de mexico son los estados con mayor porcentaje de casos positivos, se puede deber a que son algunos de los estados con mayor poblacion de mexico.

El 60% de casos no son positivos y el mayor porcentaje de positivos son ambulatorios con un 80%

El 15% porciento de los infectados fueron hospitalizados en cuidados intesivos

en el analisis de los meses se ve un aumento exponencial mes a mes pero en los dos ultimos meses se ve una dismunicion de los casos