Objetivo: Analizar conjunto de registros de personas posibles resultados de CORONAVIRUS.

Descripción. En el portal de datos abiertos: https://www.gob.mx/salud/documentos/datos-abiertos-152127 se encuentra la base de datos de registros de personas que acuden a Instituciones de Salubridad para realizarse un diagnóstico sobre su estado de salud en relación a la enfermedad de Coronavirus.

1. Cargar librerías

  • Identificar las librerías necesarias de R par el CASO:
  • readr dplyr; lubridate, fdth, ggplot
library(readr)      # Cargar datos csv
library(fdth)       # Tablas de frecuencias
## 
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
## 
##     sd, var
library(dplyr)      # Filtros, Select, mutate, arrange, grou_by, summarize, %>%
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(lubridate)  # Para manejo de fechas
## 
## Attaching package: 'lubridate'
## The following objects are masked from 'package:base':
## 
##     date, intersect, setdiff, union
library(ggplot2)
    1. Cargar los datos
  • Asegurarse el directorio de trabajo
datos.covid <- read.csv("200920COVID19MEXICO.csv",encoding = "UTF-8")

3. Exploración inicial de los datos antes de limpieza

summary(datos.covid)
##  FECHA_ACTUALIZACION ID_REGISTRO            ORIGEN         SECTOR      
##  Length:1586191      Length:1586191     Min.   :1.00   Min.   : 1.000  
##  Class :character    Class :character   1st Qu.:1.00   1st Qu.: 4.000  
##  Mode  :character    Mode  :character   Median :2.00   Median :12.000  
##                                         Mean   :1.67   Mean   : 9.364  
##                                         3rd Qu.:2.00   3rd Qu.:12.000  
##                                         Max.   :2.00   Max.   :99.000  
##    ENTIDAD_UM         SEXO        ENTIDAD_NAC     ENTIDAD_RES   
##  Min.   : 1.00   Min.   :1.000   Min.   : 1.00   Min.   : 1.00  
##  1st Qu.: 9.00   1st Qu.:1.000   1st Qu.: 9.00   1st Qu.: 9.00  
##  Median :14.00   Median :1.000   Median :15.00   Median :15.00  
##  Mean   :15.49   Mean   :1.491   Mean   :16.31   Mean   :15.73  
##  3rd Qu.:22.00   3rd Qu.:2.000   3rd Qu.:23.00   3rd Qu.:22.00  
##  Max.   :32.00   Max.   :2.000   Max.   :99.00   Max.   :32.00  
##  MUNICIPIO_RES    TIPO_PACIENTE   FECHA_INGRESO      FECHA_SINTOMAS    
##  Min.   :  1.00   Min.   :1.000   Length:1586191     Length:1586191    
##  1st Qu.:  8.00   1st Qu.:1.000   Class :character   Class :character  
##  Median : 20.00   Median :1.000   Mode  :character   Mode  :character  
##  Mean   : 36.96   Mean   :1.171                                        
##  3rd Qu.: 46.00   3rd Qu.:1.000                                        
##  Max.   :999.00   Max.   :2.000                                        
##   FECHA_DEF            INTUBADO        NEUMONIA           EDAD       
##  Length:1586191     Min.   : 1.00   Min.   : 1.000   Min.   :  0.00  
##  Class :character   1st Qu.:97.00   1st Qu.: 2.000   1st Qu.: 30.00  
##  Mode  :character   Median :97.00   Median : 2.000   Median : 41.00  
##                     Mean   :80.72   Mean   : 1.877   Mean   : 42.09  
##                     3rd Qu.:97.00   3rd Qu.: 2.000   3rd Qu.: 53.00  
##                     Max.   :99.00   Max.   :99.000   Max.   :120.00  
##   NACIONALIDAD      EMBARAZO     HABLA_LENGUA_INDIG    DIABETES     
##  Min.   :1.000   Min.   : 1.00   Min.   : 1.000     Min.   : 1.000  
##  1st Qu.:1.000   1st Qu.: 2.00   1st Qu.: 2.000     1st Qu.: 2.000  
##  Median :1.000   Median : 2.00   Median : 2.000     Median : 2.000  
##  Mean   :1.005   Mean   :48.94   Mean   : 5.462     Mean   : 2.168  
##  3rd Qu.:1.000   3rd Qu.:97.00   3rd Qu.: 2.000     3rd Qu.: 2.000  
##  Max.   :2.000   Max.   :98.00   Max.   :99.000     Max.   :98.000  
##       EPOC             ASMA           INMUSUPR       HIPERTENSION   
##  Min.   : 1.000   Min.   : 1.000   Min.   : 1.000   Min.   : 1.000  
##  1st Qu.: 2.000   1st Qu.: 2.000   1st Qu.: 2.000   1st Qu.: 2.000  
##  Median : 2.000   Median : 2.000   Median : 2.000   Median : 2.000  
##  Mean   : 2.244   Mean   : 2.228   Mean   : 2.262   Mean   : 2.109  
##  3rd Qu.: 2.000   3rd Qu.: 2.000   3rd Qu.: 2.000   3rd Qu.: 2.000  
##  Max.   :98.000   Max.   :98.000   Max.   :98.000   Max.   :98.000  
##     OTRA_COM      CARDIOVASCULAR      OBESIDAD      RENAL_CRONICA   
##  Min.   : 1.000   Min.   : 1.000   Min.   : 1.000   Min.   : 1.000  
##  1st Qu.: 2.000   1st Qu.: 2.000   1st Qu.: 2.000   1st Qu.: 2.000  
##  Median : 2.000   Median : 2.000   Median : 2.000   Median : 2.000  
##  Mean   : 2.386   Mean   : 2.242   Mean   : 2.102   Mean   : 2.239  
##  3rd Qu.: 2.000   3rd Qu.: 2.000   3rd Qu.: 2.000   3rd Qu.: 2.000  
##  Max.   :98.000   Max.   :98.000   Max.   :98.000   Max.   :98.000  
##    TABAQUISMO       OTRO_CASO       RESULTADO       MIGRANTE    
##  Min.   : 1.000   Min.   : 1.00   Min.   :1.00   Min.   : 1.00  
##  1st Qu.: 2.000   1st Qu.: 1.00   1st Qu.:1.00   1st Qu.:99.00  
##  Median : 2.000   Median : 2.00   Median :2.00   Median :99.00  
##  Mean   : 2.191   Mean   :14.58   Mean   :1.61   Mean   :98.64  
##  3rd Qu.: 2.000   3rd Qu.: 2.00   3rd Qu.:2.00   3rd Qu.:99.00  
##  Max.   :98.000   Max.   :99.00   Max.   :3.00   Max.   :99.00  
##  PAIS_NACIONALIDAD  PAIS_ORIGEN             UCI       
##  Length:1586191     Length:1586191     Min.   : 1.00  
##  Class :character   Class :character   1st Qu.:97.00  
##  Mode  :character   Mode  :character   Median :97.00  
##                                        Mean   :80.73  
##                                        3rd Qu.:97.00  
##                                        Max.   :99.00
str(datos.covid)
## 'data.frame':    1586191 obs. of  35 variables:
##  $ FECHA_ACTUALIZACION: chr  "2020-09-20" "2020-09-20" "2020-09-20" "2020-09-20" ...
##  $ ID_REGISTRO        : chr  "058818" "10c8c0" "08f0a7" "001a82" ...
##  $ ORIGEN             : int  1 2 1 2 2 2 2 2 2 2 ...
##  $ SECTOR             : int  4 12 12 4 12 12 4 12 4 4 ...
##  $ ENTIDAD_UM         : int  26 20 9 9 25 20 9 9 30 2 ...
##  $ SEXO               : int  1 2 2 1 1 1 2 2 1 2 ...
##  $ ENTIDAD_NAC        : int  26 20 9 9 25 20 9 9 30 2 ...
##  $ ENTIDAD_RES        : int  26 20 9 9 25 20 9 9 30 2 ...
##  $ MUNICIPIO_RES      : int  43 64 3 16 11 83 6 5 193 2 ...
##  $ TIPO_PACIENTE      : int  1 2 2 2 2 1 1 1 2 2 ...
##  $ FECHA_INGRESO      : chr  "2020-05-28" "2020-05-27" "2020-05-28" "2020-05-28" ...
##  $ FECHA_SINTOMAS     : chr  "2020-05-24" "2020-05-26" "2020-05-25" "2020-05-21" ...
##  $ FECHA_DEF          : chr  "2020-06-19" "9999-99-99" "2020-06-04" "9999-99-99" ...
##  $ INTUBADO           : int  97 2 1 2 2 97 97 97 2 2 ...
##  $ NEUMONIA           : int  1 2 1 1 2 2 2 2 1 1 ...
##  $ EDAD               : int  55 68 70 45 37 59 42 46 36 62 ...
##  $ NACIONALIDAD       : int  1 1 1 1 1 1 1 1 1 1 ...
##  $ EMBARAZO           : int  2 97 97 2 2 2 97 97 2 97 ...
##  $ HABLA_LENGUA_INDIG : int  2 2 2 2 2 2 2 2 2 2 ...
##  $ DIABETES           : int  2 2 2 2 2 2 2 2 2 2 ...
##  $ EPOC               : int  2 2 2 2 2 2 2 2 2 2 ...
##  $ ASMA               : int  2 2 2 2 2 2 2 2 2 2 ...
##  $ INMUSUPR           : int  2 2 2 2 2 2 2 2 2 2 ...
##  $ HIPERTENSION       : int  1 2 1 2 2 1 2 2 2 2 ...
##  $ OTRA_COM           : int  2 2 2 1 2 2 2 2 2 2 ...
##  $ CARDIOVASCULAR     : int  2 2 2 2 2 2 2 2 2 2 ...
##  $ OBESIDAD           : int  2 1 2 2 2 2 2 2 2 2 ...
##  $ RENAL_CRONICA      : int  2 2 2 2 2 2 2 2 1 2 ...
##  $ TABAQUISMO         : int  2 2 2 2 2 2 2 2 2 2 ...
##  $ OTRO_CASO          : int  99 2 1 99 2 1 1 2 99 99 ...
##  $ RESULTADO          : int  1 1 1 1 1 1 1 1 1 1 ...
##  $ MIGRANTE           : int  99 99 99 99 99 99 99 99 99 99 ...
##  $ PAIS_NACIONALIDAD  : chr  "México" "México" "México" "México" ...
##  $ PAIS_ORIGEN        : chr  "99" "99" "99" "99" ...
##  $ UCI                : int  97 2 1 2 2 97 97 97 2 2 ...

4. Limpiar datos.

  • Modificar los tipos de datos de aquellos que datos que deban ser categóricos (factor()) y traen consigo valores numéricos.
  • Modificar los atributos tipo fecha a ymd().
datos.covid$ORIGEN <- factor(datos.covid$ORIGEN)
datos.covid$SECTOR <- factor(datos.covid$SECTOR)
datos.covid$ENTIDAD_UM <- factor(datos.covid$ENTIDAD_UM)
datos.covid$SEXO <- factor(datos.covid$SEXO)
datos.covid$ENTIDAD_NAC <- factor(datos.covid$ENTIDAD_NAC)
datos.covid$ENTIDAD_RES <- factor(datos.covid$ENTIDAD_RES)

datos.covid$ENTIDAD_RES <- factor(datos.covid$ENTIDAD_RES)
datos.covid$MUNICIPIO_RES <- factor(datos.covid$MUNICIPIO_RES)
datos.covid$TIPO_PACIENTE <- factor(datos.covid$TIPO_PACIENTE)

datos.covid$NACIONALIDAD <- factor(datos.covid$NACIONALIDAD)
datos.covid$HABLA_LENGUA_INDIG <- factor(datos.covid$HABLA_LENGUA_INDIG)
datos.covid$MIGRANTE <- factor(datos.covid$MIGRANTE)
datos.covid$PAIS_ORIGEN <- factor(datos.covid$PAIS_ORIGEN)

# Cambiar fecha. Aquí es donde actúa la librería lubridate 
# para habilitar la función ymd() de esa librería
datos.covid$FECHA_ACTUALIZACION <- ymd(datos.covid$FECHA_ACTUALIZACION)
datos.covid$FECHA_INGRESO <- ymd(datos.covid$FECHA_INGRESO)
datos.covid$FECHA_SINTOMAS <- ymd(datos.covid$FECHA_SINTOMAS)
datos.covid$FECHA_DEF <- ymd(datos.covid$FECHA_DEF)
## Warning: 1492307 failed to parse.
# Diagnóstico de enfermedadades o condición clinica
datos.covid$INTUBADO <- factor(datos.covid$INTUBADO)
datos.covid$NEUMONIA <- factor(datos.covid$NEUMONIA)
datos.covid$EMBARAZO <- factor(datos.covid$EMBARAZO)
datos.covid$DIABETES <- factor(datos.covid$DIABETES)
datos.covid$EPOC <- factor(datos.covid$EPOC)
datos.covid$ASMA <- factor(datos.covid$ASMA)
datos.covid$INMUSUPR <- factor(datos.covid$INMUSUPR)
datos.covid$HIPERTENSION <- factor(datos.covid$HIPERTENSION)
datos.covid$OTRA_COM <- factor(datos.covid$OTRA_COM)
datos.covid$CARDIOVASCULAR <- factor(datos.covid$CARDIOVASCULAR)
datos.covid$OBESIDAD <- factor(datos.covid$OBESIDAD)
datos.covid$RENAL_CRONICA <- factor(datos.covid$RENAL_CRONICA)
datos.covid$TABAQUISMO <- factor(datos.covid$TABAQUISMO)
datos.covid$OTRO_CASO <- factor(datos.covid$OTRO_CASO)

# Resultado
datos.covid$RESULTADO <- factor(datos.covid$RESULTADO)
datos.covid$UCI <- factor(datos.covid$UCI)

5. Descripción de los datos después de limpieza de los datos

  • Existe difetencia en la exploración de los datos antes y después de limpieza
summary(datos.covid)
##  FECHA_ACTUALIZACION  ID_REGISTRO        ORIGEN          SECTOR      
##  Min.   :2020-09-20   Length:1586191     1: 522879   12     :993199  
##  1st Qu.:2020-09-20   Class :character   2:1063312   4      :403283  
##  Median :2020-09-20   Mode  :character               6      : 60156  
##  Mean   :2020-09-20                                  9      : 58082  
##  3rd Qu.:2020-09-20                                  3      : 28066  
##  Max.   :2020-09-20                                  8      : 13403  
##                                                      (Other): 30002  
##    ENTIDAD_UM     SEXO        ENTIDAD_NAC      ENTIDAD_RES    
##  9      :390030   1:808002   9      :348383   9      :331474  
##  15     :137361   2:778189   15     :175489   15     :192189  
##  11     : 91947              11     : 87814   11     : 91869  
##  19     : 83356              30     : 68872   19     : 82685  
##  21     : 67931              19     : 68207   21     : 65598  
##  28     : 64035              21     : 65271   28     : 63962  
##  (Other):751531              (Other):772155   (Other):758414  
##  MUNICIPIO_RES     TIPO_PACIENTE FECHA_INGRESO        FECHA_SINTOMAS      
##  7      :  69636   1:1314644     Min.   :2020-01-01   Min.   :2020-01-01  
##  5      :  69086   2: 271547     1st Qu.:2020-06-11   1st Qu.:2020-06-08  
##  4      :  59462                 Median :2020-07-16   Median :2020-07-12  
##  39     :  56876                 Mean   :2020-07-12   Mean   :2020-07-08  
##  2      :  55654                 3rd Qu.:2020-08-17   3rd Qu.:2020-08-13  
##  17     :  48194                 Max.   :2020-09-20   Max.   :2020-09-20  
##  (Other):1227283                                                          
##    FECHA_DEF          INTUBADO     NEUMONIA          EDAD        NACIONALIDAD
##  Min.   :2020-01-13   1 :  40556   1 : 197717   Min.   :  0.00   1:1578954   
##  1st Qu.:2020-06-03   2 : 230788   2 :1388453   1st Qu.: 30.00   2:   7237   
##  Median :2020-07-05   97:1314644   99:     21   Median : 41.00               
##  Mean   :2020-07-04   99:    203                Mean   : 42.09               
##  3rd Qu.:2020-08-05                             3rd Qu.: 53.00               
##  Max.   :2020-09-20                             Max.   :120.00               
##  NA's   :1492307                                                             
##  EMBARAZO    HABLA_LENGUA_INDIG DIABETES     EPOC         ASMA        
##  1 : 13154   1 :  13210         1 : 192176   1 :  20699   1 :  45209  
##  2 :789256   2 :1516238         2 :1389235   2 :1561247   2 :1536739  
##  97:778189   99:  56743         98:   4780   98:   4245   98:   4243  
##  98:  5592                                                            
##                                                                       
##                                                                       
##                                                                       
##  INMUSUPR     HIPERTENSION OTRA_COM     CARDIOVASCULAR OBESIDAD    
##  1 :  19574   1 : 253474   1 :  38296   1 :  30391     1 : 243869  
##  2 :1562078   2 :1328278   2 :1541122   2 :1551485     2 :1338097  
##  98:   4539   98:   4439   98:   6773   98:   4315     98:   4225  
##                                                                    
##                                                                    
##                                                                    
##                                                                    
##  RENAL_CRONICA TABAQUISMO   OTRO_CASO   RESULTADO  MIGRANTE    
##  1 :  27660    1 : 129913   1 :768898   1:697663   1 :   1620  
##  2 :1554300    2 :1451765   2 :603605   2:809373   2 :   4327  
##  98:   4231    98:   4513   99:213688   3: 79155   99:1580244  
##                                                                
##                                                                
##                                                                
##                                                                
##  PAIS_NACIONALIDAD                        PAIS_ORIGEN      UCI         
##  Length:1586191     99                          :1584571   1 :  23162  
##  Class :character   Estados Unidos de Am<e9>rica:    258   2 : 248172  
##  Mode  :character   Rep<fa>blica de Honduras    :    172   97:1314644  
##                     Venezuela                   :    165   99:    213  
##                     Colombia                    :    158               
##                     Cuba                        :    144               
##                     (Other)                     :    723

6. Análisis de los datos

    1. Construir el histograma de CONFIRMADOS de EDAD; hist()
  • Determinar los casos POSITIVO O CONFIRMADOS.
  • POSITIVO == 1 o sea los CONFIRMADOS
positivo.COVID <- filter(datos.covid, RESULTADO == '1') 
  • Se hacen las gráficas mediante ggplot()
ggplot(positivo.COVID, aes(EDAD)) + geom_histogram(position = "stack", bins = 30)

    1. Determinar tabla de frecuencias de EDADES # Un tip… … No potenciación 10e. No Notación Científica. options(scipen = 999)
options(scipen = 999)
frecuencia.edades <- fdt(positivo.COVID$EDAD)
frecuencia.edades <- data.frame(frecuencia.edades$table)
frecuencia.edades
##         Class.limits     f             rf         rf...     cf       cf...
## 1        [0,5.67524)  4713 0.006755410564  0.6755410564   4713   0.6755411
## 2  [5.67524,11.3505)  4942 0.007083649269  0.7083649269   9655   1.3839060
## 3  [11.3505,17.0257) 10256 0.014700507265  1.4700507265  19911   2.8539567
## 4   [17.0257,22.701) 25387 0.036388628894  3.6388628894  45298   6.4928196
## 5   [22.701,28.3762) 73274 0.105027785621 10.5027785621 118572  16.9955982
## 6  [28.3762,34.0514) 92589 0.132713072071 13.2713072071 211161  30.2669054
## 7  [34.0514,39.7267) 77517 0.111109518492 11.1109518492 288678  41.3778572
## 8  [39.7267,45.4019) 89674 0.128534837020 12.8534837020 378352  54.2313409
## 9  [45.4019,51.0771) 88225 0.126457903028 12.6457903028 466577  66.8771312
## 10 [51.0771,56.7524) 62597 0.089723835147  8.9723835147 529174  75.8495147
## 11 [56.7524,62.4276) 60168 0.086242211498  8.6242211498 589342  84.4737359
## 12 [62.4276,68.1029) 43942 0.062984564181  6.2984564181 633284  90.7721923
## 13 [68.1029,73.7781) 25765 0.036930437761  3.6930437761 659049  94.4652361
## 14 [73.7781,79.4533) 20577 0.029494182721  2.9494182721 679626  97.4146544
## 15 [79.4533,85.1286) 11777 0.016880642947  1.6880642947 691403  99.1027186
## 16 [85.1286,90.8038)  4411 0.006322536812  0.6322536812 695814  99.7349723
## 17  [90.8038,96.479)  1514 0.002170102184  0.2170102184 697328  99.9519825
## 18  [96.479,102.154)   296 0.000424273611  0.0424273611 697624  99.9944099
## 19  [102.154,107.83)    29 0.000041567347  0.0041567347 697653  99.9985666
## 20  [107.83,113.505)     4 0.000005733427  0.0005733427 697657  99.9991400
## 21  [113.505,119.18)     6 0.000008600141  0.0008600141 697663 100.0000000
  • Diagrama de barra Frecuencias edades
ggplot(frecuencia.edades, aes(1:21, rf, fill=Class.limits)) + geom_bar(stat = "identity")

    1. Determinar frecuencias por género o sexo
frecuencia.sexo <- fdt_cat(positivo.COVID$SEXO)
frecuencia.sexo <- data.frame(frecuencia.sexo)
frecuencia.sexo
##   Category      f        rf    rf...     cf     cf...
## 1        2 363283 0.5207142 52.07142 363283  52.07142
## 2        1 334380 0.4792858 47.92858 697663 100.00000
  • Gráfica de Barra
  • ¿Qué significa 1 y 2?
  • 1 MUJER
  • 2 HOMBRE
ggplot(frecuencia.sexo, aes(Category, rf, fill=Category)) + geom_bar(stat = "identity")

    1. Determinar tablas de frecuencias por estados de REP MEXICANA.
  • Por ENTIDAD_RES Significa Entidad de Residencia
  • CLAVE_ENTIDAD ENTIDAD_FEDERATIVA ABREVIATURA
  • 01 AGUASCALIENTES AS
  • 02 BAJA CALIFORNIA BC
  • 03 BAJA CALIFORNIA SUR BS
  • 04 CAMPECHE CC
  • 05 COAHUILA DE ZARAGOZA CL
  • 06 COLIMA CM
  • 07 CHIAPAS CS
  • 08 CHIHUAHUA CH
  • 09 CIUDAD DE MÉXICO DF
  • 10 DURANGO DG
  • 11 GUANAJUATO GT
  • 12 GUERRERO GR
  • 13 HIDALGO HG
  • 14 JALISCO JC
  • 15 MÉXICO MC
  • 16 MICHOACÁN DE OCAMPO MN
  • 17 MORELOS MS
  • 18 NAYARIT NT
  • 19 NUEVO LEÓN NL
  • 20 OAXACA OC
  • 21 PUEBLA PL
  • 22 QUERÉTARO QT
  • 23 QUINTANA ROO QR
  • 24 SAN LUIS POTOSÍ SP
  • 25 SINALOA SL
  • 26 SONORA SR
  • 27 TABASCO TC
  • 28 TAMAULIPAS TS
  • 29 TLAXCALA TL
  • 30 VERACRUZ DE IGNACIO DE LA LLAVE VZ
  • 31 YUCATÁN YN
  • 32 ZACATECAS ZS
  • 36 ESTADOS UNIDOS MEXICANOS EUM
  • 97 NO APLICA NA
  • 98 SE IGNORA SI
  • 99 NO ESPECIFICADO NE
frecuencia.estado <- fdt_cat(positivo.COVID$ENTIDAD_RES)
frecuencia.estado <- data.frame(frecuencia.estado)
frecuencia.estado
##    Category      f          rf      rf...     cf     cf...
## 1         9 117420 0.168304755 16.8304755 117420  16.83048
## 2        15  77015 0.110389973 11.0389973 194435  27.86947
## 3        11  38577 0.055294605  5.5294605 233012  33.39893
## 4        19  36358 0.052113986  5.2113986 269370  38.61033
## 5        30  31737 0.045490445  4.5490445 301107  43.15938
## 6        27  30860 0.044233391  4.4233391 331967  47.58272
## 7        21  29998 0.042997837  4.2997837 361965  51.88250
## 8        28  27719 0.039731217  3.9731217 389684  55.85562
## 9         5  24894 0.035681984  3.5681984 414578  59.42382
## 10       14  24643 0.035322211  3.5322211 439221  62.95604
## 11       26  23861 0.034201326  3.4201326 463082  66.37617
## 12       24  21632 0.031006374  3.1006374 484714  69.47681
## 13       16  18843 0.027008742  2.7008742 503557  72.17768
## 14        2  18529 0.026558668  2.6558668 522086  74.83355
## 15       25  17853 0.025589719  2.5589719 539939  77.39252
## 16       12  17367 0.024893107  2.4893107 557306  79.88183
## 17       31  17306 0.024805673  2.4805673 574612  82.36240
## 18       20  15532 0.022262898  2.2262898 590144  84.58869
## 19       13  12017 0.017224649  1.7224649 602161  86.31116
## 20       23  11373 0.016301567  1.6301567 613534  87.94131
## 21        8   9497 0.013612589  1.3612589 623031  89.30257
## 22        3   9480 0.013588222  1.3588222 632511  90.66139
## 23       22   8195 0.011746359  1.1746359 640706  91.83603
## 24       10   8139 0.011666091  1.1666091 648845  93.00264
## 25       29   7209 0.010333069  1.0333069 656054  94.03595
## 26       32   6817 0.009771193  0.9771193 662871  95.01307
## 27        1   6652 0.009534689  0.9534689 669523  95.96653
## 28        7   6433 0.009220784  0.9220784 675956  96.88861
## 29        4   5863 0.008403771  0.8403771 681819  97.72899
## 30       17   5707 0.008180167  0.8180167 687526  98.54701
## 31       18   5698 0.008167267  0.8167267 693224  99.36373
## 32        6   4439 0.006362671  0.6362671 697663 100.00000
  • Gráfica de Barra
ggplot(frecuencia.estado, aes(Category, rf, fill=Category)) + geom_bar(stat ="identity")

    1. Determinar tablas de frecuencias de POSITIVOS NO POSITIVOS
frecuencia.positivo <- fdt_cat(datos.covid$RESULTADO)
frecuencia.positivo <- data.frame(frecuencia.positivo)
frecuencia.positivo
##   Category      f         rf     rf...      cf     cf...
## 1        2 809373 0.51026201 51.026201  809373  51.02620
## 2        1 697663 0.43983543 43.983543 1507036  95.00974
## 3        3  79155 0.04990257  4.990257 1586191 100.00000
  • Grafica
ggplot(frecuencia.positivo, aes(Category, f, fill=Category)) + geom_bar(stat ="identity")

    1. Determinar tablas de frecuencias de AMBULATORIOS Y HOSPITALIZADOS
frecuencia.ambulatorio <- fdt_cat(positivo.COVID$TIPO_PACIENTE)
frecuencia.ambulatorio <- data.frame(frecuencia.ambulatorio)
frecuencia.ambulatorio
##   Category      f        rf    rf...     cf     cf...
## 1        1 527631 0.7562835 75.62835 527631  75.62835
## 2        2 170032 0.2437165 24.37165 697663 100.00000
  • Grafica
ggplot(frecuencia.ambulatorio, aes(Category, f, fill=Category)) + geom_bar(stat ="identity")

    1. Determinar tablas de frecuencias de DECESOS
datos.covid <- datos.covid %>%
  mutate(DECESO = ifelse(is.na(FECHA_DEF), 'NO', 'SI'))

tabla.frecuencia.DECESO <- data.frame(fdt_cat(datos.covid$DECESO))

names(tabla.frecuencia.DECESO) <- c("Deceso", "Freq", "Freq.rel", "Freq.porc","Freq.acum", "Freq.acum.porc")
tabla.frecuencia.DECESO
##   Deceso    Freq   Freq.rel Freq.porc Freq.acum Freq.acum.porc
## 1     NO 1492307 0.94081167 94.081167   1492307       94.08117
## 2     SI   93884 0.05918833  5.918833   1586191      100.00000
    1. Determinar tablas de frecuencias de UCI
frecuencia.uci <- fdt_cat(positivo.COVID$UCI)
frecuencia.uci <- data.frame(frecuencia.uci)
frecuencia.uci
##   Category      f           rf       rf...     cf     cf...
## 1       97 527631 0.7562834778 75.62834778 527631  75.62835
## 2        2 155260 0.2225429756 22.25429756 682891  97.88265
## 3        1  14605 0.0209341760  2.09341760 697496  99.97606
## 4       99    167 0.0002393706  0.02393706 697663 100.00000
  • Grafico
ggplot(frecuencia.uci, aes(Category, f, fill=Category)) + geom_bar(stat ="identity")

    1. Determinar frecuencias por meses
meses <- month(positivo.COVID$FECHA_INGRESO)

tabla.frecuencia.MESES <- data.frame(fdt_cat(as.character(meses)))
names(tabla.frecuencia.MESES) <- c("Mes", "Freq", "Freq.rel", "Freq.porc","Freq.acum", "Freq.acum.porc")
tabla.frecuencia.MESES
##   Mes   Freq       Freq.rel     Freq.porc Freq.acum Freq.acum.porc
## 1   7 200023 0.286704325727 28.6704325727    200023       28.67043
## 2   8 157022 0.225068550289 22.5068550289    357045       51.17729
## 3   6 153194 0.219581660487 21.9581660487    510239       73.13545
## 4   5  86634 0.124177432371 12.4177432371    596873       85.55320
## 5   9  71636 0.102679947195 10.2679947195    668509       95.82119
## 6   4  26605 0.038134457467  3.8134457467    695114       99.63464
## 7   3   2539 0.003639292896  0.3639292896    697653       99.99857
## 8   2      8 0.000011466854  0.0011466854    697661       99.99971
## 9   1      2 0.000002866714  0.0002866714    697663      100.00000
  • Grafico
ggplot(data = tabla.frecuencia.MESES, aes(x = Mes, y = Freq)) + geom_bar(stat = "identity")

Interpretacion

hicimos un analisis sobre el covid que es la enfermedad en este año los datos los obtuvimos de la pagina del gobierno.

lo que nos dimos cuenta que esta enfermedad le da mas a los hombres que a las mujeres con numeros de 363283 en el caso de los hombres y en el de mujeres 334380 en su caso.

el estado de la republica mexicana con mas casos de covid es la ciudad de mexico.

el rango de las edades proporcionadas por este documento sobre el covid es de de los 20 años hasta los 40.

en el cado de nuestro estado que es Durango somos de los que menos tenemos en cuanto a la grafica.

con estos datos proporcionados nos ponemos al corriente de la verdad del covid 19 y asi no nos mienten sobre los valores y sabemos por que murio o que otra enfermedad tenia