Objetivo:

Analizar conjunto de registros de personas posibles resultados de CORONAVIRUS.

Descripción.

En el portal de datos abiertos: https://www.gob.mx/salud/documentos/datos-abiertos-152127 se encuentra la base de datos de registros de personas que acuden a Instituciones de Salubridad para realizarse un diagnóstico sobre su estado de salud en relación a la enfermedad de Coronavirus. Los datos son proporcionados por la Secretaría de Saludo del Gobierno de México.

Se solicita realizar un análisi de los datos para derminar tablas de frecuencias y visualizaciones de los datos.

1. Cargar librerías

  • Identificar las librerías necesarias de R par el CASO:
  1. readr dplyr; lubridate, fdth, ggplot
library(readr)      # Cargar datos csv
library(fdth)       # Tablas de frecuencias
library(dplyr)      # Filtros, Select, mutate, arrange, grou_by, summarize, %>%
library(lubridate)  # Para manejo de fechas
library(ggplot2)

2. Cargar los datos

  • Asegurarse el directorio de trabajo
#setwd("C:/Users/Usuario/Documents/Mis clases ITD/Semestre Septiembre 2020 - Enero 2021/AnAlisis Inteligente de Datos 13")
getwd()
## [1] "C:/Users/Usuario/Documents/Mis clases ITD/Semestre Septiembre 2020 - Enero 2021/AnAlisis Inteligente de Datos 13/markdown"
  • Cargar los datos
datos.covid <- read.csv("../datos/200909COVID19MEXICO.csv",encoding = "UTF-8")

3. Exploración inicial de los datos antes de limpieza

summary(datos.covid)
##  FECHA_ACTUALIZACION ID_REGISTRO            ORIGEN          SECTOR      
##  Length:1465693      Length:1465693     Min.   :1.000   Min.   : 1.000  
##  Class :character    Class :character   1st Qu.:1.000   1st Qu.: 4.000  
##  Mode  :character    Mode  :character   Median :2.000   Median :12.000  
##                                         Mean   :1.668   Mean   : 9.336  
##                                         3rd Qu.:2.000   3rd Qu.:12.000  
##                                         Max.   :2.000   Max.   :99.000  
##    ENTIDAD_UM         SEXO        ENTIDAD_NAC     ENTIDAD_RES   
##  Min.   : 1.00   Min.   :1.000   Min.   : 1.00   Min.   : 1.00  
##  1st Qu.: 9.00   1st Qu.:1.000   1st Qu.: 9.00   1st Qu.: 9.00  
##  Median :14.00   Median :1.000   Median :15.00   Median :15.00  
##  Mean   :15.55   Mean   :1.492   Mean   :16.35   Mean   :15.79  
##  3rd Qu.:22.00   3rd Qu.:2.000   3rd Qu.:24.00   3rd Qu.:22.00  
##  Max.   :32.00   Max.   :2.000   Max.   :99.00   Max.   :32.00  
##  MUNICIPIO_RES   TIPO_PACIENTE   FECHA_INGRESO      FECHA_SINTOMAS    
##  Min.   :  1.0   Min.   :1.000   Length:1465693     Length:1465693    
##  1st Qu.:  8.0   1st Qu.:1.000   Class :character   Class :character  
##  Median : 20.0   Median :1.000   Mode  :character   Mode  :character  
##  Mean   : 37.2   Mean   :1.175                                        
##  3rd Qu.: 46.0   3rd Qu.:1.000                                        
##  Max.   :999.0   Max.   :2.000                                        
##   FECHA_DEF            INTUBADO        NEUMONIA           EDAD      
##  Length:1465693     Min.   : 1.00   Min.   : 1.000   Min.   :  0.0  
##  Class :character   1st Qu.:97.00   1st Qu.: 2.000   1st Qu.: 30.0  
##  Mode  :character   Median :97.00   Median : 2.000   Median : 41.0  
##                     Mean   :80.33   Mean   : 1.873   Mean   : 42.2  
##                     3rd Qu.:97.00   3rd Qu.: 2.000   3rd Qu.: 53.0  
##                     Max.   :99.00   Max.   :99.000   Max.   :120.0  
##   NACIONALIDAD      EMBARAZO     HABLA_LENGUA_INDIG    DIABETES     
##  Min.   :1.000   Min.   : 1.00   Min.   : 1.00      Min.   : 1.000  
##  1st Qu.:1.000   1st Qu.: 2.00   1st Qu.: 2.00      1st Qu.: 2.000  
##  Median :1.000   Median : 2.00   Median : 2.00      Median : 2.000  
##  Mean   :1.005   Mean   :49.05   Mean   : 5.44      Mean   : 2.161  
##  3rd Qu.:1.000   3rd Qu.:97.00   3rd Qu.: 2.00      3rd Qu.: 2.000  
##  Max.   :2.000   Max.   :98.00   Max.   :99.00      Max.   :98.000  
##       EPOC             ASMA           INMUSUPR       HIPERTENSION   
##  Min.   : 1.000   Min.   : 1.000   Min.   : 1.000   Min.   : 1.000  
##  1st Qu.: 2.000   1st Qu.: 2.000   1st Qu.: 2.000   1st Qu.: 2.000  
##  Median : 2.000   Median : 2.000   Median : 2.000   Median : 2.000  
##  Mean   : 2.238   Mean   : 2.222   Mean   : 2.258   Mean   : 2.104  
##  3rd Qu.: 2.000   3rd Qu.: 2.000   3rd Qu.: 2.000   3rd Qu.: 2.000  
##  Max.   :98.000   Max.   :98.000   Max.   :98.000   Max.   :98.000  
##     OTRA_COM      CARDIOVASCULAR      OBESIDAD      RENAL_CRONICA   
##  Min.   : 1.000   Min.   : 1.000   Min.   : 1.000   Min.   : 1.000  
##  1st Qu.: 2.000   1st Qu.: 2.000   1st Qu.: 2.000   1st Qu.: 2.000  
##  Median : 2.000   Median : 2.000   Median : 2.000   Median : 2.000  
##  Mean   : 2.382   Mean   : 2.237   Mean   : 2.096   Mean   : 2.235  
##  3rd Qu.: 2.000   3rd Qu.: 2.000   3rd Qu.: 2.000   3rd Qu.: 2.000  
##  Max.   :98.000   Max.   :98.000   Max.   :98.000   Max.   :98.000  
##    TABAQUISMO       OTRO_CASO       RESULTADO        MIGRANTE    
##  Min.   : 1.000   Min.   : 1.00   Min.   :1.000   Min.   : 1.00  
##  1st Qu.: 2.000   1st Qu.: 1.00   1st Qu.:1.000   1st Qu.:99.00  
##  Median : 2.000   Median : 2.00   Median :2.000   Median :99.00  
##  Mean   : 2.189   Mean   :15.81   Mean   :1.615   Mean   :98.64  
##  3rd Qu.: 2.000   3rd Qu.: 2.00   3rd Qu.:2.000   3rd Qu.:99.00  
##  Max.   :98.000   Max.   :99.00   Max.   :3.000   Max.   :99.00  
##  PAIS_NACIONALIDAD  PAIS_ORIGEN             UCI       
##  Length:1465693     Length:1465693     Min.   : 1.00  
##  Class :character   Class :character   1st Qu.:97.00  
##  Mode  :character   Mode  :character   Median :97.00  
##                                        Mean   :80.34  
##                                        3rd Qu.:97.00  
##                                        Max.   :99.00
str(datos.covid)
## 'data.frame':    1465693 obs. of  35 variables:
##  $ FECHA_ACTUALIZACION: chr  "2020-09-09" "2020-09-09" "2020-09-09" "2020-09-09" ...
##  $ ID_REGISTRO        : chr  "0fa3df" "04b5e9" "005e0d" "12667d" ...
##  $ ORIGEN             : int  2 2 2 2 2 2 2 2 2 2 ...
##  $ SECTOR             : int  3 4 4 4 4 4 3 4 4 4 ...
##  $ ENTIDAD_UM         : int  15 15 30 9 9 15 8 13 30 21 ...
##  $ SEXO               : int  2 2 2 1 2 1 1 1 2 2 ...
##  $ ENTIDAD_NAC        : int  15 15 30 9 9 9 8 13 30 21 ...
##  $ ENTIDAD_RES        : int  15 15 30 9 9 15 8 13 30 21 ...
##  $ MUNICIPIO_RES      : int  115 62 193 5 13 104 37 56 193 114 ...
##  $ TIPO_PACIENTE      : int  1 2 1 1 1 1 1 2 2 2 ...
##  $ FECHA_INGRESO      : chr  "2020-06-15" "2020-04-13" "2020-04-16" "2020-03-29" ...
##  $ FECHA_SINTOMAS     : chr  "2020-06-10" "2020-04-06" "2020-04-09" "2020-03-23" ...
##  $ FECHA_DEF          : chr  "9999-99-99" "2020-04-15" "9999-99-99" "9999-99-99" ...
##  $ INTUBADO           : int  97 2 97 97 97 97 97 2 2 2 ...
##  $ NEUMONIA           : int  1 1 2 2 2 2 2 1 1 2 ...
##  $ EDAD               : int  48 26 40 33 29 46 47 46 73 80 ...
##  $ NACIONALIDAD       : int  1 1 1 1 1 1 1 1 1 1 ...
##  $ EMBARAZO           : int  97 97 97 2 97 2 2 2 97 97 ...
##  $ HABLA_LENGUA_INDIG : int  2 2 2 2 1 2 2 2 2 2 ...
##  $ DIABETES           : int  2 2 1 2 2 2 2 2 2 2 ...
##  $ EPOC               : int  2 2 2 2 2 2 2 2 2 2 ...
##  $ ASMA               : int  2 2 2 2 2 2 2 2 2 2 ...
##  $ INMUSUPR           : int  2 2 2 2 2 2 2 2 2 2 ...
##  $ HIPERTENSION       : int  1 2 1 2 2 2 1 1 2 2 ...
##  $ OTRA_COM           : int  2 2 2 2 2 2 2 1 2 2 ...
##  $ CARDIOVASCULAR     : int  2 2 2 2 2 2 2 2 2 2 ...
##  $ OBESIDAD           : int  2 1 1 2 2 2 1 2 2 1 ...
##  $ RENAL_CRONICA      : int  2 2 2 2 2 2 2 1 2 2 ...
##  $ TABAQUISMO         : int  2 2 2 2 2 2 2 2 2 2 ...
##  $ OTRO_CASO          : int  2 99 99 1 1 1 1 99 99 99 ...
##  $ RESULTADO          : int  1 1 1 1 1 1 1 1 1 1 ...
##  $ MIGRANTE           : int  99 99 99 99 99 99 99 99 99 99 ...
##  $ PAIS_NACIONALIDAD  : chr  "México" "México" "México" "México" ...
##  $ PAIS_ORIGEN        : chr  "99" "99" "99" "99" ...
##  $ UCI                : int  97 2 97 97 97 97 97 2 2 2 ...

4. Limpiar datos.

  • Modificar los tipos de datos de aquellos que datos que deban ser categóricos (factor()) y traen consigo valores numéricos.
  • Modificar los atributos tipo fecha a ymd().
datos.covid$ORIGEN <- factor(datos.covid$ORIGEN)
datos.covid$SECTOR <- factor(datos.covid$SECTOR)
datos.covid$ENTIDAD_UM <- factor(datos.covid$ENTIDAD_UM)
datos.covid$SEXO <- factor(datos.covid$SEXO)
datos.covid$ENTIDAD_NAC <- factor(datos.covid$ENTIDAD_NAC)
datos.covid$ENTIDAD_RES <- factor(datos.covid$ENTIDAD_RES)

datos.covid$ENTIDAD_RES <- factor(datos.covid$ENTIDAD_RES)
datos.covid$MUNICIPIO_RES <- factor(datos.covid$MUNICIPIO_RES)
datos.covid$TIPO_PACIENTE <- factor(datos.covid$TIPO_PACIENTE)

datos.covid$NACIONALIDAD <- factor(datos.covid$NACIONALIDAD)
datos.covid$HABLA_LENGUA_INDIG <- factor(datos.covid$HABLA_LENGUA_INDIG)
datos.covid$MIGRANTE <- factor(datos.covid$MIGRANTE)
datos.covid$PAIS_ORIGEN <- factor(datos.covid$PAIS_ORIGEN)

# Cambiar fecha. Aquí es donde actúa la librería lubridate 
# para habilitar la función ymd() de esa librería
datos.covid$FECHA_ACTUALIZACION <- ymd(datos.covid$FECHA_ACTUALIZACION)
datos.covid$FECHA_INGRESO <- ymd(datos.covid$FECHA_INGRESO)
datos.covid$FECHA_SINTOMAS <- ymd(datos.covid$FECHA_SINTOMAS)
datos.covid$FECHA_DEF <- ymd(datos.covid$FECHA_DEF)

# Diagnóstico de enfermedadades o condición clinica
datos.covid$INTUBADO <- factor(datos.covid$INTUBADO)
datos.covid$NEUMONIA <- factor(datos.covid$NEUMONIA)
datos.covid$EMBARAZO <- factor(datos.covid$EMBARAZO)
datos.covid$DIABETES <- factor(datos.covid$DIABETES)
datos.covid$EPOC <- factor(datos.covid$EPOC)
datos.covid$ASMA <- factor(datos.covid$ASMA)
datos.covid$INMUSUPR <- factor(datos.covid$INMUSUPR)
datos.covid$HIPERTENSION <- factor(datos.covid$HIPERTENSION)
datos.covid$OTRA_COM <- factor(datos.covid$OTRA_COM)
datos.covid$CARDIOVASCULAR <- factor(datos.covid$CARDIOVASCULAR)
datos.covid$OBESIDAD <- factor(datos.covid$OBESIDAD)
datos.covid$RENAL_CRONICA <- factor(datos.covid$RENAL_CRONICA)
datos.covid$TABAQUISMO <- factor(datos.covid$TABAQUISMO)
datos.covid$OTRO_CASO <- factor(datos.covid$OTRO_CASO)

# Resultado
datos.covid$RESULTADO <- factor(datos.covid$RESULTADO)
datos.covid$UCI <- factor(datos.covid$UCI)

5. Descripción de los datos después de limpieza de los datos

  • Existe difetencia en la exploración de los datos antes y después de limpie
summary(datos.covid)
##  FECHA_ACTUALIZACION  ID_REGISTRO        ORIGEN         SECTOR      
##  Min.   :2020-09-09   Length:1465693     1:486628   12     :912162  
##  1st Qu.:2020-09-09   Class :character   2:979065   4      :376524  
##  Median :2020-09-09   Mode  :character              6      : 55449  
##  Mean   :2020-09-09                                 9      : 54262  
##  3rd Qu.:2020-09-09                                 3      : 26622  
##  Max.   :2020-09-09                                 8      : 12665  
##                                                     (Other): 28009  
##    ENTIDAD_UM     SEXO        ENTIDAD_NAC      ENTIDAD_RES    
##  9      :355169   1:744869   9      :318376   9      :301109  
##  15     :129322   2:720824   15     :163016   15     :179873  
##  11     : 83524              11     : 79886   11     : 83483  
##  19     : 76065              30     : 64546   19     : 75448  
##  21     : 63794              19     : 62336   21     : 61943  
##  28     : 60188              21     : 61458   28     : 60099  
##  (Other):697631              (Other):716075   (Other):703738  
##  MUNICIPIO_RES     TIPO_PACIENTE FECHA_INGRESO        FECHA_SINTOMAS      
##  7      :  64455   1:1208690     Min.   :2020-01-01   Min.   :2020-01-01  
##  5      :  63170   2: 257003     1st Qu.:2020-06-09   1st Qu.:2020-06-05  
##  4      :  55368                 Median :2020-07-11   Median :2020-07-07  
##  39     :  52435                 Mean   :2020-07-06   Mean   :2020-07-03  
##  2      :  51993                 3rd Qu.:2020-08-10   3rd Qu.:2020-08-05  
##  17     :  43949                 Max.   :2020-09-09   Max.   :2020-09-09  
##  (Other):1134323                                                          
##    FECHA_DEF          INTUBADO     NEUMONIA          EDAD       NACIONALIDAD
##  Min.   :2020-01-13   1 :  39263   1 : 187398   Min.   :  0.0   1:1458956   
##  1st Qu.:2020-06-01   2 : 217550   2 :1278276   1st Qu.: 30.0   2:   6737   
##  Median :2020-07-02   97:1208690   99:     19   Median : 41.0               
##  Mean   :2020-06-30   99:    190                Mean   : 42.2               
##  3rd Qu.:2020-07-31                             3rd Qu.: 53.0               
##  Max.   :2020-09-09                             Max.   :120.0               
##  NA's   :1377463                                                            
##  EMBARAZO    HABLA_LENGUA_INDIG DIABETES     EPOC         ASMA        
##  1 : 11898   1 :  12374         1 : 179106   1 :  19463   1 :  42192  
##  2 :727762   2 :1401213         2 :1282260   2 :1442399   2 :1419674  
##  97:720824   99:  52106         98:   4327   98:   3831   98:   3827  
##  98:  5209                                                            
##                                                                       
##                                                                       
##                                                                       
##  INMUSUPR     HIPERTENSION OTRA_COM     CARDIOVASCULAR OBESIDAD    
##  1 :  18431   1 : 235843   1 :  36075   1 :  28475     1 : 227973  
##  2 :1443137   2 :1225813   2 :1423417   2 :1433296     2 :1233876  
##  98:   4125   98:   4037   98:   6201   98:   3922     98:   3844  
##                                                                    
##                                                                    
##                                                                    
##                                                                    
##  RENAL_CRONICA TABAQUISMO   OTRO_CASO   RESULTADO  MIGRANTE    
##  1 :  25879    1 : 119326   1 :711206   1:647507   1 :   1505  
##  2 :1435957    2 :1342239   2 :538453   2:734649   2 :   3991  
##  98:   3857    98:   4128   99:216034   3: 83537   99:1460197  
##                                                                
##                                                                
##                                                                
##                                                                
##  PAIS_NACIONALIDAD                        PAIS_ORIGEN      UCI         
##  Length:1465693     99                          :1464188   1 :  21962  
##  Class :character   Estados Unidos de Am<e9>rica:    234   2 : 234841  
##  Mode  :character   Rep<fa>blica de Honduras    :    164   97:1208690  
##                     Venezuela                   :    151   99:    200  
##                     Colombia                    :    143               
##                     Cuba                        :    140               
##                     (Other)                     :    673

6. Análisis de los datos

a. Construir el histograma de CONFIRMADOS de EDAD; hist()

  • Determinar los casos POSITIVO O CONFIRMADOS.
  • POSITIVO == 1 o sea los CONFIRMADOS
positivo.COVID <- filter(datos.covid, RESULTADO == '1') 
  • Se hacen las gráficas mediante ggplot()
ggplot(positivo.COVID, aes(EDAD)) +
    geom_histogram(position = "stack", bins = 30)

b. Determinar tabla de frecuencias de EDADES

Un tip… … No potenciación 10e. No Notación Científica. options(scipen = 999)

options(scipen = 999) # Para que no se expresen los números en notación científica
frecuencia.edades <- fdt(positivo.COVID$EDAD)
frecuencia.edades <- data.frame(frecuencia.edades$table)
frecuencia.edades
##         Class.limits     f             rf         rf...     cf       cf...
## 1        [0,5.67524)  4376 0.006758228096  0.6758228096   4376   0.6758228
## 2  [5.67524,11.3505)  4461 0.006889500808  0.6889500808   8837   1.3647729
## 3  [11.3505,17.0257)  9231 0.014256216535  1.4256216535  18068   2.7903945
## 4   [17.0257,22.701) 22888 0.035347880409  3.5347880409  40956   6.3251826
## 5   [22.701,28.3762) 67228 0.103825904585 10.3825904585 108184  16.7077730
## 6  [28.3762,34.0514) 85980 0.132786209261 13.2786209261 194164  29.9863940
## 7  [34.0514,39.7267) 72240 0.111566361445 11.1566361445 266404  41.1430301
## 8  [39.7267,45.4019) 83610 0.129126017170 12.9126017170 350014  54.0556318
## 9  [45.4019,51.0771) 82162 0.126889747910 12.6889747910 432176  66.7446066
## 10 [51.0771,56.7524) 58295 0.090029914735  9.0029914735 490471  75.7475981
## 11 [56.7524,62.4276) 56119 0.086669333305  8.6669333305 546590  84.4145314
## 12 [62.4276,68.1029) 40940 0.063227115691  6.3227115691 587530  90.7372430
## 13 [68.1029,73.7781) 23978 0.037031259894  3.7031259894 611508  94.4403690
## 14 [73.7781,79.4533) 19197 0.029647555934  2.9647555934 630705  97.4051246
## 15 [79.4533,85.1286) 10968 0.016938813017  1.6938813017 641673  99.0990059
## 16 [85.1286,90.8038)  4115 0.006355143651  0.6355143651 645788  99.7345202
## 17  [90.8038,96.479)  1400 0.002162138788  0.2162138788 647188  99.9507341
## 18  [96.479,102.154)   286 0.000441694067  0.0441694067 647474  99.9949035
## 19  [102.154,107.83)    25 0.000038609621  0.0038609621 647499  99.9987645
## 20  [107.83,113.505)     3 0.000004633155  0.0004633155 647502  99.9992278
## 21  [113.505,119.18)     5 0.000007721924  0.0007721924 647507 100.0000000
ggplot(frecuencia.edades, aes(1:21, rf, fill=Class.limits)) +
        geom_bar(stat = "identity")

c. Determinar frecuencias por género o sexo

frecuencia.sexo <- fdt_cat(positivo.COVID$SEXO)
frecuencia.sexo <- data.frame(frecuencia.sexo)
frecuencia.sexo
##   Category      f        rf    rf...     cf     cf...
## 1        2 338337 0.5225225 52.25225 338337  52.25225
## 2        1 309170 0.4774775 47.74775 647507 100.00000
  • Gráfica de Barra
  • ¿Qué significa 1 y 2?
  • 1 MUJER
  • 2 HOMBRE
ggplot(frecuencia.sexo, aes(Category, rf, fill=Category)) +
        geom_bar(stat = "identity")

d. Determinar tablas de frecuencias por estados de REP MEXICANA.

  • Por ENTIDAD_RES Significa Entidad de Residencia
  • CLAVE_ENTIDAD ENTIDAD_FEDERATIVA ABREVIATURA
  • 01 AGUASCALIENTES AS
  • 02 BAJA CALIFORNIA BC
  • 03 BAJA CALIFORNIA SUR BS
  • 04 CAMPECHE CC
  • 05 COAHUILA DE ZARAGOZA CL
  • 06 COLIMA CM
  • 07 CHIAPAS CS
  • 08 CHIHUAHUA CH
  • 09 CIUDAD DE MÉXICO DF
  • 10 DURANGO DG
  • 11 GUANAJUATO GT
  • 12 GUERRERO GR
  • 13 HIDALGO HG
  • 14 JALISCO JC
  • 15 MÉXICO MC
  • 16 MICHOACÁN DE OCAMPO MN
  • 17 MORELOS MS
  • 18 NAYARIT NT
  • 19 NUEVO LEÓN NL
  • 20 OAXACA OC
  • 21 PUEBLA PL
  • 22 QUERÉTARO QT
  • 23 QUINTANA ROO QR
  • 24 SAN LUIS POTOSÍ SP
  • 25 SINALOA SL
  • 26 SONORA SR
  • 27 TABASCO TC
  • 28 TAMAULIPAS TS
  • 29 TLAXCALA TL
  • 30 VERACRUZ DE IGNACIO DE LA LLAVE VZ
  • 31 YUCATÁN YN
  • 32 ZACATECAS ZS 36 ESTADOS UNIDOS MEXICANOS EUM 97 NO APLICA NA 98 SE IGNORA SI 99 NO ESPECIFICADO NE
frecuencia.estado <- fdt_cat(positivo.COVID$ENTIDAD_RES)
frecuencia.estado <- data.frame(frecuencia.estado)
frecuencia.estado
##    Category      f          rf      rf...     cf     cf...
## 1         9 107613 0.166195887 16.6195887 107613  16.61959
## 2        15  71994 0.111186443 11.1186443 179607  27.73823
## 3        11  35182 0.054334548  5.4334548 214789  33.17169
## 4        19  32317 0.049909885  4.9909885 247106  38.16268
## 5        30  30077 0.046450463  4.6450463 277183  42.80772
## 6        27  29601 0.045715336  4.5715336 306784  47.37926
## 7        21  28426 0.043900684  4.3900684 335210  51.76932
## 8        28  26159 0.040399563  4.0399563 361369  55.80928
## 9         5  23440 0.036200381  3.6200381 384809  59.42932
## 10       26  22601 0.034904642  3.4904642 407410  62.91978
## 11       14  22369 0.034546345  3.4546345 429779  66.37442
## 12       24  20000 0.030887697  3.0887697 449779  69.46319
## 13        2  17870 0.027598157  2.7598157 467649  72.22300
## 14       25  16996 0.026248365  2.6248365 484645  74.84784
## 15       16  16840 0.026007441  2.6007441 501485  77.44858
## 16       31  16013 0.024730235  2.4730235 517498  79.92161
## 17       12  15950 0.024632938  2.4632938 533448  82.38490
## 18       20  14499 0.022392036  2.2392036 547947  84.62410
## 19       13  11113 0.017162749  1.7162749 559060  86.34038
## 20       23  10872 0.016790552  1.6790552 569932  88.01943
## 21        8   8663 0.013379006  1.3379006 578595  89.35734
## 22        3   8529 0.013172058  1.3172058 587124  90.67454
## 23       22   7298 0.011270921  1.1270921 594422  91.80163
## 24       10   7295 0.011266287  1.1266287 601717  92.92826
## 25       29   6751 0.010426142  1.0426142 608468  93.97088
## 26        7   6341 0.009792944  0.9792944 614809  94.95017
## 27        1   6147 0.009493334  0.9493334 620956  95.89950
## 28       32   6017 0.009292564  0.9292564 626973  96.82876
## 29        4   5744 0.008870947  0.8870947 632717  97.71585
## 30       17   5442 0.008404542  0.8404542 638159  98.55631
## 31       18   5312 0.008203772  0.8203772 643471  99.37669
## 32        6   4036 0.006233137  0.6233137 647507 100.00000
  • Gráfica de Barra
  • ¿Qué significa 01,02, 03…32?
ggplot(frecuencia.estado, aes(Category, rf, fill=Category)) + geom_bar(stat = "identity")

e. Determinar tablas de frecuencias de POSITIVOS NO POSITIVOS

  • Primero determinar el valor de los casos POSITIVOS
  • Segundo determinar el valor de los casos NEGATIVOS
  • La variable de interés es RESULTADO del conjunto de datos original datos.covid
CLAVE DESCRIPCIÓN
1 Positivo SARS-CoV-2
2 No positivo SARS-CoV-2
3 Resultado pendiente
  • Por medio de funciones group_by(), summarize() y pipes %>% combinadas como parte de la librerías dplyr
tabla.frecuencia.RESULTADOS <- datos.covid %>%
  group_by(RESULTADO) %>%
  summarise(frecuencia = n())
## `summarise()` ungrouping output (override with `.groups` argument)
tabla.frecuencia.RESULTADOS
## # A tibble: 3 x 2
##   RESULTADO frecuencia
##   <fct>          <int>
## 1 1             647507
## 2 2             734649
## 3 3              83537
  • O por medio e fdt_cat() de la la librería fdth
  • La función data.frame() conviertes a conjunto de datos del tipo data.frame la tabla generada por fdt_cat()
  • La función names() cambia los nombres a columnas del data.fame
tabla.frecuencia.RESULTADOS.2 <- data.frame(fdt_cat(datos.covid$RESULTADO))

names(tabla.frecuencia.RESULTADOS.2) <- c("Resultado", "Freq", "Freq.rel", "Freq.porc","Freq.acum", "Freq.acum.porc")
tabla.frecuencia.RESULTADOS.2
##   Resultado   Freq   Freq.rel Freq.porc Freq.acum Freq.acum.porc
## 1         2 734649 0.50122979 50.122979    734649       50.12298
## 2         1 647507 0.44177532 44.177532   1382156       94.30051
## 3         3  83537 0.05699488  5.699488   1465693      100.00000
  • Visualizar gráfica de barra usando funciones de ggplot2
ggplot(data = tabla.frecuencia.RESULTADOS.2, aes(Resultado, Freq.porc, fill=Resultado)) +
    geom_bar(stat = "identity")

f. Determinar tablas de frecuencias de AMBULATORIOS Y HOSPITALIZADOS

  • La variable de interés es TIPO_PACIENTE
CLAVE DESCRIPCIÓN
1 AMBULATORIO
2 HOSPITALIZADO
99 NO ESPECIFICADO
tabla.frecuencia.TIPO_PACIENTE <- data.frame(fdt_cat(datos.covid$TIPO_PACIENTE))

names(tabla.frecuencia.TIPO_PACIENTE) <- c("Tipo", "Freq", "Freq.rel", "Freq.porc","Freq.acum", "Freq.acum.porc")
tabla.frecuencia.TIPO_PACIENTE
##   Tipo    Freq  Freq.rel Freq.porc Freq.acum Freq.acum.porc
## 1    1 1208690 0.8246543  82.46543   1208690       82.46543
## 2    2  257003 0.1753457  17.53457   1465693      100.00000
  • Visualizar gráfica de barra usando funciones de ggplot2
ggplot(data = tabla.frecuencia.TIPO_PACIENTE, aes(x = Tipo, 
                                                  y = Freq.porc, fill=Tipo)) +
    geom_bar(stat = "identity") +
         geom_text(aes(label=Freq))

g. Determinar tablas de frecuencias de DECESOS

  • La variable de interés es…FECHA_DEF
  • A través de la función mutate() generar una nueva variable llamada DECESO que significa SI fallecidos o NO fallecidos
datos.covid <- datos.covid %>%
  mutate(DECESO = ifelse(is.na(FECHA_DEF), 'NO', 'SI'))

tabla.frecuencia.DECESO <- data.frame(fdt_cat(datos.covid$DECESO))

names(tabla.frecuencia.DECESO) <- c("Deceso", "Freq", "Freq.rel", "Freq.porc","Freq.acum", "Freq.acum.porc")
tabla.frecuencia.DECESO
##   Deceso    Freq   Freq.rel Freq.porc Freq.acum Freq.acum.porc
## 1     NO 1377463 0.93980322 93.980322   1377463       93.98032
## 2     SI   88230 0.06019678  6.019678   1465693      100.00000
  • Visualizar la frecuencia de DECESO
ggplot(data = tabla.frecuencia.DECESO, aes(x = Deceso, 
                                                  y = Freq.porc, fill=Deceso)) +
    geom_bar(stat = "identity") +
         geom_text(aes(label=Freq))

h. Determinar tablas de frecuencias de UCI

  • Pendiente

i. Determinar frecuencias por meses

  • Se cagarán unicamente los datos de POSITIVOS. positivo.COVID
  • La variable de interés es FECHA_INGRESO
meses <- month(positivo.COVID$FECHA_INGRESO)
# meses

tabla.frecuencia.MESES <- data.frame(fdt_cat(as.character(meses)))

names(tabla.frecuencia.MESES) <- c("Mes", "Freq", "Freq.rel", "Freq.porc","Freq.acum", "Freq.acum.porc")

tabla.frecuencia.MESES
##   Mes   Freq      Freq.rel    Freq.porc Freq.acum Freq.acum.porc
## 1   7 199172 0.30759821902 30.759821902    199172       30.75982
## 2   8 154813 0.23909085153 23.909085153    353985       54.66891
## 3   6 152882 0.23610864439 23.610864439    506867       78.27977
## 4   5  86513 0.13360936639 13.360936639    593380       91.64071
## 5   4  26562 0.04102195034  4.102195034    619942       95.74290
## 6   9  25025 0.03864823083  3.864823083    644967       99.60773
## 7   3   2530 0.00390729367  0.390729367    647497       99.99846
## 8   2      8 0.00001235508  0.001235508    647505       99.99969
## 9   1      2 0.00000308877  0.000308877    647507      100.00000
  • Visualizar lineal los datos de POSITIVOS en meses
ggplot(data = tabla.frecuencia.MESES, aes(x = Mes, y = Freq)) +
  geom_bar(stat = "identity")

7. Interpretación de los análisis de acuerdo a los datos

  • De las respuestas a las preguntas realizar una descripción de texto libre con ideas claras y secuenciales de entre 170 y 200 palabras