CASO2 COVID19

Objetivo: Analizar conjunto de registros de personas posibles resultados de CORONAVIRUS.

Descripción:

En el portal de datos abiertos: https://www.gob.mx/salud/documentos/datos-abiertos-152127 se encuentra la base de datos de registros de personas que acuden a Instituciones de Salubridad para realizarse un diagnóstico sobre su estado de salud en relación a la enfermedad de Coronavirus.

Cargar Librerias

Identificar las librerías necesarias de R par el CASO: readr dplyr; lubridate, fdth, ggplot

library(readr)      # Cargar datos csv
library(fdth)       # Tablas de frecuencias

## 
## Attaching package: 'fdth'

## The following objects are masked from 'package:stats':
## 
##     sd, var

library(dplyr)      # Filtros, Select, mutate arrange, grou_by, summarize, %>%

## 
## Attaching package: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

library(lubridate)  # Para manejo de fechas

## 
## Attaching package: 'lubridate'

## The following objects are masked from 'package:base':
## 
##     date, intersect, setdiff, union

library(ggplot2)

####Cargar Datos covid

datos.covid <-read.csv('C:/Users/Blue/Documents/CD.csv')

Visualizacion datos

summary(datos.covid)

##  FECHA_ACTUALIZACION ID_REGISTRO            ORIGEN          SECTOR      
##  Length:1465693      Length:1465693     Min.   :1.000   Min.   : 1.000  
##  Class :character    Class :character   1st Qu.:1.000   1st Qu.: 4.000  
##  Mode  :character    Mode  :character   Median :2.000   Median :12.000  
##                                         Mean   :1.668   Mean   : 9.336  
##                                         3rd Qu.:2.000   3rd Qu.:12.000  
##                                         Max.   :2.000   Max.   :99.000  
##    ENTIDAD_UM         SEXO        ENTIDAD_NAC     ENTIDAD_RES   
##  Min.   : 1.00   Min.   :1.000   Min.   : 1.00   Min.   : 1.00  
##  1st Qu.: 9.00   1st Qu.:1.000   1st Qu.: 9.00   1st Qu.: 9.00  
##  Median :14.00   Median :1.000   Median :15.00   Median :15.00  
##  Mean   :15.55   Mean   :1.492   Mean   :16.35   Mean   :15.79  
##  3rd Qu.:22.00   3rd Qu.:2.000   3rd Qu.:24.00   3rd Qu.:22.00  
##  Max.   :32.00   Max.   :2.000   Max.   :99.00   Max.   :32.00  
##  MUNICIPIO_RES   TIPO_PACIENTE   FECHA_INGRESO      FECHA_SINTOMAS    
##  Min.   :  1.0   Min.   :1.000   Length:1465693     Length:1465693    
##  1st Qu.:  8.0   1st Qu.:1.000   Class :character   Class :character  
##  Median : 20.0   Median :1.000   Mode  :character   Mode  :character  
##  Mean   : 37.2   Mean   :1.175                                        
##  3rd Qu.: 46.0   3rd Qu.:1.000                                        
##  Max.   :999.0   Max.   :2.000                                        
##   FECHA_DEF            INTUBADO        NEUMONIA           EDAD      
##  Length:1465693     Min.   : 1.00   Min.   : 1.000   Min.   :  0.0  
##  Class :character   1st Qu.:97.00   1st Qu.: 2.000   1st Qu.: 30.0  
##  Mode  :character   Median :97.00   Median : 2.000   Median : 41.0  
##                     Mean   :80.33   Mean   : 1.873   Mean   : 42.2  
##                     3rd Qu.:97.00   3rd Qu.: 2.000   3rd Qu.: 53.0  
##                     Max.   :99.00   Max.   :99.000   Max.   :120.0  
##   NACIONALIDAD      EMBARAZO     HABLA_LENGUA_INDIG    DIABETES     
##  Min.   :1.000   Min.   : 1.00   Min.   : 1.00      Min.   : 1.000  
##  1st Qu.:1.000   1st Qu.: 2.00   1st Qu.: 2.00      1st Qu.: 2.000  
##  Median :1.000   Median : 2.00   Median : 2.00      Median : 2.000  
##  Mean   :1.005   Mean   :49.05   Mean   : 5.44      Mean   : 2.161  
##  3rd Qu.:1.000   3rd Qu.:97.00   3rd Qu.: 2.00      3rd Qu.: 2.000  
##  Max.   :2.000   Max.   :98.00   Max.   :99.00      Max.   :98.000  
##       EPOC             ASMA           INMUSUPR       HIPERTENSION   
##  Min.   : 1.000   Min.   : 1.000   Min.   : 1.000   Min.   : 1.000  
##  1st Qu.: 2.000   1st Qu.: 2.000   1st Qu.: 2.000   1st Qu.: 2.000  
##  Median : 2.000   Median : 2.000   Median : 2.000   Median : 2.000  
##  Mean   : 2.238   Mean   : 2.222   Mean   : 2.258   Mean   : 2.104  
##  3rd Qu.: 2.000   3rd Qu.: 2.000   3rd Qu.: 2.000   3rd Qu.: 2.000  
##  Max.   :98.000   Max.   :98.000   Max.   :98.000   Max.   :98.000  
##     OTRA_COM      CARDIOVASCULAR      OBESIDAD      RENAL_CRONICA   
##  Min.   : 1.000   Min.   : 1.000   Min.   : 1.000   Min.   : 1.000  
##  1st Qu.: 2.000   1st Qu.: 2.000   1st Qu.: 2.000   1st Qu.: 2.000  
##  Median : 2.000   Median : 2.000   Median : 2.000   Median : 2.000  
##  Mean   : 2.382   Mean   : 2.237   Mean   : 2.096   Mean   : 2.235  
##  3rd Qu.: 2.000   3rd Qu.: 2.000   3rd Qu.: 2.000   3rd Qu.: 2.000  
##  Max.   :98.000   Max.   :98.000   Max.   :98.000   Max.   :98.000  
##    TABAQUISMO       OTRO_CASO       RESULTADO        MIGRANTE    
##  Min.   : 1.000   Min.   : 1.00   Min.   :1.000   Min.   : 1.00  
##  1st Qu.: 2.000   1st Qu.: 1.00   1st Qu.:1.000   1st Qu.:99.00  
##  Median : 2.000   Median : 2.00   Median :2.000   Median :99.00  
##  Mean   : 2.189   Mean   :15.81   Mean   :1.615   Mean   :98.64  
##  3rd Qu.: 2.000   3rd Qu.: 2.00   3rd Qu.:2.000   3rd Qu.:99.00  
##  Max.   :98.000   Max.   :99.00   Max.   :3.000   Max.   :99.00  
##  PAIS_NACIONALIDAD  PAIS_ORIGEN             UCI       
##  Length:1465693     Length:1465693     Min.   : 1.00  
##  Class :character   Class :character   1st Qu.:97.00  
##  Mode  :character   Mode  :character   Median :97.00  
##                                        Mean   :80.34  
##                                        3rd Qu.:97.00  
##                                        Max.   :99.00

str(datos.covid)

## 'data.frame':    1465693 obs. of  35 variables:
##  $ FECHA_ACTUALIZACION: chr  "2020-09-09" "2020-09-09" "2020-09-09" "2020-09-09" ...
##  $ ID_REGISTRO        : chr  "0fa3df" "04b5e9" "005e0d" "12667d" ...
##  $ ORIGEN             : int  2 2 2 2 2 2 2 2 2 2 ...
##  $ SECTOR             : int  3 4 4 4 4 4 3 4 4 4 ...
##  $ ENTIDAD_UM         : int  15 15 30 9 9 15 8 13 30 21 ...
##  $ SEXO               : int  2 2 2 1 2 1 1 1 2 2 ...
##  $ ENTIDAD_NAC        : int  15 15 30 9 9 9 8 13 30 21 ...
##  $ ENTIDAD_RES        : int  15 15 30 9 9 15 8 13 30 21 ...
##  $ MUNICIPIO_RES      : int  115 62 193 5 13 104 37 56 193 114 ...
##  $ TIPO_PACIENTE      : int  1 2 1 1 1 1 1 2 2 2 ...
##  $ FECHA_INGRESO      : chr  "2020-06-15" "2020-04-13" "2020-04-16" "2020-03-29" ...
##  $ FECHA_SINTOMAS     : chr  "2020-06-10" "2020-04-06" "2020-04-09" "2020-03-23" ...
##  $ FECHA_DEF          : chr  "9999-99-99" "2020-04-15" "9999-99-99" "9999-99-99" ...
##  $ INTUBADO           : int  97 2 97 97 97 97 97 2 2 2 ...
##  $ NEUMONIA           : int  1 1 2 2 2 2 2 1 1 2 ...
##  $ EDAD               : int  48 26 40 33 29 46 47 46 73 80 ...
##  $ NACIONALIDAD       : int  1 1 1 1 1 1 1 1 1 1 ...
##  $ EMBARAZO           : int  97 97 97 2 97 2 2 2 97 97 ...
##  $ HABLA_LENGUA_INDIG : int  2 2 2 2 1 2 2 2 2 2 ...
##  $ DIABETES           : int  2 2 1 2 2 2 2 2 2 2 ...
##  $ EPOC               : int  2 2 2 2 2 2 2 2 2 2 ...
##  $ ASMA               : int  2 2 2 2 2 2 2 2 2 2 ...
##  $ INMUSUPR           : int  2 2 2 2 2 2 2 2 2 2 ...
##  $ HIPERTENSION       : int  1 2 1 2 2 2 1 1 2 2 ...
##  $ OTRA_COM           : int  2 2 2 2 2 2 2 1 2 2 ...
##  $ CARDIOVASCULAR     : int  2 2 2 2 2 2 2 2 2 2 ...
##  $ OBESIDAD           : int  2 1 1 2 2 2 1 2 2 1 ...
##  $ RENAL_CRONICA      : int  2 2 2 2 2 2 2 1 2 2 ...
##  $ TABAQUISMO         : int  2 2 2 2 2 2 2 2 2 2 ...
##  $ OTRO_CASO          : int  2 99 99 1 1 1 1 99 99 99 ...
##  $ RESULTADO          : int  1 1 1 1 1 1 1 1 1 1 ...
##  $ MIGRANTE           : int  99 99 99 99 99 99 99 99 99 99 ...
##  $ PAIS_NACIONALIDAD  : chr  "MÃ©xico" "MÃ©xico" "MÃ©xico" "MÃ©xico" ...
##  $ PAIS_ORIGEN        : chr  "99" "99" "99" "99" ...
##  $ UCI                : int  97 2 97 97 97 97 97 2 2 2 ...

Limpieza de datos

Modificar los tipos de datos de aquellos que datos que deban ser categóricos (factor()) y traen consigo valores numéricos.

Modificar los atributos tipo fecha a ymd()

datos.covid$ORIGEN <- factor(datos.covid$ORIGEN)
datos.covid$SECTOR <- factor(datos.covid$SECTOR)
datos.covid$ENTIDAD_UM <- factor(datos.covid$ENTIDAD_UM)
datos.covid$SEXO <- factor(datos.covid$SEXO)
datos.covid$ENTIDAD_NAC <- factor(datos.covid$ENTIDAD_NAC)
datos.covid$ENTIDAD_RES <- factor(datos.covid$ENTIDAD_RES)

datos.covid$ENTIDAD_RES <- factor(datos.covid$ENTIDAD_RES)
datos.covid$MUNICIPIO_RES <- factor(datos.covid$MUNICIPIO_RES)
datos.covid$TIPO_PACIENTE <- factor(datos.covid$TIPO_PACIENTE)

datos.covid$NACIONALIDAD <- factor(datos.covid$NACIONALIDAD)
datos.covid$HABLA_LENGUA_INDIG <- factor(datos.covid$HABLA_LENGUA_INDIG)
datos.covid$MIGRANTE <- factor(datos.covid$MIGRANTE)
datos.covid$PAIS_ORIGEN <- factor(datos.covid$PAIS_ORIGEN)

# Cambiar fecha. Aquí es donde actúa la librería lubridate 
# para habilitar la función ymd() de esa librería


datos.covid$FECHA_ACTUALIZACION <-ymd(datos.covid$FECHA_ACTUALIZACION)
datos.covid$FECHA_INGRESO <- ymd(datos.covid$FECHA_INGRESO)
datos.covid$FECHA_SINTOMAS <- ymd(datos.covid$FECHA_SINTOMAS)
datos.covid$FECHA_DEF <- ymd(datos.covid$FECHA_DEF)

## Warning: 1377463 failed to parse.

# Diagnóstico de enfermedadades o condición clinica

datos.covid$INTUBADO <- factor(datos.covid$INTUBADO)
datos.covid$NEUMONIA <- factor(datos.covid$NEUMONIA)
datos.covid$EMBARAZO <- factor(datos.covid$EMBARAZO)
datos.covid$DIABETES <- factor(datos.covid$DIABETES)
datos.covid$EPOC <- factor(datos.covid$EPOC)
datos.covid$ASMA <- factor(datos.covid$ASMA)
datos.covid$INMUSUPR <- factor(datos.covid$INMUSUPR)
datos.covid$HIPERTENSION <- factor(datos.covid$HIPERTENSION)
datos.covid$OTRA_COM <- factor(datos.covid$OTRA_COM)
datos.covid$CARDIOVASCULAR <- factor(datos.covid$CARDIOVASCULAR)
datos.covid$OBESIDAD <- factor(datos.covid$OBESIDAD)
datos.covid$RENAL_CRONICA <- factor(datos.covid$RENAL_CRONICA)
datos.covid$TABAQUISMO <- factor(datos.covid$TABAQUISMO)
datos.covid$OTRO_CASO <- factor(datos.covid$OTRO_CASO)

# Resultado
datos.covid$RESULTADO <- factor(datos.covid$RESULTADO)
datos.covid$UCI <- factor(datos.covid$UCI)

Descripción de los datos después de limpieza de los datos

Existe difetencia en la exploración de los datos antes y después de limpie

summary(datos.covid)

##  FECHA_ACTUALIZACION  ID_REGISTRO        ORIGEN         SECTOR      
##  Min.   :2020-09-09   Length:1465693     1:486628   12     :912162  
##  1st Qu.:2020-09-09   Class :character   2:979065   4      :376524  
##  Median :2020-09-09   Mode  :character              6      : 55449  
##  Mean   :2020-09-09                                 9      : 54262  
##  3rd Qu.:2020-09-09                                 3      : 26622  
##  Max.   :2020-09-09                                 8      : 12665  
##                                                     (Other): 28009  
##    ENTIDAD_UM     SEXO        ENTIDAD_NAC      ENTIDAD_RES    
##  9      :355169   1:744869   9      :318376   9      :301109  
##  15     :129322   2:720824   15     :163016   15     :179873  
##  11     : 83524              11     : 79886   11     : 83483  
##  19     : 76065              30     : 64546   19     : 75448  
##  21     : 63794              19     : 62336   21     : 61943  
##  28     : 60188              21     : 61458   28     : 60099  
##  (Other):697631              (Other):716075   (Other):703738  
##  MUNICIPIO_RES     TIPO_PACIENTE FECHA_INGRESO        FECHA_SINTOMAS      
##  7      :  64455   1:1208690     Min.   :2020-01-01   Min.   :2020-01-01  
##  5      :  63170   2: 257003     1st Qu.:2020-06-09   1st Qu.:2020-06-05  
##  4      :  55368                 Median :2020-07-11   Median :2020-07-07  
##  39     :  52435                 Mean   :2020-07-06   Mean   :2020-07-03  
##  2      :  51993                 3rd Qu.:2020-08-10   3rd Qu.:2020-08-05  
##  17     :  43949                 Max.   :2020-09-09   Max.   :2020-09-09  
##  (Other):1134323                                                          
##    FECHA_DEF          INTUBADO     NEUMONIA          EDAD       NACIONALIDAD
##  Min.   :2020-01-13   1 :  39263   1 : 187398   Min.   :  0.0   1:1458956   
##  1st Qu.:2020-06-01   2 : 217550   2 :1278276   1st Qu.: 30.0   2:   6737   
##  Median :2020-07-02   97:1208690   99:     19   Median : 41.0               
##  Mean   :2020-06-30   99:    190                Mean   : 42.2               
##  3rd Qu.:2020-07-31                             3rd Qu.: 53.0               
##  Max.   :2020-09-09                             Max.   :120.0               
##  NA's   :1377463                                                            
##  EMBARAZO    HABLA_LENGUA_INDIG DIABETES     EPOC         ASMA        
##  1 : 11898   1 :  12374         1 : 179106   1 :  19463   1 :  42192  
##  2 :727762   2 :1401213         2 :1282260   2 :1442399   2 :1419674  
##  97:720824   99:  52106         98:   4327   98:   3831   98:   3827  
##  98:  5209                                                            
##                                                                       
##                                                                       
##                                                                       
##  INMUSUPR     HIPERTENSION OTRA_COM     CARDIOVASCULAR OBESIDAD    
##  1 :  18431   1 : 235843   1 :  36075   1 :  28475     1 : 227973  
##  2 :1443137   2 :1225813   2 :1423417   2 :1433296     2 :1233876  
##  98:   4125   98:   4037   98:   6201   98:   3922     98:   3844  
##                                                                    
##                                                                    
##                                                                    
##                                                                    
##  RENAL_CRONICA TABAQUISMO   OTRO_CASO   RESULTADO  MIGRANTE    
##  1 :  25879    1 : 119326   1 :711206   1:647507   1 :   1505  
##  2 :1435957    2 :1342239   2 :538453   2:734649   2 :   3991  
##  98:   3857    98:   4128   99:216034   3: 83537   99:1460197  
##                                                                
##                                                                
##                                                                
##                                                                
##  PAIS_NACIONALIDAD                     PAIS_ORIGEN      UCI         
##  Length:1465693     99                       :1464188   1 :  21962  
##  Class :character   Estados Unidos de América:    234   2 : 234841  
##  Mode  :character   República de Honduras    :    164   97:1208690  
##                     Venezuela                :    151   99:    200  
##                     Colombia                 :    143               
##                     Cuba                     :    140               
##                     (Other)                  :    673

Análisis de los datos

a. Construir el histograma de CONFIRMADOS de EDAD

Determinar los casos POSITIVO O CONFIRMADOS

POSITIVO == 1 o sea los CONFIRMADOS

positivo.COVID <- filter(datos.covid, RESULTADO == '1')

Se hacen las gráficas mediante ggplot()

ggplot(positivo.COVID, aes(EDAD)) +
    geom_histogram(position = "stack", bins = 30)

b. Determinar tabla de frecuencias de EDADES

options(scipen = 999)
frecuencia.edades <- fdt(positivo.COVID$EDAD)
frecuencia.edades <- data.frame(frecuencia.edades$table)
frecuencia.edades

##         Class.limits     f             rf         rf...     cf       cf...
## 1        [0,5.67524)  4376 0.006758228096  0.6758228096   4376   0.6758228
## 2  [5.67524,11.3505)  4461 0.006889500808  0.6889500808   8837   1.3647729
## 3  [11.3505,17.0257)  9231 0.014256216535  1.4256216535  18068   2.7903945
## 4   [17.0257,22.701) 22888 0.035347880409  3.5347880409  40956   6.3251826
## 5   [22.701,28.3762) 67228 0.103825904585 10.3825904585 108184  16.7077730
## 6  [28.3762,34.0514) 85980 0.132786209261 13.2786209261 194164  29.9863940
## 7  [34.0514,39.7267) 72240 0.111566361445 11.1566361445 266404  41.1430301
## 8  [39.7267,45.4019) 83610 0.129126017170 12.9126017170 350014  54.0556318
## 9  [45.4019,51.0771) 82162 0.126889747910 12.6889747910 432176  66.7446066
## 10 [51.0771,56.7524) 58295 0.090029914735  9.0029914735 490471  75.7475981
## 11 [56.7524,62.4276) 56119 0.086669333305  8.6669333305 546590  84.4145314
## 12 [62.4276,68.1029) 40940 0.063227115691  6.3227115691 587530  90.7372430
## 13 [68.1029,73.7781) 23978 0.037031259894  3.7031259894 611508  94.4403690
## 14 [73.7781,79.4533) 19197 0.029647555934  2.9647555934 630705  97.4051246
## 15 [79.4533,85.1286) 10968 0.016938813017  1.6938813017 641673  99.0990059
## 16 [85.1286,90.8038)  4115 0.006355143651  0.6355143651 645788  99.7345202
## 17  [90.8038,96.479)  1400 0.002162138788  0.2162138788 647188  99.9507341
## 18  [96.479,102.154)   286 0.000441694067  0.0441694067 647474  99.9949035
## 19  [102.154,107.83)    25 0.000038609621  0.0038609621 647499  99.9987645
## 20  [107.83,113.505)     3 0.000004633155  0.0004633155 647502  99.9992278
## 21  [113.505,119.18)     5 0.000007721924  0.0007721924 647507 100.0000000

Diagrama de barra Frecuencias edades

ggplot(frecuencia.edades, aes(1:21, rf, fill=Class.limits)) +
        geom_bar(stat = "identity")

c. Determinar frecuencias por género o sexo

frecuencia.sexo <- fdt_cat(positivo.COVID$SEXO)
frecuencia.sexo <- data.frame(frecuencia.sexo)
frecuencia.sexo

##   Category      f        rf    rf...     cf     cf...
## 1        2 338337 0.5225225 52.25225 338337  52.25225
## 2        1 309170 0.4774775 47.74775 647507 100.00000

Gráfica de Barra

¿Qué significa 1 y 2?

1 MUJER

2 HOMBRE

ggplot(frecuencia.sexo, aes(Category, rf, fill=Category)) +
        geom_bar(stat = "identity")

d. Determinar tablas de frecuencias por estados de REP MEXICANA

Por ENTIDAD_RES Significa Entidad de Residencia

CLAVE_ENTIDAD ENTIDAD_FEDERATIVA ABREVIATURA

01 AGUASCALIENTES AS

02 BAJA CALIFORNIA BC

03 BAJA CALIFORNIA SUR BS

04 CAMPECHE CC

05 COAHUILA DE ZARAGOZA CL

06 COLIMA CM

07 CHIAPAS CS

08 CHIHUAHUA CH

09 CIUDAD DE MÉXICO DF

10 DURANGO DG

11 GUANAJUATO GT

12 GUERRERO GR

13 HIDALGO HG

14 JALISCO JC

15 MÉXICO MC

16 MICHOACÁN DE OCAMPO MN

17 MORELOS MS

18 NAYARIT NT

19 NUEVO LEÓN NL

20 OAXACA OC

21 PUEBLA PL

22 QUERÉTARO QT

23 QUINTANA ROO QR

24 SAN LUIS POTOSÍ SP

25 SINALOA SL

26 SONORA SR

27 TABASCO TC

28 TAMAULIPAS TS

29 TLAXCALA TL

30 VERACRUZ DE IGNACIO DE LA LLAVE VZ

31 YUCATÁN YN

32 ZACATECAS ZS

36 ESTADOS UNIDOS MEXICANOS

frecuencia.estado <- fdt_cat(positivo.COVID$ENTIDAD_RES)
frecuencia.estado <- data.frame(frecuencia.estado)
frecuencia.estado

##    Category      f          rf      rf...     cf     cf...
## 1         9 107613 0.166195887 16.6195887 107613  16.61959
## 2        15  71994 0.111186443 11.1186443 179607  27.73823
## 3        11  35182 0.054334548  5.4334548 214789  33.17169
## 4        19  32317 0.049909885  4.9909885 247106  38.16268
## 5        30  30077 0.046450463  4.6450463 277183  42.80772
## 6        27  29601 0.045715336  4.5715336 306784  47.37926
## 7        21  28426 0.043900684  4.3900684 335210  51.76932
## 8        28  26159 0.040399563  4.0399563 361369  55.80928
## 9         5  23440 0.036200381  3.6200381 384809  59.42932
## 10       26  22601 0.034904642  3.4904642 407410  62.91978
## 11       14  22369 0.034546345  3.4546345 429779  66.37442
## 12       24  20000 0.030887697  3.0887697 449779  69.46319
## 13        2  17870 0.027598157  2.7598157 467649  72.22300
## 14       25  16996 0.026248365  2.6248365 484645  74.84784
## 15       16  16840 0.026007441  2.6007441 501485  77.44858
## 16       31  16013 0.024730235  2.4730235 517498  79.92161
## 17       12  15950 0.024632938  2.4632938 533448  82.38490
## 18       20  14499 0.022392036  2.2392036 547947  84.62410
## 19       13  11113 0.017162749  1.7162749 559060  86.34038
## 20       23  10872 0.016790552  1.6790552 569932  88.01943
## 21        8   8663 0.013379006  1.3379006 578595  89.35734
## 22        3   8529 0.013172058  1.3172058 587124  90.67454
## 23       22   7298 0.011270921  1.1270921 594422  91.80163
## 24       10   7295 0.011266287  1.1266287 601717  92.92826
## 25       29   6751 0.010426142  1.0426142 608468  93.97088
## 26        7   6341 0.009792944  0.9792944 614809  94.95017
## 27        1   6147 0.009493334  0.9493334 620956  95.89950
## 28       32   6017 0.009292564  0.9292564 626973  96.82876
## 29        4   5744 0.008870947  0.8870947 632717  97.71585
## 30       17   5442 0.008404542  0.8404542 638159  98.55631
## 31       18   5312 0.008203772  0.8203772 643471  99.37669
## 32        6   4036 0.006233137  0.6233137 647507 100.00000

Gráfica de Barra

ggplot(frecuencia.estado, aes(Category, rf, fill=Category)) + geom_bar(stat = "identity")

e. Determinar tablas de frecuencias de POSITIVOS NO POSITIVOS

Primero determinar el valor de los casos POSITIVOS

Segundo determinar el valor de los casos NEGATIVOS

La variable de interés es RESULTADO del conjunto de datos original datos.covid

1= Positivo SARS-CoV-2

2= Negativo SARS-CoV-2

3= Pendiente

Por medio de funciones group_by(), summarize() y pipes %>% combinadas como parte de la librerías dplyr

tabla.frecuencia.RESULTADOS <- datos.covid %>%
  group_by(RESULTADO) %>%
  summarise(frecuencia = n())

## `summarise()` ungrouping output (override with `.groups` argument)

tabla.frecuencia.RESULTADOS

## # A tibble: 3 x 2
##   RESULTADO frecuencia
##   <fct>          <int>
## 1 1             647507
## 2 2             734649
## 3 3              83537

O por medio e fdt_cat() de la la librería fdth

La función data.frame() conviertes a conjunto de datos del tipo data.frame la tabla generada por fdt_cat()

La función names() cambia los nombres a columnas del data.fame

tabla.frecuencia.RESULTADOS.2 <- data.frame(fdt_cat(datos.covid$RESULTADO))

names(tabla.frecuencia.RESULTADOS.2) <- c("Resultado", "Freq", "Freq.rel", "Freq.porc","Freq.acum", "Freq.acum.porc")
tabla.frecuencia.RESULTADOS.2

##   Resultado   Freq   Freq.rel Freq.porc Freq.acum Freq.acum.porc
## 1         2 734649 0.50122979 50.122979    734649       50.12298
## 2         1 647507 0.44177532 44.177532   1382156       94.30051
## 3         3  83537 0.05699488  5.699488   1465693      100.00000

Visualizar gráfica de barra usando funciones de ggplot2

ggplot(data = tabla.frecuencia.RESULTADOS.2, aes(Resultado, Freq.porc, fill=Resultado)) +
    geom_bar(stat = "identity")

f.Determinar tablas de frecuencias de AMBULATORIOS Y HOSPITALIZADOS

La variable de interés es TIPO_PACIENTE

1 = AMBULATORIO

2 = HOSPITALIZADO

3 = NO ESPECIFICADO

tabla.frecuencia.TIPO_PACIENTE <- data.frame(fdt_cat(datos.covid$TIPO_PACIENTE))

names(tabla.frecuencia.TIPO_PACIENTE) <- c("Tipo", "Freq", "Freq.rel", "Freq.porc","Freq.acum", "Freq.acum.porc")
tabla.frecuencia.TIPO_PACIENTE

##   Tipo    Freq  Freq.rel Freq.porc Freq.acum Freq.acum.porc
## 1    1 1208690 0.8246543  82.46543   1208690       82.46543
## 2    2  257003 0.1753457  17.53457   1465693      100.00000

Visualizar gráfica de barra usando funciones de ggplot2

ggplot(data = tabla.frecuencia.TIPO_PACIENTE, aes(x = Tipo, 
                                                  y = Freq.porc, fill=Tipo)) +
    geom_bar(stat = "identity") +
         geom_text(aes(label=Freq))

g.Determinar tablas de frecuencias de DECESOS

La variable de interés es…FECHA_DEF

A través de la función mutate() generar una nueva variable llamada DECESO que significa SI fallecidos o NO fallecidos

datos.covid <- datos.covid %>%
  mutate(DECESO = ifelse(is.na(FECHA_DEF), 'NO', 'SI'))

tabla.frecuencia.DECESO <- data.frame(fdt_cat(datos.covid$DECESO))

names(tabla.frecuencia.DECESO) <- c("Deceso", "Freq", "Freq.rel", "Freq.porc","Freq.acum", "Freq.acum.porc")
tabla.frecuencia.DECESO

##   Deceso    Freq   Freq.rel Freq.porc Freq.acum Freq.acum.porc
## 1     NO 1377463 0.93980322 93.980322   1377463       93.98032
## 2     SI   88230 0.06019678  6.019678   1465693      100.00000

Visualizar la frecuencia de DECESO

ggplot(data = tabla.frecuencia.DECESO, aes(x = Deceso, 
                                                  y = Freq.porc, fill=Deceso)) +
    geom_bar(stat = "identity") +
         geom_text(aes(label=Freq))

h. Determinar tablas de frecuencias de UCI

UCI se refiere a si el paciente requirió ingresar a una Unidad de Cuidados Intensivos

1 = SI

2 = NO

99 = Se ignora

97 = No aplica

tabla.frecuencia.UCI <- data.frame(fdt_cat(datos.covid$UCI))

names(tabla.frecuencia.UCI) <- c("UCI", "Freq", "Freq.rel", "Freq.porc","Freq.acum", "Freq.acum.porc")
tabla.frecuencia.UCI

##   UCI    Freq     Freq.rel   Freq.porc Freq.acum Freq.acum.porc
## 1  97 1208690 0.8246542762 82.46542762   1208690       82.46543
## 2   2  234841 0.1602252313 16.02252313   1443531       98.48795
## 3   1   21962 0.0149840383  1.49840383   1465493       99.98635
## 4  99     200 0.0001364542  0.01364542   1465693      100.00000

ggplot(data = tabla.frecuencia.UCI, aes(x = UCI, 
                                                  y = Freq.porc, fill=UCI)) +
    geom_bar(stat = "identity") +
         geom_text(aes(label=Freq))

i. Determinar frecuencias por meses

Se cagarán unicamente los datos de POSITIVOS. positivo.COVID

La variable de interés es FECHA_INGRESO

meses <- month(positivo.COVID$FECHA_INGRESO)
# meses

tabla.frecuencia.MESES <- data.frame(fdt_cat(as.character(meses)))

names(tabla.frecuencia.MESES) <- c("Mes", "Freq", "Freq.rel", "Freq.porc","Freq.acum", "Freq.acum.porc")

tabla.frecuencia.MESES

##   Mes   Freq      Freq.rel    Freq.porc Freq.acum Freq.acum.porc
## 1   7 199172 0.30759821902 30.759821902    199172       30.75982
## 2   8 154813 0.23909085153 23.909085153    353985       54.66891
## 3   6 152882 0.23610864439 23.610864439    506867       78.27977
## 4   5  86513 0.13360936639 13.360936639    593380       91.64071
## 5   4  26562 0.04102195034  4.102195034    619942       95.74290
## 6   9  25025 0.03864823083  3.864823083    644967       99.60773
## 7   3   2530 0.00390729367  0.390729367    647497       99.99846
## 8   2      8 0.00001235508  0.001235508    647505       99.99969
## 9   1      2 0.00000308877  0.000308877    647507      100.00000

Visualizar lineal los datos de POSITIVOS en meses

ggplot(data = tabla.frecuencia.MESES, aes(x = Mes, y = Freq)) +
  geom_bar(stat = "identity")

Interpretacion

De acuerdo con los datos analizados del covid 19 podemos sacar varios datos interesantes, ya que de los datos que tenemos estan atributos como fecha de actualizacion, entidad, sexo entre otros. Uno de los datos que observamos primeramente es que el rango de edad en el que es mas frecuente el covid es el de 28 a 34 años, tambien podemos notar en una de las graficas que el covid es mas frecuente en los hombres y el estado con mas casos positivos es el de la ciudad de mexico con 107,113 casos, en lo que respecta al numero de casos positivos y negativos al observar la grafica y tabla anteriormente vista nos damos cuenta de que hay 647507 casos positivos y 734649 negativos mientras que hay 83537 de resultado pendiente, en cuanto a las personas fallecidas tenemos 88,230 lamentablementa y representa un porcentaje de 6.01%, en cuestion de personas que requirieron cuidados intensivos por covid tenemos un total de 21,962 lo cual representa un porcentaje del 1.49%, por ultimo en los meses que mayor numero de casos hubo fueron julio y agosto con 199,172 y 154,813 respectivamente.

CASO2 COVID19

Najib Alejandro Loera Rodriguez

23/9/2020

Objetivo: Analizar conjunto de registros de personas posibles resultados de CORONAVIRUS.

Descripción:

En el portal de datos abiertos: https://www.gob.mx/salud/documentos/datos-abiertos-152127 se encuentra la base de datos de registros de personas que acuden a Instituciones de Salubridad para realizarse un diagnóstico sobre su estado de salud en relación a la enfermedad de Coronavirus.

Cargar Librerias

Identificar las librerías necesarias de R par el CASO: readr dplyr; lubridate, fdth, ggplot

Visualizacion datos

Limpieza de datos

Modificar los tipos de datos de aquellos que datos que deban ser categóricos (factor()) y traen consigo valores numéricos.

Modificar los atributos tipo fecha a ymd()

Descripción de los datos después de limpieza de los datos

Existe difetencia en la exploración de los datos antes y después de limpie

Análisis de los datos

a. Construir el histograma de CONFIRMADOS de EDAD

Determinar los casos POSITIVO O CONFIRMADOS

POSITIVO == 1 o sea los CONFIRMADOS

Se hacen las gráficas mediante ggplot()

b. Determinar tabla de frecuencias de EDADES

Diagrama de barra Frecuencias edades

c. Determinar frecuencias por género o sexo

Gráfica de Barra

¿Qué significa 1 y 2?

1 MUJER

2 HOMBRE

d. Determinar tablas de frecuencias por estados de REP MEXICANA

Por ENTIDAD_RES Significa Entidad de Residencia

CLAVE_ENTIDAD ENTIDAD_FEDERATIVA ABREVIATURA

01 AGUASCALIENTES AS

02 BAJA CALIFORNIA BC

03 BAJA CALIFORNIA SUR BS

04 CAMPECHE CC

05 COAHUILA DE ZARAGOZA CL

06 COLIMA CM

07 CHIAPAS CS

08 CHIHUAHUA CH

09 CIUDAD DE MÉXICO DF

10 DURANGO DG

11 GUANAJUATO GT

12 GUERRERO GR

13 HIDALGO HG

14 JALISCO JC

15 MÉXICO MC

16 MICHOACÁN DE OCAMPO MN

17 MORELOS MS

18 NAYARIT NT

19 NUEVO LEÓN NL

20 OAXACA OC

21 PUEBLA PL

22 QUERÉTARO QT

23 QUINTANA ROO QR

24 SAN LUIS POTOSÍ SP

25 SINALOA SL

26 SONORA SR

27 TABASCO TC

28 TAMAULIPAS TS

29 TLAXCALA TL

30 VERACRUZ DE IGNACIO DE LA LLAVE VZ

31 YUCATÁN YN

32 ZACATECAS ZS

36 ESTADOS UNIDOS MEXICANOS

Gráfica de Barra

e. Determinar tablas de frecuencias de POSITIVOS NO POSITIVOS

Primero determinar el valor de los casos POSITIVOS

Segundo determinar el valor de los casos NEGATIVOS

La variable de interés es RESULTADO del conjunto de datos original datos.covid

1= Positivo SARS-CoV-2

2= Negativo SARS-CoV-2

3= Pendiente

Por medio de funciones group_by(), summarize() y pipes %>% combinadas como parte de la librerías dplyr

O por medio e fdt_cat() de la la librería fdth

La función data.frame() conviertes a conjunto de datos del tipo data.frame la tabla generada por fdt_cat()

La función names() cambia los nombres a columnas del data.fame

Visualizar gráfica de barra usando funciones de ggplot2

f.Determinar tablas de frecuencias de AMBULATORIOS Y HOSPITALIZADOS

La variable de interés es TIPO_PACIENTE

1 = AMBULATORIO

2 = HOSPITALIZADO

3 = NO ESPECIFICADO