Caso 2 Covid

Descripción. En el portal de datos abiertos: https://www.gob.mx/salud/documentos/datos-abiertos-152127 se encuentra la base de datos de registros de personas que acuden a Instituciones de Salubridad para realizarse un diagnóstico sobre su estado de salud en relación a la enfermedad de Coronavirus.

1.Cargar Libreria

library(readr)      # Cargar datos csv
library(fdth)       # Tablas de frecuencias

## 
## Attaching package: 'fdth'

## The following objects are masked from 'package:stats':
## 
##     sd, var

library(dplyr)      # Filtros, Select, mutate, arrange, grou_by, summarize, %>%

## 
## Attaching package: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

library(lubridate)  # Para manejo de fechas

## 
## Attaching package: 'lubridate'

## The following objects are masked from 'package:base':
## 
##     date, intersect, setdiff, union

library(ggplot2)

Cargar los datos

getwd()

## [1] "C:/Users/Francisco Favela/Documents/FranciscoShark/Nube/Tecnologico Agosto - Diciembre 2020/Analisis Inteligentes De Datos/scrips"

datos.covid <- read.csv("200909COVID19MEXICO.csv",encoding = "UTF-8")

Exploración inicial de los datos antes de limpieza

summary(datos.covid)

##  FECHA_ACTUALIZACION ID_REGISTRO            ORIGEN          SECTOR      
##  Length:1465693      Length:1465693     Min.   :1.000   Min.   : 1.000  
##  Class :character    Class :character   1st Qu.:1.000   1st Qu.: 4.000  
##  Mode  :character    Mode  :character   Median :2.000   Median :12.000  
##                                         Mean   :1.668   Mean   : 9.336  
##                                         3rd Qu.:2.000   3rd Qu.:12.000  
##                                         Max.   :2.000   Max.   :99.000  
##    ENTIDAD_UM         SEXO        ENTIDAD_NAC     ENTIDAD_RES   
##  Min.   : 1.00   Min.   :1.000   Min.   : 1.00   Min.   : 1.00  
##  1st Qu.: 9.00   1st Qu.:1.000   1st Qu.: 9.00   1st Qu.: 9.00  
##  Median :14.00   Median :1.000   Median :15.00   Median :15.00  
##  Mean   :15.55   Mean   :1.492   Mean   :16.35   Mean   :15.79  
##  3rd Qu.:22.00   3rd Qu.:2.000   3rd Qu.:24.00   3rd Qu.:22.00  
##  Max.   :32.00   Max.   :2.000   Max.   :99.00   Max.   :32.00  
##  MUNICIPIO_RES   TIPO_PACIENTE   FECHA_INGRESO      FECHA_SINTOMAS    
##  Min.   :  1.0   Min.   :1.000   Length:1465693     Length:1465693    
##  1st Qu.:  8.0   1st Qu.:1.000   Class :character   Class :character  
##  Median : 20.0   Median :1.000   Mode  :character   Mode  :character  
##  Mean   : 37.2   Mean   :1.175                                        
##  3rd Qu.: 46.0   3rd Qu.:1.000                                        
##  Max.   :999.0   Max.   :2.000                                        
##   FECHA_DEF            INTUBADO        NEUMONIA           EDAD      
##  Length:1465693     Min.   : 1.00   Min.   : 1.000   Min.   :  0.0  
##  Class :character   1st Qu.:97.00   1st Qu.: 2.000   1st Qu.: 30.0  
##  Mode  :character   Median :97.00   Median : 2.000   Median : 41.0  
##                     Mean   :80.33   Mean   : 1.873   Mean   : 42.2  
##                     3rd Qu.:97.00   3rd Qu.: 2.000   3rd Qu.: 53.0  
##                     Max.   :99.00   Max.   :99.000   Max.   :120.0  
##   NACIONALIDAD      EMBARAZO     HABLA_LENGUA_INDIG    DIABETES     
##  Min.   :1.000   Min.   : 1.00   Min.   : 1.00      Min.   : 1.000  
##  1st Qu.:1.000   1st Qu.: 2.00   1st Qu.: 2.00      1st Qu.: 2.000  
##  Median :1.000   Median : 2.00   Median : 2.00      Median : 2.000  
##  Mean   :1.005   Mean   :49.05   Mean   : 5.44      Mean   : 2.161  
##  3rd Qu.:1.000   3rd Qu.:97.00   3rd Qu.: 2.00      3rd Qu.: 2.000  
##  Max.   :2.000   Max.   :98.00   Max.   :99.00      Max.   :98.000  
##       EPOC             ASMA           INMUSUPR       HIPERTENSION   
##  Min.   : 1.000   Min.   : 1.000   Min.   : 1.000   Min.   : 1.000  
##  1st Qu.: 2.000   1st Qu.: 2.000   1st Qu.: 2.000   1st Qu.: 2.000  
##  Median : 2.000   Median : 2.000   Median : 2.000   Median : 2.000  
##  Mean   : 2.238   Mean   : 2.222   Mean   : 2.258   Mean   : 2.104  
##  3rd Qu.: 2.000   3rd Qu.: 2.000   3rd Qu.: 2.000   3rd Qu.: 2.000  
##  Max.   :98.000   Max.   :98.000   Max.   :98.000   Max.   :98.000  
##     OTRA_COM      CARDIOVASCULAR      OBESIDAD      RENAL_CRONICA   
##  Min.   : 1.000   Min.   : 1.000   Min.   : 1.000   Min.   : 1.000  
##  1st Qu.: 2.000   1st Qu.: 2.000   1st Qu.: 2.000   1st Qu.: 2.000  
##  Median : 2.000   Median : 2.000   Median : 2.000   Median : 2.000  
##  Mean   : 2.382   Mean   : 2.237   Mean   : 2.096   Mean   : 2.235  
##  3rd Qu.: 2.000   3rd Qu.: 2.000   3rd Qu.: 2.000   3rd Qu.: 2.000  
##  Max.   :98.000   Max.   :98.000   Max.   :98.000   Max.   :98.000  
##    TABAQUISMO       OTRO_CASO       RESULTADO        MIGRANTE    
##  Min.   : 1.000   Min.   : 1.00   Min.   :1.000   Min.   : 1.00  
##  1st Qu.: 2.000   1st Qu.: 1.00   1st Qu.:1.000   1st Qu.:99.00  
##  Median : 2.000   Median : 2.00   Median :2.000   Median :99.00  
##  Mean   : 2.189   Mean   :15.81   Mean   :1.615   Mean   :98.64  
##  3rd Qu.: 2.000   3rd Qu.: 2.00   3rd Qu.:2.000   3rd Qu.:99.00  
##  Max.   :98.000   Max.   :99.00   Max.   :3.000   Max.   :99.00  
##  PAIS_NACIONALIDAD  PAIS_ORIGEN             UCI       
##  Length:1465693     Length:1465693     Min.   : 1.00  
##  Class :character   Class :character   1st Qu.:97.00  
##  Mode  :character   Mode  :character   Median :97.00  
##                                        Mean   :80.34  
##                                        3rd Qu.:97.00  
##                                        Max.   :99.00

str(datos.covid)

## 'data.frame':    1465693 obs. of  35 variables:
##  $ FECHA_ACTUALIZACION: chr  "2020-09-09" "2020-09-09" "2020-09-09" "2020-09-09" ...
##  $ ID_REGISTRO        : chr  "0fa3df" "04b5e9" "005e0d" "12667d" ...
##  $ ORIGEN             : int  2 2 2 2 2 2 2 2 2 2 ...
##  $ SECTOR             : int  3 4 4 4 4 4 3 4 4 4 ...
##  $ ENTIDAD_UM         : int  15 15 30 9 9 15 8 13 30 21 ...
##  $ SEXO               : int  2 2 2 1 2 1 1 1 2 2 ...
##  $ ENTIDAD_NAC        : int  15 15 30 9 9 9 8 13 30 21 ...
##  $ ENTIDAD_RES        : int  15 15 30 9 9 15 8 13 30 21 ...
##  $ MUNICIPIO_RES      : int  115 62 193 5 13 104 37 56 193 114 ...
##  $ TIPO_PACIENTE      : int  1 2 1 1 1 1 1 2 2 2 ...
##  $ FECHA_INGRESO      : chr  "2020-06-15" "2020-04-13" "2020-04-16" "2020-03-29" ...
##  $ FECHA_SINTOMAS     : chr  "2020-06-10" "2020-04-06" "2020-04-09" "2020-03-23" ...
##  $ FECHA_DEF          : chr  "9999-99-99" "2020-04-15" "9999-99-99" "9999-99-99" ...
##  $ INTUBADO           : int  97 2 97 97 97 97 97 2 2 2 ...
##  $ NEUMONIA           : int  1 1 2 2 2 2 2 1 1 2 ...
##  $ EDAD               : int  48 26 40 33 29 46 47 46 73 80 ...
##  $ NACIONALIDAD       : int  1 1 1 1 1 1 1 1 1 1 ...
##  $ EMBARAZO           : int  97 97 97 2 97 2 2 2 97 97 ...
##  $ HABLA_LENGUA_INDIG : int  2 2 2 2 1 2 2 2 2 2 ...
##  $ DIABETES           : int  2 2 1 2 2 2 2 2 2 2 ...
##  $ EPOC               : int  2 2 2 2 2 2 2 2 2 2 ...
##  $ ASMA               : int  2 2 2 2 2 2 2 2 2 2 ...
##  $ INMUSUPR           : int  2 2 2 2 2 2 2 2 2 2 ...
##  $ HIPERTENSION       : int  1 2 1 2 2 2 1 1 2 2 ...
##  $ OTRA_COM           : int  2 2 2 2 2 2 2 1 2 2 ...
##  $ CARDIOVASCULAR     : int  2 2 2 2 2 2 2 2 2 2 ...
##  $ OBESIDAD           : int  2 1 1 2 2 2 1 2 2 1 ...
##  $ RENAL_CRONICA      : int  2 2 2 2 2 2 2 1 2 2 ...
##  $ TABAQUISMO         : int  2 2 2 2 2 2 2 2 2 2 ...
##  $ OTRO_CASO          : int  2 99 99 1 1 1 1 99 99 99 ...
##  $ RESULTADO          : int  1 1 1 1 1 1 1 1 1 1 ...
##  $ MIGRANTE           : int  99 99 99 99 99 99 99 99 99 99 ...
##  $ PAIS_NACIONALIDAD  : chr  "México" "México" "México" "México" ...
##  $ PAIS_ORIGEN        : chr  "99" "99" "99" "99" ...
##  $ UCI                : int  97 2 97 97 97 97 97 2 2 2 ...

Limpiar datos. Modificar los tipos de datos de aquellos que datos que deban ser categóricos (factor()) y traen consigo valores numéricos. Modificar los atributos tipo fecha a ymd()

datos.covid$ORIGEN <- factor(datos.covid$ORIGEN)
datos.covid$SECTOR <- factor(datos.covid$SECTOR)
datos.covid$ENTIDAD_UM <- factor(datos.covid$ENTIDAD_UM)
datos.covid$SEXO <- factor(datos.covid$SEXO)
datos.covid$ENTIDAD_NAC <- factor(datos.covid$ENTIDAD_NAC)
datos.covid$ENTIDAD_RES <- factor(datos.covid$ENTIDAD_RES)

datos.covid$MUNICIPIO_RES <- factor(datos.covid$MUNICIPIO_RES)
datos.covid$TIPO_PACIENTE <- factor(datos.covid$TIPO_PACIENTE)

datos.covid$NACIONALIDAD <- factor(datos.covid$NACIONALIDAD)
datos.covid$HABLA_LENGUA_INDIG <- factor(datos.covid$HABLA_LENGUA_INDIG)
datos.covid$MIGRANTE <- factor(datos.covid$MIGRANTE)
datos.covid$PAIS_ORIGEN <- factor(datos.covid$PAIS_ORIGEN)

# Cambiar fecha. Aquí es donde actúa la librería lubridate 
# para habilitar la función ymd() de esa librería
datos.covid$FECHA_ACTUALIZACION <- ymd(datos.covid$FECHA_ACTUALIZACION)
datos.covid$FECHA_INGRESO <- ymd(datos.covid$FECHA_INGRESO)
datos.covid$FECHA_SINTOMAS <- ymd(datos.covid$FECHA_SINTOMAS)
datos.covid$FECHA_DEF <- ymd(datos.covid$FECHA_DEF)

## Warning: 1377463 failed to parse.

# Diagnóstico de enfermedadades o condición clinica
datos.covid$INTUBADO <- factor(datos.covid$INTUBADO)
datos.covid$NEUMONIA <- factor(datos.covid$NEUMONIA)
datos.covid$EMBARAZO <- factor(datos.covid$EMBARAZO)
datos.covid$DIABETES <- factor(datos.covid$DIABETES)
datos.covid$EPOC <- factor(datos.covid$EPOC)
datos.covid$ASMA <- factor(datos.covid$ASMA)
datos.covid$INMUSUPR <- factor(datos.covid$INMUSUPR)
datos.covid$HIPERTENSION <- factor(datos.covid$HIPERTENSION)
datos.covid$OTRA_COM <- factor(datos.covid$OTRA_COM)
datos.covid$CARDIOVASCULAR <- factor(datos.covid$CARDIOVASCULAR)
datos.covid$OBESIDAD <- factor(datos.covid$OBESIDAD)
datos.covid$RENAL_CRONICA <- factor(datos.covid$RENAL_CRONICA)
datos.covid$TABAQUISMO <- factor(datos.covid$TABAQUISMO)
datos.covid$OTRO_CASO <- factor(datos.covid$OTRO_CASO)

# Resultado
datos.covid$RESULTADO <- factor(datos.covid$RESULTADO)
datos.covid$UCI <- factor(datos.covid$UCI)

Descripción de los datos después de limpieza de los datos Existe difetencia en la exploración de los datos antes y después de limpie

summary(datos.covid)

##  FECHA_ACTUALIZACION  ID_REGISTRO        ORIGEN         SECTOR      
##  Min.   :2020-09-09   Length:1465693     1:486628   12     :912162  
##  1st Qu.:2020-09-09   Class :character   2:979065   4      :376524  
##  Median :2020-09-09   Mode  :character              6      : 55449  
##  Mean   :2020-09-09                                 9      : 54262  
##  3rd Qu.:2020-09-09                                 3      : 26622  
##  Max.   :2020-09-09                                 8      : 12665  
##                                                     (Other): 28009  
##    ENTIDAD_UM     SEXO        ENTIDAD_NAC      ENTIDAD_RES    
##  9      :355169   1:744869   9      :318376   9      :301109  
##  15     :129322   2:720824   15     :163016   15     :179873  
##  11     : 83524              11     : 79886   11     : 83483  
##  19     : 76065              30     : 64546   19     : 75448  
##  21     : 63794              19     : 62336   21     : 61943  
##  28     : 60188              21     : 61458   28     : 60099  
##  (Other):697631              (Other):716075   (Other):703738  
##  MUNICIPIO_RES     TIPO_PACIENTE FECHA_INGRESO        FECHA_SINTOMAS      
##  7      :  64455   1:1208690     Min.   :2020-01-01   Min.   :2020-01-01  
##  5      :  63170   2: 257003     1st Qu.:2020-06-09   1st Qu.:2020-06-05  
##  4      :  55368                 Median :2020-07-11   Median :2020-07-07  
##  39     :  52435                 Mean   :2020-07-06   Mean   :2020-07-03  
##  2      :  51993                 3rd Qu.:2020-08-10   3rd Qu.:2020-08-05  
##  17     :  43949                 Max.   :2020-09-09   Max.   :2020-09-09  
##  (Other):1134323                                                          
##    FECHA_DEF          INTUBADO     NEUMONIA          EDAD       NACIONALIDAD
##  Min.   :2020-01-13   1 :  39263   1 : 187398   Min.   :  0.0   1:1458956   
##  1st Qu.:2020-06-01   2 : 217550   2 :1278276   1st Qu.: 30.0   2:   6737   
##  Median :2020-07-02   97:1208690   99:     19   Median : 41.0               
##  Mean   :2020-06-30   99:    190                Mean   : 42.2               
##  3rd Qu.:2020-07-31                             3rd Qu.: 53.0               
##  Max.   :2020-09-09                             Max.   :120.0               
##  NA's   :1377463                                                            
##  EMBARAZO    HABLA_LENGUA_INDIG DIABETES     EPOC         ASMA        
##  1 : 11898   1 :  12374         1 : 179106   1 :  19463   1 :  42192  
##  2 :727762   2 :1401213         2 :1282260   2 :1442399   2 :1419674  
##  97:720824   99:  52106         98:   4327   98:   3831   98:   3827  
##  98:  5209                                                            
##                                                                       
##                                                                       
##                                                                       
##  INMUSUPR     HIPERTENSION OTRA_COM     CARDIOVASCULAR OBESIDAD    
##  1 :  18431   1 : 235843   1 :  36075   1 :  28475     1 : 227973  
##  2 :1443137   2 :1225813   2 :1423417   2 :1433296     2 :1233876  
##  98:   4125   98:   4037   98:   6201   98:   3922     98:   3844  
##                                                                    
##                                                                    
##                                                                    
##                                                                    
##  RENAL_CRONICA TABAQUISMO   OTRO_CASO   RESULTADO  MIGRANTE    
##  1 :  25879    1 : 119326   1 :711206   1:647507   1 :   1505  
##  2 :1435957    2 :1342239   2 :538453   2:734649   2 :   3991  
##  98:   3857    98:   4128   99:216034   3: 83537   99:1460197  
##                                                                
##                                                                
##                                                                
##                                                                
##  PAIS_NACIONALIDAD                        PAIS_ORIGEN      UCI         
##  Length:1465693     99                          :1464188   1 :  21962  
##  Class :character   Estados Unidos de Am<e9>rica:    234   2 : 234841  
##  Mode  :character   Rep<fa>blica de Honduras    :    164   97:1208690  
##                     Venezuela                   :    151   99:    200  
##                     Colombia                    :    143               
##                     Cuba                        :    140               
##                     (Other)                     :    673

análisis de los datos

Construir el histograma de CONFIRMADOS de EDAD; hist()
Determinar los casos POSITIVO O CONFIRMADOS.
POSITIVO == 1 o sea los CONFIRMADOS

positivo.COVID <- filter(datos.covid, RESULTADO == '1') 

ggplot(positivo.COVID, aes(EDAD)) +
    geom_histogram(position = "stack", bins = 60,color="darkblue", fill="lightblue")

Determinar tabla de frecuencias de EDADES # Un tip… … No potenciación 10e. No Notación Científica. options(scipen = 999)

options(scipen = 999)
frecuencia.edades <- fdt(positivo.COVID$EDAD)
frecuencia.edades <- data.frame(frecuencia.edades$table)
frecuencia.edades

##         Class.limits     f             rf         rf...     cf       cf...
## 1        [0,5.67524)  4376 0.006758228096  0.6758228096   4376   0.6758228
## 2  [5.67524,11.3505)  4461 0.006889500808  0.6889500808   8837   1.3647729
## 3  [11.3505,17.0257)  9231 0.014256216535  1.4256216535  18068   2.7903945
## 4   [17.0257,22.701) 22888 0.035347880409  3.5347880409  40956   6.3251826
## 5   [22.701,28.3762) 67228 0.103825904585 10.3825904585 108184  16.7077730
## 6  [28.3762,34.0514) 85980 0.132786209261 13.2786209261 194164  29.9863940
## 7  [34.0514,39.7267) 72240 0.111566361445 11.1566361445 266404  41.1430301
## 8  [39.7267,45.4019) 83610 0.129126017170 12.9126017170 350014  54.0556318
## 9  [45.4019,51.0771) 82162 0.126889747910 12.6889747910 432176  66.7446066
## 10 [51.0771,56.7524) 58295 0.090029914735  9.0029914735 490471  75.7475981
## 11 [56.7524,62.4276) 56119 0.086669333305  8.6669333305 546590  84.4145314
## 12 [62.4276,68.1029) 40940 0.063227115691  6.3227115691 587530  90.7372430
## 13 [68.1029,73.7781) 23978 0.037031259894  3.7031259894 611508  94.4403690
## 14 [73.7781,79.4533) 19197 0.029647555934  2.9647555934 630705  97.4051246
## 15 [79.4533,85.1286) 10968 0.016938813017  1.6938813017 641673  99.0990059
## 16 [85.1286,90.8038)  4115 0.006355143651  0.6355143651 645788  99.7345202
## 17  [90.8038,96.479)  1400 0.002162138788  0.2162138788 647188  99.9507341
## 18  [96.479,102.154)   286 0.000441694067  0.0441694067 647474  99.9949035
## 19  [102.154,107.83)    25 0.000038609621  0.0038609621 647499  99.9987645
## 20  [107.83,113.505)     3 0.000004633155  0.0004633155 647502  99.9992278
## 21  [113.505,119.18)     5 0.000007721924  0.0007721924 647507 100.0000000

Diagrama de barra Frecuencias edades

ggplot(frecuencia.edades, aes(1:21, rf, fill=Class.limits)) +
        geom_bar(stat = "identity")

Determinar frecuencias por género o sexo

frecuencia.sexo <- fdt_cat(positivo.COVID$SEXO)
frecuencia.sexo <- data.frame(frecuencia.sexo)
frecuencia.sexo

##   Category      f        rf    rf...     cf     cf...
## 1        2 338337 0.5225225 52.25225 338337  52.25225
## 2        1 309170 0.4774775 47.74775 647507 100.00000

Gráfica de Barra
¿Qué significa 1 y 2?
1 MUJER
2 HOMBRE

ggplot(frecuencia.sexo, aes(Category, rf, fill=Category)) +
        geom_bar(stat = "identity") +
         geom_text(aes(label=f))

Determinar tablas de frecuencias por estados de REP MEXICANA.

CLAVE_ENTIDAD ENTIDAD_FEDERATIVA ABREVIATURA
01 AGUASCALIENTES AS
02 BAJA CALIFORNIA BC
03 BAJA CALIFORNIA SUR BS
04 CAMPECHE CC
05 COAHUILA DE ZARAGOZA CL
06 COLIMA CM
07 CHIAPAS CS
08 CHIHUAHUA CH
09 CIUDAD DE MÉXICO DF
10 DURANGO DG
11 GUANAJUATO GT
12 GUERRERO GR
13 HIDALGO HG
14 JALISCO JC
15 MÉXICO MC
16 MICHOACÁN DE OCAMPO MN
17 MORELOS MS
18 NAYARIT NT
19 NUEVO LEÓN NL
20 OAXACA OC
21 PUEBLA PL
22 QUERÉTARO QT
23 QUINTANA ROO QR
24 SAN LUIS POTOSÍ SP
25 SINALOA SL
26 SONORA SR
27 TABASCO TC
28 TAMAULIPAS TS
29 TLAXCALA TL
30 VERACRUZ DE IGNACIO DE LA LLAVE VZ
31 YUCATÁN YN
32 ZACATECAS

frecuencia.estado <- fdt_cat(positivo.COVID$ENTIDAD_RES)
frecuencia.estado <- data.frame(frecuencia.estado)
frecuencia.estado

##    Category      f          rf      rf...     cf     cf...
## 1         9 107613 0.166195887 16.6195887 107613  16.61959
## 2        15  71994 0.111186443 11.1186443 179607  27.73823
## 3        11  35182 0.054334548  5.4334548 214789  33.17169
## 4        19  32317 0.049909885  4.9909885 247106  38.16268
## 5        30  30077 0.046450463  4.6450463 277183  42.80772
## 6        27  29601 0.045715336  4.5715336 306784  47.37926
## 7        21  28426 0.043900684  4.3900684 335210  51.76932
## 8        28  26159 0.040399563  4.0399563 361369  55.80928
## 9         5  23440 0.036200381  3.6200381 384809  59.42932
## 10       26  22601 0.034904642  3.4904642 407410  62.91978
## 11       14  22369 0.034546345  3.4546345 429779  66.37442
## 12       24  20000 0.030887697  3.0887697 449779  69.46319
## 13        2  17870 0.027598157  2.7598157 467649  72.22300
## 14       25  16996 0.026248365  2.6248365 484645  74.84784
## 15       16  16840 0.026007441  2.6007441 501485  77.44858
## 16       31  16013 0.024730235  2.4730235 517498  79.92161
## 17       12  15950 0.024632938  2.4632938 533448  82.38490
## 18       20  14499 0.022392036  2.2392036 547947  84.62410
## 19       13  11113 0.017162749  1.7162749 559060  86.34038
## 20       23  10872 0.016790552  1.6790552 569932  88.01943
## 21        8   8663 0.013379006  1.3379006 578595  89.35734
## 22        3   8529 0.013172058  1.3172058 587124  90.67454
## 23       22   7298 0.011270921  1.1270921 594422  91.80163
## 24       10   7295 0.011266287  1.1266287 601717  92.92826
## 25       29   6751 0.010426142  1.0426142 608468  93.97088
## 26        7   6341 0.009792944  0.9792944 614809  94.95017
## 27        1   6147 0.009493334  0.9493334 620956  95.89950
## 28       32   6017 0.009292564  0.9292564 626973  96.82876
## 29        4   5744 0.008870947  0.8870947 632717  97.71585
## 30       17   5442 0.008404542  0.8404542 638159  98.55631
## 31       18   5312 0.008203772  0.8203772 643471  99.37669
## 32        6   4036 0.006233137  0.6233137 647507 100.00000

Gráfica de Barra
¿Qué significa 01,02, 03…32?

ggplot(frecuencia.estado, aes(Category, rf, fill=Category)) + geom_bar(stat = "identity")

Determinar tabla de frecuencia de positivos y no positivos

frecuencia.resultado <- fdt_cat(datos.covid$RESULTADO)
frecuencia.resultado <- data.frame(frecuencia.resultado)
frecuencia.resultado

##   Category      f         rf     rf...      cf     cf...
## 1        2 734649 0.50122979 50.122979  734649  50.12298
## 2        1 647507 0.44177532 44.177532 1382156  94.30051
## 3        3  83537 0.05699488  5.699488 1465693 100.00000

1 Positivo SARS-CoV-2
2 No positivo SARS-CoV-2
3 Resultado pendiente

ggplot(frecuencia.resultado, aes(Category, rf, fill=Category)) + geom_bar(stat = "identity")+
         geom_text(aes(label=f))

Determinar tabla de frecuencia de ambulatorios y hospitalizados

frecuencia.tipop <- fdt_cat(datos.covid$TIPO_PACIENTE)
frecuencia.tipop <- data.frame(frecuencia.tipop)
frecuencia.tipop

##   Category       f        rf    rf...      cf     cf...
## 1        1 1208690 0.8246543 82.46543 1208690  82.46543
## 2        2  257003 0.1753457 17.53457 1465693 100.00000

1 Ambulatorio
2 Hospitalizado

ggplot(frecuencia.tipop, aes(Category, rf, fill=Category)) + geom_bar(stat = "identity")+
         geom_text(aes(label=f))

Determinar la tabla de frecuencia de UCI

frecuencia.uci <- fdt_cat(datos.covid$UCI)
frecuencia.uci <- data.frame(frecuencia.uci)
frecuencia.uci

##   Category       f           rf       rf...      cf     cf...
## 1       97 1208690 0.8246542762 82.46542762 1208690  82.46543
## 2        2  234841 0.1602252313 16.02252313 1443531  98.48795
## 3        1   21962 0.0149840383  1.49840383 1465493  99.98635
## 4       99     200 0.0001364542  0.01364542 1465693 100.00000

1 si
2 no
97 se ignora
99 no aplica

ggplot(frecuencia.uci, aes(Category, rf, fill=Category)) + geom_bar(stat = "identity")+
         geom_text(aes(label=f))

g. Decesos

datos.covid <- datos.covid %>%
  mutate(DECESO = ifelse(is.na(FECHA_DEF), 'NO', 'SI'))
tabla.frecuencia.DECESO <- data.frame(fdt_cat(datos.covid$DECESO))

names(tabla.frecuencia.DECESO) <- c("Deceso", "Freq", "Freq.rel", "Freq.porc","Freq.acum", "Freq.acum.porc")
tabla.frecuencia.DECESO

##   Deceso    Freq   Freq.rel Freq.porc Freq.acum Freq.acum.porc
## 1     NO 1377463 0.93980322 93.980322   1377463       93.98032
## 2     SI   88230 0.06019678  6.019678   1465693      100.00000

ggplot(data = tabla.frecuencia.DECESO, aes(x = Deceso, 
                                                  y = Freq.porc, fill=Deceso)) +
    geom_bar(stat = "identity") +
         geom_text(aes(label=Freq))

Determinar la tabla de frecuencia por meses

meses = month(positivo.COVID$FECHA_INGRESO)
frecuencia.meses=fdt_cat(as.character(meses))
frecuencia.meses = data.frame(frecuencia.meses)
frecuencia.meses

##   Category      f            rf        rf...     cf     cf...
## 1        7 199172 0.30759821902 30.759821902 199172  30.75982
## 2        8 154813 0.23909085153 23.909085153 353985  54.66891
## 3        6 152882 0.23610864439 23.610864439 506867  78.27977
## 4        5  86513 0.13360936639 13.360936639 593380  91.64071
## 5        4  26562 0.04102195034  4.102195034 619942  95.74290
## 6        9  25025 0.03864823083  3.864823083 644967  99.60773
## 7        3   2530 0.00390729367  0.390729367 647497  99.99846
## 8        2      8 0.00001235508  0.001235508 647505  99.99969
## 9        1      2 0.00000308877  0.000308877 647507 100.00000

ggplot(frecuencia.meses, aes(Category, rf, fill=Category)) + geom_bar(stat = "identity")+
         geom_text(aes(label=f))

Interpretación de los análisis de acuerdo a los datos

¿Cuál rango de edad es la más frecuente? De 28 a 34
¿Hay alguna diferencia notable del género con respeto a los casos POSITIVO? No es notable la diferencia
¿Cuál estado de la República Mexicana tiene más casos? Ciudad De Mexico
¿Cuál es la relación entre casos POSITIVOS Y NEGATIVOS?, es decir, de todos los casos, ¿cuántos son positivos?, ¿qué porcentaje? El mayor porcentaje son casos positivos con una relacion de 40% 647507
De los casos POSITIVOS, ¿cuántos y qué porcentaje son hospitalizados? 1208690 es el 20%
De los casos POSITIVOS, ¿cuántos y qué porcentaje son decesos? 68,484 decesos igual a 12%
De los casos POSITIVOS, ¿cuántos y qué porcentaje pasan a cuidados intensivos? 21962 menos del 10%
De todos los casos POSITIVOS, ¿cuáles son los meses de mayor frecuencia? abril
Cuál es la condición de enfermedad: NEUMONIA, DIABETES, EPOC, ASMA, INMUSUPR, HIPERTENSION, OTRAS_COM, CARDIOVASCULAR, OBESIDAD, RENAL_CRONICA, TABAQUISMO que existe con mayor frecuencia en casos POSITIVOS.

Interpretación

En cuanto a la interpretacion de la edad podemos ver que tiende a mantenerse la mayor densidad de positivos entre 25 y 50 años pero se puede deber a que la gran mayoria de la ploblacion se mantiene en ese rango de edad y la poblacion mayor a ese rango es una minoria.

En cuanto a los casos positivos por genero no hay una diferencia muy minima a favor de los hombres.

En la cantidad de estados infectados la cuidad de mexico,guanajuato,distrito de mexico son los estados con mayor porcentaje de casos positivos, se puede deber a que son algunos de los estados con mayor poblacion de mexico.

Caso 2 Covid

Francisco Javier Favela Najera

22/9/2020

Objetivo: Analizar conjunto de registros de personas posibles resultados de CORONAVIRUS.

En cuanto a la interpretacion de la edad podemos ver que tiende a mantenerse la mayor densidad de positivos entre 25 y 50 años pero se puede deber a que la gran mayoria de la ploblacion se mantiene en ese rango de edad y la poblacion mayor a ese rango es una minoria.

En cuanto a los casos positivos por genero no hay una diferencia muy minima a favor de los hombres.

En la cantidad de estados infectados la cuidad de mexico,guanajuato,distrito de mexico son los estados con mayor porcentaje de casos positivos, se puede deber a que son algunos de los estados con mayor poblacion de mexico.

El 60% de casos no son positivos y el mayor porcentaje de positivos son ambulatorios con un 80%

El 15% porciento de los infectados fueron hospitalizados en cuidados intesivos

en el analisis de los meses se ve un aumento exponencial mes a mes pero en los dos ultimos meses se ve una dismunicion de los casos