Analisis de “Información referente a casos COVID-19 en México”

Las bases de datos COVID-19 en México contiene datos obtenidos del estudio epidemiológico de caso sospechoso de enfermedad respiratoria viral.

Dichos datos son características o identificadores que se quieren medir.

De acuerdo al siguiente análisis, se observa que se trata de estadística descriptiva donde se analizan series de datos, se incluye cualquier tipo de variable y trata de extraer conclusiones sobre el comportamiento de estos datos, analizándolos se puede conocer alguna tendencia o conclusión.

x <- read.csv("211202COVID19MEXICO.csv")
View(x)
nrow(x)
## [1] 11904011
ncol(x)
## [1] 40
names(x)
##  [1] "FECHA_ACTUALIZACION"   "ID_REGISTRO"           "ORIGEN"               
##  [4] "SECTOR"                "ENTIDAD_UM"            "SEXO"                 
##  [7] "ENTIDAD_NAC"           "ENTIDAD_RES"           "MUNICIPIO_RES"        
## [10] "TIPO_PACIENTE"         "FECHA_INGRESO"         "FECHA_SINTOMAS"       
## [13] "FECHA_DEF"             "INTUBADO"              "NEUMONIA"             
## [16] "EDAD"                  "NACIONALIDAD"          "EMBARAZO"             
## [19] "HABLA_LENGUA_INDIG"    "INDIGENA"              "DIABETES"             
## [22] "EPOC"                  "ASMA"                  "INMUSUPR"             
## [25] "HIPERTENSION"          "OTRA_COM"              "CARDIOVASCULAR"       
## [28] "OBESIDAD"              "RENAL_CRONICA"         "TABAQUISMO"           
## [31] "OTRO_CASO"             "TOMA_MUESTRA_LAB"      "RESULTADO_LAB"        
## [34] "TOMA_MUESTRA_ANTIGENO" "RESULTADO_ANTIGENO"    "CLASIFICACION_FINAL"  
## [37] "MIGRANTE"              "PAIS_NACIONALIDAD"     "PAIS_ORIGEN"          
## [40] "UCI"
head(x)
##   FECHA_ACTUALIZACION ID_REGISTRO ORIGEN SECTOR ENTIDAD_UM SEXO ENTIDAD_NAC
## 1          2021-12-02      z3d8f0      1     12         27    2          27
## 2          2021-12-02      z4e532      2     12          7    2           7
## 3          2021-12-02      z4e838      1     12          9    2          15
## 4          2021-12-02      z2b144      2     12          9    1          15
## 5          2021-12-02      zz7202      1     12         16    2          16
## 6          2021-12-02      z58ed3      2     12         18    1          18
##   ENTIDAD_RES MUNICIPIO_RES TIPO_PACIENTE FECHA_INGRESO FECHA_SINTOMAS
## 1          27             1             1    2020-06-01     2020-05-26
## 2           7            56             1    2020-08-25     2020-08-19
## 3          15            95             2    2020-02-18     2020-02-18
## 4           9             2             1    2020-06-15     2020-06-12
## 5          16           112             1    2021-01-13     2021-01-13
## 6          18            17             1    2020-07-03     2020-06-30
##    FECHA_DEF INTUBADO NEUMONIA EDAD NACIONALIDAD EMBARAZO HABLA_LENGUA_INDIG
## 1 9999-99-99       97        2   15            1       97                  2
## 2 9999-99-99       97       99   33            1       97                  2
## 3 2020-05-11        1        1   60            1       97                  2
## 4 9999-99-99       97        2   13            1        2                 99
## 5 9999-99-99       97        2   41            1       97                  2
## 6 9999-99-99       97        2   46            1        2                  2
##   INDIGENA DIABETES EPOC ASMA INMUSUPR HIPERTENSION OTRA_COM CARDIOVASCULAR
## 1        2        2    2    2        2            2        2              2
## 2        2        2    2    2        2            2        2              2
## 3        2        2    2    2        2            2        2              2
## 4        2        2    2    2        2            2        2              2
## 5        2        2    2    2        2            2        2              2
## 6        2        2    2    2        2            2        2              2
##   OBESIDAD RENAL_CRONICA TABAQUISMO OTRO_CASO TOMA_MUESTRA_LAB RESULTADO_LAB
## 1        2             2          2         1                2            97
## 2        2             2          2         2                2            97
## 3        2             2          1        99                1             2
## 4        2             2          2         1                1             4
## 5        2             2          1         1                1             2
## 6        2             2          2         2                1             2
##   TOMA_MUESTRA_ANTIGENO RESULTADO_ANTIGENO CLASIFICACION_FINAL MIGRANTE
## 1                     2                 97                   6       99
## 2                     2                 97                   6       99
## 3                     2                 97                   7       99
## 4                     2                 97                   5       99
## 5                     2                 97                   7       99
## 6                     2                 97                   7       99
##   PAIS_NACIONALIDAD PAIS_ORIGEN UCI
## 1           México          97  97
## 2           México          97  97
## 3           México          97   2
## 4           México          97  97
## 5           México          97  97
## 6           México          97  97
tail(x)
##          FECHA_ACTUALIZACION ID_REGISTRO ORIGEN SECTOR ENTIDAD_UM SEXO
## 11904006          2021-12-02     m0dae40      2     12         15    1
## 11904007          2021-12-02     m0b8c03      2     12         15    2
## 11904008          2021-12-02     m00747b      2     12         15    1
## 11904009          2021-12-02     m148c71      2     12         15    1
## 11904010          2021-12-02     m0944b9      2     12         15    1
## 11904011          2021-12-02     m1bb0d5      2     12         15    2
##          ENTIDAD_NAC ENTIDAD_RES MUNICIPIO_RES TIPO_PACIENTE FECHA_INGRESO
## 11904006          15          15            67             1    2021-10-16
## 11904007          15          15            67             1    2021-10-16
## 11904008          15          15           999             1    2021-10-16
## 11904009          15          15           999             1    2021-10-16
## 11904010          15          15           999             1    2021-10-16
## 11904011          15          15           999             1    2021-10-16
##          FECHA_SINTOMAS  FECHA_DEF INTUBADO NEUMONIA EDAD NACIONALIDAD EMBARAZO
## 11904006     2021-10-16 9999-99-99       97       99   41            1        2
## 11904007     2021-10-16 9999-99-99       97       99   62            1       97
## 11904008     2021-10-16 9999-99-99       97       99   26            1        1
## 11904009     2021-10-16 9999-99-99       97       99   27            1        2
## 11904010     2021-10-16 9999-99-99       97       99   27            1        2
## 11904011     2021-10-16 9999-99-99       97       99   15            1       97
##          HABLA_LENGUA_INDIG INDIGENA DIABETES EPOC ASMA INMUSUPR HIPERTENSION
## 11904006                 99       99        2    2    2        2            2
## 11904007                 99       99        2    2    2        2            2
## 11904008                 99       99        2    2    2        2            2
## 11904009                 99       99        2    2    2        2            2
## 11904010                 99       99        2    2    2        2            2
## 11904011                 99       99        2    2    2        2            2
##          OTRA_COM CARDIOVASCULAR OBESIDAD RENAL_CRONICA TABAQUISMO OTRO_CASO
## 11904006       98              2        2             2          2        99
## 11904007       98              2        2             2          2        99
## 11904008       98              2        2             2          2        99
## 11904009       98              2        2             2          1        99
## 11904010       98              2        2             2          2        99
## 11904011       98              2        2             2          2        99
##          TOMA_MUESTRA_LAB RESULTADO_LAB TOMA_MUESTRA_ANTIGENO
## 11904006                2            97                     1
## 11904007                2            97                     1
## 11904008                2            97                     1
## 11904009                2            97                     1
## 11904010                2            97                     1
## 11904011                2            97                     1
##          RESULTADO_ANTIGENO CLASIFICACION_FINAL MIGRANTE PAIS_NACIONALIDAD
## 11904006                  2                   7       99           México
## 11904007                  2                   7       99           México
## 11904008                  2                   7       99           México
## 11904009                  2                   7       99           México
## 11904010                  2                   7       99           México
## 11904011                  1                   3       99           México
##          PAIS_ORIGEN UCI
## 11904006          97  97
## 11904007          97  97
## 11904008          97  97
## 11904009          97  97
## 11904010          97  97
## 11904011          97  97
str(x)
## 'data.frame':    11904011 obs. of  40 variables:
##  $ FECHA_ACTUALIZACION  : chr  "2021-12-02" "2021-12-02" "2021-12-02" "2021-12-02" ...
##  $ ID_REGISTRO          : chr  "z3d8f0" "z4e532" "z4e838" "z2b144" ...
##  $ ORIGEN               : int  1 2 1 2 1 2 2 2 2 1 ...
##  $ SECTOR               : int  12 12 12 12 12 12 12 12 12 12 ...
##  $ ENTIDAD_UM           : int  27 7 9 9 16 18 7 9 9 7 ...
##  $ SEXO                 : int  2 2 2 1 2 1 1 1 1 1 ...
##  $ ENTIDAD_NAC          : int  27 7 15 15 16 18 7 9 9 7 ...
##  $ ENTIDAD_RES          : int  27 7 15 9 16 18 7 9 9 7 ...
##  $ MUNICIPIO_RES        : int  1 56 95 2 112 17 101 12 5 101 ...
##  $ TIPO_PACIENTE        : int  1 1 2 1 1 1 1 1 1 1 ...
##  $ FECHA_INGRESO        : chr  "2020-06-01" "2020-08-25" "2020-02-18" "2020-06-15" ...
##  $ FECHA_SINTOMAS       : chr  "2020-05-26" "2020-08-19" "2020-02-18" "2020-06-12" ...
##  $ FECHA_DEF            : chr  "9999-99-99" "9999-99-99" "2020-05-11" "9999-99-99" ...
##  $ INTUBADO             : int  97 97 1 97 97 97 97 97 97 97 ...
##  $ NEUMONIA             : int  2 99 1 2 2 2 2 2 2 2 ...
##  $ EDAD                 : int  15 33 60 13 41 46 40 62 45 72 ...
##  $ NACIONALIDAD         : int  1 1 1 1 1 1 1 1 1 1 ...
##  $ EMBARAZO             : int  97 97 97 2 97 2 2 2 2 2 ...
##  $ HABLA_LENGUA_INDIG   : int  2 2 2 99 2 2 2 2 2 2 ...
##  $ INDIGENA             : int  2 2 2 2 2 2 2 2 2 2 ...
##  $ DIABETES             : int  2 2 2 2 2 2 2 2 2 2 ...
##  $ EPOC                 : int  2 2 2 2 2 2 2 2 2 2 ...
##  $ ASMA                 : int  2 2 2 2 2 2 2 2 2 2 ...
##  $ INMUSUPR             : int  2 2 2 2 2 2 2 2 2 2 ...
##  $ HIPERTENSION         : int  2 2 2 2 2 2 2 1 2 1 ...
##  $ OTRA_COM             : int  2 2 2 2 2 2 2 2 2 2 ...
##  $ CARDIOVASCULAR       : int  2 2 2 2 2 2 2 2 2 2 ...
##  $ OBESIDAD             : int  2 2 2 2 2 2 2 1 1 2 ...
##  $ RENAL_CRONICA        : int  2 2 2 2 2 2 2 2 2 2 ...
##  $ TABAQUISMO           : int  2 2 1 2 1 2 2 2 2 2 ...
##  $ OTRO_CASO            : int  1 2 99 1 1 2 2 1 1 2 ...
##  $ TOMA_MUESTRA_LAB     : int  2 2 1 1 1 1 1 2 1 2 ...
##  $ RESULTADO_LAB        : int  97 97 2 4 2 2 2 97 1 97 ...
##  $ TOMA_MUESTRA_ANTIGENO: int  2 2 2 2 2 2 2 1 2 2 ...
##  $ RESULTADO_ANTIGENO   : int  97 97 97 97 97 97 97 1 97 97 ...
##  $ CLASIFICACION_FINAL  : int  6 6 7 5 7 7 7 3 3 6 ...
##  $ MIGRANTE             : int  99 99 99 99 99 99 99 99 99 99 ...
##  $ PAIS_NACIONALIDAD    : chr  "México" "México" "México" "México" ...
##  $ PAIS_ORIGEN          : chr  "97" "97" "97" "97" ...
##  $ UCI                  : int  97 97 2 97 97 97 97 97 97 97 ...
summary(x)
##  FECHA_ACTUALIZACION ID_REGISTRO            ORIGEN          SECTOR      
##  Length:11904011     Length:11904011    Min.   :1.000   Min.   : 1.000  
##  Class :character    Class :character   1st Qu.:2.000   1st Qu.: 4.000  
##  Mode  :character    Mode  :character   Median :2.000   Median :12.000  
##                                         Mean   :1.756   Mean   : 9.029  
##                                         3rd Qu.:2.000   3rd Qu.:12.000  
##                                         Max.   :2.000   Max.   :99.000  
##    ENTIDAD_UM         SEXO        ENTIDAD_NAC     ENTIDAD_RES   
##  Min.   : 1.00   Min.   :1.000   Min.   : 1.00   Min.   : 1.00  
##  1st Qu.: 9.00   1st Qu.:1.000   1st Qu.: 9.00   1st Qu.: 9.00  
##  Median :11.00   Median :1.000   Median :13.00   Median :12.00  
##  Mean   :14.17   Mean   :1.475   Mean   :15.41   Mean   :14.48  
##  3rd Qu.:19.00   3rd Qu.:2.000   3rd Qu.:21.00   3rd Qu.:19.00  
##  Max.   :32.00   Max.   :2.000   Max.   :99.00   Max.   :32.00  
##  MUNICIPIO_RES    TIPO_PACIENTE   FECHA_INGRESO      FECHA_SINTOMAS    
##  Min.   :  1.00   Min.   :1.000   Length:11904011    Length:11904011   
##  1st Qu.:  7.00   1st Qu.:1.000   Class :character   Class :character  
##  Median : 15.00   Median :1.000   Mode  :character   Mode  :character  
##  Mean   : 32.73   Mean   :1.088                                        
##  3rd Qu.: 39.00   3rd Qu.:1.000                                        
##  Max.   :999.00   Max.   :2.000                                        
##   FECHA_DEF            INTUBADO       NEUMONIA           EDAD       
##  Length:11904011    Min.   : 1.0   Min.   : 1.000   Min.   :  0.00  
##  Class :character   1st Qu.:97.0   1st Qu.: 2.000   1st Qu.: 26.00  
##  Mode  :character   Median :97.0   Median : 2.000   Median : 37.00  
##                     Mean   :88.7   Mean   : 2.322   Mean   : 38.89  
##                     3rd Qu.:97.0   3rd Qu.: 2.000   3rd Qu.: 50.00  
##                     Max.   :99.0   Max.   :99.000   Max.   :251.00  
##   NACIONALIDAD      EMBARAZO     HABLA_LENGUA_INDIG    INDIGENA     
##  Min.   :1.000   Min.   : 1.00   Min.   : 1.000     Min.   : 1.000  
##  1st Qu.:1.000   1st Qu.: 2.00   1st Qu.: 2.000     1st Qu.: 2.000  
##  Median :1.000   Median : 2.00   Median : 2.000     Median : 2.000  
##  Mean   :1.006   Mean   :47.41   Mean   : 8.019     Mean   : 7.925  
##  3rd Qu.:1.000   3rd Qu.:97.00   3rd Qu.: 2.000     3rd Qu.: 2.000  
##  Max.   :2.000   Max.   :99.00   Max.   :99.000     Max.   :99.000  
##     DIABETES           EPOC            ASMA           INMUSUPR     
##  Min.   : 1.000   Min.   : 1.00   Min.   : 1.000   Min.   : 1.000  
##  1st Qu.: 2.000   1st Qu.: 2.00   1st Qu.: 2.000   1st Qu.: 2.000  
##  Median : 2.000   Median : 2.00   Median : 2.000   Median : 2.000  
##  Mean   : 2.299   Mean   : 2.36   Mean   : 2.344   Mean   : 2.363  
##  3rd Qu.: 2.000   3rd Qu.: 2.00   3rd Qu.: 2.000   3rd Qu.: 2.000  
##  Max.   :98.000   Max.   :98.00   Max.   :98.000   Max.   :98.000  
##   HIPERTENSION       OTRA_COM     CARDIOVASCULAR      OBESIDAD     
##  Min.   : 1.000   Min.   : 1.00   Min.   : 1.000   Min.   : 1.000  
##  1st Qu.: 2.000   1st Qu.: 2.00   1st Qu.: 2.000   1st Qu.: 2.000  
##  Median : 2.000   Median : 2.00   Median : 2.000   Median : 2.000  
##  Mean   : 2.255   Mean   : 2.73   Mean   : 2.356   Mean   : 2.263  
##  3rd Qu.: 2.000   3rd Qu.: 2.00   3rd Qu.: 2.000   3rd Qu.: 2.000  
##  Max.   :98.000   Max.   :98.00   Max.   :98.000   Max.   :98.000  
##  RENAL_CRONICA      TABAQUISMO       OTRO_CASO      TOMA_MUESTRA_LAB
##  Min.   : 1.000   Min.   : 1.000   Min.   : 1.000   Min.   :1.000   
##  1st Qu.: 2.000   1st Qu.: 2.000   1st Qu.: 1.000   1st Qu.:1.000   
##  Median : 2.000   Median : 2.000   Median : 2.000   Median :2.000   
##  Mean   : 2.355   Mean   : 2.305   Mean   : 4.845   Mean   :1.574   
##  3rd Qu.: 2.000   3rd Qu.: 2.000   3rd Qu.: 2.000   3rd Qu.:2.000   
##  Max.   :98.000   Max.   :98.000   Max.   :99.000   Max.   :2.000   
##  RESULTADO_LAB   TOMA_MUESTRA_ANTIGENO RESULTADO_ANTIGENO CLASIFICACION_FINAL
##  Min.   : 1.00   Min.   :1.000         Min.   : 1.00      Min.   :1.000      
##  1st Qu.: 2.00   1st Qu.:1.000         1st Qu.: 2.00      1st Qu.:3.000      
##  Median :97.00   Median :1.000         Median : 2.00      Median :7.000      
##  Mean   :56.43   Mean   :1.414         Mean   :41.16      Mean   :5.592      
##  3rd Qu.:97.00   3rd Qu.:2.000         3rd Qu.:97.00      3rd Qu.:7.000      
##  Max.   :97.00   Max.   :2.000         Max.   :97.00      Max.   :7.000      
##     MIGRANTE     PAIS_NACIONALIDAD  PAIS_ORIGEN             UCI      
##  Min.   : 1.00   Length:11904011    Length:11904011    Min.   : 1.0  
##  1st Qu.:99.00   Class :character   Class :character   1st Qu.:97.0  
##  Median :99.00   Mode  :character   Mode  :character   Median :97.0  
##  Mean   :98.44                                         Mean   :88.7  
##  3rd Qu.:99.00                                         3rd Qu.:97.0  
##  Max.   :99.00                                         Max.   :99.0

Se tienen 11,904,011 observaciones de 40 variables.

Estadística descriptiva

De lo anterior se observa que los datos disponibles llevan a un análisis de datos cuantivativos.

Para llegar a un analisis adecuado, las variables incluidas se deben reconocer y definir de que tipo se trata.

Las “Bases de datos COVID 19 en México”, contiene variables cuantitativas discretas, variables cualitativas y variables identificadoras.

Lo que caracteriza las variables cuantitativas discretas incluidas es que se deben expresar en numeros enteros, de otra forma no se pueden interpretar. Ejemplos:

La variables cualitativas contenidas en la base de datos sON variables que no se pueden analizar numéricamente, ya que miden características o atributos. Ejemplos: sexo, sector, entidad.

Las variables identificadoras se presentan para mantener la confidencialidad de la información, en el caso del ID se utiliza para identificar al paciente sin poner el nombre completo.

De acuerdo a lo anterior, se escoge una variable cuantitativa discreta.

attach(x)
hist(INTUBADO)
hist(INTUBADO,nclass = 20)

hist(INTUBADO,
     nclass = 5,
     main = "Distribución de Intubados",
     xlab = "Cantidad de Intubados",
     col = "pink")

El histograma nos muestra una distribución de frecuencia, ya que solo se considera 1,2 y 97, 99.

La problemática que se presenta en este tipo de archivos, es que por el tamaño de la cuadricula de Excel, se facilita su manejo desde la extensión de csv (Comma Separated Values), al tratar de descargarse el archivo de excel se despliega el siguiente error:

Tamaño del archivo excel! Fin