Las bases de datos COVID-19 en México contiene datos obtenidos del estudio epidemiológico de caso sospechoso de enfermedad respiratoria viral.
Dichos datos son características o identificadores que se quieren medir.
De acuerdo al siguiente análisis, se observa que se trata de estadística descriptiva donde se analizan series de datos, se incluye cualquier tipo de variable y trata de extraer conclusiones sobre el comportamiento de estos datos, analizándolos se puede conocer alguna tendencia o conclusión.
x <- read.csv("211202COVID19MEXICO.csv")
View(x)
nrow(x)
## [1] 11904011
ncol(x)
## [1] 40
names(x)
## [1] "FECHA_ACTUALIZACION" "ID_REGISTRO" "ORIGEN"
## [4] "SECTOR" "ENTIDAD_UM" "SEXO"
## [7] "ENTIDAD_NAC" "ENTIDAD_RES" "MUNICIPIO_RES"
## [10] "TIPO_PACIENTE" "FECHA_INGRESO" "FECHA_SINTOMAS"
## [13] "FECHA_DEF" "INTUBADO" "NEUMONIA"
## [16] "EDAD" "NACIONALIDAD" "EMBARAZO"
## [19] "HABLA_LENGUA_INDIG" "INDIGENA" "DIABETES"
## [22] "EPOC" "ASMA" "INMUSUPR"
## [25] "HIPERTENSION" "OTRA_COM" "CARDIOVASCULAR"
## [28] "OBESIDAD" "RENAL_CRONICA" "TABAQUISMO"
## [31] "OTRO_CASO" "TOMA_MUESTRA_LAB" "RESULTADO_LAB"
## [34] "TOMA_MUESTRA_ANTIGENO" "RESULTADO_ANTIGENO" "CLASIFICACION_FINAL"
## [37] "MIGRANTE" "PAIS_NACIONALIDAD" "PAIS_ORIGEN"
## [40] "UCI"
head(x)
## FECHA_ACTUALIZACION ID_REGISTRO ORIGEN SECTOR ENTIDAD_UM SEXO ENTIDAD_NAC
## 1 2021-12-02 z3d8f0 1 12 27 2 27
## 2 2021-12-02 z4e532 2 12 7 2 7
## 3 2021-12-02 z4e838 1 12 9 2 15
## 4 2021-12-02 z2b144 2 12 9 1 15
## 5 2021-12-02 zz7202 1 12 16 2 16
## 6 2021-12-02 z58ed3 2 12 18 1 18
## ENTIDAD_RES MUNICIPIO_RES TIPO_PACIENTE FECHA_INGRESO FECHA_SINTOMAS
## 1 27 1 1 2020-06-01 2020-05-26
## 2 7 56 1 2020-08-25 2020-08-19
## 3 15 95 2 2020-02-18 2020-02-18
## 4 9 2 1 2020-06-15 2020-06-12
## 5 16 112 1 2021-01-13 2021-01-13
## 6 18 17 1 2020-07-03 2020-06-30
## FECHA_DEF INTUBADO NEUMONIA EDAD NACIONALIDAD EMBARAZO HABLA_LENGUA_INDIG
## 1 9999-99-99 97 2 15 1 97 2
## 2 9999-99-99 97 99 33 1 97 2
## 3 2020-05-11 1 1 60 1 97 2
## 4 9999-99-99 97 2 13 1 2 99
## 5 9999-99-99 97 2 41 1 97 2
## 6 9999-99-99 97 2 46 1 2 2
## INDIGENA DIABETES EPOC ASMA INMUSUPR HIPERTENSION OTRA_COM CARDIOVASCULAR
## 1 2 2 2 2 2 2 2 2
## 2 2 2 2 2 2 2 2 2
## 3 2 2 2 2 2 2 2 2
## 4 2 2 2 2 2 2 2 2
## 5 2 2 2 2 2 2 2 2
## 6 2 2 2 2 2 2 2 2
## OBESIDAD RENAL_CRONICA TABAQUISMO OTRO_CASO TOMA_MUESTRA_LAB RESULTADO_LAB
## 1 2 2 2 1 2 97
## 2 2 2 2 2 2 97
## 3 2 2 1 99 1 2
## 4 2 2 2 1 1 4
## 5 2 2 1 1 1 2
## 6 2 2 2 2 1 2
## TOMA_MUESTRA_ANTIGENO RESULTADO_ANTIGENO CLASIFICACION_FINAL MIGRANTE
## 1 2 97 6 99
## 2 2 97 6 99
## 3 2 97 7 99
## 4 2 97 5 99
## 5 2 97 7 99
## 6 2 97 7 99
## PAIS_NACIONALIDAD PAIS_ORIGEN UCI
## 1 México 97 97
## 2 México 97 97
## 3 México 97 2
## 4 México 97 97
## 5 México 97 97
## 6 México 97 97
tail(x)
## FECHA_ACTUALIZACION ID_REGISTRO ORIGEN SECTOR ENTIDAD_UM SEXO
## 11904006 2021-12-02 m0dae40 2 12 15 1
## 11904007 2021-12-02 m0b8c03 2 12 15 2
## 11904008 2021-12-02 m00747b 2 12 15 1
## 11904009 2021-12-02 m148c71 2 12 15 1
## 11904010 2021-12-02 m0944b9 2 12 15 1
## 11904011 2021-12-02 m1bb0d5 2 12 15 2
## ENTIDAD_NAC ENTIDAD_RES MUNICIPIO_RES TIPO_PACIENTE FECHA_INGRESO
## 11904006 15 15 67 1 2021-10-16
## 11904007 15 15 67 1 2021-10-16
## 11904008 15 15 999 1 2021-10-16
## 11904009 15 15 999 1 2021-10-16
## 11904010 15 15 999 1 2021-10-16
## 11904011 15 15 999 1 2021-10-16
## FECHA_SINTOMAS FECHA_DEF INTUBADO NEUMONIA EDAD NACIONALIDAD EMBARAZO
## 11904006 2021-10-16 9999-99-99 97 99 41 1 2
## 11904007 2021-10-16 9999-99-99 97 99 62 1 97
## 11904008 2021-10-16 9999-99-99 97 99 26 1 1
## 11904009 2021-10-16 9999-99-99 97 99 27 1 2
## 11904010 2021-10-16 9999-99-99 97 99 27 1 2
## 11904011 2021-10-16 9999-99-99 97 99 15 1 97
## HABLA_LENGUA_INDIG INDIGENA DIABETES EPOC ASMA INMUSUPR HIPERTENSION
## 11904006 99 99 2 2 2 2 2
## 11904007 99 99 2 2 2 2 2
## 11904008 99 99 2 2 2 2 2
## 11904009 99 99 2 2 2 2 2
## 11904010 99 99 2 2 2 2 2
## 11904011 99 99 2 2 2 2 2
## OTRA_COM CARDIOVASCULAR OBESIDAD RENAL_CRONICA TABAQUISMO OTRO_CASO
## 11904006 98 2 2 2 2 99
## 11904007 98 2 2 2 2 99
## 11904008 98 2 2 2 2 99
## 11904009 98 2 2 2 1 99
## 11904010 98 2 2 2 2 99
## 11904011 98 2 2 2 2 99
## TOMA_MUESTRA_LAB RESULTADO_LAB TOMA_MUESTRA_ANTIGENO
## 11904006 2 97 1
## 11904007 2 97 1
## 11904008 2 97 1
## 11904009 2 97 1
## 11904010 2 97 1
## 11904011 2 97 1
## RESULTADO_ANTIGENO CLASIFICACION_FINAL MIGRANTE PAIS_NACIONALIDAD
## 11904006 2 7 99 México
## 11904007 2 7 99 México
## 11904008 2 7 99 México
## 11904009 2 7 99 México
## 11904010 2 7 99 México
## 11904011 1 3 99 México
## PAIS_ORIGEN UCI
## 11904006 97 97
## 11904007 97 97
## 11904008 97 97
## 11904009 97 97
## 11904010 97 97
## 11904011 97 97
str(x)
## 'data.frame': 11904011 obs. of 40 variables:
## $ FECHA_ACTUALIZACION : chr "2021-12-02" "2021-12-02" "2021-12-02" "2021-12-02" ...
## $ ID_REGISTRO : chr "z3d8f0" "z4e532" "z4e838" "z2b144" ...
## $ ORIGEN : int 1 2 1 2 1 2 2 2 2 1 ...
## $ SECTOR : int 12 12 12 12 12 12 12 12 12 12 ...
## $ ENTIDAD_UM : int 27 7 9 9 16 18 7 9 9 7 ...
## $ SEXO : int 2 2 2 1 2 1 1 1 1 1 ...
## $ ENTIDAD_NAC : int 27 7 15 15 16 18 7 9 9 7 ...
## $ ENTIDAD_RES : int 27 7 15 9 16 18 7 9 9 7 ...
## $ MUNICIPIO_RES : int 1 56 95 2 112 17 101 12 5 101 ...
## $ TIPO_PACIENTE : int 1 1 2 1 1 1 1 1 1 1 ...
## $ FECHA_INGRESO : chr "2020-06-01" "2020-08-25" "2020-02-18" "2020-06-15" ...
## $ FECHA_SINTOMAS : chr "2020-05-26" "2020-08-19" "2020-02-18" "2020-06-12" ...
## $ FECHA_DEF : chr "9999-99-99" "9999-99-99" "2020-05-11" "9999-99-99" ...
## $ INTUBADO : int 97 97 1 97 97 97 97 97 97 97 ...
## $ NEUMONIA : int 2 99 1 2 2 2 2 2 2 2 ...
## $ EDAD : int 15 33 60 13 41 46 40 62 45 72 ...
## $ NACIONALIDAD : int 1 1 1 1 1 1 1 1 1 1 ...
## $ EMBARAZO : int 97 97 97 2 97 2 2 2 2 2 ...
## $ HABLA_LENGUA_INDIG : int 2 2 2 99 2 2 2 2 2 2 ...
## $ INDIGENA : int 2 2 2 2 2 2 2 2 2 2 ...
## $ DIABETES : int 2 2 2 2 2 2 2 2 2 2 ...
## $ EPOC : int 2 2 2 2 2 2 2 2 2 2 ...
## $ ASMA : int 2 2 2 2 2 2 2 2 2 2 ...
## $ INMUSUPR : int 2 2 2 2 2 2 2 2 2 2 ...
## $ HIPERTENSION : int 2 2 2 2 2 2 2 1 2 1 ...
## $ OTRA_COM : int 2 2 2 2 2 2 2 2 2 2 ...
## $ CARDIOVASCULAR : int 2 2 2 2 2 2 2 2 2 2 ...
## $ OBESIDAD : int 2 2 2 2 2 2 2 1 1 2 ...
## $ RENAL_CRONICA : int 2 2 2 2 2 2 2 2 2 2 ...
## $ TABAQUISMO : int 2 2 1 2 1 2 2 2 2 2 ...
## $ OTRO_CASO : int 1 2 99 1 1 2 2 1 1 2 ...
## $ TOMA_MUESTRA_LAB : int 2 2 1 1 1 1 1 2 1 2 ...
## $ RESULTADO_LAB : int 97 97 2 4 2 2 2 97 1 97 ...
## $ TOMA_MUESTRA_ANTIGENO: int 2 2 2 2 2 2 2 1 2 2 ...
## $ RESULTADO_ANTIGENO : int 97 97 97 97 97 97 97 1 97 97 ...
## $ CLASIFICACION_FINAL : int 6 6 7 5 7 7 7 3 3 6 ...
## $ MIGRANTE : int 99 99 99 99 99 99 99 99 99 99 ...
## $ PAIS_NACIONALIDAD : chr "México" "México" "México" "México" ...
## $ PAIS_ORIGEN : chr "97" "97" "97" "97" ...
## $ UCI : int 97 97 2 97 97 97 97 97 97 97 ...
summary(x)
## FECHA_ACTUALIZACION ID_REGISTRO ORIGEN SECTOR
## Length:11904011 Length:11904011 Min. :1.000 Min. : 1.000
## Class :character Class :character 1st Qu.:2.000 1st Qu.: 4.000
## Mode :character Mode :character Median :2.000 Median :12.000
## Mean :1.756 Mean : 9.029
## 3rd Qu.:2.000 3rd Qu.:12.000
## Max. :2.000 Max. :99.000
## ENTIDAD_UM SEXO ENTIDAD_NAC ENTIDAD_RES
## Min. : 1.00 Min. :1.000 Min. : 1.00 Min. : 1.00
## 1st Qu.: 9.00 1st Qu.:1.000 1st Qu.: 9.00 1st Qu.: 9.00
## Median :11.00 Median :1.000 Median :13.00 Median :12.00
## Mean :14.17 Mean :1.475 Mean :15.41 Mean :14.48
## 3rd Qu.:19.00 3rd Qu.:2.000 3rd Qu.:21.00 3rd Qu.:19.00
## Max. :32.00 Max. :2.000 Max. :99.00 Max. :32.00
## MUNICIPIO_RES TIPO_PACIENTE FECHA_INGRESO FECHA_SINTOMAS
## Min. : 1.00 Min. :1.000 Length:11904011 Length:11904011
## 1st Qu.: 7.00 1st Qu.:1.000 Class :character Class :character
## Median : 15.00 Median :1.000 Mode :character Mode :character
## Mean : 32.73 Mean :1.088
## 3rd Qu.: 39.00 3rd Qu.:1.000
## Max. :999.00 Max. :2.000
## FECHA_DEF INTUBADO NEUMONIA EDAD
## Length:11904011 Min. : 1.0 Min. : 1.000 Min. : 0.00
## Class :character 1st Qu.:97.0 1st Qu.: 2.000 1st Qu.: 26.00
## Mode :character Median :97.0 Median : 2.000 Median : 37.00
## Mean :88.7 Mean : 2.322 Mean : 38.89
## 3rd Qu.:97.0 3rd Qu.: 2.000 3rd Qu.: 50.00
## Max. :99.0 Max. :99.000 Max. :251.00
## NACIONALIDAD EMBARAZO HABLA_LENGUA_INDIG INDIGENA
## Min. :1.000 Min. : 1.00 Min. : 1.000 Min. : 1.000
## 1st Qu.:1.000 1st Qu.: 2.00 1st Qu.: 2.000 1st Qu.: 2.000
## Median :1.000 Median : 2.00 Median : 2.000 Median : 2.000
## Mean :1.006 Mean :47.41 Mean : 8.019 Mean : 7.925
## 3rd Qu.:1.000 3rd Qu.:97.00 3rd Qu.: 2.000 3rd Qu.: 2.000
## Max. :2.000 Max. :99.00 Max. :99.000 Max. :99.000
## DIABETES EPOC ASMA INMUSUPR
## Min. : 1.000 Min. : 1.00 Min. : 1.000 Min. : 1.000
## 1st Qu.: 2.000 1st Qu.: 2.00 1st Qu.: 2.000 1st Qu.: 2.000
## Median : 2.000 Median : 2.00 Median : 2.000 Median : 2.000
## Mean : 2.299 Mean : 2.36 Mean : 2.344 Mean : 2.363
## 3rd Qu.: 2.000 3rd Qu.: 2.00 3rd Qu.: 2.000 3rd Qu.: 2.000
## Max. :98.000 Max. :98.00 Max. :98.000 Max. :98.000
## HIPERTENSION OTRA_COM CARDIOVASCULAR OBESIDAD
## Min. : 1.000 Min. : 1.00 Min. : 1.000 Min. : 1.000
## 1st Qu.: 2.000 1st Qu.: 2.00 1st Qu.: 2.000 1st Qu.: 2.000
## Median : 2.000 Median : 2.00 Median : 2.000 Median : 2.000
## Mean : 2.255 Mean : 2.73 Mean : 2.356 Mean : 2.263
## 3rd Qu.: 2.000 3rd Qu.: 2.00 3rd Qu.: 2.000 3rd Qu.: 2.000
## Max. :98.000 Max. :98.00 Max. :98.000 Max. :98.000
## RENAL_CRONICA TABAQUISMO OTRO_CASO TOMA_MUESTRA_LAB
## Min. : 1.000 Min. : 1.000 Min. : 1.000 Min. :1.000
## 1st Qu.: 2.000 1st Qu.: 2.000 1st Qu.: 1.000 1st Qu.:1.000
## Median : 2.000 Median : 2.000 Median : 2.000 Median :2.000
## Mean : 2.355 Mean : 2.305 Mean : 4.845 Mean :1.574
## 3rd Qu.: 2.000 3rd Qu.: 2.000 3rd Qu.: 2.000 3rd Qu.:2.000
## Max. :98.000 Max. :98.000 Max. :99.000 Max. :2.000
## RESULTADO_LAB TOMA_MUESTRA_ANTIGENO RESULTADO_ANTIGENO CLASIFICACION_FINAL
## Min. : 1.00 Min. :1.000 Min. : 1.00 Min. :1.000
## 1st Qu.: 2.00 1st Qu.:1.000 1st Qu.: 2.00 1st Qu.:3.000
## Median :97.00 Median :1.000 Median : 2.00 Median :7.000
## Mean :56.43 Mean :1.414 Mean :41.16 Mean :5.592
## 3rd Qu.:97.00 3rd Qu.:2.000 3rd Qu.:97.00 3rd Qu.:7.000
## Max. :97.00 Max. :2.000 Max. :97.00 Max. :7.000
## MIGRANTE PAIS_NACIONALIDAD PAIS_ORIGEN UCI
## Min. : 1.00 Length:11904011 Length:11904011 Min. : 1.0
## 1st Qu.:99.00 Class :character Class :character 1st Qu.:97.0
## Median :99.00 Mode :character Mode :character Median :97.0
## Mean :98.44 Mean :88.7
## 3rd Qu.:99.00 3rd Qu.:97.0
## Max. :99.00 Max. :99.0
Se tienen 11,904,011 observaciones de 40 variables.
De lo anterior se observa que los datos disponibles llevan a un análisis de datos cuantivativos.
Para llegar a un analisis adecuado, las variables incluidas se deben reconocer y definir de que tipo se trata.
Las “Bases de datos COVID 19 en México”, contiene variables cuantitativas discretas, variables cualitativas y variables identificadoras.
Lo que caracteriza las variables cuantitativas discretas incluidas es que se deben expresar en numeros enteros, de otra forma no se pueden interpretar. Ejemplos:
La variables cualitativas contenidas en la base de datos sON variables que no se pueden analizar numéricamente, ya que miden características o atributos. Ejemplos: sexo, sector, entidad.
Las variables identificadoras se presentan para mantener la confidencialidad de la información, en el caso del ID se utiliza para identificar al paciente sin poner el nombre completo.
De acuerdo a lo anterior, se escoge una variable cuantitativa discreta.
attach(x)
hist(INTUBADO)
hist(INTUBADO,nclass = 20)
hist(INTUBADO,
nclass = 5,
main = "Distribución de Intubados",
xlab = "Cantidad de Intubados",
col = "pink")
El histograma nos muestra una distribución de frecuencia, ya que solo se considera 1,2 y 97, 99.
La problemática que se presenta en este tipo de archivos, es que por el tamaño de la cuadricula de Excel, se facilita su manejo desde la extensión de csv (Comma Separated Values), al tratar de descargarse el archivo de excel se despliega el siguiente error:
! Fin