Pandemia COVID - 19 Colombia

Derivado de la situación actual acerca de la pandemia COVID – 19, se realiza un análisis con respecto a los casos activos en Colombia hasta la fecha 4 de abril del 2020 publicados por el gobierno nacional de Colombia en la pagina https://www.datos.gov.co/Salud-y-Protecci-n-Social/Casos-positivos-de-COVID-19-en-Colombia/gt2j-8ykr/data.

La información analizada corresponde a los casos activos confirmados en el país de Colombia, se tiene por cada individuo Edad, Sexo, tipo de atención/tratamiento recibido, fecha de resultado del análisis confirmado y departamento de localización del caso.

# Carga de los datos
Base <- read.csv("~/Desktop/Casos_positivos_de_COVID-19_en_Colombia.csv")
library(sqldf)

Datos Cuantitativos

EDAD

Se identifica que el promedio de las edades de los casos activos es al rededor de los 42.5 años de edad, existiendo 3 casos con edad minima de 0 años y 1 caso activo como edad maxima de 95 años.

La dispersión de los casos activos corresponde a 17.7 años estando la mayoria de los casos entre las edades de 29 a 55 años ( Q1 - Q3).

Medidas tendencia central

# Media
mean(Base$Edad, na.rm = T)
## [1] 42.52418
# Mediana
median (Base$Edad, na.rm = T)
## [1] 40

Medidas de Variabilidad

# Varianza
var(Base$Edad, na.rm = T)
## [1] 300.6852
# Desviaciòn Estandar
sd(Base$Edad, na.rm = T)
## [1] 17.34028
# Desviación Absoluta
mad(Base$Edad, na.rm = T) 
## [1] 17.7912
# Dato minimo
min(Base$Edad,na.rm = T)
## [1] 0
# Casos de menor Edad
sqldf('Select * from Base where Edad = 0')
##   ID.de.caso Fecha.de.diagnóstico Ciudad.de.ubicación
## 1        810             31/03/20              Tumaco
## 2       1197             03/04/20             Pereira
## 3       1209             03/04/20        Barranquilla
##   Departamento.o.Distrito Atención Edad Sexo       Tipo.
## 1                  Nariño     Casa    0    M   Importado
## 2               Risaralda     Casa    0    M  En estudio
## 3       Barranquilla D.E.     Casa    0    F Relacionado
##   País.de.procedencia
## 1             Ecuador
## 2            Colombia
## 3            Colombia
# Dato Maximo
max(Base$Edad,na.rm = T)
## [1] 95
# Casos de mayor Edad
sqldf('Select * from Base where Edad = 95')
##   ID.de.caso Fecha.de.diagnóstico Ciudad.de.ubicación
## 1       1246             03/04/20              Bogotá
##   Departamento.o.Distrito Atención Edad Sexo      Tipo.
## 1             Bogotá D.C. Hospital   95    F En estudio
##   País.de.procedencia
## 1            Colombia
# Rango
range(Base$Edad, na.rm = T)
## [1]  0 95
# Quantiles
quantile(Base$Edad,na.rm = T)
##   0%  25%  50%  75% 100% 
##    0   29   40   55   95
# Rango Intercuantil
IQR(Base$Edad,na.rm = T)
## [1] 26

Grafico de variable Edad

Grafico de edad de los casos activos y graficos de edad de casos activo por género.

Datos Cualitativos

Se identifica que existen 692 casos activos de mujeres y 714 casos para hombres en el país Colombia.

Género

# Frecuencia
summary(Base$Sexo) 
##   F   M 
## 692 714
par(mfrow = c(1,1))
barplot(table(Base$Sexo),col ="darkseagreen1", ylim = c(0,1000),
        main = "Género de casos infectador por COVID - 19", names = c("Femenino", "Masculino"))

Atención dada al paciente

Se identifica que 1115 de los casos activos se encuentran en su casa realizando la cuarentena obligatoria, 117 en hospital, 57 en hospital de cuidados intensivos, 85 se encuentran recuperados y 32 fallecidos.

# Frecuencia 
summary(Base$Atención) 
##         Casa    Fallecido     Hospital Hospital UCI   Recuperado 
##         1115           32          117           57           85
barplot(table(Base$Atención),col = c("chocolate1","brown3","blueviolet", "cyan4", "pink"), border = "Azure 4", ylim = c(0,1500), 
  main = "Atención de los casos infectados por COVID - 19" ,lwd = 2, legend.text =  TRUE)

Tipo de contagio

Se tiene identificado que 575 casos fueron por un viaje en el exterior, 428 fueron por tener contacto con personas de viaje al extranjero y se están investigando la razón de contagio de 403 individuos.

# Frecuencia
summary(Base$Tipo.) 
##  En estudio   Importado Relacionado 
##         403         575         428
pie(table(Base$Tipo), , col = c("cornsilk1","cornflowerblue","coral1"), 
    main = "Tipología de contagio ", cex = 0.8)

Fallecidos por COVID -19

se identifica que los cosos fallecidos en Colombia están en promedio en la edad de 59 años teniendo una variabilidad de 18.58 años, es decir la mayoría de las muertes se da entre el rango de 49 a 72 años, también identificamos que se tiene un caso con una edad de 19 años y uno de 88 años, siendo estos los valores mínimo y máximos de fallecidos al momento del análisis.

Medidas tendencia central

# Filtro de Casos
Fallecidos = sqldf('Select * from Base where Atención = "Fallecido"')

# Media
mean(Fallecidos$Edad, na.rm = T)
## [1] 59.90625
# Mediana
median (Fallecidos$Edad, na.rm = T)
## [1] 64.5

Medidas de Variabilidad

# Varianza
var(Fallecidos$Edad, na.rm = T)
## [1] 345.378
# Desviaciòn Estandar
sd(Fallecidos$Edad, na.rm = T)
## [1] 18.58435
# Desviación Absoluta
mad(Fallecidos$Edad, na.rm = T) 
## [1] 15.5673
# Dato minimo
min(Fallecidos$Edad,na.rm = T)
## [1] 19
# Casos de menor Edad
sqldf('Select * from Fallecidos where Edad = 19')
##   ID.de.caso Fecha.de.diagnóstico    Ciudad.de.ubicación
## 1        923             01/04/20 Santander de Quilichao
##   Departamento.o.Distrito  Atención Edad Sexo      Tipo.
## 1                   Cauca Fallecido   19    F En estudio
##   País.de.procedencia
## 1            Colombia
# Dato Maximo
max(Fallecidos$Edad,na.rm = T)
## [1] 88
# Casos de mayor Edad
sqldf('Select * from Fallecidos where Edad = 88')
##   ID.de.caso Fecha.de.diagnóstico Ciudad.de.ubicación
## 1        157             20/03/20         Santa Marta
##   Departamento.o.Distrito  Atención Edad Sexo       Tipo.
## 1   Santa Marta D.T. y C. Fallecido   88    M Relacionado
##   País.de.procedencia
## 1            Colombia
# Rango
range(Fallecidos$Edad, na.rm = T)
## [1] 19 88
# Quantiles
quantile(Fallecidos$Edad,na.rm = T)
##    0%   25%   50%   75%  100% 
## 19.00 49.50 64.50 72.25 88.00
#Rango Intercuantil
IQR(Fallecidos$Edad,na.rm = T)
## [1] 22.75
# Grafico de variable Edad

hist(Fallecidos$Edad,col="darkgoldenrod2", main="Edades de casos fallecidos por COVID- 19", labels = T,
     ylim = c(0,15),breaks=seq(0,100,10), xlab = "Edad", ylab = "Frecuencia")

boxplot(Fallecidos$Edad, horizontal = T, col = "darkgoldenrod2", range = 1.5, main = "Boxplot casos fallecidos")

En Hospital por COVID -19

se identifica que los cosos en hospitales de Colombia están en promedio en la edad de 55 años teniendo una variabilidad de 17.8 años, es decir la mayoría de los casos que estan en hospitales se da entre el rango de 43 a 68 años, también identificamos que se tiene un caso con una edad de 1 años y uno de 95 años, siendo estos los valores mínimo y máximos de los casos en casa al momento del análisis.

Medidas tendencia central

# Filtro de Casos
Hospital = sqldf('Select * from Base where Atención Like "%Hospi%"')

# Media
mean(Hospital$Edad, na.rm = T)
## [1] 55.6092
# Mediana
median (Hospital$Edad, na.rm = T)
## [1] 57

Medidas de Variabilidad

# Varianza
var(Hospital$Edad, na.rm = T)
## [1] 318.066
# Desviaciòn Estandar
sd(Hospital$Edad, na.rm = T)
## [1] 17.83441
# Desviación Absoluta
mad(Hospital$Edad, na.rm = T) 
## [1] 17.7912
# Dato minimo
min(Hospital$Edad,na.rm = T)
## [1] 1
# Casos de menor Edad
sqldf('Select * from Hospital where Edad = 1')
##   ID.de.caso Fecha.de.diagnóstico Ciudad.de.ubicación
## 1       1208             03/04/20        Barranquilla
##   Departamento.o.Distrito Atención Edad Sexo      Tipo.
## 1       Barranquilla D.E. Hospital    1    F En estudio
##   País.de.procedencia
## 1            Colombia
# Dato Maximo
max(Hospital$Edad,na.rm = T)
## [1] 95
# Casos de mayor Edad
sqldf('Select * from Hospital where Edad = 95')
##   ID.de.caso Fecha.de.diagnóstico Ciudad.de.ubicación
## 1       1246             03/04/20              Bogotá
##   Departamento.o.Distrito Atención Edad Sexo      Tipo.
## 1             Bogotá D.C. Hospital   95    F En estudio
##   País.de.procedencia
## 1            Colombia
# Rango
range(Hospital$Edad, na.rm = T)
## [1]  1 95
# Quantiles
quantile(Hospital$Edad,na.rm = T)
##    0%   25%   50%   75%  100% 
##  1.00 43.25 57.00 67.75 95.00
#Rango Intercuantil
IQR(Hospital$Edad,na.rm = T)
## [1] 24.5
# Grafico de variable Edad

hist(Hospital$Edad,col="deepskyblue2", main="Edades de casos en Hospital por COVID- 19", labels = T,
     ylim = c(0,80),breaks=seq(0,100,10), xlab = "Edad", ylab = "Frecuencia")

boxplot(Hospital$Edad, horizontal = T, col = "deepskyblue2", range = 1.5, main = "Boxplot casos en Hospital")

En casa por COVID -19

se identifica que los cosos en casa de Colombia estánen promedio en la edad de 40 años teniendo una variabilidad de 16 años, es decir la mayoría de los casos que estan en casa se da entre el rango de 28 a 51 años, también identificamos que se tiene tres casos con una edad de 0 años y uno de 92 años, siendo estos los valores mínimo y máximos de los casos en casa al momento del análisis.

Medidas tendencia central

# Filtro de Casos
Casa = sqldf('Select * from Base where Atención = "Casa"')

# Media
mean(Casa$Edad, na.rm = T)
## [1] 39.97309
# Mediana
median (Casa$Edad, na.rm = T)
## [1] 37

Medidas de Variabilidad

# Varianza
var(Casa$Edad, na.rm = T)
## [1] 257.9023
# Desviaciòn Estandar
sd(Casa$Edad, na.rm = T)
## [1] 16.05934
# Desviación Absoluta
mad(Casa$Edad, na.rm = T) 
## [1] 16.3086
# Dato minimo
min(Casa$Edad,na.rm = T)
## [1] 0
# Casos de menor Edad
sqldf('Select * from Casa where Edad = 0')
##   ID.de.caso Fecha.de.diagnóstico Ciudad.de.ubicación
## 1        810             31/03/20              Tumaco
## 2       1197             03/04/20             Pereira
## 3       1209             03/04/20        Barranquilla
##   Departamento.o.Distrito Atención Edad Sexo       Tipo.
## 1                  Nariño     Casa    0    M   Importado
## 2               Risaralda     Casa    0    M  En estudio
## 3       Barranquilla D.E.     Casa    0    F Relacionado
##   País.de.procedencia
## 1             Ecuador
## 2            Colombia
## 3            Colombia
# Dato Maximo
max(Casa$Edad,na.rm = T)
## [1] 92
# Casos de mayor Edad
sqldf('Select * from Casa where Edad = 92')
##   ID.de.caso Fecha.de.diagnóstico Ciudad.de.ubicación
## 1       1328             04/04/20              Bogotá
##   Departamento.o.Distrito Atención Edad Sexo      Tipo.
## 1             Bogotá D.C.     Casa   92    M En estudio
##   País.de.procedencia
## 1            Colombia
# Rango
range(Casa$Edad, na.rm = T)
## [1]  0 92
# Quantiles
quantile(Casa$Edad,na.rm = T)
##   0%  25%  50%  75% 100% 
##    0   28   37   51   92
#Rango Intercuantil
IQR(Casa$Edad,na.rm = T)
## [1] 23
# Grafico de variable Edad

hist(Casa$Edad,col="darkseagreen2", main="Edades de casos en casa por COVID- 19", labels = T,
     ylim = c(0,500),breaks=seq(0,100,10), xlab = "Edad", ylab = "Frecuencia")

boxplot(Casa$Edad, horizontal = T, col = "darkseagreen2", range = 1.5, main = "Boxplot casos en casa")

Recuperados por COVID -19

Se identifica que los cosos recuperados de Colombia están en promedio en la edad de 42 años teniendo una variabilidad de 16 años, es decir la mayoría de los casos que estan recuperados se da entre el rango de 29 a 54 años, también identificamos que se tiene un casos con una edad de 9 años y uno de 88 años, siendo estos los valores mínimo y máximos de los casos en casa al momento del análisis.

Medidas tendencia central

# Filtro de Casos
Recuperado = sqldf('Select * from Base where Atención = "Recuperado"')

# Media
mean(Recuperado$Edad, na.rm = T)
## [1] 42.65882
# Mediana
median (Recuperado$Edad, na.rm = T)
## [1] 42

Medidas de Variabilidad

# Varianza
var(Recuperado$Edad, na.rm = T)
## [1] 270.3465
# Desviaciòn Estandar
sd(Recuperado$Edad, na.rm = T)
## [1] 16.44222
# Desviación Absoluta
mad(Recuperado$Edad, na.rm = T) 
## [1] 17.7912
# Dato minimo
min(Recuperado$Edad,na.rm = T)
## [1] 9
# Casos de menor Edad
sqldf('Select * from Recuperado where Edad = 9')
##   ID.de.caso Fecha.de.diagnóstico Ciudad.de.ubicación
## 1         79             18/03/20             Palmira
##   Departamento.o.Distrito   Atención Edad Sexo       Tipo.
## 1         Valle del Cauca Recuperado    9    M Relacionado
##   País.de.procedencia
## 1            Colombia
# Dato Maximo
max(Recuperado$Edad,na.rm = T)
## [1] 85
# Casos de mayor Edad
sqldf('Select * from Recuperado where Edad = 85')
##   ID.de.caso Fecha.de.diagnóstico Ciudad.de.ubicación
## 1          7             11/03/20           Cartagena
##   Departamento.o.Distrito   Atención Edad Sexo     Tipo.
## 1      Cartagena D.T. y C Recuperado   85    F Importado
##   País.de.procedencia
## 1      Estados Unidos
# Rango
range(Recuperado$Edad, na.rm = T)
## [1]  9 85
# Quantiles
quantile(Recuperado$Edad,na.rm = T)
##   0%  25%  50%  75% 100% 
##    9   29   42   54   85
#Rango Intercuantil
IQR(Recuperado$Edad,na.rm = T)
## [1] 25
# Grafico de variable Edad

hist(Recuperado$Edad,col="brown3", main="Edades de casos en recuperados por COVID- 19", labels = T,
     ylim = c(0,50),breaks=seq(0,100,10), xlab = "Edad", ylab = "Frecuencia")

boxplot(Recuperado$Edad, horizontal = T, col = "brown3", range = 1.5, main = "Boxplot casos recuperados")

Población y Muestra

características de la población y el tamaño relativo de la muestra

La población es el conjunto o la totalidad de elementos que se desea estudiar,la muestra es una parte representativa de una población donde sus elementos comparten caracteristica comunes o similares.

Algunas de las diferencias que existen entre estos dos conceptos son:

Población

1.La población se trata de una variable o magnitud aleatoria.

2.Dentro de la estadística, la población que se elige suele tener determinadas características demográficas o características comunes.

Muestra

1.Forma parte de la población: debería comprender entre 5% y 10% para ser más efectiva.

2.Los elementos deben ser aleatorios.

3.Debe ser representativa de la población.

4.Se considera que el muestreo es más exacto que estudiar la totalidad de una población. Esto debido a que se manejan menos datos y por lo tanto existe un menor margen de error.

El tamaño de muestra debe considerar tres puntos al momentos de analizarse:

1.el tamaño de la población.

2.margen de error.

3.Nivel de confianza del muestreo.

Para el ejercicio nombrado anteirormente con respecto a los casos activos de la pandemia en colombia, se observa que el análisis se realiza sobre la población contagiada, siendo este el total de la población contagiada hasta la fecha.