Derivado de la situación actual acerca de la pandemia COVID – 19, se realiza un análisis con respecto a los casos activos en Colombia hasta la fecha 4 de abril del 2020 publicados por el gobierno nacional de Colombia en la pagina https://www.datos.gov.co/Salud-y-Protecci-n-Social/Casos-positivos-de-COVID-19-en-Colombia/gt2j-8ykr/data.
La información analizada corresponde a los casos activos confirmados en el país de Colombia, se tiene por cada individuo Edad, Sexo, tipo de atención/tratamiento recibido, fecha de resultado del análisis confirmado y departamento de localización del caso.
# Carga de los datos
Base <- read.csv("~/Desktop/Casos_positivos_de_COVID-19_en_Colombia.csv")
library(sqldf)
EDAD
Se identifica que el promedio de las edades de los casos activos es al rededor de los 42.5 años de edad, existiendo 3 casos con edad minima de 0 años y 1 caso activo como edad maxima de 95 años.
La dispersión de los casos activos corresponde a 17.7 años estando la mayoria de los casos entre las edades de 29 a 55 años ( Q1 - Q3).
# Media
mean(Base$Edad, na.rm = T)
## [1] 42.52418
# Mediana
median (Base$Edad, na.rm = T)
## [1] 40
# Varianza
var(Base$Edad, na.rm = T)
## [1] 300.6852
# Desviaciòn Estandar
sd(Base$Edad, na.rm = T)
## [1] 17.34028
# Desviación Absoluta
mad(Base$Edad, na.rm = T)
## [1] 17.7912
# Dato minimo
min(Base$Edad,na.rm = T)
## [1] 0
# Casos de menor Edad
sqldf('Select * from Base where Edad = 0')
## ID.de.caso Fecha.de.diagnóstico Ciudad.de.ubicación
## 1 810 31/03/20 Tumaco
## 2 1197 03/04/20 Pereira
## 3 1209 03/04/20 Barranquilla
## Departamento.o.Distrito Atención Edad Sexo Tipo.
## 1 Nariño Casa 0 M Importado
## 2 Risaralda Casa 0 M En estudio
## 3 Barranquilla D.E. Casa 0 F Relacionado
## País.de.procedencia
## 1 Ecuador
## 2 Colombia
## 3 Colombia
# Dato Maximo
max(Base$Edad,na.rm = T)
## [1] 95
# Casos de mayor Edad
sqldf('Select * from Base where Edad = 95')
## ID.de.caso Fecha.de.diagnóstico Ciudad.de.ubicación
## 1 1246 03/04/20 Bogotá
## Departamento.o.Distrito Atención Edad Sexo Tipo.
## 1 Bogotá D.C. Hospital 95 F En estudio
## País.de.procedencia
## 1 Colombia
# Rango
range(Base$Edad, na.rm = T)
## [1] 0 95
# Quantiles
quantile(Base$Edad,na.rm = T)
## 0% 25% 50% 75% 100%
## 0 29 40 55 95
# Rango Intercuantil
IQR(Base$Edad,na.rm = T)
## [1] 26
Grafico de edad de los casos activos y graficos de edad de casos activo por género.
Se identifica que existen 692 casos activos de mujeres y 714 casos para hombres en el país Colombia.
# Frecuencia
summary(Base$Sexo)
## F M
## 692 714
par(mfrow = c(1,1))
barplot(table(Base$Sexo),col ="darkseagreen1", ylim = c(0,1000),
main = "Género de casos infectador por COVID - 19", names = c("Femenino", "Masculino"))
Se identifica que 1115 de los casos activos se encuentran en su casa realizando la cuarentena obligatoria, 117 en hospital, 57 en hospital de cuidados intensivos, 85 se encuentran recuperados y 32 fallecidos.
# Frecuencia
summary(Base$Atención)
## Casa Fallecido Hospital Hospital UCI Recuperado
## 1115 32 117 57 85
barplot(table(Base$Atención),col = c("chocolate1","brown3","blueviolet", "cyan4", "pink"), border = "Azure 4", ylim = c(0,1500),
main = "Atención de los casos infectados por COVID - 19" ,lwd = 2, legend.text = TRUE)
Se tiene identificado que 575 casos fueron por un viaje en el exterior, 428 fueron por tener contacto con personas de viaje al extranjero y se están investigando la razón de contagio de 403 individuos.
# Frecuencia
summary(Base$Tipo.)
## En estudio Importado Relacionado
## 403 575 428
pie(table(Base$Tipo), , col = c("cornsilk1","cornflowerblue","coral1"),
main = "Tipología de contagio ", cex = 0.8)
se identifica que los cosos fallecidos en Colombia están en promedio en la edad de 59 años teniendo una variabilidad de 18.58 años, es decir la mayoría de las muertes se da entre el rango de 49 a 72 años, también identificamos que se tiene un caso con una edad de 19 años y uno de 88 años, siendo estos los valores mínimo y máximos de fallecidos al momento del análisis.
# Filtro de Casos
Fallecidos = sqldf('Select * from Base where Atención = "Fallecido"')
# Media
mean(Fallecidos$Edad, na.rm = T)
## [1] 59.90625
# Mediana
median (Fallecidos$Edad, na.rm = T)
## [1] 64.5
# Varianza
var(Fallecidos$Edad, na.rm = T)
## [1] 345.378
# Desviaciòn Estandar
sd(Fallecidos$Edad, na.rm = T)
## [1] 18.58435
# Desviación Absoluta
mad(Fallecidos$Edad, na.rm = T)
## [1] 15.5673
# Dato minimo
min(Fallecidos$Edad,na.rm = T)
## [1] 19
# Casos de menor Edad
sqldf('Select * from Fallecidos where Edad = 19')
## ID.de.caso Fecha.de.diagnóstico Ciudad.de.ubicación
## 1 923 01/04/20 Santander de Quilichao
## Departamento.o.Distrito Atención Edad Sexo Tipo.
## 1 Cauca Fallecido 19 F En estudio
## País.de.procedencia
## 1 Colombia
# Dato Maximo
max(Fallecidos$Edad,na.rm = T)
## [1] 88
# Casos de mayor Edad
sqldf('Select * from Fallecidos where Edad = 88')
## ID.de.caso Fecha.de.diagnóstico Ciudad.de.ubicación
## 1 157 20/03/20 Santa Marta
## Departamento.o.Distrito Atención Edad Sexo Tipo.
## 1 Santa Marta D.T. y C. Fallecido 88 M Relacionado
## País.de.procedencia
## 1 Colombia
# Rango
range(Fallecidos$Edad, na.rm = T)
## [1] 19 88
# Quantiles
quantile(Fallecidos$Edad,na.rm = T)
## 0% 25% 50% 75% 100%
## 19.00 49.50 64.50 72.25 88.00
#Rango Intercuantil
IQR(Fallecidos$Edad,na.rm = T)
## [1] 22.75
# Grafico de variable Edad
hist(Fallecidos$Edad,col="darkgoldenrod2", main="Edades de casos fallecidos por COVID- 19", labels = T,
ylim = c(0,15),breaks=seq(0,100,10), xlab = "Edad", ylab = "Frecuencia")
boxplot(Fallecidos$Edad, horizontal = T, col = "darkgoldenrod2", range = 1.5, main = "Boxplot casos fallecidos")
se identifica que los cosos en hospitales de Colombia están en promedio en la edad de 55 años teniendo una variabilidad de 17.8 años, es decir la mayoría de los casos que estan en hospitales se da entre el rango de 43 a 68 años, también identificamos que se tiene un caso con una edad de 1 años y uno de 95 años, siendo estos los valores mínimo y máximos de los casos en casa al momento del análisis.
# Filtro de Casos
Hospital = sqldf('Select * from Base where Atención Like "%Hospi%"')
# Media
mean(Hospital$Edad, na.rm = T)
## [1] 55.6092
# Mediana
median (Hospital$Edad, na.rm = T)
## [1] 57
# Varianza
var(Hospital$Edad, na.rm = T)
## [1] 318.066
# Desviaciòn Estandar
sd(Hospital$Edad, na.rm = T)
## [1] 17.83441
# Desviación Absoluta
mad(Hospital$Edad, na.rm = T)
## [1] 17.7912
# Dato minimo
min(Hospital$Edad,na.rm = T)
## [1] 1
# Casos de menor Edad
sqldf('Select * from Hospital where Edad = 1')
## ID.de.caso Fecha.de.diagnóstico Ciudad.de.ubicación
## 1 1208 03/04/20 Barranquilla
## Departamento.o.Distrito Atención Edad Sexo Tipo.
## 1 Barranquilla D.E. Hospital 1 F En estudio
## País.de.procedencia
## 1 Colombia
# Dato Maximo
max(Hospital$Edad,na.rm = T)
## [1] 95
# Casos de mayor Edad
sqldf('Select * from Hospital where Edad = 95')
## ID.de.caso Fecha.de.diagnóstico Ciudad.de.ubicación
## 1 1246 03/04/20 Bogotá
## Departamento.o.Distrito Atención Edad Sexo Tipo.
## 1 Bogotá D.C. Hospital 95 F En estudio
## País.de.procedencia
## 1 Colombia
# Rango
range(Hospital$Edad, na.rm = T)
## [1] 1 95
# Quantiles
quantile(Hospital$Edad,na.rm = T)
## 0% 25% 50% 75% 100%
## 1.00 43.25 57.00 67.75 95.00
#Rango Intercuantil
IQR(Hospital$Edad,na.rm = T)
## [1] 24.5
# Grafico de variable Edad
hist(Hospital$Edad,col="deepskyblue2", main="Edades de casos en Hospital por COVID- 19", labels = T,
ylim = c(0,80),breaks=seq(0,100,10), xlab = "Edad", ylab = "Frecuencia")
boxplot(Hospital$Edad, horizontal = T, col = "deepskyblue2", range = 1.5, main = "Boxplot casos en Hospital")
se identifica que los cosos en casa de Colombia estánen promedio en la edad de 40 años teniendo una variabilidad de 16 años, es decir la mayoría de los casos que estan en casa se da entre el rango de 28 a 51 años, también identificamos que se tiene tres casos con una edad de 0 años y uno de 92 años, siendo estos los valores mínimo y máximos de los casos en casa al momento del análisis.
# Filtro de Casos
Casa = sqldf('Select * from Base where Atención = "Casa"')
# Media
mean(Casa$Edad, na.rm = T)
## [1] 39.97309
# Mediana
median (Casa$Edad, na.rm = T)
## [1] 37
# Varianza
var(Casa$Edad, na.rm = T)
## [1] 257.9023
# Desviaciòn Estandar
sd(Casa$Edad, na.rm = T)
## [1] 16.05934
# Desviación Absoluta
mad(Casa$Edad, na.rm = T)
## [1] 16.3086
# Dato minimo
min(Casa$Edad,na.rm = T)
## [1] 0
# Casos de menor Edad
sqldf('Select * from Casa where Edad = 0')
## ID.de.caso Fecha.de.diagnóstico Ciudad.de.ubicación
## 1 810 31/03/20 Tumaco
## 2 1197 03/04/20 Pereira
## 3 1209 03/04/20 Barranquilla
## Departamento.o.Distrito Atención Edad Sexo Tipo.
## 1 Nariño Casa 0 M Importado
## 2 Risaralda Casa 0 M En estudio
## 3 Barranquilla D.E. Casa 0 F Relacionado
## País.de.procedencia
## 1 Ecuador
## 2 Colombia
## 3 Colombia
# Dato Maximo
max(Casa$Edad,na.rm = T)
## [1] 92
# Casos de mayor Edad
sqldf('Select * from Casa where Edad = 92')
## ID.de.caso Fecha.de.diagnóstico Ciudad.de.ubicación
## 1 1328 04/04/20 Bogotá
## Departamento.o.Distrito Atención Edad Sexo Tipo.
## 1 Bogotá D.C. Casa 92 M En estudio
## País.de.procedencia
## 1 Colombia
# Rango
range(Casa$Edad, na.rm = T)
## [1] 0 92
# Quantiles
quantile(Casa$Edad,na.rm = T)
## 0% 25% 50% 75% 100%
## 0 28 37 51 92
#Rango Intercuantil
IQR(Casa$Edad,na.rm = T)
## [1] 23
# Grafico de variable Edad
hist(Casa$Edad,col="darkseagreen2", main="Edades de casos en casa por COVID- 19", labels = T,
ylim = c(0,500),breaks=seq(0,100,10), xlab = "Edad", ylab = "Frecuencia")
boxplot(Casa$Edad, horizontal = T, col = "darkseagreen2", range = 1.5, main = "Boxplot casos en casa")
Se identifica que los cosos recuperados de Colombia están en promedio en la edad de 42 años teniendo una variabilidad de 16 años, es decir la mayoría de los casos que estan recuperados se da entre el rango de 29 a 54 años, también identificamos que se tiene un casos con una edad de 9 años y uno de 88 años, siendo estos los valores mínimo y máximos de los casos en casa al momento del análisis.
# Filtro de Casos
Recuperado = sqldf('Select * from Base where Atención = "Recuperado"')
# Media
mean(Recuperado$Edad, na.rm = T)
## [1] 42.65882
# Mediana
median (Recuperado$Edad, na.rm = T)
## [1] 42
# Varianza
var(Recuperado$Edad, na.rm = T)
## [1] 270.3465
# Desviaciòn Estandar
sd(Recuperado$Edad, na.rm = T)
## [1] 16.44222
# Desviación Absoluta
mad(Recuperado$Edad, na.rm = T)
## [1] 17.7912
# Dato minimo
min(Recuperado$Edad,na.rm = T)
## [1] 9
# Casos de menor Edad
sqldf('Select * from Recuperado where Edad = 9')
## ID.de.caso Fecha.de.diagnóstico Ciudad.de.ubicación
## 1 79 18/03/20 Palmira
## Departamento.o.Distrito Atención Edad Sexo Tipo.
## 1 Valle del Cauca Recuperado 9 M Relacionado
## País.de.procedencia
## 1 Colombia
# Dato Maximo
max(Recuperado$Edad,na.rm = T)
## [1] 85
# Casos de mayor Edad
sqldf('Select * from Recuperado where Edad = 85')
## ID.de.caso Fecha.de.diagnóstico Ciudad.de.ubicación
## 1 7 11/03/20 Cartagena
## Departamento.o.Distrito Atención Edad Sexo Tipo.
## 1 Cartagena D.T. y C Recuperado 85 F Importado
## País.de.procedencia
## 1 Estados Unidos
# Rango
range(Recuperado$Edad, na.rm = T)
## [1] 9 85
# Quantiles
quantile(Recuperado$Edad,na.rm = T)
## 0% 25% 50% 75% 100%
## 9 29 42 54 85
#Rango Intercuantil
IQR(Recuperado$Edad,na.rm = T)
## [1] 25
# Grafico de variable Edad
hist(Recuperado$Edad,col="brown3", main="Edades de casos en recuperados por COVID- 19", labels = T,
ylim = c(0,50),breaks=seq(0,100,10), xlab = "Edad", ylab = "Frecuencia")
boxplot(Recuperado$Edad, horizontal = T, col = "brown3", range = 1.5, main = "Boxplot casos recuperados")
características de la población y el tamaño relativo de la muestra
La población es el conjunto o la totalidad de elementos que se desea estudiar,la muestra es una parte representativa de una población donde sus elementos comparten caracteristica comunes o similares.
Algunas de las diferencias que existen entre estos dos conceptos son:
Población
1.La población se trata de una variable o magnitud aleatoria.
2.Dentro de la estadística, la población que se elige suele tener determinadas características demográficas o características comunes.
Muestra
1.Forma parte de la población: debería comprender entre 5% y 10% para ser más efectiva.
2.Los elementos deben ser aleatorios.
3.Debe ser representativa de la población.
4.Se considera que el muestreo es más exacto que estudiar la totalidad de una población. Esto debido a que se manejan menos datos y por lo tanto existe un menor margen de error.
El tamaño de muestra debe considerar tres puntos al momentos de analizarse:
1.el tamaño de la población.
2.margen de error.
3.Nivel de confianza del muestreo.
Para el ejercicio nombrado anteirormente con respecto a los casos activos de la pandemia en colombia, se observa que el análisis se realiza sobre la población contagiada, siendo este el total de la población contagiada hasta la fecha.