#La tabla de datos sobre el coronavirus nos registra una serie de variables importantes a la hora de encontrar relaciones del comportamiento de los contagiados. Entre estas vemos:
#Fecha de notificación: Lleva un registro de los casos periodicamente, lo cual nos ayuda a determinar el timepo promedio en el que una persona puede recuperarse o morir desde el día en el que fue hallado positivo.
#Ciudad de ubicación: Los datos registrados en esta tabla nos indican en donde se genera la mayor concentración de infectados a nivel nacional.
#Atención: Son datos cualitativos que permiten saber la cantidad de personas que logran recuperarse de este virus y cuantas fallecen a causa de el.
#Edad: Son datos cuantitativos que permiten el hallazgo de una relación entre la edad de los contagiados y su comportamiento frente a este.
#Sexo: Son datos cualitativos que ayudan a verificar si existe una relación entre el género de los infectados y su comportamiento frente al mismo, dado que la composición de los cuerpos femeninos y masculinos son distintas.
#Tipo de contagio: Son datos cualitativos que determinan la razón por la cual el paciente fue infectado, ya que pudo haber sido importado, por relación o no se conoce su procedencia.
#Estado: Son datos cualitativos que muestran el comportamiento de cada uno de los contagiados durante el periodo de infección, lo cual permite conocer las características del virus en relación a las variables anteriormente mencionadas.
#En la base de datos podemos observar los registros que se van llevando en el pais respecto al virus covid-19, dentro de las variables observadas se pueden resaltar tanto la fecha de diagnostico como la fecha de recuperacion, la ciudad o departamento donde se notifico el contagio, los cuales podrian de ser de gran utilidad a la hora de analizar e inferir acerca de que medidas se deben tomar en cada region; ademas se cuenta con los registros en caso de que la persona provenga de otro pais.
#Tambien contamos con la edad, el sexo y el estado que tuvo de cada persona respecto a el virus, lo cual nos permite intuir o al menos tener una idea más clara acerca de cual es la población más vulnerable frente al virus dado que es posible observar una relación directa entre estas variables.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00 26.00 36.00 38.97 51.00 106.00
# A traves del diagrama de barras podemos ver como esta distribuida la poblacion diagnosticada con covid, en el eje "X" encontramos las diferentes edades y en el eje "Y" el numero de personas con esa edad.
# Tanto en el grafico como con el resumen observamos que la edad promedio de los contagiados es de 38 a帽os,sin embargo tampien hay pacientes que superan los 100 años de edad y otros que ni siquiera han cumplido el año
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.0.4
ggplot(data=coronavirus, mapping=aes(x=Edad, fill=factor(atención)))+geom_histogram(bins = 12)
unique(coronavirus$atención)
## [1] "Recuperado" "Fallecido" "Hospital UCI" "Hospital" "N/A"
## [6] "Casa"
unique(coronavirus$Edad)
## [1] 19 34 50 55 25 27 85 22 28 36 42 74 68 48 30 61 73 54
## [19] 26 23 18 49 65 59 72 45 29 21 79 52 71 24 44 38 31 41
## [37] 67 62 58 37 20 32 64 40 46 39 9 53 56 51 69 16 57 60
## [55] 33 76 47 35 88 70 81 17 63 80 84 87 83 43 77 15 66 3
## [73] 82 12 8 1 5 6 75 2 0 13 4 78 10 94 7 95 11 93
## [91] 92 90 97 91 86 14 96 98 89 103 100 99 102 106 101
#Ahora que conocemos como se distribuye la poblacion, podemos observar que tipo de atencion presentan las personas de acuerdo a su edad, vemos que la mayoria de las personas jovenes permanecen en casa o ya estan recuperados, y son muy pocas las personas que requieren hospitalizacion, mientras que entre los adultos mayores hay mas fallecidos y tambien se incrementa la cantidad de personas que requieren cuidados en UCI.
library(ggplot2)
ggplot(data=coronavirus, mapping=aes(x=Edad, fill=factor(Estado)))+geom_histogram(bins = 107)
#La gráfica demuestra el comportamiento de los contagiados conforme a su edad, lo cual quiere decir que su estado puede variar dependiendo de su rango de edad. Para comenzar, es posible ver que dentro del rango 0-30 años, los contagiados suelen presentarse asintomáticos o con leves sintomas. Dentro del rango 30-60, los infectados suelen presentar sintomas moderados, leves, es probable presentar sintoma graves dentro de este rango, sin embargo, hay mayor cantidad de pacientes asintomáicos.
#Dentro del rango 60-90, es posible reconocer que se encuentra la población más vulnerable debido a que suelen presentar síntomas graves con mayor frecuencia y muchos de los pacientes contagiados de covid-19 fallecen. No obstante, s posible que algunos de ellos presenten leves síntomas y encontramos pocos casos asintomáticos dentro de este rango.
ggplot(data=coronavirus, aes(Sexo)) +
geom_bar(fill="steelblue") + theme_classic()+ coord_flip()
ggplot(data=coronavirus, aes(coronavirus$`Tipo recuperación`)) +
geom_bar(aes(fill=Sexo), position = "dodge",) +
theme_classic()+ coord_flip()
#A partir del primer diagarma de barras, se puede ver que hay mas hombres contagiados por covid frente al numero de mujeres contagiadas por covid.A partir de esta informacion, es mas claro entender el segundo diagrama de barras donde vemos que tanto hombres como mujeres tienen una recuperacion similar frente al virus, es decir, la diferencia que observamos es por que hay mas hombres contagiados, pero en general el virus afecta de la misma manera a las personas independientemente del genero.
# Se observa que la gran mayoria de los infectados, todavia no presenta una recuperacion ya sea o porque fallecio o porque se encuentra infectado, mientras que las personas que se recuperan por tiempo o por PCR presentan una menor proporcion.
library(ggplot2)
barplot(table(coronavirus$Tipo), xlab = 'Tipo de contagio', ylab = 'cantidad', col = 'turquoise2', border = 'deepskyblue2')
summary(coronavirus$Tipo)
## Length Class Mode
## 48746 character character
#La gráfica nos muestra la relación entre cantidad de contagiados y su respectivo tipo de contagio, lo cual nos indica cual fue la fuente de contagio de estas personas. En primer lugar, la gráfica nos muestra que la mayoría de los contagiados no reconocen en qué lugar fue posible su contacto con un positivo covid-19. Sin embargo, menos de 5000 personas deducen que enfermaron debido a un viaje reciente, lo que indica que este virus fue importado desde otro país tal como Estados Unidos, España, Italia, Turquía, entre otroS, y, menos de 10000 personas son conscientes de que tuvieron encuentros cercanos con agentes transmisores del virus.
ggplot(data=coronavirus, aes(x=coronavirus$`Departamento o Distrito`)) + geom_bar(fill="steelblue") + theme_classic()+ coord_flip()
summary(coronavirus$`Fecha de notificación`)
## Min. 1st Qu. Median
## "2020-03-02 00:00:00" "2020-05-07 00:00:00" "2020-05-21 00:00:00"
## Mean 3rd Qu. Max.
## "2020-05-16 06:37:02" "2020-05-31 00:00:00" "2020-06-13 00:00:00"
#Con la siguiente grafica se puede observar la manera en que se distribuyen los infectados a lo largo del pais segun el departamento. Vemos que Bogota D.C es la zona con mas infectados por coronavirus, con alrededor de 15000 infectados, seguido por los departamentos como el valle del Cauca con mas de 5000 infectados. De la misma manera Cartagena D.T y Barranquilla D.E cuentan con un promedio de infectados similar al del valle del Cauca.
#Por otro lado, departamentos como el de Guainia, Guaviare, Casanare, entre otros, tienen una concentracion de infectados mucho menor frente a los distritos y departamentos mencionados anteriormente
#Por lo tanto, podriamos inferir que del total de infectados reportados en estos datos, la mayoria se encuentran en las grandes y principales ciudades del pais.
Tome la base de datos obtenga 100 muestras de tamaño 10 cada una y utilice el estimador “proporción muestral” para estimar la proporción de personas que fallecen a causa de la enfermedad en Colombia. Presente una descripción detallada del estimador en la que incluya su distribución, promedio, desviación estándar, gráficas que apoyen su descripción, propiedades del estimador, así como una comparación de los resultados obtenidos empíricamente con los resultados teóricos.
coronavirus$nuevo=ifelse(coronavirus$Estado=="Fallecido",1,0) ### Columna Fallecido
ma=list() ## Creación de Lista
for(i in 1:100) {
tmp=list(coronavirus[sample(nrow(coronavirus), 10),])
ma=append(ma,tmp)
}
library(dplyr)
## Warning: package 'dplyr' was built under R version 4.0.4
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
new_list <- lapply(ma, function(x) x%>% select(nuevo))### Extraemos la lista
df <- data.frame(matrix(unlist(new_list), ncol=length(new_list)))### Se convierte en Data Frame
df1=colSums(df)/10## Se obtiene la proporción de cada muestra.
# df1 representara a nuestro Estimador
#Descripción del estimador
plot(density(df1))
sum(coronavirus$nuevo)
## [1] 1586
length(coronavirus$`ID de caso`)
## [1] 48746
#A traves de los graficos, es evidente que la probabilidad de fallecer por el virus es inferior frente a la probabilidad de recuperare del mismo. Incluso, esto se ve reflejado en las cifras de la poblacion, donde el numero de fallecidos en los datos estudiados es de 1586 mientras que el total de la poblacion estudiada es 48746.
hist(df1,main="Histograma de la Proporcion Muestral", col=c("yellow2"), breaks=5)
boxplot(df1, ylab = "Proporcion muestral", col=c("yellow2"))
mean(df1)
## [1] 0.024
sd(df1)
## [1] 0.04739688
# 4 Obtenga la proporci贸n poblacional y revise el error Proporcion poblacional
# Tomamos el numero de personas fallecidas y lo dividimos por las personas contagiadas que se reportan en la base de datos.
PT = coronavirus$atención == "Fallecido"
Fa = coronavirus$atención[PT]
#Procedemos a hacer la operacion
DF2 = length(Fa)/length(PT)
DF2
## [1] 0.03265909
# Pasamos a calcular el error
Error= DF2-mean(df1)
Error
## [1] 0.00865909
# Como podemos ver,el estimador es sesgado debido a que conserva un error que impide que el valor esperado de el estimador sea igual al parametro poblacional. Por lo tanto no cumple con la propiedad de ser insesgado.
Tome la base de datos obtenga 100 muestras de tamaño 10 y utilice el estimador “promedio muestral” para estimar el tiempo promedio que vive una persona luego de ser diagnosticada con Covid-19 en Colombia. Presente una descripción detallada del estimador en la que incluya su distribución, promedio, desviación estándar, gráficas que apoyen su descripción, propiedades del estimador, así como una comparación de los resultados obtenidos empíricamente con los resultados teóricos.
#Numero de muestras
N= 100
#Tamaño de muestras
n= 10
coronavirus$`Fecha diagnostico`=as.Date(coronavirus$`Fecha diagnostico`,format="%Y-%m-%d")
coronavirus$`Fecha de muerte`=as.Date(coronavirus$`Fecha de muerte`,format="%Y-%m-%d")
coronavirus$diferencia=coronavirus$`Fecha de muerte`-coronavirus$`Fecha diagnostico`
MP=list() ## Creación de Lista
for(i in 1:100) {
TMP=list(coronavirus[sample(nrow(coronavirus), 10),])
MP=append(MP,TMP)
}
library(dplyr)
SH <- lapply(MP, function(x) x%>% select(diferencia))### Extraemos la lista
df <- data.frame(matrix(unlist(SH), ncol=length(SH)))### Se convierte en Data Frame
PV=colSums(df)/10## Se obtiene la proporción de cada muestra.
#PV SERA NUESTRO ESTIMADOR DE PROMEDIO DE VIDA
TT=subset(coronavirus, Estado="Fallecido")
tiempo = TT$diferencia
promdias = c()
for(i in 1:N)
filas = sample(1:length(tiempo), n, replace = T)
tiempo_i = tiempo[filas]
promdias[i] = mean(na.exclude(tiempo_i))
promdiasx=mean(promdias)
mean(promdias)
## [1] NA
sd(promdias)
## [1] NA
ggplot(data=coronavirus, aes(diferencia)) +
geom_bar(fill="steelblue") + theme_classic()+ coord_flip()
## Don't know how to automatically pick scale for object of type difftime. Defaulting to continuous.
## Warning: Removed 47116 rows containing non-finite values (stat_count).
# calculamos la diferencia para hallar el errror
promdiaspob=sum(na.exclude(TT$diferencia))/length(na.exclude(TT$diferencia))
promdiaspob
## Time difference of 1.606135 days
errorprom=promdiaspob-promdiasx
abs(as.numeric(errorprom))
## [1] NA
erpas=abs(as.numeric(errorprom))*100/as.numeric(promdiaspob)
erpas
## [1] NA
# A partir d elos resultados anteriores, consideramos que se cumple la propiedad de insesgo dado que el error y los resultados de promedios y sd son los mismos
Luego del analisis del estudio anterior, podemos inferir que la poblacion mas vulnerable frente al coronavirus son las personas de tercera edad ya que son las que tiene mayor concentracion en el numero de fallecidos y tambien representan la mayoria de sintomas graves que requieren hospitalizacion o UCI lo cual va de acuerdo a que estas personas presentan mas enfermedades y menos sistemas de defensas.Por otro lado, las personas jovenes son las que mas se recuperan y presentan sintomatologias leves. Adicionalmente, el número de promedio de número de fallecidos es el 3,2% de la población, lo cual indica que en Colombia el indice de letalidad por enfermarse de covid-19 es bajo y que aquellas personas que fallecen tiene un promedio de días de vida corto luego de ser notificados. Esto es posible concluirlo a partir de los errores de las proporciones muestrales de cada estudio. En segundo lugar, dentro del rango de 20-60 años hay mayor nivel de contagio y esto se puede presentar debido a que son las generaciones que comúnmente duran largos periodos fuera de sus casas, lo cual puede llevarnos a relacionar la cantidad de contagiados que desconocen la razón por la cual se contagiaron. Tambien podemos concluir que el virus afecta de la misma manera tanto a hombres como a mujeres aunque en la base de datos hay una mayor cantidad de hombres contagiados. Ahora bien, es importante resaltar la gran utilidad que tiene la estimacion estadistica ya que es un proceso que nos permite atarves de un estadistico analizar e inferir y tener una mejor vision acerca del parametro a analizar y por ultimo la poblacion,tal como vimos en la diferencia de probabilidad de que las personas se recuperen o mueran o tambien la diferencia en el promedio de dias de vida durante el contagio.