En la Base de datos podemos observar los registros que se van llevando en el pais respecto al virus covid-19, dentro de las variables observadas se pueden resaltar tanto la fecha de diagnostico como la fecha de recuperacion, la ciudad o departamento donde se notifico el contagio, los cuales podrian de ser de gran utilidad a la hora de analizar e inferir acerca de que medidas se deben tomar en cada region; ademas se cuenta con los registros en caso de que la persona provenga de otro pais.
Tambien contamos con variables cuantitativas como la edad, algunas cualitativas como el sexo y el estado que tuvo de cada persona respecto a el virus, lo cual nos permite intuir o al menos tener una idea m谩s clara acerca de cual es la poblacion mas vulnerable al virus,observar si hay una relacion entre la edad o el genero y la gravedad que se presenta durante el contagio,……
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00 26.00 36.00 38.97 51.00 106.00
# A traves del diagrama de barras podemos ver como esta distribuida la poblacion diagnosticada con covid, en el eje "X" encontramos las diferentes edades y en el eje "Y" el numero de personas con esa edad.
# Tanto en el grafico como con el resumen observamos que la edad promedio de los contagiados es de 38 a帽os,sin embargo tampien hay pacientes que superan los 100 años de edad y otros que ni siquiera han cumplido el año
## [1] "Recuperado" "Fallecido" "Hospital UCI" "Hospital" "N/A"
## [6] "Casa"
## [1] 19 34 50 55 25 27 85 22 28 36 42 74 68 48 30 61 73 54
## [19] 26 23 18 49 65 59 72 45 29 21 79 52 71 24 44 38 31 41
## [37] 67 62 58 37 20 32 64 40 46 39 9 53 56 51 69 16 57 60
## [55] 33 76 47 35 88 70 81 17 63 80 84 87 83 43 77 15 66 3
## [73] 82 12 8 1 5 6 75 2 0 13 4 78 10 94 7 95 11 93
## [91] 92 90 97 91 86 14 96 98 89 103 100 99 102 106 101
#Ahora que conocemos como se distribuye la poblacion, podemos observar que tipo de atencion presentan las personas de acuerdo a su edad, vemos que la mayoria de las personas jovenes permanecen en casa o ya estan recuperados, y son muy pocas las personas que requieren hospitalizacion, mientras que entre los adultos mayores hay m谩s fallecidos y tambien se incrementa la cantidad de personas que requieren cuidados en UCI.
library(ggplot2)
ggplot(data=coronavirus, mapping=aes(x=Edad, fill=factor(Estado)))+geom_histogram(bins = 107)
#La gráfica demuestra el comportamiento de los contagiados conforme a su edad, lo cual quiere decir que su estado puede variar dependiendo de su rango de edad. Para comenzar, es posible ver que dentro del rango 0-30 años, los contagiados suelen presentarse asintomáticos o con leves sintomas. Dentro del rango 30-60, los infectados suelen presentar sintomas moderados, leves, es probable presentar sintoma graves dentro de este rango, sin embargo, hay mayor cantidad de pacientes asintomáicos.
#Dentro del rango 60-90, es posible reconocer que se encuentra la población más vulnerable debido a que suelen presentar síntomas graves con mayor frecuencia y muchos de los pacientes contagiados de covid-19 fallecen. No obstante, s posible que algunos de ellos presenten leves síntomas y encontramos pocos casos asintomáticos dentro de este rango.
ggplot(data=coronavirus, aes(Sexo)) +
geom_bar(fill="steelblue") + theme_classic()+ coord_flip()
ggplot(data=coronavirus, aes(coronavirus$`Tipo recuperación`)) +
geom_bar(aes(fill=Sexo), position = "dodge",) +
theme_classic()+ coord_flip()
#A partir del primer diagarma de barras, se puede ver que hay mas hombres contagiados por covid frente al numero de mujeres contagiadas por covid.A partir de esta informacion, es mas claro entender el segundo diagrama de barras donde vemos que tanto hombres como mujeres tienen una recuperacion similar frente al virus, es decir, la diferencia que observamos es por que hay mas hombres contagiados, pero en general el virus afecta de la misma manera a las personas independientemente del genero.
# Se observa que la gran mayoria de los infectados, todavia no presenta una recuperacion ya sea o porque fallecio o porque se encuentra infectado, mientras que las personas que se recuperan por tiempo o por PCR presentan una menor proporcion.
library(ggplot2)
barplot(table(coronavirus$Tipo), xlab = 'Tipo de contagio', ylab = 'cantidad', col = 'turquoise2', border = 'deepskyblue2')
summary(coronavirus$Tipo)
## Length Class Mode
## 48746 character character
#La gráfica nos muestra la relación entre cantidad de contagiados y su respectivo tipo de contagio, lo cual nos indica cual fue la fuente de contagio de estas personas. En primer lugar, la gráfica nos muestra que la mayoría de los contagiados no reconocen en qué lugar fue posible su contacto con un positivo covid-19. Sin embargo, menos de 5000 personas deducen que enfermaron debido a un viaje reciente, lo que indica que este virus fue importado desde otro país tal como Estados Unidos, España, Italia, Turquía, entre otroS, y, menos de 10000 personas son conscientes de que tuvieron encuentros cercanos con agentes transmisores del virus.
ggplot(data=coronavirus, aes(x=coronavirus$`Departamento o Distrito`)) + geom_bar(fill="steelblue") + theme_classic()+ coord_flip()
summary(coronavirus$`Fecha de notificación`)
## Min. 1st Qu. Median
## "2020-03-02 00:00:00" "2020-05-07 00:00:00" "2020-05-21 00:00:00"
## Mean 3rd Qu. Max.
## "2020-05-16 06:37:02" "2020-05-31 00:00:00" "2020-06-13 00:00:00"
#Con la siguiente grafica se puede observar la manera en que se distribuyen los infectados a lo largo del pais segun el departamento. Vemos que Bogota D.C es la zona con mas infectados por coronavirus, con alrededor de 15000 infectados, seguido por los departamentos como el valle del Cauca con mas de 5000 infectados. De la misma manera Cartagena D.T y Barranquilla D.E cuentan con un promedio de infectados similar al del valle del Cauca.
#Por otro lado, departamentos como el de Guainia, Guaviare, Casanare, entre otros, tienen una concentracion de infectados mucho menor frente a los distritos y departamentos mencionados anteriormente
#Por lo tanto, podriamos inferir que del total de infectados reportados en estos datos, la mayoria se encuentran en las grandes y principales ciudades del pais.
coronavirus$nuevo=ifelse(coronavirus$Estado=="Fallecido",1,0) ### Columna Fallecido
ma=list() ## Creación de Lista
for(i in 1:100) {
tmp=list(coronavirus[sample(nrow(coronavirus), 10),])
ma=append(ma,tmp)
}
library(dplyr)
## Warning: package 'dplyr' was built under R version 4.0.4
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
new_list <- lapply(ma, function(x) x%>% select(nuevo))### Extraemos la lista
df <- data.frame(matrix(unlist(new_list), ncol=length(new_list)))### Se convierte en Data Frame
df1=colSums(df)/10## Se obtiene la proporción de cada muestra.
#Descripción del estimador
plot(density(coronavirus$nuevo))
sum(coronavirus$nuevo)
## [1] 1586
length(coronavirus$`ID de caso`)
## [1] 48746
#A traves de los graficos, es evidente que la probabilidad de fallecer por el virus es inferior frente a la probabilidad de recuperare del mismo. Incluso, esto se ve reflejado en las cifras de la poblacion, donde el numero de fallecidos en los datos estudiados es de 1586 mientras que el total de la poblacion estudiada es 48746.
hist(df1,main="Histograma de la Proporcion Muestral", col=c("yellow2"), xlim = c(0, 0.1))
boxplot(df1, ylab = "Proporcion muestral", col=c("yellow2"))
mean(df1)
## [1] 0.035
sd(df1)
## [1] 0.05388915
# 4 Obtenga la proporci贸n poblacional y revise el error Proporcion poblacional
PT = coronavirus$atención == "Fallecido"
Fa = coronavirus$atención[PT]
DF2 = length(Fa)/length(PT)
DF2
## [1] 0.03265909
# Pasamos a calcular el error
Error= DF2-mean(df1)
Error
## [1] -0.00234091