En el siguiente informe se realiza un análisis descríptivo sobre los casos activos del covid-19 confirmados en las diferentes ciudades de Colombia en las fechas del 02 de marzo al 07 de junio del 2020, publicada por el Instituto Nacional de Salud de Colombia en la pagina https://www.ins.gov.co/Paginas/Boletines-casos-COVID-19-Colombia.aspx.
Las variables analizadas son la Edad de las personas contagiadas (Recuperadas y Fallecidas), el Sexo de las personas contagiadas y el Tipo de contagio.
Los datos analizados corresponden a la información de los casos activos de covid-19 en el país de colombia en las fechas antes mencionadas.
library(readxl)
library(ggplot2)
library(tidyverse)
## -- Attaching packages --------------------------------------- tidyverse 1.3.0 --
## v tibble 3.0.4 v dplyr 1.0.2
## v tidyr 1.1.2 v stringr 1.4.0
## v readr 1.4.0 v forcats 0.5.0
## v purrr 0.3.4
## -- Conflicts ------------------------------------------ tidyverse_conflicts() --
## x dplyr::filter() masks stats::filter()
## x dplyr::lag() masks stats::lag()
library(sqldf)
## Loading required package: gsubfn
## Loading required package: proto
## Loading required package: RSQLite
library(gsubfn)
library(proto)
library(RSQLite)
library(gmodels)
ruta_excel<-ruta_excel<-"C:\\Users\\Arturo Beltran\\Desktop\\proyecto\\base de datos.xlsx"
datos<-read_excel(ruta_excel)
datos
## # A tibble: 10,495 x 16
## Caso `Fecha Not` `Código ciudad` Departamento Ciudad Edad Sexo
## <dbl> <dttm> <dbl> <chr> <chr> <dbl> <chr>
## 1 1 2020-03-02 00:00:00 11001 Bogotá D.C. Bogot~ 19 F
## 2 2 2020-03-06 00:00:00 76111 Valle del C~ Guada~ 34 M
## 3 3 2020-03-07 00:00:00 5001 Antioquia Medel~ 50 F
## 4 4 2020-03-09 00:00:00 5001 Antioquia Medel~ 55 M
## 5 5 2020-03-09 00:00:00 5001 Antioquia Medel~ 25 M
## 6 6 2020-03-10 00:00:00 5360 Antioquia Itagüí 27 F
## 7 7 2020-03-08 00:00:00 13001 Cartagena D~ Carta~ 85 F
## 8 8 2020-03-09 00:00:00 11001 Bogotá D.C. Bogot~ 22 F
## 9 9 2020-03-08 00:00:00 11001 Bogotá D.C. Bogot~ 28 F
## 10 10 2020-03-12 00:00:00 11001 Bogotá D.C. Bogot~ 36 F
## # ... with 10,485 more rows, and 9 more variables: Tipo <chr>, Ubicación <chr>,
## # Estado <chr>, `Pais de procedencia` <chr>, `Fecha de inicio de
## # síntomas` <chr>, `Fecha de muerte` <chr>, `Fecha de diagnóstico` <dttm>,
## # `Fecha recuperado` <chr>, `Fecha cargue web` <dttm>
La base de datos tiene 10495 observaciones y 16 variables.
summary(datos)
## Caso Fecha Not Código ciudad
## Min. : 1 Min. :2020-03-02 00:00:00 Min. : 25
## 1st Qu.: 2624 1st Qu.:2020-04-05 00:00:00 1st Qu.:11001
## Median : 5288 Median :2020-04-21 00:00:00 Median :11001
## Mean : 5271 Mean :2020-04-17 00:09:52 Mean :31319
## 3rd Qu.: 7912 3rd Qu.:2020-04-29 00:00:00 3rd Qu.:50001
## Max. :10535 Max. :2020-05-09 00:00:00 Max. :91001
## Departamento Ciudad Edad Sexo
## Length:10495 Length:10495 Min. : 0.00 Length:10495
## Class :character Class :character 1st Qu.: 27.00 Class :character
## Mode :character Mode :character Median : 38.00 Mode :character
## Mean : 40.11
## 3rd Qu.: 53.00
## Max. :103.00
## Tipo Ubicación Estado Pais de procedencia
## Length:10495 Length:10495 Length:10495 Length:10495
## Class :character Class :character Class :character Class :character
## Mode :character Mode :character Mode :character Mode :character
##
##
##
## Fecha de inicio de síntomas Fecha de muerte Fecha de diagnóstico
## Length:10495 Length:10495 Min. :2020-03-06 00:00:00
## Class :character Class :character 1st Qu.:2020-04-11 00:00:00
## Mode :character Mode :character Median :2020-04-26 00:00:00
## Mean :2020-04-22 08:41:56
## 3rd Qu.:2020-05-04 00:00:00
## Max. :2020-05-09 00:00:00
## Fecha recuperado Fecha cargue web
## Length:10495 Min. :2020-03-06 00:00:00
## Class :character 1st Qu.:2020-04-11 00:00:00
## Mode :character Median :2020-04-26 00:00:00
## Mean :2020-04-22 08:41:56
## 3rd Qu.:2020-05-04 00:00:00
## Max. :2020-05-09 00:00:00
CrossTable(datos$Edad)
##
##
## Cell Contents
## |-------------------------|
## | N |
## | N / Table Total |
## |-------------------------|
##
##
## Total Observations in Table: 10495
##
##
## | 0 | 1 | 2 | 3 | 4 |
## |-----------|-----------|-----------|-----------|-----------|
## | 60 | 44 | 41 | 39 | 34 |
## | 0.006 | 0.004 | 0.004 | 0.004 | 0.003 |
## |-----------|-----------|-----------|-----------|-----------|
##
##
## | 5 | 6 | 7 | 8 | 9 |
## |-----------|-----------|-----------|-----------|-----------|
## | 37 | 35 | 36 | 45 | 36 |
## | 0.004 | 0.003 | 0.003 | 0.004 | 0.003 |
## |-----------|-----------|-----------|-----------|-----------|
##
##
## | 10 | 11 | 12 | 13 | 14 |
## |-----------|-----------|-----------|-----------|-----------|
## | 56 | 60 | 61 | 59 | 54 |
## | 0.005 | 0.006 | 0.006 | 0.006 | 0.005 |
## |-----------|-----------|-----------|-----------|-----------|
##
##
## | 15 | 16 | 17 | 18 | 19 |
## |-----------|-----------|-----------|-----------|-----------|
## | 48 | 58 | 65 | 112 | 98 |
## | 0.005 | 0.006 | 0.006 | 0.011 | 0.009 |
## |-----------|-----------|-----------|-----------|-----------|
##
##
## | 20 | 21 | 22 | 23 | 24 |
## |-----------|-----------|-----------|-----------|-----------|
## | 150 | 163 | 185 | 210 | 231 |
## | 0.014 | 0.016 | 0.018 | 0.020 | 0.022 |
## |-----------|-----------|-----------|-----------|-----------|
##
##
## | 25 | 26 | 27 | 28 | 29 |
## |-----------|-----------|-----------|-----------|-----------|
## | 255 | 245 | 260 | 270 | 291 |
## | 0.024 | 0.023 | 0.025 | 0.026 | 0.028 |
## |-----------|-----------|-----------|-----------|-----------|
##
##
## | 30 | 31 | 32 | 33 | 34 |
## |-----------|-----------|-----------|-----------|-----------|
## | 283 | 247 | 234 | 226 | 226 |
## | 0.027 | 0.024 | 0.022 | 0.022 | 0.022 |
## |-----------|-----------|-----------|-----------|-----------|
##
##
## | 35 | 36 | 37 | 38 | 39 |
## |-----------|-----------|-----------|-----------|-----------|
## | 210 | 216 | 220 | 223 | 232 |
## | 0.020 | 0.021 | 0.021 | 0.021 | 0.022 |
## |-----------|-----------|-----------|-----------|-----------|
##
##
## | 40 | 41 | 42 | 43 | 44 |
## |-----------|-----------|-----------|-----------|-----------|
## | 200 | 186 | 194 | 180 | 168 |
## | 0.019 | 0.018 | 0.018 | 0.017 | 0.016 |
## |-----------|-----------|-----------|-----------|-----------|
##
##
## | 45 | 46 | 47 | 48 | 49 |
## |-----------|-----------|-----------|-----------|-----------|
## | 186 | 144 | 166 | 167 | 153 |
## | 0.018 | 0.014 | 0.016 | 0.016 | 0.015 |
## |-----------|-----------|-----------|-----------|-----------|
##
##
## | 50 | 51 | 52 | 53 | 54 |
## |-----------|-----------|-----------|-----------|-----------|
## | 153 | 139 | 165 | 154 | 131 |
## | 0.015 | 0.013 | 0.016 | 0.015 | 0.012 |
## |-----------|-----------|-----------|-----------|-----------|
##
##
## | 55 | 56 | 57 | 58 | 59 |
## |-----------|-----------|-----------|-----------|-----------|
## | 132 | 143 | 147 | 151 | 119 |
## | 0.013 | 0.014 | 0.014 | 0.014 | 0.011 |
## |-----------|-----------|-----------|-----------|-----------|
##
##
## | 60 | 61 | 62 | 63 | 64 |
## |-----------|-----------|-----------|-----------|-----------|
## | 125 | 93 | 100 | 77 | 90 |
## | 0.012 | 0.009 | 0.010 | 0.007 | 0.009 |
## |-----------|-----------|-----------|-----------|-----------|
##
##
## | 65 | 66 | 67 | 68 | 69 |
## |-----------|-----------|-----------|-----------|-----------|
## | 85 | 76 | 71 | 57 | 66 |
## | 0.008 | 0.007 | 0.007 | 0.005 | 0.006 |
## |-----------|-----------|-----------|-----------|-----------|
##
##
## | 70 | 71 | 72 | 73 | 74 |
## |-----------|-----------|-----------|-----------|-----------|
## | 70 | 62 | 77 | 61 | 61 |
## | 0.007 | 0.006 | 0.007 | 0.006 | 0.006 |
## |-----------|-----------|-----------|-----------|-----------|
##
##
## | 75 | 76 | 77 | 78 | 79 |
## |-----------|-----------|-----------|-----------|-----------|
## | 46 | 42 | 39 | 35 | 44 |
## | 0.004 | 0.004 | 0.004 | 0.003 | 0.004 |
## |-----------|-----------|-----------|-----------|-----------|
##
##
## | 80 | 81 | 82 | 83 | 84 |
## |-----------|-----------|-----------|-----------|-----------|
## | 34 | 29 | 29 | 25 | 23 |
## | 0.003 | 0.003 | 0.003 | 0.002 | 0.002 |
## |-----------|-----------|-----------|-----------|-----------|
##
##
## | 85 | 86 | 87 | 88 | 89 |
## |-----------|-----------|-----------|-----------|-----------|
## | 29 | 13 | 18 | 16 | 12 |
## | 0.003 | 0.001 | 0.002 | 0.002 | 0.001 |
## |-----------|-----------|-----------|-----------|-----------|
##
##
## | 90 | 91 | 92 | 93 | 94 |
## |-----------|-----------|-----------|-----------|-----------|
## | 12 | 15 | 5 | 8 | 3 |
## | 0.001 | 0.001 | 0.000 | 0.001 | 0.000 |
## |-----------|-----------|-----------|-----------|-----------|
##
##
## | 95 | 96 | 97 | 98 | 100 |
## |-----------|-----------|-----------|-----------|-----------|
## | 4 | 5 | 2 | 1 | 1 |
## | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 |
## |-----------|-----------|-----------|-----------|-----------|
##
##
## | 103 |
## |-----------|
## | 1 |
## | 0.000 |
## |-----------|
##
##
##
##
str(datos)
## tibble [10,495 x 16] (S3: tbl_df/tbl/data.frame)
## $ Caso : num [1:10495] 1 2 3 4 5 6 7 8 9 10 ...
## $ Fecha Not : POSIXct[1:10495], format: "2020-03-02" "2020-03-06" ...
## $ Código ciudad : num [1:10495] 11001 76111 5001 5001 5001 ...
## $ Departamento : chr [1:10495] "Bogotá D.C." "Valle del Cauca" "Antioquia" "Antioquia" ...
## $ Ciudad : chr [1:10495] "Bogotá D.C." "Guadalajara de Buga" "Medellín" "Medellín" ...
## $ Edad : num [1:10495] 19 34 50 55 25 27 85 22 28 36 ...
## $ Sexo : chr [1:10495] "F" "M" "F" "M" ...
## $ Tipo : chr [1:10495] "Importado" "Importado" "Importado" "Relacionado" ...
## $ Ubicación : chr [1:10495] "Recuperado" "Recuperado" "Recuperado" "Recuperado" ...
## $ Estado : chr [1:10495] "Leve" "Leve" "Leve" "Leve" ...
## $ Pais de procedencia : chr [1:10495] "Italia" "España" "España" "Colombia" ...
## $ Fecha de inicio de síntomas: chr [1:10495] "43888" "43894" "43890" "43896" ...
## $ Fecha de muerte : chr [1:10495] "- -" "- -" "- -" "- -" ...
## $ Fecha de diagnóstico : POSIXct[1:10495], format: "2020-03-06" "2020-03-09" ...
## $ Fecha recuperado : chr [1:10495] "43903" "43909" "43905" "43916" ...
## $ Fecha cargue web : POSIXct[1:10495], format: "2020-03-06" "2020-03-09" ...
dim(datos)
## [1] 10495 16
CrossTable(datos$Sexo)
##
##
## Cell Contents
## |-------------------------|
## | N |
## | N / Table Total |
## |-------------------------|
##
##
## Total Observations in Table: 10493
##
##
## | F | M |
## |-----------|-----------|
## | 4584 | 5909 |
## | 0.437 | 0.563 |
## |-----------|-----------|
##
##
##
##
# Media
mean(datos$Edad, na.rm = T)
## [1] 40.10948
# Mediana
median (datos$Edad, na.rm = T)
## [1] 38
# Moda
Mode = function(x){
ta = table(x)
tam = max(ta)
if (all(ta == tam))
mod = NA
else
if(is.numeric(x))
mod = as.numeric(names(ta)[ta == tam])
else
mod = names(ta)[ta == tam]
return(mod)
}
with(datos, Mode(Edad))
## [1] 29
# Varianza
var(datos$Edad, na.rm = T)
## [1] 345.302
# Desviación Estandar
sd(datos$Edad, na.rm = T)
## [1] 18.5823
# Dato maximo
max(datos$Edad,na.rm = T)
## [1] 103
# Dato minimo
min(datos$Edad,na.rm = T)
## [1] 0
# Rango
Range = function(x){
maximun = max(x, na.rm = TRUE)
minimun = min(x, na.rm = TRUE)
Range = maximun - minimun
return(Range)
}
with(datos, Range(Edad))
## [1] 103
# Quantiles
quantile(datos$Edad,na.rm = T)
## 0% 25% 50% 75% 100%
## 0 27 38 53 103
# Rango Intercuantil
IQR(datos$Edad,na.rm = T)
## [1] 26
# Desviación media absoluta
with(datos, mean(abs(Edad-mean(Edad, na.rm = TRUE)), na.rm = TRUE))
## [1] 15.0222
summary(datos$Edad)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00 27.00 38.00 40.11 53.00 103.00
Edad<-table(datos$Edad)
Edad
##
## 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
## 60 44 41 39 34 37 35 36 45 36 56 60 61 59 54 48 58 65 112 98
## 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39
## 150 163 185 210 231 255 245 260 270 291 283 247 234 226 226 210 216 220 223 232
## 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59
## 200 186 194 180 168 186 144 166 167 153 153 139 165 154 131 132 143 147 151 119
## 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79
## 125 93 100 77 90 85 76 71 57 66 70 62 77 61 61 46 42 39 35 44
## 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 100
## 34 29 29 25 23 29 13 18 16 12 12 15 5 8 3 4 5 2 1 1
## 103
## 1
hist(datos$Edad, main = "Casos de contagios de Covid-19", xlab = "Edad", ylab = "Frecuencia", col = "green",
border = "red",
xlim = c(0, 105),
ylim = c(0, 1500),labels = T)
densidad_Edad <- density(datos$Edad)
plot(densidad_Edad,
main = "Casos de contagios de Covid-19",
xlab = "Edad",
ylab = "Densidad")
ggplot(datos, aes(x=Edad)) +
geom_density()
boxplot(datos$Edad, horizontal = T, col = "green", range = 1.5, main = "Boxplot de edad de personas contagiadas por Covid-19")
Se observa que la media arítmetica de las edades de las personas contagiadas es aproximadamente 40,1 años y el mayor número de contagios se presentan en personas con 29 años de edad. Como la media y la mediana difieren, entonces en el conjunto de datos hay datos atípicos grandes que se encuentran alejados respecto a los otros datos, siendo el caso de mayor edad resportado de 103 años y el de menor edad de 0 años. Como la media > mediana, la distribución es asimétrica sesgada a la derecha. La dispersion de los casos reportados es alrededor de los 18,6 años de edad, estando la totalidad de los casos entre las edades de 27 y 53 años.
Sexo<-table(datos$Sexo)
Sexo
##
## F M
## 4584 5909
par(mfrow = c(1,1))
barplot(table(datos$Sexo),col =c("pink","green"), ylim = c(0,7000),
main = "Sexo de las personas contagiadas de covid-19", names = c("Femenino", "Masculino"))
Entre el 02 de marzo y 07 de junio del 2020 se reportaron un total 10.493 casos activos de covid-19 en el país de los cuales 4.584 casos corresponden a mujeres y 5.909 casos corresponden a hombres.
Ubicación<-table(datos$Ubicación)
Ubicación
##
## Casa Fallecido Hospital Hospital UCI N/A Recuperado
## 6765 445 582 128 6 2569
barplot(table(datos$Ubicación),col = c("pink","gray","blueviolet", "green", "yellow","orange"), border = "red", ylim = c(0,7000),
main = "Situación de las personas contagiadas de Covid-19" ,lwd = 1.5, legend.text = TRUE)
Se reportaron que 6765 casos activos realizaron cuarentena en casa, un total de 582 en hospital, 128 en observación de cuidados intensivos, 2569 se encuentran recuperados, 445 fallecidos y 6 posibles casos sospechosos en estudío.
Tipo<-table(datos$Tipo)
Tipo
##
## En estudio Importado Relacionado
## 6292 832 3371
porcentajes <- as.numeric(round(((prop.table(table(datos$Tipo)))*100),2))
porcentajes
## [1] 59.95 7.93 32.12
etiquetas <- c("En estudio", "Importado", "Relacionado")
etiquetas
## [1] "En estudio" "Importado" "Relacionado"
etiquetas <- paste(etiquetas, porcentajes)
etiquetas
## [1] "En estudio 59.95" "Importado 7.93" "Relacionado 32.12"
etiquetas <- paste(etiquetas, "%", sep = "")
etiquetas
## [1] "En estudio 59.95%" "Importado 7.93%" "Relacionado 32.12%"
colores<-c("pink","yellow", "deepskyblue1")
colores
## [1] "pink" "yellow" "deepskyblue1"
pie(porcentajes, etiquetas, col=colores,
main = "Tipo de contagio"
,cex=1.2)
Se identifico que 832 casos fueron importados al país a través del exterior, 3.371 se contagiaron por tener contacto con personas que llegaron del exterior y 6.292 casos estuvieron en estudío para conocer el origen del contagio.
Estado<-table(datos$Estado)
Estado
##
## Asintomático Fallecido Grave leve Leve Moderado
## 1412 444 128 52 7819 634
barplot(table(datos$Estado),col = c("green","gray","blueviolet", "white", "pink","blue"), border = "red", ylim = c(0,20000),
main = "Estado de las personas que se contagiaron de covid-19" ,lwd = 2, legend.text = TRUE)
Se reporto que 1.412 personas contagiadas por el virus son asintomáticas, mientras que 128 personas reportaron sintomas graves, 634 personas presentan sintomas moderados, 7871 personas presentas sintomas leves y 444 personas murieron.
Fallecidos = sqldf('Select * from datos where Ubicación = "Fallecido"')
# Media
mean(Fallecidos$Edad, na.rm = T)
## [1] 66.84944
# Mediana
median (Fallecidos$Edad, na.rm = T)
## [1] 69
# Moda
Mode = function(x){
ta = table(x)
tam = max(ta)
if (all(ta == tam))
mod = NA
else
if(is.numeric(x))
mod = as.numeric(names(ta)[ta == tam])
else
mod = names(ta)[ta == tam]
return(mod)
}
with(Fallecidos, Mode(Edad))
## [1] 79
# Varianza
var(Fallecidos$Edad, na.rm = T)
## [1] 262.3129
# Desviaciòn Estandar
sd(Fallecidos$Edad, na.rm = T)
## [1] 16.19608
# Dato maximo
max(Fallecidos$Edad,na.rm = T)
## [1] 98
# Dato minimo
min(datos$Edad,na.rm = T)
## [1] 0
# Rango
Range = function(x){
maximun = max(x, na.rm = TRUE)
minimun = min(x, na.rm = TRUE)
Range = maximun - minimun
return(Range)
}
with(Fallecidos, Range(Edad))
## [1] 98
# Quantiles
quantile(Fallecidos$Edad,na.rm = T)
## 0% 25% 50% 75% 100%
## 0 59 69 79 98
# Rango Intercuantil
IQR(Fallecidos$Edad,na.rm = T)
## [1] 20
# Desviación media absoluta
with(Fallecidos, mean(abs(Edad-mean(Edad, na.rm = TRUE)), na.rm = TRUE))
## [1] 12.41298
summary(Fallecidos$Edad)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00 59.00 69.00 66.85 79.00 98.00
CrossTable(Fallecidos$Edad)
##
##
## Cell Contents
## |-------------------------|
## | N |
## | N / Table Total |
## |-------------------------|
##
##
## Total Observations in Table: 445
##
##
## | 0 | 3 | 19 | 20 | 24 |
## |-----------|-----------|-----------|-----------|-----------|
## | 2 | 1 | 1 | 1 | 2 |
## | 0.004 | 0.002 | 0.002 | 0.002 | 0.004 |
## |-----------|-----------|-----------|-----------|-----------|
##
##
## | 25 | 26 | 29 | 31 | 32 |
## |-----------|-----------|-----------|-----------|-----------|
## | 1 | 2 | 3 | 1 | 1 |
## | 0.002 | 0.004 | 0.007 | 0.002 | 0.002 |
## |-----------|-----------|-----------|-----------|-----------|
##
##
## | 33 | 36 | 37 | 38 | 39 |
## |-----------|-----------|-----------|-----------|-----------|
## | 5 | 2 | 2 | 1 | 2 |
## | 0.011 | 0.004 | 0.004 | 0.002 | 0.004 |
## |-----------|-----------|-----------|-----------|-----------|
##
##
## | 40 | 41 | 42 | 43 | 44 |
## |-----------|-----------|-----------|-----------|-----------|
## | 2 | 5 | 1 | 2 | 6 |
## | 0.004 | 0.011 | 0.002 | 0.004 | 0.013 |
## |-----------|-----------|-----------|-----------|-----------|
##
##
## | 45 | 46 | 47 | 48 | 49 |
## |-----------|-----------|-----------|-----------|-----------|
## | 1 | 8 | 4 | 4 | 4 |
## | 0.002 | 0.018 | 0.009 | 0.009 | 0.009 |
## |-----------|-----------|-----------|-----------|-----------|
##
##
## | 50 | 51 | 52 | 53 | 54 |
## |-----------|-----------|-----------|-----------|-----------|
## | 7 | 4 | 1 | 2 | 4 |
## | 0.016 | 0.009 | 0.002 | 0.004 | 0.009 |
## |-----------|-----------|-----------|-----------|-----------|
##
##
## | 55 | 56 | 57 | 58 | 59 |
## |-----------|-----------|-----------|-----------|-----------|
## | 3 | 6 | 9 | 11 | 7 |
## | 0.007 | 0.013 | 0.020 | 0.025 | 0.016 |
## |-----------|-----------|-----------|-----------|-----------|
##
##
## | 60 | 61 | 62 | 63 | 64 |
## |-----------|-----------|-----------|-----------|-----------|
## | 10 | 7 | 10 | 9 | 16 |
## | 0.022 | 0.016 | 0.022 | 0.020 | 0.036 |
## |-----------|-----------|-----------|-----------|-----------|
##
##
## | 65 | 66 | 67 | 68 | 69 |
## |-----------|-----------|-----------|-----------|-----------|
## | 13 | 17 | 10 | 8 | 9 |
## | 0.029 | 0.038 | 0.022 | 0.018 | 0.020 |
## |-----------|-----------|-----------|-----------|-----------|
##
##
## | 70 | 71 | 72 | 73 | 74 |
## |-----------|-----------|-----------|-----------|-----------|
## | 11 | 14 | 16 | 16 | 13 |
## | 0.025 | 0.031 | 0.036 | 0.036 | 0.029 |
## |-----------|-----------|-----------|-----------|-----------|
##
##
## | 75 | 76 | 77 | 78 | 79 |
## |-----------|-----------|-----------|-----------|-----------|
## | 11 | 11 | 8 | 6 | 19 |
## | 0.025 | 0.025 | 0.018 | 0.013 | 0.043 |
## |-----------|-----------|-----------|-----------|-----------|
##
##
## | 80 | 81 | 82 | 83 | 84 |
## |-----------|-----------|-----------|-----------|-----------|
## | 6 | 13 | 7 | 11 | 4 |
## | 0.013 | 0.029 | 0.016 | 0.025 | 0.009 |
## |-----------|-----------|-----------|-----------|-----------|
##
##
## | 85 | 86 | 87 | 88 | 89 |
## |-----------|-----------|-----------|-----------|-----------|
## | 7 | 5 | 6 | 6 | 5 |
## | 0.016 | 0.011 | 0.013 | 0.013 | 0.011 |
## |-----------|-----------|-----------|-----------|-----------|
##
##
## | 90 | 91 | 92 | 93 | 94 |
## |-----------|-----------|-----------|-----------|-----------|
## | 5 | 5 | 1 | 3 | 2 |
## | 0.011 | 0.011 | 0.002 | 0.007 | 0.004 |
## |-----------|-----------|-----------|-----------|-----------|
##
##
## | 95 | 96 | 97 | 98 |
## |-----------|-----------|-----------|-----------|
## | 3 | 1 | 2 | 1 |
## | 0.007 | 0.002 | 0.004 | 0.002 |
## |-----------|-----------|-----------|-----------|
##
##
##
##
hist(Fallecidos$Edad,col="Sky Blue", main="Edades de las personas fallecidas por COVID- 19", labels = T,
ylim = c(0,150),breaks=seq(0,100,10), xlab = "Edad", ylab = "Frecuencia")
densidad_Edad <- density(Fallecidos$Edad)
plot(densidad_Edad,
main = "Edad de las personas fallecidas por Covid-19",
xlab = "Edad",
ylab = "Densidad")
boxplot(Fallecidos$Edad, horizontal = T, col = "Sky Blue", range = 1.5, main = "Boxplot de edad de personas fallecidas")
Se puede observar que los casos de las personas fallecidas en Colombia por covid-19 tiene una media de 66.8 años de edad, teniendo una dispersión alrededor de los 16.2 años, por lo tanto la mayor cantidad de muertes ocurre entre el rango de 59 a 79 años de edad, siendo el caso de muerte de menor edad de 0 años y el caso de muerte de mayor edad de 98 años, siendo estos dos datos los valores mínimo y máximo de edades de los fallecidos al realizar el análisis. Ademas se identifico que el mayor número de muertes es de personas de 79 años de edad.
Con el fin de visualizar los datos atípicos y evaluar la dispersión de la distribución, se realizo un gráfico de Boxplot de las edades de los fallecidos. Como dichos datos atípicos afectan la media arímetica y la desviación estandar, ya que son estadisticos muy sensibles a posibles irregularidades en los extremos, se calculo el rango intercuartilico para obtener una mejor estimación de la dispersión de los datos y eliminar los valores extremadamente alejados de la distribución. Además como la media < mediana, la distribución es asimétrica sesgada a la izquierda.
Recuperado = sqldf('Select * from datos where Ubicación = "Recuperado"')
# Media
mean(Recuperado$Edad, na.rm = T)
## [1] 39.59401
# Mediana
median (Recuperado$Edad, na.rm = T)
## [1] 37
# Moda
Mode = function(x){
ta = table(x)
tam = max(ta)
if (all(ta == tam))
mod = NA
else
if(is.numeric(x))
mod = as.numeric(names(ta)[ta == tam])
else
mod = names(ta)[ta == tam]
return(mod)
}
with(Recuperado, Mode(Edad))
## [1] 29
# Varianza
var(Recuperado$Edad, na.rm = T)
## [1] 276.9328
# Desviaciòn Estandar
sd(Recuperado$Edad, na.rm = T)
## [1] 16.6413
# Dato minimo
min(Recuperado$Edad,na.rm = T)
## [1] 0
# Dato Maximo
max(Recuperado$Edad,na.rm = T)
## [1] 95
# Rango
Range = function(x){
maximun = max(x, na.rm = TRUE)
minimun = min(x, na.rm = TRUE)
Range = maximun - minimun
return(Range)
}
with(Recuperado, Range(Edad))
## [1] 95
# Quantiles
quantile(Recuperado$Edad,na.rm = T)
## 0% 25% 50% 75% 100%
## 0 28 37 51 95
# Rango Intercuantil
IQR(Recuperado$Edad,na.rm = T)
## [1] 23
# Desviación media absoluta
with(Recuperado, mean(abs(Edad-mean(Edad, na.rm = TRUE)), na.rm = TRUE))
## [1] 13.46187
summary(Recuperado$Edad)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00 28.00 37.00 39.59 51.00 95.00
CrossTable(Recuperado$Edad)
##
##
## Cell Contents
## |-------------------------|
## | N |
## | N / Table Total |
## |-------------------------|
##
##
## Total Observations in Table: 2569
##
##
## | 0 | 1 | 2 | 3 | 4 |
## |-----------|-----------|-----------|-----------|-----------|
## | 8 | 10 | 10 | 5 | 8 |
## | 0.003 | 0.004 | 0.004 | 0.002 | 0.003 |
## |-----------|-----------|-----------|-----------|-----------|
##
##
## | 5 | 6 | 7 | 8 | 9 |
## |-----------|-----------|-----------|-----------|-----------|
## | 9 | 2 | 6 | 12 | 11 |
## | 0.004 | 0.001 | 0.002 | 0.005 | 0.004 |
## |-----------|-----------|-----------|-----------|-----------|
##
##
## | 10 | 11 | 12 | 13 | 14 |
## |-----------|-----------|-----------|-----------|-----------|
## | 8 | 6 | 12 | 12 | 8 |
## | 0.003 | 0.002 | 0.005 | 0.005 | 0.003 |
## |-----------|-----------|-----------|-----------|-----------|
##
##
## | 15 | 16 | 17 | 18 | 19 |
## |-----------|-----------|-----------|-----------|-----------|
## | 16 | 11 | 9 | 26 | 21 |
## | 0.006 | 0.004 | 0.004 | 0.010 | 0.008 |
## |-----------|-----------|-----------|-----------|-----------|
##
##
## | 20 | 21 | 22 | 23 | 24 |
## |-----------|-----------|-----------|-----------|-----------|
## | 26 | 40 | 41 | 48 | 57 |
## | 0.010 | 0.016 | 0.016 | 0.019 | 0.022 |
## |-----------|-----------|-----------|-----------|-----------|
##
##
## | 25 | 26 | 27 | 28 | 29 |
## |-----------|-----------|-----------|-----------|-----------|
## | 63 | 71 | 60 | 71 | 79 |
## | 0.025 | 0.028 | 0.023 | 0.028 | 0.031 |
## |-----------|-----------|-----------|-----------|-----------|
##
##
## | 30 | 31 | 32 | 33 | 34 |
## |-----------|-----------|-----------|-----------|-----------|
## | 75 | 62 | 73 | 62 | 65 |
## | 0.029 | 0.024 | 0.028 | 0.024 | 0.025 |
## |-----------|-----------|-----------|-----------|-----------|
##
##
## | 35 | 36 | 37 | 38 | 39 |
## |-----------|-----------|-----------|-----------|-----------|
## | 64 | 62 | 60 | 60 | 58 |
## | 0.025 | 0.024 | 0.023 | 0.023 | 0.023 |
## |-----------|-----------|-----------|-----------|-----------|
##
##
## | 40 | 41 | 42 | 43 | 44 |
## |-----------|-----------|-----------|-----------|-----------|
## | 53 | 42 | 50 | 38 | 39 |
## | 0.021 | 0.016 | 0.019 | 0.015 | 0.015 |
## |-----------|-----------|-----------|-----------|-----------|
##
##
## | 45 | 46 | 47 | 48 | 49 |
## |-----------|-----------|-----------|-----------|-----------|
## | 57 | 35 | 45 | 44 | 37 |
## | 0.022 | 0.014 | 0.018 | 0.017 | 0.014 |
## |-----------|-----------|-----------|-----------|-----------|
##
##
## | 50 | 51 | 52 | 53 | 54 |
## |-----------|-----------|-----------|-----------|-----------|
## | 49 | 44 | 37 | 41 | 46 |
## | 0.019 | 0.017 | 0.014 | 0.016 | 0.018 |
## |-----------|-----------|-----------|-----------|-----------|
##
##
## | 55 | 56 | 57 | 58 | 59 |
## |-----------|-----------|-----------|-----------|-----------|
## | 39 | 37 | 39 | 48 | 27 |
## | 0.015 | 0.014 | 0.015 | 0.019 | 0.011 |
## |-----------|-----------|-----------|-----------|-----------|
##
##
## | 60 | 61 | 62 | 63 | 64 |
## |-----------|-----------|-----------|-----------|-----------|
## | 25 | 29 | 25 | 20 | 20 |
## | 0.010 | 0.011 | 0.010 | 0.008 | 0.008 |
## |-----------|-----------|-----------|-----------|-----------|
##
##
## | 65 | 66 | 67 | 68 | 69 |
## |-----------|-----------|-----------|-----------|-----------|
## | 14 | 15 | 17 | 12 | 13 |
## | 0.005 | 0.006 | 0.007 | 0.005 | 0.005 |
## |-----------|-----------|-----------|-----------|-----------|
##
##
## | 70 | 71 | 72 | 73 | 74 |
## |-----------|-----------|-----------|-----------|-----------|
## | 14 | 8 | 14 | 12 | 15 |
## | 0.005 | 0.003 | 0.005 | 0.005 | 0.006 |
## |-----------|-----------|-----------|-----------|-----------|
##
##
## | 75 | 76 | 77 | 78 | 79 |
## |-----------|-----------|-----------|-----------|-----------|
## | 9 | 4 | 3 | 6 | 3 |
## | 0.004 | 0.002 | 0.001 | 0.002 | 0.001 |
## |-----------|-----------|-----------|-----------|-----------|
##
##
## | 80 | 81 | 82 | 83 | 84 |
## |-----------|-----------|-----------|-----------|-----------|
## | 6 | 3 | 5 | 1 | 6 |
## | 0.002 | 0.001 | 0.002 | 0.000 | 0.002 |
## |-----------|-----------|-----------|-----------|-----------|
##
##
## | 85 | 87 | 88 | 89 | 90 |
## |-----------|-----------|-----------|-----------|-----------|
## | 5 | 3 | 1 | 2 | 1 |
## | 0.002 | 0.001 | 0.000 | 0.001 | 0.000 |
## |-----------|-----------|-----------|-----------|-----------|
##
##
## | 91 | 92 | 93 | 95 |
## |-----------|-----------|-----------|-----------|
## | 1 | 1 | 1 | 1 |
## | 0.000 | 0.000 | 0.000 | 0.000 |
## |-----------|-----------|-----------|-----------|
##
##
##
##
hist(Recuperado$Edad,col="pink", main="Edades de las personas Recuperadas por COVID- 19", labels = T,
ylim = c(0,800),breaks=seq(0,100,10), xlab = "Edad", ylab = "Frecuencia")
densidad_Edad <- density(Recuperado$Edad)
plot(densidad_Edad,
main = "Edad de las personas Recuperadas por Covid-19",
xlab = "Edad",
ylab = "Densidad")
boxplot(Recuperado$Edad, horizontal = T, col = "pink", range = 1.5, main = "Boxplot de edad de personas Recuperadas")
Se puede observar que los casos de las personas Recuperadas en Colombia por covid-19 tiene una media de 39.6 años de edad, teniendo una dispersión alrededor de los 16.6 años, por lo tanto la mayor cantidad de Recuperados se encuentra entre los 28 y 51 años de edad, siendo el caso de recuperados de menor edad de 0 años y el caso de recuperados de mayor edad de 95 años, siendo estos dos datos los valores mínimo y máximo de edades de los Recuperados al realizar el análisis. Ademas se identifico que el mayor número de recuperados es de personas de 29 años de edad. Además como la media > mediana, la distribución es asimétrica sesgada a la derecha.
• https://rpubs.com/mgsaavedraro/643344
• https://www.rpubs.com/JoanClaverol/485799
• https://biocosas.github.io/R/030_estadistica_descriptiva.html
• https://rpubs.com/Andres_Sorza/595275
• https://rpubs.com/jboscomendoza/visualizacion-tendencia-covid-19
• https://bookdown.org/jboscomendoza/r-principiantes4/graficas-de-barras.html