En su documento R markdown, incluya como texto el enunciado del ejercicio y en el chunk incluya el código y los resultados.
Suba a classroom únicamente el documento renderizado con los las funciones requeridas y resultados (impresos en el reporte) para resolver los ejercicios.
- Cargue el archivo mobility.csv.csv proveido por el profesor en el siguiente link(Debe hacerlo directamente desde la función read.csv:
https://raw.githubusercontent.com/DFJL/Datasets/master/mobility.csv
Este archivo de datos contiene data por país y por día sobre la movilidad promedio ( en cambios porcentuales) con respecto a una línea base del año 2019 en las siguientes localidades:
Puede ver los detalles e información sobre como interpretar en el siguiente link:
https://www.google.com/covid19/mobility/data_documentation.html?hl=en#about-this-data
Es requerido leer esta documentación para el correcto análisis de datos del presente reporte.
- Copie y pegue el siguiente código para resumir el dataframe:
- Seleccione un país centroamericano y filtre los datos mediante el campo country_region_code.Guarde el resultado en nuevo dataframe.
- Obtenga un resumen de los datos del dataframe obtenido en ejercicio anterior que indique la cantidad de observaciones, columnas y tipos de datos de las variables.
## 'data.frame': 78 obs. of 13 variables:
## $ country_region_code : Factor w/ 131 levels "AE","AF","AG",..: 29 29 29 29 29 29 29 29 29 29 ...
## $ country_region : Factor w/ 132 levels "Afghanistan",..: 27 27 27 27 27 27 27 27 27 27 ...
## $ sub_region_1 : Factor w/ 1209 levels "","Aargau","Aberdeen City",..: 1 1 1 1 1 1 1 1 1 1 ...
## $ sub_region_2 : Factor w/ 1712 levels "","Abbeville County",..: 1 1 1 1 1 1 1 1 1 1 ...
## $ date : Date, format: "2020-02-15" "2020-02-16" ...
## $ retail_and_recreation_percent_change_from_baseline: int 5 1 -1 -3 -4 -5 -5 -2 -4 -5 ...
## $ grocery_and_pharmacy_percent_change_from_baseline : int 10 9 5 3 -1 -1 0 1 2 0 ...
## $ parks_percent_change_from_baseline : int 4 -5 1 -1 0 -2 -5 -1 -1 -1 ...
## $ transit_stations_percent_change_from_baseline : int 2 1 2 1 0 0 1 -1 -2 0 ...
## $ workplaces_percent_change_from_baseline : int 4 1 20 20 19 19 21 4 1 22 ...
## $ residential_percent_change_from_baseline : int 0 1 -3 -3 -2 -2 -2 1 2 -2 ...
## $ month : num 2 2 2 2 2 2 2 2 2 2 ...
## $ year : num 2020 2020 2020 2020 2020 2020 2020 2020 2020 2020 ...
- Obtenga para todas las variables cuantitativas(numericas), las medidas de tendencia central (min,Q1,mean,median,Q3,max) estudiadas en clase mediante alguna función estudiada en clase
## # A tibble: 8 x 10
## variables min Q1 mean median Q3 max zero minus outlier
## <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <int> <int> <int>
## 1 retail_and_rec… -88 -54 -35.6 -45 -5 5 1 72 0
## 2 grocery_and_ph… -71 -31 -18.4 -25.5 1.75 13 4 52 0
## 3 parks_percent_… -86 -57.8 -37.1 -50.5 -5 4 3 70 0
## 4 transit_statio… -91 -57 -36.5 -50.5 -2 4 4 64 0
## 5 workplaces_per… -84 -40 -19.8 -34.5 12.8 23 0 48 0
## 6 residential_pe… -3 0.25 12.7 18 21 40 3 17 0
## 7 month 2 3 3.24 3 4 5 0 0 0
## 8 year 2020 2020 2020 2020 2020 2020 0 0 0
Según los resultados del ejercicio anterior responda:
Analice la mediana de todas las variables.Según esa medida, cuáles variables sufrieron mayor impacto, (tanto negativo como positivo) comparado con la línea base.
mobility2crb <- mobility2cr %>%
select(-year,-month) %>%
diagnose_numeric() %>%
arrange(desc(abs(median))) %>%
select(variables,median)
mobility2crb## # A tibble: 6 x 2
## variables median
## <chr> <dbl>
## 1 parks_percent_change_from_baseline -50.5
## 2 transit_stations_percent_change_from_baseline -50.5
## 3 retail_and_recreation_percent_change_from_baseline -45
## 4 workplaces_percent_change_from_baseline -34.5
## 5 grocery_and_pharmacy_percent_change_from_baseline -25.5
## 6 residential_percent_change_from_baseline 18
Las variables con mayor impacto(ya sea positivo o negativo) de la mediana son parks_percent_change_from_baseline y transit_stations_percent_change_from_baseline
Según la media, cuáles variables tuvieron un incremento con respecto a la línea base?
mobility2crb <- mobility2cr %>%
select(-year,-month) %>%
diagnose_numeric() %>%
filter(mean>0) %>%
arrange(desc(abs(mean))) %>%
select(variables,mean)
mobility2crb## # A tibble: 1 x 2
## variables mean
## <chr> <dbl>
## 1 residential_percent_change_from_baseline 12.7
La variable con mayor incremento de la media fue residential_percent_change_from_baseline
- Utilizando una función(puede ser la utilizada en ejercicio anterior) cual variable tuvo más días( observaciones ) con valores negativos?
mobility2crb <- mobility2cr %>%
select(-year,-month) %>%
diagnose_numeric() %>%
arrange(desc(abs(minus))) %>%
select(variables,minus)
mobility2crb## # A tibble: 6 x 2
## variables minus
## <chr> <int>
## 1 retail_and_recreation_percent_change_from_baseline 72
## 2 parks_percent_change_from_baseline 70
## 3 transit_stations_percent_change_from_baseline 64
## 4 grocery_and_pharmacy_percent_change_from_baseline 52
## 5 workplaces_percent_change_from_baseline 48
## 6 residential_percent_change_from_baseline 17
La variable con mayor cantidad de días con valores negativos fue retail_and_recreation_percent_change_from_baseline
- Obtenga un nuevo dataframe que realice lo siguiente:
Seleccione la variable “residential_percent_change_from_baseline”.
mobility2crMonth <- mobility2cr %>%
select(residential_percent_change_from_baseline,month)
head(mobility2crMonth,10)## residential_percent_change_from_baseline month
## 1 0 2
## 2 1 2
## 3 -3 2
## 4 -3 2
## 5 -2 2
## 6 -2 2
## 7 -2 2
## 8 1 2
## 9 2 2
## 10 -2 2
Agrupe por mes y obtenga la mediana de la variable seleccionada por mes.
mobility2crMonth <- mobility2crMonth %>%
group_by(month) %>%
summarise(mediana= median(residential_percent_change_from_baseline,na.rm = TRUE))
mobility2crMonth## # A tibble: 4 x 2
## month mediana
## <dbl> <dbl>
## 1 2 -2
## 2 3 6
## 3 4 21
## 4 5 23
Analice el resultado anterior.
Según la mediana de los cambios de movilidad residencial por mes del 2020 con respecto al año 2019, se puede observar una tendencia creciente conforme avanzan los meses, pasando de un decrecimiento de -2% en febrero a un incremento de 23% en mayo.
- Obtenga la distribución de frecuencias de la variable anterior para el mes de abril. - ( para lo anterior cree un nuevo df filtrando por el mes de abril) - ( debe utilizar el dataframe creado en ejercicio 3, debido a que el anterior esta agregado) - Utilice la opción “pretty” y nbins=10
mobility2crApril <- mobility2cr %>%
filter(month==4)
dist <- mobility2crApril %>%
mutate(bin= binning(mobility2crApril$residential_percent_change_from_baseline,type="pretty",nbins = 10)) %>%
group_by(bin) %>%
summarise(Freq = n()) %>%
mutate(relFreq = prop.table(Freq),
Cumulative_Freq = cumsum(Freq),
Cumulative_Relative_Freq = cumsum(relFreq)
)
dist## # A tibble: 9 x 5
## bin Freq relFreq Cumulative_Freq Cumulative_Relative_Freq
## <ord> <int> <dbl> <int> <dbl>
## 1 [12,14] 1 0.0333 1 0.0333
## 2 (16,18] 5 0.167 6 0.20
## 3 (18,20] 6 0.2 12 0.4
## 4 (20,22] 8 0.267 20 0.667
## 5 (22,24] 3 0.1 23 0.767
## 6 (24,26] 3 0.1 26 0.867
## 7 (30,32] 2 0.0667 28 0.933
## 8 (36,38] 1 0.0333 29 0.967
## 9 (38,40] 1 0.0333 30 1
- Cree el histograma de la distribución de frecuencias anterior
- Interprete la categoría con mayor frecuencia en el histograma, tanto en términos absolutos como relativos.
La categoría con mayor frecuencia es el grupo que representa los crecimientos entre 20% y 22%, ya que un total del 8 días(es decir 26% de los días) del año 2020 tuvieron un crecimiento entre 20% y 22% con respecto al año 2019 en cuanto a movilidad en los lugares residenciales.
Bonus Genere el box plot de los datos del ejercicio 8 y 9.
boxplotCR3<- boxplot(mobility2crApril$residential_percent_change_from_baseline,
data=mobility2crApril,
main="Cambio porcentual de estancia promedio residencial en abril",
xlab="Mes",
ylab="Cambio Porcentual",
col="orange",
border="brown"
)