Instrucciones

Trabajo Individual.Ponga su nombre en el reporte o perderá los puntos.
Genere un documento R markdown para resolver los ejercicios.
En su documento R markdown, incluya como texto el enunciado del ejercicio y en el chunk incluya el código y los resultados.
Suba a classroom únicamente el documento renderizado con los las funciones requeridas y resultados (impresos en el reporte) para resolver los ejercicios.

Ejercicios

Ejercicio 1

- Cargue el archivo mobility.csv.csv proveido por el profesor en el siguiente link(Debe hacerlo directamente desde la función read.csv:

https://raw.githubusercontent.com/DFJL/Datasets/master/mobility.csv

Este archivo de datos contiene data por país y por día sobre la movilidad promedio ( en cambios porcentuales) con respecto a una línea base del año 2019 en las siguientes localidades:

sitios recreacionales
abarrotes y farmacias
parques
paradas de transporte público
Lugares de trabajo
Lugares residenciales

Puede ver los detalles e información sobre como interpretar en el siguiente link:

https://www.google.com/covid19/mobility/data_documentation.html?hl=en#about-this-data

Es requerido leer esta documentación para el correcto análisis de datos del presente reporte.

Ejercicio 2

- Copie y pegue el siguiente código para resumir el dataframe:

mobility <- read.csv("https://raw.githubusercontent.com/DFJL/Datasets/master/mobility.csv",sep= ",")

library(dlookr)
library(dplyr)

library(lubridate)
library(dplyr)

#Previanmente he cargado el archivo con el nombre de mobility

mobility$date <- as.Date(mobility$date, format = '%Y-%m-%d')

mobility2 <- mobility %>% 
  mutate(month= month(x = date),
         year= year(x= date))

Ejercicio 3

- Seleccione un país centroamericano y filtre los datos mediante el campo country_region_code.Guarde el resultado en nuevo dataframe.

mobility2cr <- mobility2 %>% 
  filter(country_region_code=='CR')

Ejercicio 4

- Obtenga un resumen de los datos del dataframe obtenido en ejercicio anterior que indique la cantidad de observaciones, columnas y tipos de datos de las variables.

str(mobility2cr)

## 'data.frame':    78 obs. of  13 variables:
##  $ country_region_code                               : Factor w/ 131 levels "AE","AF","AG",..: 29 29 29 29 29 29 29 29 29 29 ...
##  $ country_region                                    : Factor w/ 132 levels "Afghanistan",..: 27 27 27 27 27 27 27 27 27 27 ...
##  $ sub_region_1                                      : Factor w/ 1209 levels "","Aargau","Aberdeen City",..: 1 1 1 1 1 1 1 1 1 1 ...
##  $ sub_region_2                                      : Factor w/ 1712 levels "","Abbeville County",..: 1 1 1 1 1 1 1 1 1 1 ...
##  $ date                                              : Date, format: "2020-02-15" "2020-02-16" ...
##  $ retail_and_recreation_percent_change_from_baseline: int  5 1 -1 -3 -4 -5 -5 -2 -4 -5 ...
##  $ grocery_and_pharmacy_percent_change_from_baseline : int  10 9 5 3 -1 -1 0 1 2 0 ...
##  $ parks_percent_change_from_baseline                : int  4 -5 1 -1 0 -2 -5 -1 -1 -1 ...
##  $ transit_stations_percent_change_from_baseline     : int  2 1 2 1 0 0 1 -1 -2 0 ...
##  $ workplaces_percent_change_from_baseline           : int  4 1 20 20 19 19 21 4 1 22 ...
##  $ residential_percent_change_from_baseline          : int  0 1 -3 -3 -2 -2 -2 1 2 -2 ...
##  $ month                                             : num  2 2 2 2 2 2 2 2 2 2 ...
##  $ year                                              : num  2020 2020 2020 2020 2020 2020 2020 2020 2020 2020 ...

Ejercicio 5

- Obtenga para todas las variables cuantitativas(numericas), las medidas de tendencia central (min,Q1,mean,median,Q3,max) estudiadas en clase mediante alguna función estudiada en clase

diagnose_numeric(mobility2cr)

## # A tibble: 8 x 10
##   variables         min      Q1    mean median      Q3   max  zero minus outlier
##   <chr>           <dbl>   <dbl>   <dbl>  <dbl>   <dbl> <dbl> <int> <int>   <int>
## 1 retail_and_rec…   -88  -54     -35.6   -45     -5        5     1    72       0
## 2 grocery_and_ph…   -71  -31     -18.4   -25.5    1.75    13     4    52       0
## 3 parks_percent_…   -86  -57.8   -37.1   -50.5   -5        4     3    70       0
## 4 transit_statio…   -91  -57     -36.5   -50.5   -2        4     4    64       0
## 5 workplaces_per…   -84  -40     -19.8   -34.5   12.8     23     0    48       0
## 6 residential_pe…    -3    0.25   12.7    18     21       40     3    17       0
## 7 month               2    3       3.24    3      4        5     0     0       0
## 8 year             2020 2020    2020    2020   2020     2020     0     0       0

Según los resultados del ejercicio anterior responda:

- 5.2

Analice la mediana de todas las variables.Según esa medida, cuáles variables sufrieron mayor impacto, (tanto negativo como positivo) comparado con la línea base.

mobility2crb <- mobility2cr %>% 
  select(-year,-month) %>%
  diagnose_numeric() %>%
  arrange(desc(abs(median))) %>%
  select(variables,median) 

mobility2crb

## # A tibble: 6 x 2
##   variables                                          median
##   <chr>                                               <dbl>
## 1 parks_percent_change_from_baseline                  -50.5
## 2 transit_stations_percent_change_from_baseline       -50.5
## 3 retail_and_recreation_percent_change_from_baseline  -45  
## 4 workplaces_percent_change_from_baseline             -34.5
## 5 grocery_and_pharmacy_percent_change_from_baseline   -25.5
## 6 residential_percent_change_from_baseline             18

var1<- as.character(mobility2crb$variables[1])
var2<-  as.character(mobility2crb$variables[2])

Las variables con mayor impacto(ya sea positivo o negativo) de la mediana son parks_percent_change_from_baseline y transit_stations_percent_change_from_baseline

- 5.3

Según la media, cuáles variables tuvieron un incremento con respecto a la línea base?

mobility2crb <- mobility2cr %>% 
  select(-year,-month) %>%
  diagnose_numeric() %>%
  filter(mean>0) %>%
  arrange(desc(abs(mean))) %>%
  select(variables,mean) 

mobility2crb

## # A tibble: 1 x 2
##   variables                                 mean
##   <chr>                                    <dbl>
## 1 residential_percent_change_from_baseline  12.7

var1<- as.character(mobility2crb$variables[1])

La variable con mayor incremento de la media fue residential_percent_change_from_baseline

Ejercicio 6

- Utilizando una función(puede ser la utilizada en ejercicio anterior) cual variable tuvo más días( observaciones ) con valores negativos?

mobility2crb <- mobility2cr %>% 
  select(-year,-month) %>%
  diagnose_numeric() %>%
  arrange(desc(abs(minus))) %>%
  select(variables,minus) 

mobility2crb

## # A tibble: 6 x 2
##   variables                                          minus
##   <chr>                                              <int>
## 1 retail_and_recreation_percent_change_from_baseline    72
## 2 parks_percent_change_from_baseline                    70
## 3 transit_stations_percent_change_from_baseline         64
## 4 grocery_and_pharmacy_percent_change_from_baseline     52
## 5 workplaces_percent_change_from_baseline               48
## 6 residential_percent_change_from_baseline              17

var1<- as.character(mobility2crb$variables[1])

La variable con mayor cantidad de días con valores negativos fue retail_and_recreation_percent_change_from_baseline

Ejercicio 7

- Obtenga un nuevo dataframe que realice lo siguiente:

- 7.1

Seleccione la variable “residential_percent_change_from_baseline”.

mobility2crMonth <- mobility2cr %>%
  select(residential_percent_change_from_baseline,month)

head(mobility2crMonth,10)

##    residential_percent_change_from_baseline month
## 1                                         0     2
## 2                                         1     2
## 3                                        -3     2
## 4                                        -3     2
## 5                                        -2     2
## 6                                        -2     2
## 7                                        -2     2
## 8                                         1     2
## 9                                         2     2
## 10                                       -2     2

- 7.2

Agrupe por mes y obtenga la mediana de la variable seleccionada por mes.

mobility2crMonth <- mobility2crMonth %>%
  group_by(month) %>%
  summarise(mediana= median(residential_percent_change_from_baseline,na.rm = TRUE))


mobility2crMonth

## # A tibble: 4 x 2
##   month mediana
##   <dbl>   <dbl>
## 1     2      -2
## 2     3       6
## 3     4      21
## 4     5      23

- 7.3

Analice el resultado anterior.

Según la mediana de los cambios de movilidad residencial por mes del 2020 con respecto al año 2019, se puede observar una tendencia creciente conforme avanzan los meses, pasando de un decrecimiento de -2% en febrero a un incremento de 23% en mayo.

Ejercicio 8

- Obtenga la distribución de frecuencias de la variable anterior para el mes de abril. - ( para lo anterior cree un nuevo df filtrando por el mes de abril) - ( debe utilizar el dataframe creado en ejercicio 3, debido a que el anterior esta agregado) - Utilice la opción “pretty” y nbins=10

mobility2crApril <- mobility2cr %>%
  filter(month==4) 

dist <- mobility2crApril %>%
  mutate(bin= binning(mobility2crApril$residential_percent_change_from_baseline,type="pretty",nbins = 10)) %>%
  group_by(bin) %>%
  summarise(Freq = n()) %>%
  mutate(relFreq = prop.table(Freq),
         Cumulative_Freq = cumsum(Freq),
         Cumulative_Relative_Freq = cumsum(relFreq)
  )

dist

## # A tibble: 9 x 5
##   bin      Freq relFreq Cumulative_Freq Cumulative_Relative_Freq
##   <ord>   <int>   <dbl>           <int>                    <dbl>
## 1 [12,14]     1  0.0333               1                   0.0333
## 2 (16,18]     5  0.167                6                   0.20  
## 3 (18,20]     6  0.2                 12                   0.4   
## 4 (20,22]     8  0.267               20                   0.667 
## 5 (22,24]     3  0.1                 23                   0.767 
## 6 (24,26]     3  0.1                 26                   0.867 
## 7 (30,32]     2  0.0667              28                   0.933 
## 8 (36,38]     1  0.0333              29                   0.967 
## 9 (38,40]     1  0.0333              30                   1

Ejercicio 9

- Cree el histograma de la distribución de frecuencias anterior

plot(binning(mobility2crApril$residential_percent_change_from_baseline,type="pretty",nbins = 10))

Ejercicio 10

- Interprete la categoría con mayor frecuencia en el histograma, tanto en términos absolutos como relativos.

La categoría con mayor frecuencia es el grupo que representa los crecimientos entre 20% y 22%, ya que un total del 8 días(es decir 26% de los días) del año 2020 tuvieron un crecimiento entre 20% y 22% con respecto al año 2019 en cuanto a movilidad en los lugares residenciales.

Bonus Genere el box plot de los datos del ejercicio 8 y 9.

boxplotCR3<- boxplot(mobility2crApril$residential_percent_change_from_baseline,
                     data=mobility2crApril,
                     main="Cambio porcentual de estancia promedio residencial en abril",
                     xlab="Mes",
                     ylab="Cambio Porcentual",
                     col="orange",
                     border="brown"
                     )

“Solución Reporte 1”

Nombre del autor

04 June, 2020