La data elegida del presente trabajo es SLID parte del paquete carData. La data es una encuesta de trabajo e ingresos de la provincia de Ontario, Canada. Algo interesante de la data es que cuenta con varios datos no completos, principalmente, sueldos (wages).
library(tidyverse) # parte de los paquetes que queremos usar
library(carData) # activamos este paquete para usar una data que nos gusta
data(SLID)
# para saber de que trata la data usa ?SLID (el nombre de la data que quieres saber) despues de cargar el paquete.
#?SLID
Esta informacion lo pueden encontrar usando “?nombre_de_la_data” Ejemplo ?carData.
Para esta parte de la tarea se usara R. Usaremos las funciones aprendidas en clase!
Esta parte no se suele colocar para las tareas o informes, en este caso, solo se pone para que se vayan acostumbrando para el dia a dia. En el caso de la tarea pueden poner o lo pueden omitir, dependiendo de su criterio. Pueden hacer un analisis usando solo script de R, y luego realizan el informe de tarea.
dim(SLID)
## [1] 7425 5
class(SLID)
## [1] "data.frame"
sapply(SLID,class)
## wages education age sex language
## "numeric" "numeric" "integer" "factor" "factor"
class(SLID)
## [1] "data.frame"
summary(SLID)
## wages education age sex
## Min. : 2.300 Min. : 0.00 Min. :16.00 Female:3880
## 1st Qu.: 9.235 1st Qu.:10.30 1st Qu.:30.00 Male :3545
## Median :14.090 Median :12.10 Median :41.00
## Mean :15.553 Mean :12.50 Mean :43.98
## 3rd Qu.:19.800 3rd Qu.:14.53 3rd Qu.:57.00
## Max. :49.920 Max. :20.00 Max. :95.00
## NA's :3278 NA's :249
## language
## English:5716
## French : 497
## Other :1091
## NA's : 121
##
##
##
Algo interesante de la data es que la persona con mayor edad encuestada es 95 y el minimo 16.
Veamos si queremos saber cuantos periodos de estudios tiene segun el sexo.
SLID %>% # se lee asi a la base de datos SLID
group_by(sex) %>% # agrupala por sexo
summarise(mediana_educacion=median(education,na.rm = T)) %>% # crea la variable median_educacion que se calcula como la mediana de la variable education.
arrange(desc(mediana_educacion)) # ordena de forma descendiente segun la variable mediana_educacion
## # A tibble: 2 x 2
## sex mediana_educacion
## <fct> <dbl>
## 1 Female 12.1
## 2 Male 12
Veamos si queremos saber cuantos periodos de estudios y sueldos tiene segun el sexo.
SLID %>% # se lee asi a la base de datos SLID
group_by(sex) %>% # agrupala por sexo
summarise(mediana_educacion=median(education,na.rm = T),
mediana_sueldos=median(wages,na.rm = T),
numero=n())# crea las variables median_educacion que se calcula como la mediana de la variable education; mediana_sueldos que se calcula como la mediana de la variable wages; y numero que se calcula como contar el numero de observaciones.
## # A tibble: 2 x 4
## sex mediana_educacion mediana_sueldos numero
## <fct> <dbl> <dbl> <int>
## 1 Female 12.1 12.4 3880
## 2 Male 12 16.1 3545
Veamos si queremos saber cuantos periodos de estudios y sueldos tiene segun el sexo.
SLID %>% # se lee asi a la base de datos SLID
group_by(language) %>% # agrupala por sexo
summarise(mediana_educacion=median(education,na.rm = T),
mediana_sueldos=median(wages,na.rm = T),
numero=n())# crea las variables median_educacion que se calcula como la mediana de la variable education; mediana_sueldos que se calcula como la mediana de la variable wages; y numero que se calcula como contar el numero de observaciones.
## # A tibble: 4 x 4
## language mediana_educacion mediana_sueldos numero
## <fct> <dbl> <dbl> <int>
## 1 English 12.5 14.1 5716
## 2 French 12 14.3 497
## 3 Other 12 14.0 1091
## 4 <NA> 12.1 12.3 121
Veamos si queremos saber cuantos periodos de estudios y sueldos tiene segun el sexo.
SLID %>% # se lee asi a la base de datos SLID
group_by(sex,language) %>% # agrupala por sexo e idioma
summarise(mediana_educacion=median(education,na.rm = T),
mediana_sueldos=median(wages,na.rm = T),
numero=n())# crea las variables median_educacion que se calcula como la mediana de la variable education; mediana_sueldos que se calcula como la mediana de la variable wages; y numero que se calcula como contar el numero de observaciones.
## # A tibble: 8 x 5
## # Groups: sex [?]
## sex language mediana_educacion mediana_sueldos numero
## <fct> <fct> <dbl> <dbl> <int>
## 1 Female English 12.5 12.3 2999
## 2 Female French 12 12.5 262
## 3 Female Other 12 12.5 564
## 4 Female <NA> 12.8 13.5 55
## 5 Male English 12.5 16 2717
## 6 Male French 12 16.3 235
## 7 Male Other 12 17 527
## 8 Male <NA> 12 11.7 66
Usemos el filtro para ver los resultados de solo de los que hablan frances
SLID %>% # se lee asi a la base de datos SLID
filter(language %in% c("French", "English")) %>% # filtrar lenguaje por idioma frances e ingles. c() es una funcion para crear vector %in% es para decir que debe tener los siguientes elementos.
group_by(sex,language) %>% # agrupala por sexo e idioma
summarise(mediana_educacion=median(education,na.rm = T),
mediana_sueldos=median(wages,na.rm = T),
numero=n())# crea las variables median_educacion que se calcula como la mediana de la variable education; mediana_sueldos que se calcula como la mediana de la variable wages; y numero que se calcula como contar el numero de observaciones.
## # A tibble: 4 x 5
## # Groups: sex [?]
## sex language mediana_educacion mediana_sueldos numero
## <fct> <fct> <dbl> <dbl> <int>
## 1 Female English 12.5 12.3 2999
## 2 Female French 12 12.5 262
## 3 Male English 12.5 16 2717
## 4 Male French 12 16.3 235
Usemos mutate para crear nuevas variables, en este caso, el salario por dia
SLID %>% # se lee asi a la base de datos SLID
mutate (salario_dia = wages*8 ) %>%
group_by(sex,language) %>% # agrupala por sexo e idioma
summarise(mediana_educacion=median(education,na.rm = T),
mediana_sueldos_dia=median(salario_dia,na.rm = T),
numero=n()) %>% # crea las variables median_educacion que se calcula como la mediana de la variable education; mediana_sueldos que se calcula como la mediana de la variable wages; y numero que se calcula como contar el numero de observaciones.
arrange(desc(mediana_sueldos_dia))# ordena de forma descendiente segun la variable mediana_sueldos_dia
## # A tibble: 8 x 5
## # Groups: sex [2]
## sex language mediana_educacion mediana_sueldos_dia numero
## <fct> <fct> <dbl> <dbl> <int>
## 1 Male Other 12 136 527
## 2 Male French 12 131. 235
## 3 Male English 12.5 128 2717
## 4 Female <NA> 12.8 108. 55
## 5 Female French 12 99.8 262
## 6 Female Other 12 99.8 564
## 7 Female English 12.5 98.3 2999
## 8 Male <NA> 12 93.8 66