Descripcion de la data

La data elegida del presente trabajo es SLID parte del paquete carData. La data es una encuesta de trabajo e ingresos de la provincia de Ontario, Canada. Algo interesante de la data es que cuenta con varios datos no completos, principalmente, sueldos (wages).

library(tidyverse) # parte de los paquetes que queremos usar
library(carData) # activamos este paquete para usar una data que nos gusta
data(SLID)
# para saber de que trata la data usa ?SLID (el nombre de la data que quieres saber) despues de cargar el paquete.
#?SLID

Principales datos

Esta informacion lo pueden encontrar usando “?nombre_de_la_data” Ejemplo ?carData.

  1. Paquete: carData
  2. Nombre corto de la data: SLID
  3. Nombre largo y original de la data: Survey of Labour and Income Dynamics

Analisis descriptivo usando R

Para esta parte de la tarea se usara R. Usaremos las funciones aprendidas en clase!

Codigo de R

Esta parte no se suele colocar para las tareas o informes, en este caso, solo se pone para que se vayan acostumbrando para el dia a dia. En el caso de la tarea pueden poner o lo pueden omitir, dependiendo de su criterio. Pueden hacer un analisis usando solo script de R, y luego realizan el informe de tarea.

dim(SLID)
## [1] 7425    5
class(SLID)
## [1] "data.frame"
sapply(SLID,class)
##     wages education       age       sex  language 
## "numeric" "numeric" "integer"  "factor"  "factor"
class(SLID)
## [1] "data.frame"
summary(SLID)
##      wages          education          age            sex      
##  Min.   : 2.300   Min.   : 0.00   Min.   :16.00   Female:3880  
##  1st Qu.: 9.235   1st Qu.:10.30   1st Qu.:30.00   Male  :3545  
##  Median :14.090   Median :12.10   Median :41.00                
##  Mean   :15.553   Mean   :12.50   Mean   :43.98                
##  3rd Qu.:19.800   3rd Qu.:14.53   3rd Qu.:57.00                
##  Max.   :49.920   Max.   :20.00   Max.   :95.00                
##  NA's   :3278     NA's   :249                                  
##     language   
##  English:5716  
##  French : 497  
##  Other  :1091  
##  NA's   : 121  
##                
##                
## 

Textos/Analisis

  • Wages: Sueldo por hora. Esta data es numerica y cuenta con 3278 NAs (datos faltantes). Esta data lo pueden calcular usando el codigo que se ha puesto en este RMD o revisando el summary.
  • Educacion: Numero de periodos de estudio. Esta data es numerica y cuenta con 249 NAs (datos faltantes).
  • Edad: Edad de las personas encuestadas. Esta data es entera y cuenta con 0 NAs (datos faltantes).
  • Sexo: Sexo de las personas encuestadas. Esta data es factor y cuenta con 0 NAs (datos faltantes). Los unicos valores del factor son femenino y masculino.
  • Lenguaje: Lenguaje de las personas encuestadas. Esta data es factor y cuenta con 121 NAs (datos faltantes). Los unicos valores del factor son ingles, frances y otro.

Algo interesante de la data es que la persona con mayor edad encuestada es 95 y el minimo 16.

Usando el tidyverse!

Veamos si queremos saber cuantos periodos de estudios tiene segun el sexo.

SLID %>% # se lee asi a la base de datos SLID
  group_by(sex) %>% # agrupala por sexo
  summarise(mediana_educacion=median(education,na.rm = T)) %>%  # crea la variable median_educacion que se calcula como la mediana de la variable education.
  arrange(desc(mediana_educacion)) # ordena de forma descendiente segun la variable mediana_educacion
## # A tibble: 2 x 2
##   sex    mediana_educacion
##   <fct>              <dbl>
## 1 Female              12.1
## 2 Male                12

Veamos si queremos saber cuantos periodos de estudios y sueldos tiene segun el sexo.

SLID %>% # se lee asi a la base de datos SLID
  group_by(sex) %>% # agrupala por sexo
  summarise(mediana_educacion=median(education,na.rm = T),
            mediana_sueldos=median(wages,na.rm = T),
            numero=n())# crea las variables median_educacion que se calcula como la mediana de la variable education; mediana_sueldos que se calcula como la mediana de la variable wages; y numero que se calcula como contar el numero de observaciones.
## # A tibble: 2 x 4
##   sex    mediana_educacion mediana_sueldos numero
##   <fct>              <dbl>           <dbl>  <int>
## 1 Female              12.1            12.4   3880
## 2 Male                12              16.1   3545

Veamos si queremos saber cuantos periodos de estudios y sueldos tiene segun el sexo.

SLID %>% # se lee asi a la base de datos SLID
  group_by(language) %>% # agrupala por sexo
  summarise(mediana_educacion=median(education,na.rm = T),
            mediana_sueldos=median(wages,na.rm = T),
            numero=n())# crea las variables median_educacion que se calcula como la mediana de la variable education; mediana_sueldos que se calcula como la mediana de la variable wages; y numero que se calcula como contar el numero de observaciones.
## # A tibble: 4 x 4
##   language mediana_educacion mediana_sueldos numero
##   <fct>                <dbl>           <dbl>  <int>
## 1 English               12.5            14.1   5716
## 2 French                12              14.3    497
## 3 Other                 12              14.0   1091
## 4 <NA>                  12.1            12.3    121

Veamos si queremos saber cuantos periodos de estudios y sueldos tiene segun el sexo.

SLID %>% # se lee asi a la base de datos SLID
  group_by(sex,language) %>% # agrupala por sexo e idioma
  summarise(mediana_educacion=median(education,na.rm = T),
            mediana_sueldos=median(wages,na.rm = T),
            numero=n())# crea las variables median_educacion que se calcula como la mediana de la variable education; mediana_sueldos que se calcula como la mediana de la variable wages; y numero que se calcula como contar el numero de observaciones.
## # A tibble: 8 x 5
## # Groups:   sex [?]
##   sex    language mediana_educacion mediana_sueldos numero
##   <fct>  <fct>                <dbl>           <dbl>  <int>
## 1 Female English               12.5            12.3   2999
## 2 Female French                12              12.5    262
## 3 Female Other                 12              12.5    564
## 4 Female <NA>                  12.8            13.5     55
## 5 Male   English               12.5            16     2717
## 6 Male   French                12              16.3    235
## 7 Male   Other                 12              17      527
## 8 Male   <NA>                  12              11.7     66

Usemos el filtro para ver los resultados de solo de los que hablan frances

SLID %>% # se lee asi a la base de datos SLID
  filter(language %in% c("French", "English")) %>% # filtrar lenguaje por idioma frances e ingles. c() es una funcion para crear vector %in% es para decir que debe tener los siguientes elementos.
  group_by(sex,language) %>% # agrupala por sexo e idioma
  summarise(mediana_educacion=median(education,na.rm = T),
            mediana_sueldos=median(wages,na.rm = T),
            numero=n())# crea las variables median_educacion que se calcula como la mediana de la variable education; mediana_sueldos que se calcula como la mediana de la variable wages; y numero que se calcula como contar el numero de observaciones.
## # A tibble: 4 x 5
## # Groups:   sex [?]
##   sex    language mediana_educacion mediana_sueldos numero
##   <fct>  <fct>                <dbl>           <dbl>  <int>
## 1 Female English               12.5            12.3   2999
## 2 Female French                12              12.5    262
## 3 Male   English               12.5            16     2717
## 4 Male   French                12              16.3    235

Usemos mutate para crear nuevas variables, en este caso, el salario por dia

SLID %>% # se lee asi a la base de datos SLID
  mutate (salario_dia = wages*8 ) %>% 
  group_by(sex,language) %>% # agrupala por sexo e idioma
  summarise(mediana_educacion=median(education,na.rm = T),
            mediana_sueldos_dia=median(salario_dia,na.rm = T),
            numero=n()) %>% # crea las variables median_educacion que se calcula como la mediana de la variable education; mediana_sueldos que se calcula como la mediana de la variable wages; y numero que se calcula como contar el numero de observaciones.
  arrange(desc(mediana_sueldos_dia))# ordena de forma descendiente segun la variable mediana_sueldos_dia
## # A tibble: 8 x 5
## # Groups:   sex [2]
##   sex    language mediana_educacion mediana_sueldos_dia numero
##   <fct>  <fct>                <dbl>               <dbl>  <int>
## 1 Male   Other                 12                 136      527
## 2 Male   French                12                 131.     235
## 3 Male   English               12.5               128     2717
## 4 Female <NA>                  12.8               108.      55
## 5 Female French                12                  99.8    262
## 6 Female Other                 12                  99.8    564
## 7 Female English               12.5                98.3   2999
## 8 Male   <NA>                  12                  93.8     66