Suponga que a usted le han contratado desde la SEREMI de desarrollo social para encontrar algún modelo que haga una predicción del salario de las personas. Para ello, le han proporcionado algunos datos sobre el salario para distintos individuos, con los cuales usted deberá encontrar algún vínculo entre alguna variable interesante y el salario. Para esto:

1. Cargue los paquetes “data.table”, “ggplot2” y “caret”, junto con la base de datos. (1 punto)

library(data.table)
library(ggplot2)
library(caret)
## Loading required package: lattice

2. Muestre un histograma de ingreso por region. Limite el histograma a las observaciones con ingresos (ss_t) mayores a 0 y menores a 2 millones de pesos. Recuerde ver la clase de las variables (4 puntos)

ggplot(data=personas[ss_t>0 & ss_t<2000000],aes(x=region)) + geom_histogram()
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

3. Arregle los gráficos para que cada uno tenga un eje x legible, además arregle el eje y. Agregue color a cada gráfico:(4 puntos) Hint: utilice la función scales = ‘free_y’ dentro de facet_wrap para dejar libre el eje y. También recuerde chequear la clase de la variable region para que se asigne correctamente un color a cada región.

ggplot(data=personas[ss_t>0 & ss_t<2000000],aes(x=region)) + geom_histogram()
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

4. Realice un gráfico de dispersión que muestre la relación entre el ingreso y la edad. (4 puntos)

ggplot(data=personas,aes(x=ss_t , y=edad)) + geom_point()

4. Un miembro de su equipo propone un modelo que calcule la incidencia del sexo y la educación en el ingreso, sin considerar variables adicionales. Usted quiere mostrarle que aquel modelo está incompleto. Para lograr esto, haga el modelo de regresión anteriormente mencionado. (5 puntos)

#personas<-personas[,sexo:= as.numeric("sexo")]
#reg_ingsex <- lm(ss_t~sexo, data = personas)

#personas2<- personas[, sexo:=as.numeric(sexo)]

#reg_ingsex <- lm(ss_t~sexo,data= personas2)

reg1<-lm(data=personas,formula=ss_t~sexo,curso)
summary(reg1)
## 
## Call:
## lm(formula = ss_t ~ sexo, data = personas, subset = curso)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -280203 -280203 -130125  -50381  819797 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   430281       3863  111.39   <2e-16 ***
## sexo         -150078       2631  -57.04   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 370800 on 83876 degrees of freedom
## Multiple R-squared:  0.03734,    Adjusted R-squared:  0.03733 
## F-statistic:  3254 on 1 and 83876 DF,  p-value: < 2.2e-16