Se tiene los datos que relaciona el salario obtenido en base a los años de experiencia. Se sospecha que existe una relación lineal entre ellos.
Desarrollar los siguientes numerales:
Grafique los datos suministrados y realice un pequeño análisis sobre lo observado. Calcule la correlación entre las variables, ¿Que le indica este valor?. El gráfico debe contener etiquetas en los ejes y un titulo principal.
De acorde a lo analizado anteriormente, ajuste un modelo de regresión lineal para el caso. Interprete los valores obtenidos para \(\beta_{1}\) y \(\beta_{o}\). ¿Cual es valor de la varianza del modelo?. En cuanto valor del \(r^2\), ¿Como considera el ajuste del modelo?.
Encuentre un intervalo de confianza para el parametro \(\beta_{1}\). ¿ Analice cual es el significado del mismo?.
En primer lugar, importamos la base de datos:
#Limpiamos el ambient de trabajo
rm(list=ls())
# importamos la base de datos
Datos <- read.csv("Salary_Data.csv", header = T)
#Realizamos el numeral 1.
Para esto, identificamos la variable predictora y la variable de respuesta.
# Graficamos los puntos
plot(Datos$YearsExperience,Datos$Salary, xlab= "Años de experiencia", ylab= "Salario", main= "Grafico Años Experiencia Vs Salario")
# Calculamos la correlacion entre las variables
cor(Datos$YearsExperience,Datos$Salary)
## [1] 0.9782416
Al analizar el gráfico de puntos y el coeficiente de correlación, hay fuertes indicios que el salario de un trabajador depende de forma directa de los años de experiencia que tiene, en este caso, es una relación positiva fuerte.
Ajustamos un modelo de regresión lineal con la función lm de R.
# Ajustamos el modelo
Modelo_años <- lm(Datos$Salary~Datos$YearsExperience, Datos)
# Hacemos un resumen del modelo
summary(Modelo_años)
##
## Call:
## lm(formula = Datos$Salary ~ Datos$YearsExperience, data = Datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -7958.0 -4088.5 -459.9 3372.6 11448.0
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 25792.2 2273.1 11.35 5.51e-12 ***
## Datos$YearsExperience 9450.0 378.8 24.95 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 5788 on 28 degrees of freedom
## Multiple R-squared: 0.957, Adjusted R-squared: 0.9554
## F-statistic: 622.5 on 1 and 28 DF, p-value: < 2.2e-16
Al analizar los datos obtenidos, se concluye que la ecuación de la recta real es \(Y=25792.2+9450X\). El valor de \(\beta_{1}\) estimado por MCO define el cambio que tiene el salario si varia una 1 unidad los años de experiencia. La varianza del modelo es 5788.