Los datos de la base de datos attitude provienen de una encuesta realizada en una empresa. Recoge las evaluaciones de los supervisores sobre el personal de sus departamentos.
La base de datos attitude es un data frame con 30 observaciones(departamentos) y 7 variables numericas
Variables
1.- Rating: Es de tipo numérica. Es una la evaluación general sobre la satisfacción general del departamento.
2.- Complaints: Es de tipo numérica. Es el pocentaje de empleados que esta satisfecho con el manejo de sus quejas por parte de la gerencia
3.- Privileges: Es de tipo numérica. Porcentaje de los empleados que cree que los privilegios se otorgan de forma justa.
4.- learning: Es de tipo numérica. porcentaje de empleados que esta satisfecho con las oportunidades de aprendizaje.
5.- Raises: Es de tipo numérica.Porcentaje de empleados que cree que los aumentos salariales se basan en el desempeño
6.-Critical: Es de tipo numérica. Porcentaje de empleados que NO consideran que su supervisor sea demasiado critivo
7.-Advance:Es de tipo numérica. Oportunidades de ascenso. % de empleadoas que está optimista sobre sus oportunidades de ascenso
## 'data.frame': 30 obs. of 7 variables:
## $ rating : num 43 63 71 61 81 43 58 71 72 67 ...
## $ complaints: num 51 64 70 63 78 55 67 75 82 61 ...
## $ privileges: num 30 51 68 45 56 49 42 50 72 45 ...
## $ learning : num 39 54 69 47 66 44 56 55 67 47 ...
## $ raises : num 61 63 76 54 71 54 66 70 71 62 ...
## $ critical : num 92 73 86 84 83 49 68 66 83 80 ...
## $ advance : num 45 47 48 35 47 34 35 41 31 41 ...
## Warning: package 'GGally' was built under R version 4.4.3
## Warning: package 'ggplot2' was built under R version 4.4.3
ggpairs(attitude[, c("rating", "complaints", "privileges", "raises","critical","advance", "learning")])
## rating complaints privileges learning raises
## Min. :40.00 Min. :37.0 Min. :30.00 Min. :34.00 Min. :43.00
## 1st Qu.:58.75 1st Qu.:58.5 1st Qu.:45.00 1st Qu.:47.00 1st Qu.:58.25
## Median :65.50 Median :65.0 Median :51.50 Median :56.50 Median :63.50
## Mean :64.63 Mean :66.6 Mean :53.13 Mean :56.37 Mean :64.63
## 3rd Qu.:71.75 3rd Qu.:77.0 3rd Qu.:62.50 3rd Qu.:66.75 3rd Qu.:71.00
## Max. :85.00 Max. :90.0 Max. :83.00 Max. :75.00 Max. :88.00
## critical advance
## Min. :49.00 Min. :25.00
## 1st Qu.:69.25 1st Qu.:35.00
## Median :77.50 Median :41.00
## Mean :74.77 Mean :42.93
## 3rd Qu.:80.00 3rd Qu.:47.75
## Max. :92.00 Max. :72.00
Notamos en el resumen estadistico que:
El rating esta en el rango de minimo del 40% de empleados evaluan favorablemente y como maximo del 85% de los empleados evaluan favorablemente , con una media de 64.63%.
El complaints (quejas) esta en el rango de minimo de que el 37% de los empleados estan satisfechos con el manejo de sus quejas y como máximo del 90% de los empleados estan satisfechos con el manejo de sus quejas , con una media de 64.63% de empleados satisfechos con el manejo de sus quejas.
El privileges (privilegios) esta en el rango minimo de 30% de los empleados creen que los privilegios se otrogan de forma justa y como maximo del 83% de los empleados que creen que los privilegios se otorgan DE FORMA JUSTA , con una media de 53.13% de los empleados creen que los privilegios se otorgan de forma justa.
El learning (aprendizaje) esta en el rango maximo de que 34% de los empleados están satisfechos con las oportunidades de aprendizaje y como máximo de 75% de los empleados estan satisfechos con las oportunidades de aprendizaje, con una media de 56.37% de empleados que estan satisfechos con las oportunidades de aprendizaje
El raises (aumentos) esta en el rango minimo de 43% de los empleados que creen que el aumento se basa en su desempeño y como máximo del 88% de los empleados que creen que el aumento se basa en su desempeño , con una media de 64.63% de empleados que creen que el aumento se basa en el desempeño.
El critical (critico) esta en el rango minimo de 49% de empleados que NO consideran que su supervisor sea demasiado critico y como maximo del 92% de los empleados que No consideran que su supervisor sea demasiado critico, con una media de 74.77% empleados que igualmente NO consideran que su supervisor sea demasiado critico.
El advance (ascenso) esta en el rango minimo de 25% de empleados esta de acuerdo con sus oportunidades de ascenso y máximo 72% de empleados que estan de acuerdo con sus oportunidades de ascensocomo máximo, con una media de 42.93% de emplados que estan de acuerdo con sus oportunidades de ascenso.
###Ggpairs
ggpairs(attitude[, c("rating", "complaints", "privileges", "raises","critical","advance","learning")])
Tomaremos como variable de respuesta Y a la varible ““Rating”, Tomando en cuenta esto.
La variable de respuesta rating y la variable complaints que es el % de empleados que están satisfechos con el manejo de sus quejas tiene una relacion lineal positiva muy fuerte.
La variable de respuesta rating y la variable privilegios que tiene una correlación de 0.426 no es tan fuerte.
La variable de respuesta rating y la variable learning (aprendizajes) que tiene una correlación de 0.624 es lineal positiva, siendo la segunda correlación más fuertes.
La variable de respuesta rating y la variable raises(aumentos) que tiene una correlación de 0.590, es la tercera correlación más fuerte con respecto a la variable de respuesta.
La variable de respuesta rating y la variable critical(critico) que tiene una correlación de 0.156, es una muy baja correlacion a comparacion de los demás.
La variable de respuesta rating y la variable advance(aumento) que tiene una correlación de 0.155 no es tan fuerte.
Matriz de correlación
## rating complaints privileges learning raises critical
## rating 1.0000000 0.8254176 0.4261169 0.6236782 0.5901390 0.1564392
## complaints 0.8254176 1.0000000 0.5582882 0.5967358 0.6691975 0.1877143
## privileges 0.4261169 0.5582882 1.0000000 0.4933310 0.4454779 0.1472331
## learning 0.6236782 0.5967358 0.4933310 1.0000000 0.6403144 0.1159652
## raises 0.5901390 0.6691975 0.4454779 0.6403144 1.0000000 0.3768830
## critical 0.1564392 0.1877143 0.1472331 0.1159652 0.3768830 1.0000000
## advance 0.1550863 0.2245796 0.3432934 0.5316198 0.5741862 0.2833432
## advance
## rating 0.1550863
## complaints 0.2245796
## privileges 0.3432934
## learning 0.5316198
## raises 0.5741862
## critical 0.2833432
## advance 1.0000000
Tomando en cuenta la matriz y lo anterior visto en el gráfico, podemos concluir que las variables explicativas complaints(quejas),learning(aprendizajes), raises(aumentos) y privilegios son las que más tienen correlación con la variable de respuesta Y ““Rating”.
Tomando en cuenta que la variable más correlacionada con rating es Complaint (% de empleados satisfechos con el manejo de sus quejas)
##
## Call:
## lm(formula = rating ~ complaints, data = datae)
##
## Coefficients:
## (Intercept) complaints
## 14.3763 0.7546
El modelo de regresión lineal simple estimado es: \(\hat{y}_{Rating} = 14.3763 + 0.7546*complaints (quejas)\)
Donde: \(\hat{\beta}_0\)= 14.3763, esto sería la puntuación esperada cuando hay el % de empleados satisfechos con el manejo de sus quejas sea 0%
\(\hat{\beta}_1\)=0.7546, es decir, por cada 1% empleados satisfechos con el manejo de sus quejas adicional, el puntaje aaumenta el puntaje aumenta 75.46%.
Gráfico del Modelo de Regresión ajustada
plot(datae$complaints, datae$rating, col= "purple", pch=18, xlab = "Numero de quejas", ylab = "Puntuación general sobre la satisfacción general del departamento" )
abline(modeloe)
Notemos que el modelo de regresión ajustado, logra una correlación positiva, vemos a mayor % de empleados satisfechos con el manejo de sus quejas tiene mayor puntuación general de su departamento.
Summary y analisis del modelo
##
## Call:
## lm(formula = rating ~ complaints, data = datae)
##
## Residuals:
## Min 1Q Median 3Q Max
## -12.8799 -5.9905 0.1783 6.2978 9.6294
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 14.37632 6.61999 2.172 0.0385 *
## complaints 0.75461 0.09753 7.737 1.99e-08 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 6.993 on 28 degrees of freedom
## Multiple R-squared: 0.6813, Adjusted R-squared: 0.6699
## F-statistic: 59.86 on 1 and 28 DF, p-value: 1.988e-08
Notemos que el eror std.Error de la variable explicativa es de 0.09753, lo que indica que tiene una alta precisión.
Por parte del p-valor< 0.05 indica que el modelo en general es buen modelo.
Bondad de ajuste del modelo de regresión lineal simple ajustado
\(R²_{ajustado}\)=66.99% es decir el 66.99% de la variabilidad en la puntuacion general de los departamentos se explica por el % de empleados satisfechos con el manejo de sus quejas y hay un 33% de variabilidad en el puntaje general de los departamentos que no se explican por el % de empleados satisfechos con el manejo de sus quejas.
\(H_{0}: \beta_{1}=0\) No existe relación lineal
\(H_{1}: \beta_{1} \neq0\) Existe ralación lineal
Se puede ver en la tabla anova que el \(p-valor<0.05\) por lo que se rechaza la la hipotesis nula, indicando que parámetro \(\beta_{1}\neq0\), es decir, existe una relación lineal.
## 1 2 3 4 5 6 7 8
## 52.86142 62.67135 67.19901 61.91674 73.23589 55.87986 64.93518 70.97206
## 9 10 11 12 13 14 15 16
## 76.25432 60.40752 54.37064 59.65291 61.16213 77.00893 72.48128 82.29120
## 17 18 19 20 21 22 23 24
## 78.51815 59.65291 67.19901 58.14369 44.56071 60.40752 64.18057 42.29688
## 25 26 27 28 29 30
## 55.12525 72.48128 70.97206 57.38908 78.51815 76.25432
Casos
Para el departamento 1 con un 51% de empleados satisfechos con el manejo de sus quejas, se estima que el % de empleados con puntuación general favorable del departamento de 52.86%.
Para el departamento numero 5, con un 78% de empleados satisfechos con el manejo de sus quejas, se estima que el % de empleados con puntuación general favorable del departamento de 73.23%
## [1] 0.6813142
\(R²\)=68.13% es decir el 68.13% de la variabilidad en la puntuacion general de los departamentos se explica por el % de empleados satisfechos por el manejo de sus quejas, hay un 31.87% de variabilidad en el puntaje general de los departamentos que no se explican por el el % de empleados satisfechos por el manejo de sus quejas.
Creación de los nuevos valores
Predicción
## 1 2 3
## 44.56071 67.19901 82.29120
Notemos que para el caso 1 que cuenta con un 40% de empleados satisfechos con el manejo de sus quejas, se estima que el % de empleados con puntuación general favorable del departamento de 44.56%.
Notemos que para el caso 2 que cuenta con un 70% de empleados satisfechos con el manejo de sus quejas, se estima que el % de empleados con puntuación general favorable del departamento de 67.19%.
Notemos que para el caso 2 que cuenta con un 90% de empleados satisfechos con el manejo de sus quejas, se estima que el % de empleados con puntuación general favorable del departamento de 82.29%.
## fit lwr upr
## 1 52.86142 48.79276 56.93008
## 2 62.67135 60.00486 65.33784
## 3 67.19901 64.49683 69.90118
## 4 61.91674 59.20424 64.62924
## 5 73.23589 69.76779 76.70398
## 6 55.87986 52.38539 59.37433
## 7 64.93518 62.31855 67.55180
## 8 70.97206 67.86453 74.07959
## 9 76.25432 72.21619 80.29246
## 10 60.40752 57.56286 63.25218
## 11 54.37064 50.59930 58.14198
## 12 59.65291 56.72391 62.58191
## 13 61.16213 58.38996 63.93430
## 14 77.00893 72.81658 81.20129
## 15 72.48128 69.14099 75.82157
## 16 82.29120 76.93433 87.64808
## 17 78.51815 74.00662 83.02969
## 18 59.65291 56.72391 62.58191
## 19 67.19901 64.49683 69.90118
## 20 58.14369 55.01440 61.27298
## 21 44.56071 38.63766 50.48376
## 22 60.40752 57.56286 63.25218
## 23 64.18057 61.56242 66.79872
## 24 42.29688 35.83065 48.76312
## 25 55.12525 51.49520 58.75530
## 26 72.48128 69.14099 75.82157
## 27 70.97206 67.86453 74.07959
## 28 57.38908 54.14579 60.63236
## 29 78.51815 74.00662 83.02969
## 30 76.25432 72.21619 80.29246
## [1] "matrix" "array"
## [1] "data.frame"
Gráfico
library(ggplot2)
ggplot(data = datae1, mapping = aes(x = complaints, y = rating)) +
geom_point(color = "firebrick", size = 2) +
geom_smooth(method = "lm", se = TRUE, color = "black") +
labs(title = "rating ~ complaints", x = "complaints", y = "Salary") +
theme_bw() +
theme(plot.title = element_text(hjust = 0.5))
Notemos que los puntos esán fuera de la banda de confianza.
Pruebas de normalidad
Gráficamente
Graficamente vemos que los residuales no siguen una distribución normal, los datos estan entre los valores 5 y 10.
Estadisticos formales
Para probar si los residuales proviene de una población normal se usa test de shapiro, que contrasta la hipótesis:
\(H_{0}: los\ datos\ provienen\ de\ una\ distribución\ normal\)
\(H_{1}: los\ datos\ no\ provienen\ de\ una\ distribución\ normal\)
##
## Shapiro-Wilk normality test
##
## data: modeloe$residuals
## W = 0.91895, p-value = 0.02519
De acuerdo con el \(p-valor=0.02519\) se puede decir con un 95% de confianza que los residuales no provienen de una poblacion con distribución normal, por lo que no cumple.
Independencia
Para probar Independencia un supuesto muy importante, es importante saber que una muestra de manera indempendiente ie. que no hay patrones de dependencia espacial, temporal o multinivel entre las observaciones. En este supuesto espero que ¿espero que suceda cerca del acceso a la carretera sea similar a los que estan lejos?
Gráfico
En este caso existen pruebas estadisticas para evaluar el supuesto de independencia.El test de Durbin-Watson
contrasta la hipótesis:
\(H_{0}: los\ datos\ no\ presentan\ autocorrelacion\)
\(H_{1}: los\ datos\ presentan\ autocorrelacion\)
## lag Autocorrelation D-W Statistic p-value
## 1 -0.1699039 2.244684 0.502
## Alternative hypothesis: rho != 0
Con un p-valor > 0.05 no se puede rechazar la hipotesis nula, por lo son independientes, por lo que cumple.
Prueba de Homocedasticidad
\(H_{0}: La\ varianza \ es \ constante\ en \ los\ residuales\)
\(H_{1}: La\ varianza \ no\ es \ constante\ en \ los \ residuales\)
Prueba de homocedasticidad:
\(H_{0}: Hay\ homocedasticidad \ de \ los \ residuales\)
\(H_{1}: No\ hay \ homocedasticidad \ de \ los \ residuales\)
Non-constant Variance Score Test Variance formula: ~ fitted.values Chisquare = 0.7183872, Df = 1, p = 0.39667 Con un p-valor mayor a 0.05 por lo que no se rechazar la hipotesis nula por (la varianza de los residuos son constante).
Notemos que se tienen dos puntos influyentes que son el 1 y 6.
## Potentially influential observations of
## lm(formula = rating ~ complaints, data = datae) :
##
## dfb.1_ dfb.cmpl dffit cov.r cook.d hat
## 16 0.06 -0.07 -0.08 1.25_* 0.00 0.14
## 21 0.37 -0.35 0.39 1.23_* 0.08 0.17
## 24 -0.18 0.17 -0.18 1.34_* 0.02 0.20_*
La observación 6 es la que presenta mayor distancia de Cook sin embargo no es punto influyente pues D(6) < 1
El modelo general de regresión multiple es:
\(Y_{i}=\beta_{0} + \beta_{1}x_{1} + \beta_{2}x_{2}+...+\beta_{n}x_{n}\)
Toammos todas las variables explicativas que se tienen para crear un modelo de regresion lineal multiple.
modeloe1<-lm(rating ~ complaints + privileges + learning + raises + critical + advance ,data = datae)
modeloe1
##
## Call:
## lm(formula = rating ~ complaints + privileges + learning + raises +
## critical + advance, data = datae)
##
## Coefficients:
## (Intercept) complaints privileges learning raises critical
## 10.78708 0.61319 -0.07305 0.32033 0.08173 0.03838
## advance
## -0.21706
\(\hat{Y} = 10.78708 + 0.61319 x_1 -0.07305x_2 + 0.32033x_3 + 0.08173 x_4 + 0.03838x_5 -0.21706x_6\)
Donde: \(\hat{\beta}_0\)= 10.78, esto sería la puntuación esperada cuando el % de empleados de las demas variables es 0%
\(\hat{\beta}_1\)=0.61319, es decir, por cada 1% empleados satisfechos con el manejo de sus quejas adicional, el puntaje aumenta el puntaje aumenta 61.31%, manetiendo constantes las demas variables.
\(\hat{\beta}_2\)=-0.07305, es decir, por cada 1% empleados que creen que los privilegios se otorgan de forma justa adicional, el puntaje disminuye 7%, manetiendo constantes las demas variables.
\(\hat{\beta}_3\)=0.32033, es decir, por cada 1% empleados satisfechos con las oportunidades de aprendizaje adicional, el puntaje aumenta 0.3203 puntos porcentuales, manetiendo constantes las demas variables.
\(\hat{\beta}_4\)=0.08173, es decir, por cada 1% empleados que creen que los aumentos salariales se basan en el desempeeño adicional, el puntaje aumenta 8.17%, manetiendo constantes las demas variables.
\(\hat{\beta}_5\)=0.03838, es decir, por cada 1% empleados que NO considere que su supervisor sea demasiado critico adicional, el puntaje aumenta 3.83 puntos porcentuales, manteniendo constantes las demas variables.
\(\hat{\beta}_6\)= −0.21706, es decir, por cada 1% empleados de acuerdo con sus oportunidades de trabajo adicional, el puntaje disminuye 0.21 puntos porcentuales, manteniendo constantes las demas variables.
De este modelo ajustado, el primer modelo de regresión multiple que consiste de todas la variables explicativas numericas , sin embargo no todas son significativas,obtenemos el resumen estadistico para ver cuales son significaticas:
##
## Call:
## lm(formula = rating ~ complaints + privileges + learning + raises +
## critical + advance, data = datae)
##
## Residuals:
## Min 1Q Median 3Q Max
## -10.9418 -4.3555 0.3158 5.5425 11.5990
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 10.78708 11.58926 0.931 0.361634
## complaints 0.61319 0.16098 3.809 0.000903 ***
## privileges -0.07305 0.13572 -0.538 0.595594
## learning 0.32033 0.16852 1.901 0.069925 .
## raises 0.08173 0.22148 0.369 0.715480
## critical 0.03838 0.14700 0.261 0.796334
## advance -0.21706 0.17821 -1.218 0.235577
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 7.068 on 23 degrees of freedom
## Multiple R-squared: 0.7326, Adjusted R-squared: 0.6628
## F-statistic: 10.5 on 6 and 23 DF, p-value: 1.24e-05
** Bondad de ajuste del modelo **
\(R²_{ajustado}\)=66.28% es decir el 66.28% de la variabilidad de los empleados que evalua favorablemente el departamento se explica por las variables antes mencionadas.
\(R²\)=73.26% es decir el 73.26% de la varibilidad dee los empleados que evalua favorablemente el departamento se explica por las variable antes mensionadas.
Los contrastes de hipotesis correspondientes son:
\(H_{0}: \beta_{0}=0\)
\(H_{1}: \beta_{0} \neq 0\)
\(H_{0}: \beta_{1}=0\)
\(H_{1}: \beta_{1} \neq 0\)
\(H_{0}: \beta_{2}=0\)
\(H_{1}: \beta_{2} \neq 0\)
\(H_{0}: \beta_{3}=0\)
\(H_{1}: \beta_{3} \neq 0\)
\(H_{0}: \beta_{4}=0\)
\(H_{1}: \beta_{4} \neq 0\)
\(H_{0}: \beta_{5}=0\)
\(H_{1}: \beta_{5} \neq 0\)
\(H_{0}: \beta_{6}=0\)
\(H_{1}: \beta_{6} \neq 0\)
¿Son estadisticamente significativas todas las variables explicativas?
No, ya que la mayoria superan el p-valor>0.05, y no rechazan la hipotesis nula, por ejemplo las variables que no la rechazan son: \(\beta_{2}=0\), \(\beta_{3}=0\), \(\beta_{4}=0\), \(\beta_{5}=0\), \(\beta_{6}=0\), estos significa que no son significativas para explicar la variabilidad en el puntaje.
## Start: AIC=123.36
## rating ~ complaints + privileges + learning + raises + critical +
## advance
##
## Df Sum of Sq RSS AIC
## - critical 1 3.41 1152.4 121.45
## - raises 1 6.80 1155.8 121.54
## - privileges 1 14.47 1163.5 121.74
## - advance 1 74.11 1223.1 123.24
## <none> 1149.0 123.36
## - learning 1 180.50 1329.5 125.74
## - complaints 1 724.80 1873.8 136.04
##
## Step: AIC=121.45
## rating ~ complaints + privileges + learning + raises + advance
##
## Df Sum of Sq RSS AIC
## - raises 1 10.61 1163.0 119.73
## - privileges 1 14.16 1166.6 119.82
## - advance 1 71.27 1223.7 121.25
## <none> 1152.4 121.45
## - learning 1 177.74 1330.1 123.75
## - complaints 1 724.70 1877.1 134.09
##
## Step: AIC=119.73
## rating ~ complaints + privileges + learning + advance
##
## Df Sum of Sq RSS AIC
## - privileges 1 16.10 1179.1 118.14
## - advance 1 61.60 1224.6 119.28
## <none> 1163.0 119.73
## - learning 1 197.03 1360.0 122.42
## - complaints 1 1165.94 2328.9 138.56
##
## Step: AIC=118.14
## rating ~ complaints + learning + advance
##
## Df Sum of Sq RSS AIC
## - advance 1 75.54 1254.7 118.00
## <none> 1179.1 118.14
## - learning 1 186.12 1365.2 120.54
## - complaints 1 1259.91 2439.0 137.94
##
## Step: AIC=118
## rating ~ complaints + learning
##
## Df Sum of Sq RSS AIC
## <none> 1254.7 118.00
## - learning 1 114.73 1369.4 118.63
## - complaints 1 1370.91 2625.6 138.16
Basandonos en esta tabla, es recomendable tomar como variables explicativas a Learning y complaints.
modeloe2<-lm(rating ~ complaints + learning ,data = datae)
modeloe3<-lm(rating ~ complaints ,data = datae)
##
## Call:
## lm(formula = rating ~ complaints + learning, data = datae)
##
## Residuals:
## Min 1Q Median 3Q Max
## -11.5568 -5.7331 0.6701 6.5341 10.3610
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 9.8709 7.0612 1.398 0.174
## complaints 0.6435 0.1185 5.432 9.57e-06 ***
## learning 0.2112 0.1344 1.571 0.128
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 6.817 on 27 degrees of freedom
## Multiple R-squared: 0.708, Adjusted R-squared: 0.6864
## F-statistic: 32.74 on 2 and 27 DF, p-value: 6.058e-08
##
## Call:
## lm(formula = rating ~ complaints, data = datae)
##
## Residuals:
## Min 1Q Median 3Q Max
## -12.8799 -5.9905 0.1783 6.2978 9.6294
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 14.37632 6.61999 2.172 0.0385 *
## complaints 0.75461 0.09753 7.737 1.99e-08 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 6.993 on 28 degrees of freedom
## Multiple R-squared: 0.6813, Adjusted R-squared: 0.6699
## F-statistic: 59.86 on 1 and 28 DF, p-value: 1.988e-08
## [1] 205.1387
## [1] 205.7638
El mejor modelo, tomando en cuenta todo es el simple, ya que tiene variable significativa. sin en cambio en el otro no es estadisticamente signofocativa.
MODELO COMPLETO
##
## Call:
## lm(formula = rating ~ complaints + privileges + learning + raises +
## critical + advance, data = datae)
##
## Residuals:
## Min 1Q Median 3Q Max
## -10.9418 -4.3555 0.3158 5.5425 11.5990
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 10.78708 11.58926 0.931 0.361634
## complaints 0.61319 0.16098 3.809 0.000903 ***
## privileges -0.07305 0.13572 -0.538 0.595594
## learning 0.32033 0.16852 1.901 0.069925 .
## raises 0.08173 0.22148 0.369 0.715480
## critical 0.03838 0.14700 0.261 0.796334
## advance -0.21706 0.17821 -1.218 0.235577
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 7.068 on 23 degrees of freedom
## Multiple R-squared: 0.7326, Adjusted R-squared: 0.6628
## F-statistic: 10.5 on 6 and 23 DF, p-value: 1.24e-05
## [1] 210.4998
MEJOR MODELO
##
## Call:
## lm(formula = rating ~ complaints, data = datae)
##
## Residuals:
## Min 1Q Median 3Q Max
## -12.8799 -5.9905 0.1783 6.2978 9.6294
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 14.37632 6.61999 2.172 0.0385 *
## complaints 0.75461 0.09753 7.737 1.99e-08 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 6.993 on 28 degrees of freedom
## Multiple R-squared: 0.6813, Adjusted R-squared: 0.6699
## F-statistic: 59.86 on 1 and 28 DF, p-value: 1.988e-08
## [1] 205.7638
Pruebas de normalidad
Gráficamente
Graficamente vemos que los residuales no siguen una distribución normal, los datos estan entre los valores 5 y 10.
Estadisticos formales
Para probar si los residuales proviene de una población normal se usa test de shapiro, que contrasta la hipótesis:
\(H_{0}: los\ datos\ provienen\ de\ una\ distribución\ normal\)
\(H_{1}: los\ datos\ no\ provienen\ de\ una\ distribución\ normal\)
##
## Shapiro-Wilk normality test
##
## data: modeloe3$residuals
## W = 0.91895, p-value = 0.02519
De acuerdo con el \(p-valor=0.02519\) se puede decir con un 95% de confianza que los residuales no provienen de una poblacion con distribución normal, por lo que no cumple.
Independencia
Para probar Independencia un supuesto muy importante, es importante saber que una muestra de manera indempendiente ie. que no hay patrones de dependencia espacial, temporal o multinivel entre las observaciones. En este supuesto espero que ¿espero que suceda cerca del acceso a la carretera sea similar a los que estan lejos?
Gráfico
En este caso existen pruebas estadisticas para evaluar el supuesto de independencia.El test de Durbin-Watson
contrasta la hipótesis:
\(H_{0}: los\ datos\ no\ presentan\ autocorrelacion\)
\(H_{1}: los\ datos\ presentan\ autocorrelacion\)
## lag Autocorrelation D-W Statistic p-value
## 1 -0.1699039 2.244684 0.556
## Alternative hypothesis: rho != 0
Con un p-valor > 0.05 no se puede rechazar la hipotesis nula, por lo son independientes, por lo que cumple.
Prueba de Homocedasticidad
\(H_{0}: La\ varianza \ es \ constante\ en \ los\ residuales\)
\(H_{1}: La\ varianza \ no\ es \ constante\ en \ los \ residuales\)
Prueba de homocedasticidad:
\(H_{0}: Hay\ homocedasticidad \ de \ los \ residuales\)
\(H_{1}: No\ hay \ homocedasticidad \ de \ los \ residuales\)
Non-constant Variance Score Test Variance formula: ~ fitted.values Chisquare = 0.7183872, Df = 1, p = 0.39667 Con un p-valor mayor a 0.05 por lo que no se rechazar la hipotesis nula por (la varianza de los residuos son constante).
## fit lwr upr
## 1 52.86142 48.79276 56.93008
## 2 62.67135 60.00486 65.33784
## 3 67.19901 64.49683 69.90118
## 4 61.91674 59.20424 64.62924
## 5 73.23589 69.76779 76.70398
## 6 55.87986 52.38539 59.37433
## 7 64.93518 62.31855 67.55180
## 8 70.97206 67.86453 74.07959
## 9 76.25432 72.21619 80.29246
## 10 60.40752 57.56286 63.25218
## 11 54.37064 50.59930 58.14198
## 12 59.65291 56.72391 62.58191
## 13 61.16213 58.38996 63.93430
## 14 77.00893 72.81658 81.20129
## 15 72.48128 69.14099 75.82157
## 16 82.29120 76.93433 87.64808
## 17 78.51815 74.00662 83.02969
## 18 59.65291 56.72391 62.58191
## 19 67.19901 64.49683 69.90118
## 20 58.14369 55.01440 61.27298
## 21 44.56071 38.63766 50.48376
## 22 60.40752 57.56286 63.25218
## 23 64.18057 61.56242 66.79872
## 24 42.29688 35.83065 48.76312
## 25 55.12525 51.49520 58.75530
## 26 72.48128 69.14099 75.82157
## 27 70.97206 67.86453 74.07959
## 28 57.38908 54.14579 60.63236
## 29 78.51815 74.00662 83.02969
## 30 76.25432 72.21619 80.29246
## [1] "matrix" "array"
## [1] "data.frame"
Cuando el % de empleados satisfechos con el manejo de sus quejas es 51%, el VERDADERO % de empleados que evalua favorablemente ek deoartamente esta entre 48.79% y 56.93%, con estimado de 52.86%
Gráfico
library(ggplot2)
ggplot(data = datae2, mapping = aes(x = complaints, y = rating)) +
geom_point(color = "purple", size = 2) +
geom_smooth(method = "lm", se = TRUE, color = "black") +
labs(title = "rating ~ complaints", x = "complaints", y = "Puntaje") +
theme_bw() +
theme(plot.title = element_text(hjust = 0.5))
Notemos que los puntos esán fuera de la banda de confianza.
Creación de los nuevos valores
Predicción
## 1 2 3
## 29.46852 56.63447 70.97206
Notemos que para el caso 1 que cuenta con un 20% de empleados satisfechos con el manejo de sus quejas, se estima que el % de empleados con puntuación general favorable del departamento de 24.46%.
Notemos que para el caso 2 que cuenta con un 56% de empleados satisfechos con el manejo de sus quejas, se estima que el % de empleados con puntuación general favorable del departamento de 56.63%.
Notemos que para el caso 2 que cuenta con un 75% de empleados satisfechos con el manejo de sus quejas, se estima que el % de empleados con puntuación general favorable del departamento de 70.97%.
## fit lwr upr
## 1 29.46852 19.79805 39.13898
## 2 56.63447 53.26918 59.99976
## 3 70.97206 67.86453 74.07959
## [1] "matrix" "array"
## [1] "data.frame"
# Combinar datos originales con la predicción
resultadoe <- cbind(newdata1, ice2)
# Mostrar el resultado
resultadoe
Notemos que para el caso 1 que cuenta con un 20% de empleados satisfechos con el manejo de sus quejas, el verdadero valor medio del % de empleados con puntuacion general favorable del departamento está entre [19.79805, 39.13898]
Notemos que para el caso 2 que cuenta con un 56% de empleados satisfechos con el manejo de sus quejas, el verdadero valor medio del % de empleados con puntuacion general favorable del departamento está entre [53.26918, 59.99976]
Notemos que para el caso 2 que cuenta con un 75% de empleados satisfechos con el manejo de sus quejas, el verdadero valor medio del % de empleados con puntuacion general favorable del departamento está entre [67.86453, 74.07959]