CÓMO DEBEN COMPORTARSE LOS RESIDUOS Y LOS VALORES ESPERADOS??
CÓMO SE DEBEN COMPORTAR EN FUNCIÓN AL MODELO
QUE NO SE SESGE EN VALORES ALTOS Y BAJOS
QUE NO HAYA RELACIÓN ENTRE LOS RESIDUOS Y VALORES ESPERADOS, QUE NUESTRA RELACIÓN SEA HOMOGENEA. HOMOCEDASTICA.
CÓMO DEBEB COMPORTARSE LOS RESIDUOS? 5 SUPUESTOS.
TIENE QUE SER UNSA LINEA HORIZONTAL: QUE LOS VALORES TIENDEN A 0. PRIMERA CONDICIÓN: DEBE SER LINEAL 2DO SUPUESTO: DEBE HABER UNA DISTRIBUCIÓN NORMAL DE LOS RESIDUOS: SOBRE LA LINEA PUNTUADA DESDE ESTAR LOS RESIDUOS. 3R SUPUESTO: HOMOCEDASTICIDAD: NUESTRO MODELO VA SER TAN BUENO EXPLICANDO EL ERROR Y ESPERADO SEAN INDEPENDIENTES ENTRE SÍ. EL ERROR DEBE DEBE SER HOMOGENEO.
LAS DISTRIBUCIONES SUELEN SER
5TO SUPUESTO: COLINEALIDAD: MIDE EL VIF, valor de inflación de la varianza. cuando es mayoraa 5, volor moderanada de las valores.
r2: procentaje de la varianza que se explica por el modelo.
library(ggfortify)
## Loading required package: ggplot2
## Loading required package: ggplot2
library(see)
## Warning: package 'see' was built under R version 4.2.1
library(patchwork)
## Warning: package 'patchwork' was built under R version 4.2.1
library(performance)
## Warning: package 'performance' was built under R version 4.2.1
#Cargamos la data
load(url("https://www.dropbox.com/s/fyobx9uswy3qgp3/dataWorld_q.rda?dl=1"))
2 pasito)
modelito_1 <- lm(lifExpFem ~ doctor + sanitat,dataWorld_q)
summary(modelito_1)
##
## Call:
## lm(formula = lifExpFem ~ doctor + sanitat, data = dataWorld_q)
##
## Residuals:
## Min 1Q Median 3Q Max
## -17.486 -2.349 0.366 2.891 11.377
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 52.943891 0.523191 101.194 < 2e-16 ***
## doctor 1.180315 0.191082 6.177 1.27e-09 ***
## sanitat 0.239661 0.009081 26.391 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 4.578 on 551 degrees of freedom
## (2162 observations deleted due to missingness)
## Multiple R-squared: 0.7799, Adjusted R-squared: 0.7791
## F-statistic: 976.2 on 2 and 551 DF, p-value: < 2.2e-16
autoplot(modelito_1)
check_model(modelito_1)
modelito_2 <- lm( lifExpFem ~ teenFert + materMort + contracep + yearSchF, dataWorld_q)
summary(modelito_2)
##
## Call:
## lm(formula = lifExpFem ~ teenFert + materMort + contracep + yearSchF,
## data = dataWorld_q)
##
## Residuals:
## Min 1Q Median 3Q Max
## -15.6734 -1.7515 0.5404 2.5684 11.2684
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 67.7124409 1.0190965 66.444 < 2e-16 ***
## teenFert -0.0355504 0.0055428 -6.414 3.47e-10 ***
## materMort -0.0148386 0.0009191 -16.145 < 2e-16 ***
## contracep 0.1020143 0.0131498 7.758 5.44e-14 ***
## yearSchF 0.3188764 0.0858171 3.716 0.000227 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.953 on 469 degrees of freedom
## (2242 observations deleted due to missingness)
## Multiple R-squared: 0.8535, Adjusted R-squared: 0.8523
## F-statistic: 683.4 on 4 and 469 DF, p-value: < 2.2e-16
autoplot(modelito_2)
check_model(modelito_2)
EJERCICIO DE CLASE
model4<- lm(lifExpFem~sanitat+doctor+deathRate+age1mar,dataWorld_q)
summary(model4)
##
## Call:
## lm(formula = lifExpFem ~ sanitat + doctor + deathRate + age1mar,
## data = dataWorld_q)
##
## Residuals:
## Min 1Q Median 3Q Max
## -11.144 -1.670 0.401 2.511 7.458
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 56.70692 2.54614 22.272 < 2e-16 ***
## sanitat 0.11656 0.01983 5.877 2.91e-08 ***
## doctor 2.50824 0.34750 7.218 3.06e-11 ***
## deathRate -0.96334 0.11253 -8.560 1.81e-14 ***
## age1mar 0.44940 0.11167 4.024 9.32e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.588 on 140 degrees of freedom
## (2571 observations deleted due to missingness)
## Multiple R-squared: 0.8599, Adjusted R-squared: 0.8559
## F-statistic: 214.8 on 4 and 140 DF, p-value: < 2.2e-16
autoplot(model4)
check_model(model4)
INTERPRETACIÓN:
NUESTRO MODELO TIENE UN P VALUE MENOR A 0.05 POR TANTO PODEMOS DECIR QUE ES ESTADÍSTICAMENTE SIGNIFICATIVO. MODELO: Y=56.70692+0.11656X1 +2.50824X2 -0.96334X3+ 0.44940X4 sanitat doctor deathRate age1mar TODAS LAS VARIABLES INDEPENDIENTES SON SIGNIFICATIVAS.
EL MODELO EN SU CONJUNTO EXPLICA EN 85,59% LA ESPERANZA DE VIDA FEMENINA.
0.11656 (X1)–> Es el aumento en la esperanza de vida femenina cuando la variable “sanitat” aumento en 1 y las demás variables permanecen constantes. 2.5082 (X2)–> Es el aumento en la esperanza de vida femenina cuando la variable “doctor” aumento en 1 y las demás variables permanecen constantes. -0.96334 (X3)–> Es la disminución en la esperanza de vida femenina cuando la variable “deathRate” aumento en 1 y las demás variables permanecen constantes./Por cada unidad que disminuya en el índice “deathRate”se esperaría que el valor esperado disminuya en -0.96334 mientras que las demás variables permanecen constantes.
0.44940 (X4)–> Es el aumento en la esperanza de vida femenina cuando la variable “age1mar” aumento en 1 y las demás variables permanecen constantes.
Por cada unidad que disminuya en el índice “deathRate”se esperaría que LA ESPERANZA DE VIDA FEMENINA disminuya en -0.96334 mientras que las demás variables permanecen constantes.
El modelo cumple con la primera condición de linealidad puesto que la línea es horixzontal, por tanto sus valores tienden a 0.
El modelo también cumple con la segunda condición de distribución normal de residuos, puesto que notamos que en el gráfico se presenta que los rsiduos se encuentran sobre la línea puntuada.
El modelo cumple con la tercera condición de homocedasticidad, puesto que notamos los valores repartidos de forma homogénea.
El modelo cumple con la cuarata condción de apalancamiento, puesto que los valores extremos no afectan el modelo.
El modelo cumple con la quinta condición de colinealidad, con lo cual el valor de inflación de la varianza es menor a 5 .