En el modelo de regresión lineal simple se quieren conocer las interrelaciones entre dos variables, de las cuales por lo menos una es una variable aleatoria
Supuestos
1.-La relación entre Y y X es lineal.
2.-Las Xi son variables no estocƔsticas (no aleatorias) cuyos valores son fijos (o controlados por el experimentador).
3.-La media del tƩrmino error es cero.
4.-La varianza del tƩrmino error es igual en todos los niveles de X. Es el principio de homocedasticidad.
5.-No existe autocorrelación entre el término error de diferentes niveles de X.
6.-La covarianza entre el tƩrmino error y la variable explicativa X es cero.
7.-El número de observaciones (el tamaño de la muestra) debe ser superior al número de parÔmetros a estimar.
8.-Los valores de X en una muestra dada no pueden ser todos iguales, teóricamente la var(X) debe ser un número finito positivo.
9.-El modelo estĆ” correctamente especificado.
10.-No existe multicolinealidad perfecta.
Supuestos según mi interpretación
Relaciónes por default
La relación entre Y y X es lineal. (Esta relación se ve desde la grÔfica de la variable dependiente e independiente)
Las Xi son variables no estocƔsticas (no aleatorias) cuyos valores son fijos (o controlados por el experimentador). (No hace falta explicarla)
El nĆŗmero de observaciones (el tamaƱo de la muestra) debe ser superior al nĆŗmero de parĆ”metros a estimar.(Si tenemos 4 betas, las observaciones deben ser mĆnimo 5, n<betas )
Los valores de X en una muestra dada no pueden ser todos iguales, teóricamente la var(X) debe ser un número finito positivo. LOS VALORES DE Y DEBEN SER DIFERENTES PARA CADA x
El modelo estÔ correctamente especificado.(Tiene que ver la coherencia teórica del modelo, no una relación espuria )
Supuestos que tienen que ver con el error
La media del tƩrmino error es cero. (solo basta con obtener el promedio)
TambiƩn hay que checar la normalidad de los errores
La varianza del tƩrmino error es igual en todos los niveles de X. Es el principio de homocedasticidad.(se obtienen con bp.test)
La covarianza entre el término error y la variable explicativa X es cero. (Se hace una covarianza entre x y los errore, otros hacen una correlación, estoy casi seguro que no es necesario, nunca va a haber correlación )
Supuestos que sólo aplican a ciertos casos
No existe multicolinealidad perfecta. (Sólo para regresiones multiples, se hace una correlación entre las variables)
No existe autocorrelación entre el término error de diferentes niveles de X. (Se debe ser hacer en series de tiempo con la prueba durbin-watson)
Importar y explorar datos
url1<-"https://raw.githubusercontent.com/armandovl/datasets_uno/main/Avance_Metodos.csv"
datos1<-read.csv(url(url1))
head(datos1)
Estamos probando si el porcentaje de deserción escolar a los 15 años estÔ en función del porcentaje de carencia alimenticia, las observaciones son por municipios en México
#ver la relación entre las variables
plot(datos1$por_car_alim,datos1$por_des_15,)

#ponemos el grƔfico mƔs estƩtico
plot(datos1$por_car_alim,datos1$por_des_15,
col="green3", #color a los puntos
pch=18, #cambiar el tipo de puntos
main="Relación carencia alimentaria y deserción escolar",#tĆtulo
xlab = "% poblacion con carencia aimentaria" ,
ylab = "% poblacion con deserción escolar"
)

Obtener manualmente la pendiente y el intercepto
#desviación estandar en x
sd(datos1$por_car_alim)
[1] 19.07691
#desviación estandar en y
sd(datos1$por_des_15)
[1] 9.630251
correlacionXY<-cor(datos1[,2:6])
print(correlacionXY)
por_des_15 po_per_pob por_sin_seg por_car_salud por_car_alim
por_des_15 1.0000000 0.7543165 0.2726830 0.2784925 0.8202800
po_per_pob 0.7543165 1.0000000 0.3299312 0.3303831 0.8710004
por_sin_seg 0.2726830 0.3299312 1.0000000 0.9524951 0.2592960
por_car_salud 0.2784925 0.3303831 0.9524951 1.0000000 0.2668206
por_car_alim 0.8202800 0.8710004 0.2592960 0.2668206 1.0000000
correlacionXY<-cor(datos1[,2:6])[5,1] #la posición columna 3,fila 1
print(correlacionXY)
[1] 0.82028
#valor de la pendiente
correlacionXY<-cor(datos1[,2:6])[5,1]
desvX<-sd(datos1$por_car_alim)
desvY<-sd(datos1$por_des_15)
pendiente<-correlacionXY*(desvY/desvX)
print(pendiente)
[1] 0.4140871
#calcular el valor de la pendiente 2
covarianzaXY<-cov(datos1$por_car_alim,datos1$por_des_15)
varianzaX<-var(datos1$por_car_alim)
pendiente2<-covarianzaXY/varianzaX
print(pendiente2)
[1] 0.4140871
#cƔlculo del intercepto
mediaX<-mean(datos1$por_car_alim)
mediaY<-mean(datos1$por_des_15)
intercepto<-mediaY-(pendiente2*mediaX)
print(intercepto)
[1] 0.7722395
Entrenar el modelo
modelo1<-lm(datos1$por_des_15~datos1$por_car_alim)
#ver los coeficientes
modelo1
Call:
lm(formula = datos1$por_des_15 ~ datos1$por_car_alim)
Coefficients:
(Intercept) datos1$por_car_alim
0.7722 0.4141
#ver el resumen del modelo
#se destaca el p valor de 2.2 por 10 a la -16, nos dice que si hay pendiente
summary(modelo1)
Call:
lm(formula = datos1$por_des_15 ~ datos1$por_car_alim)
Residuals:
Min 1Q Median 3Q Max
-20.8050 -3.0055 -0.4101 2.4206 31.4353
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.772240 0.216663 3.564 0.000372 ***
datos1$por_car_alim 0.414087 0.005829 71.045 < 2e-16 ***
---
Signif. codes: 0 ā***ā 0.001 ā**ā 0.01 ā*ā 0.05 ā.ā 0.1 ā ā 1
Residual standard error: 5.509 on 2454 degrees of freedom
Multiple R-squared: 0.6729, Adjusted R-squared: 0.6727
F-statistic: 5047 on 1 and 2454 DF, p-value: < 2.2e-16
anova(modelo1) #el p valor serĆa el mismo si le sacamos un anova al modelo
Analysis of Variance Table
Response: datos1$por_des_15
Df Sum Sq Mean Sq F value Pr(>F)
datos1$por_car_alim 1 153197 153197 5047.4 < 2.2e-16 ***
Residuals 2454 74484 30
---
Signif. codes: 0 ā***ā 0.001 ā**ā 0.01 ā*ā 0.05 ā.ā 0.1 ā ā 1
#grafico unido
par(mfcol = c(2, 2))
plot(modelo1)
par(mfcol = c(1, 1))

AnƔlizar los supuestos de los residuos
residuos=residuals(modelo1)
Normalidad de los errores
TambiƩn hay que checar la normalidad de os errores
ver si los errores son independientes , se distribuyen de manera normal
plot(modelo,2)

par(mfrow=c(2,1))
hist(residuos, col="yellow")
boxplot(residuos, bty="l", range=1.5, col="yellow", horizontal=T,xlab="residuos")
par(mfrow=c(1,1))

hist(residuos,
breaks=25,
col="lightblue",
freq=FALSE,
)
lines(density(residuos), lwd = 2, col = 'blue')
#tendencia de curva normal
x <- seq(min(residuos), max(residuos), length = 40)
f <- dnorm(x, mean = mean(residuos), sd = sd(residuos))
lines(x, f, col = "red", lwd = 2)

Test de normalidad h0= distribución normal, se busca valores mayores a 0.05
! En este caso ,No se acepta el supuesto de normalidad
shapiro.test(residuos) #menos de 50 observaciones
Shapiro-Wilk normality test
data: residuos
W = 0.95077, p-value < 2.2e-16
#para mƔs de 50 observaciones
#kolmorogov
ks.test(residuos,"pnorm", mean(residuos), sd(residuos))
One-sample Kolmogorov-Smirnov test
data: residuos
D = 0.083476, p-value = 2.776e-15
alternative hypothesis: two-sided
ks.test(residuos, "pnorm") #creo que es mejor la de arriba
One-sample Kolmogorov-Smirnov test
data: residuos
D = 0.31932, p-value < 2.2e-16
alternative hypothesis: two-sided
# Alternativamente conviene usar la modificación de Lilliefors a este test.
# Esta corrección considera que los parÔmetros son estimados, a diferencia
# del «ks» «a secas»:
library(nortest)
lillie.test(residuos)
Lilliefors (Kolmogorov-Smirnov) normality test
data: residuos
D = 0.083476, p-value < 2.2e-16
# realizar la prueba Anderson-Darling para comprobar la normalidad
ad.test (residuos)
Anderson-Darling normality test
data: residuos
A = 30.174, p-value < 2.2e-16
Homogeneidad de varianzas
La varianza del tƩrmino error es igual en todos los niveles de X. Es el principio de homocedasticidad.(se obtienen con bp.test)
Se busca un pvalor mayor a 0.05 ya que la h0=las pruebas son homogeneas
#En este caso se rechaza la h0, por lo tanto hay heteregeneidad de varianza,no se cumple el supuesto
library(lmtest)
bptest(modelo)
studentized Breusch-Pagan test
data: modelo
BP = 329.13, df = 1, p-value < 2.2e-16
Probar la homogeneidad por el mƩtodo grƔfico
los residuos versus los predichos hacen una forma de embudo
predichos=fitted(modelo1)
plot(residuos~predichos)

plot(residuos)

plot(modelo1,1)

relacion residuos con X (no endogeneidad)
Creo que nunca va a haber correlacion
cor(residuos, datos1$por_car_alim)
[1] -3.80044e-18
cov(residuos, datos1$por_car_alim)
[1] -3.993438e-16
plot (datos1$por_car_alim,residuos)

plot (residuos~datos1$por_des_15)

plot (datos1$por_des_15,residuos)

