En el modelo de regresión lineal simple se quieren conocer las interrelaciones entre dos variables, de las cuales por lo menos una es una variable aleatoria

Supuestos

1.-La relación entre Y y X es lineal.

2.-Las Xi son variables no estocƔsticas (no aleatorias) cuyos valores son fijos (o controlados por el experimentador).

3.-La media del tƩrmino error es cero.

4.-La varianza del tƩrmino error es igual en todos los niveles de X. Es el principio de homocedasticidad.

5.-No existe autocorrelación entre el término error de diferentes niveles de X.

6.-La covarianza entre el tƩrmino error y la variable explicativa X es cero.

7.-El número de observaciones (el tamaño de la muestra) debe ser superior al número de parÔmetros a estimar.

8.-Los valores de X en una muestra dada no pueden ser todos iguales, teóricamente la var(X) debe ser un número finito positivo.

9.-El modelo estĆ” correctamente especificado.

10.-No existe multicolinealidad perfecta.

Supuestos según mi interpretación

Relaciónes por default
La relación entre Y y X es lineal. (Esta relación se ve desde la grÔfica de la variable dependiente e independiente)

Las Xi son variables no estocƔsticas (no aleatorias) cuyos valores son fijos (o controlados por el experimentador). (No hace falta explicarla)

El número de observaciones (el tamaño de la muestra) debe ser superior al número de parÔmetros a estimar.(Si tenemos 4 betas, las observaciones deben ser mínimo 5, n<betas )

Los valores de X en una muestra dada no pueden ser todos iguales, teóricamente la var(X) debe ser un número finito positivo. LOS VALORES DE Y DEBEN SER DIFERENTES PARA CADA x

El modelo estÔ correctamente especificado.(Tiene que ver la coherencia teórica del modelo, no una relación espuria )


Supuestos que tienen que ver con el error

La media del tƩrmino error es cero. (solo basta con obtener el promedio)

TambiƩn hay que checar la normalidad de los errores

La varianza del tƩrmino error es igual en todos los niveles de X. Es el principio de homocedasticidad.(se obtienen con bp.test)

La covarianza entre el término error y la variable explicativa X es cero. (Se hace una covarianza entre x y los errore, otros hacen una correlación, estoy casi seguro que no es necesario, nunca va a haber correlación )


Supuestos que sólo aplican a ciertos casos

No existe multicolinealidad perfecta. (Sólo para regresiones multiples, se hace una correlación entre las variables)

No existe autocorrelación entre el término error de diferentes niveles de X. (Se debe ser hacer en series de tiempo con la prueba durbin-watson)

Importar y explorar datos

url1<-"https://raw.githubusercontent.com/armandovl/datasets_uno/main/Avance_Metodos.csv"
datos1<-read.csv(url(url1))
head(datos1)

Estamos probando si el porcentaje de deserción escolar a los 15 años estÔ en función del porcentaje de carencia alimenticia, las observaciones son por municipios en México

#ver la relación entre las variables
plot(datos1$por_car_alim,datos1$por_des_15,)

#ponemos el grƔfico mƔs estƩtico
plot(datos1$por_car_alim,datos1$por_des_15,
     col="green3", #color a los puntos
     pch=18, #cambiar el tipo de puntos
     main="Relación carencia alimentaria y deserción escolar",#título
     xlab = "% poblacion con carencia aimentaria" ,
     ylab = "% poblacion con deserción escolar" 
     )

Obtener manualmente la pendiente y el intercepto

#desviación estandar en x
sd(datos1$por_car_alim)
[1] 19.07691
#desviación estandar en y
sd(datos1$por_des_15)
[1] 9.630251
correlacionXY<-cor(datos1[,2:6])
print(correlacionXY)
              por_des_15 po_per_pob por_sin_seg por_car_salud por_car_alim
por_des_15     1.0000000  0.7543165   0.2726830     0.2784925    0.8202800
po_per_pob     0.7543165  1.0000000   0.3299312     0.3303831    0.8710004
por_sin_seg    0.2726830  0.3299312   1.0000000     0.9524951    0.2592960
por_car_salud  0.2784925  0.3303831   0.9524951     1.0000000    0.2668206
por_car_alim   0.8202800  0.8710004   0.2592960     0.2668206    1.0000000
correlacionXY<-cor(datos1[,2:6])[5,1] #la posición columna 3,fila 1
print(correlacionXY)
[1] 0.82028
#valor de la pendiente
correlacionXY<-cor(datos1[,2:6])[5,1]
desvX<-sd(datos1$por_car_alim)
desvY<-sd(datos1$por_des_15)

pendiente<-correlacionXY*(desvY/desvX)
print(pendiente)
[1] 0.4140871
#calcular el valor de la pendiente 2
covarianzaXY<-cov(datos1$por_car_alim,datos1$por_des_15)
varianzaX<-var(datos1$por_car_alim)

pendiente2<-covarianzaXY/varianzaX
print(pendiente2)
[1] 0.4140871
#cƔlculo del intercepto
mediaX<-mean(datos1$por_car_alim)
mediaY<-mean(datos1$por_des_15)

intercepto<-mediaY-(pendiente2*mediaX)
print(intercepto)
[1] 0.7722395

Entrenar el modelo

modelo1<-lm(datos1$por_des_15~datos1$por_car_alim)
#ver los coeficientes
modelo1

Call:
lm(formula = datos1$por_des_15 ~ datos1$por_car_alim)

Coefficients:
        (Intercept)  datos1$por_car_alim  
             0.7722               0.4141  
#ver el resumen del modelo
#se destaca el p valor de 2.2 por 10 a la -16, nos dice que si hay pendiente
summary(modelo1)

Call:
lm(formula = datos1$por_des_15 ~ datos1$por_car_alim)

Residuals:
     Min       1Q   Median       3Q      Max 
-20.8050  -3.0055  -0.4101   2.4206  31.4353 

Coefficients:
                    Estimate Std. Error t value Pr(>|t|)    
(Intercept)         0.772240   0.216663   3.564 0.000372 ***
datos1$por_car_alim 0.414087   0.005829  71.045  < 2e-16 ***
---
Signif. codes:  0 ā€˜***’ 0.001 ā€˜**’ 0.01 ā€˜*’ 0.05 ā€˜.’ 0.1 ā€˜ ’ 1

Residual standard error: 5.509 on 2454 degrees of freedom
Multiple R-squared:  0.6729,    Adjusted R-squared:  0.6727 
F-statistic:  5047 on 1 and 2454 DF,  p-value: < 2.2e-16
anova(modelo1) #el p valor serĆ­a el mismo si le sacamos un anova al modelo
Analysis of Variance Table

Response: datos1$por_des_15
                      Df Sum Sq Mean Sq F value    Pr(>F)    
datos1$por_car_alim    1 153197  153197  5047.4 < 2.2e-16 ***
Residuals           2454  74484      30                      
---
Signif. codes:  0 ā€˜***’ 0.001 ā€˜**’ 0.01 ā€˜*’ 0.05 ā€˜.’ 0.1 ā€˜ ’ 1
#grafico unido
par(mfcol = c(2, 2))
plot(modelo1)

par(mfcol = c(1, 1))

AnƔlizar los supuestos de los residuos

residuos=residuals(modelo1)

La media del tƩrmino error es cero. (solo basta con obtener el promedio)

mean(residuos)
[1] -1.48209e-17

Normalidad de los errores

TambiƩn hay que checar la normalidad de os errores
ver si los errores son independientes , se distribuyen de manera normal

plot(modelo,2)

par(mfrow=c(2,1))
hist(residuos, col="yellow")
boxplot(residuos, bty="l", range=1.5, col="yellow", horizontal=T,xlab="residuos")


par(mfrow=c(1,1))

hist(residuos,
     breaks=25,
     col="lightblue",
     freq=FALSE,
     )

lines(density(residuos), lwd = 2, col = 'blue')

#tendencia de curva normal
x <- seq(min(residuos), max(residuos), length = 40)
f <- dnorm(x, mean = mean(residuos), sd = sd(residuos))
lines(x, f, col = "red", lwd = 2)


Test de normalidad h0= distribución normal, se busca valores mayores a 0.05

! En este caso ,No se acepta el supuesto de normalidad

shapiro.test(residuos) #menos de 50 observaciones

    Shapiro-Wilk normality test

data:  residuos
W = 0.95077, p-value < 2.2e-16
#para mƔs de 50 observaciones
#kolmorogov
ks.test(residuos,"pnorm", mean(residuos), sd(residuos))

    One-sample Kolmogorov-Smirnov test

data:  residuos
D = 0.083476, p-value = 2.776e-15
alternative hypothesis: two-sided
ks.test(residuos, "pnorm") #creo que es mejor la de arriba

    One-sample Kolmogorov-Smirnov test

data:  residuos
D = 0.31932, p-value < 2.2e-16
alternative hypothesis: two-sided
# Alternativamente conviene usar la modificación de Lilliefors a este test.
# Esta corrección considera que los parÔmetros son estimados, a diferencia
# del «ks» «a secas»:

library(nortest)
lillie.test(residuos)

    Lilliefors (Kolmogorov-Smirnov) normality test

data:  residuos
D = 0.083476, p-value < 2.2e-16
# realizar la prueba Anderson-Darling para comprobar la normalidad
ad.test (residuos)

    Anderson-Darling normality test

data:  residuos
A = 30.174, p-value < 2.2e-16

Homogeneidad de varianzas

La varianza del tƩrmino error es igual en todos los niveles de X. Es el principio de homocedasticidad.(se obtienen con bp.test)

Se busca un pvalor mayor a 0.05 ya que la h0=las pruebas son homogeneas


#En este caso se rechaza la h0, por lo tanto hay heteregeneidad de varianza,no se cumple el supuesto
library(lmtest)
bptest(modelo)

    studentized Breusch-Pagan test

data:  modelo
BP = 329.13, df = 1, p-value < 2.2e-16

Probar la homogeneidad por el mƩtodo grƔfico
los residuos versus los predichos hacen una forma de embudo

predichos=fitted(modelo1)
plot(residuos~predichos)

plot(residuos)

plot(modelo1,1)

relacion residuos con X (no endogeneidad)

Creo que nunca va a haber correlacion

cor(residuos, datos1$por_car_alim)
[1] -3.80044e-18
cov(residuos, datos1$por_car_alim)
[1] -3.993438e-16
plot (datos1$por_car_alim,residuos)

plot (residuos~datos1$por_des_15)

plot (datos1$por_des_15,residuos)

