Regresión lineal múlitple

Francisco Orlando Rosales

Aplicando a los datos de California forma habitual


Call:
lm(formula = Notas ~ REM + english, data = CASchools)

Residuals:
    Min      1Q  Median      3Q     Max 
-48.845 -10.240  -0.308   9.815  43.461 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 686.03224    7.41131  92.566  < 2e-16 ***
REM          -1.10130    0.38028  -2.896  0.00398 ** 
english      -0.64978    0.03934 -16.516  < 2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 14.46 on 417 degrees of freedom
Multiple R-squared:  0.4264,    Adjusted R-squared:  0.4237 
F-statistic:   155 on 2 and 417 DF,  p-value: < 2.2e-16

Aplicando a los datos de California

# Modelo de regresión usando PIPEline

CASchools %>% 
  lm(Notas~REM+
       english, data = .) %>% 
  stargazer(type="text", 
            report = "vcts*")


===============================================
                        Dependent variable:    
                    ---------------------------
                               Notas           
-----------------------------------------------
REM                           -1.101           
                            t = -2.896         
                            (0.380)***         
                                               
english                       -0.650           
                            t = -16.516        
                            (0.039)***         
                                               
Constant                      686.032          
                            t = 92.566         
                            (7.411)***         
                                               
-----------------------------------------------
Observations                    420            
R2                             0.426           
Adjusted R2                    0.424           
Residual Std. Error      14.464 (df = 417)     
F Statistic          155.014*** (df = 2; 417)  
===============================================
Note:               *p<0.1; **p<0.05; ***p<0.01

Intepretación del modelo de regresión

Planteamiento de la ecuación

\[ \begin{aligned} \widehat{Notas}_i&=686.03-1.1REM_i-0.65PcEI_i\\ & \hspace{0.5cm}(7.411)\hspace{0.5cm} (0.380) \hspace{0.8cm}(0.039)\\ & n=420 \hspace{0.5cm}\bar{R}^2=0.424 \hspace{0.5cm} ESR= 14.46\\ & \hspace{0.9cm} F=155.014 \end{aligned} \]

Intepretación del modelo de regresión

Significancia parcial \(t\)

Todos los coeficientes \(\beta_j\) son significativos
\(\widehat{\beta}_0\) si la \(REM=PcEI=0\) entonces se predice una notas notas promedio de 686.03 puntos
\(\widehat{\beta}_1\) Si el clase aumenta en un estudiante las notas en promedio disminuyen en 1.1 puntos manteniendo constante el PcEI y el error (ceteris paribus)
\(\widehat{\beta}_2\) Un aumento de 1% en el PcEI esta asociado a una disminución en las notas en promedio en 0.65 puntos, ceteris paribus.

Intepretación del modelo de regresión

Significancia global la prueba \(F\)

\[ \begin{aligned} H_0&:\beta_1=\beta_2=0\\ H_a&: \text{al menos un } \beta_j\neq 0 \end{aligned} \]

Regla de decisión:

Si \(F^{act}>F_{(\alpha,n1,n2)}\rightarrow \text{No aceptar } H_0\)

Nuestro caso

\(F^{act}=115.01> F_{(0.05,2,417)}=\) 3 Entonces no acepto la \(H_0\). El modelo es globalmente significativo

Intepretación del modelo de regresión

Bondad de ajuste

\(\bar{R}^2=42.4%\), es decir que las variables \(REM\) y \(PcEI\) explican el 42.4% de la variabilidad de las \(Notas\) con una muestra de 420 distritos
\(ESR=14.46\). La dispersión de las observaciones en torno al plano del mejor ajustes es de 14.46 puntos

Intepretación del modelo de regresión

Visualización de la dispersión

Intepretación del modelo de regresión

Visualización de la dispersión