Normalidad

EC19003 Escolán Chávez, Diana Alejandra GT03

26/5/2021

Carga de datos

library(wooldridge)
data("hprice1")
head(force(hprice1), n=5)
##   price assess bdrms lotsize sqrft colonial   lprice  lassess llotsize   lsqrft
## 1   300  349.1     4    6126  2438        1 5.703783 5.855359 8.720297 7.798934
## 2   370  351.5     3    9903  2076        1 5.913503 5.862210 9.200593 7.638198
## 3   191  217.7     3    5200  1374        0 5.252274 5.383118 8.556414 7.225482
## 4   195  231.8     3    4600  1448        1 5.273000 5.445875 8.433811 7.277938
## 5   373  319.1     4    6095  2514        1 5.921578 5.765504 8.715224 7.829630

Estimar el modelo

modelo_est <- lm(formula = price ~ lotsize + sqrft + bdrms, data = hprice1)
library(stargazer)
stargazer(modelo_est, title = "Modelo estimado", type = "text")
## 
## Modelo estimado
## ===============================================
##                         Dependent variable:    
##                     ---------------------------
##                                price           
## -----------------------------------------------
## lotsize                      0.002***          
##                               (0.001)          
##                                                
## sqrft                        0.123***          
##                               (0.013)          
##                                                
## bdrms                         13.853           
##                               (9.010)          
##                                                
## Constant                      -21.770          
##                              (29.475)          
##                                                
## -----------------------------------------------
## Observations                    88             
## R2                             0.672           
## Adjusted R2                    0.661           
## Residual Std. Error      59.833 (df = 84)      
## F Statistic           57.460*** (df = 3; 84)   
## ===============================================
## Note:               *p<0.1; **p<0.05; ***p<0.01

Pruebas de normalidad de los residuos

Para un nivel de significancia de 5%

Vista gráfica

library(fitdistrplus)
ajuste_normal <- fitdist(data = modelo_est$residuals, distr = "norm")
plot(ajuste_normal)

Aparentemente los residuos del modelo se ajustan a una distribución normal, esto se verificará con pruebas formales.

Hipótesis

\(H_o\): Los residuos del modelo tienen una distribución normal.

\(H_1\): Los residuos del modelo no tienen una distribución normal.

Regla de rechazo

\(p-value < ∝\) Rechazar \(H_o\)

\(JB ≥ VC\) Rechazar \(H_o\)

Prueba JB

library(normtest)
jb.norm.test(modelo_est$residuals)
## 
##  Jarque-Bera test for normality
## 
## data:  modelo_est$residuals
## JB = 32.278, p-value = 0.0015

Se rechaza la hipótesis nula dado que \(p-value < ∝\), \(0.0015 < 0.05\). Por tanto se concluye que los residuos no tienen una distribución normal.

fastGraph

options(scipen = 99999)
#con 2 gl y un área superior de 0.05
gl_JB <- 2 
#El valor crítico siempre será un chi cuadrado con gl =2
VC_JB <- qchisq(p=0.95, df=gl_JB)
library(fastGraph)
shadeDist(xshade = 32.278,
          ddist = "dchisq",
          parm1 = gl_JB,
          lower.tail = FALSE,
          sub = paste("JB:", 32.278,
                      "VC:", VC_JB),
          main = "Jarque Bera")

Graficamente se contrasta el estaístico de prueba JB con el valor crítico. Se rechaza \(H_o\) dado que \(JB ≥ VC\), se concluye que los residuos no tienen una distribución normal.

Prueba KS

library(nortest)
lillie.test(modelo_est$residuals)
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  modelo_est$residuals
## D = 0.075439, p-value = 0.2496

No se rechaza la hipótesis nula dado que \(p-value > ∝\), \(0.2496 > 0.05\)

Prueba SW

shapiro.test(modelo_est$residuals)
## 
##  Shapiro-Wilk normality test
## 
## data:  modelo_est$residuals
## W = 0.94132, p-value = 0.0005937

Normalizando W

W <- 0.94132
# Obtener miu
miu <- 0.0038915*(log(88))^3-0.083751*(log(88))^2-0.31082*(log(88))-1.5861
# Obtener la desv
desv <- exp(0.0030302*(log(88))^2-0.082676*(log(88))-0.4803)
# Obtener Wn
Wn <- (log(1 - W) - miu)/desv
print(Wn)
## [1] 3.241898

Se rechaza la hipótesis nula dado que \(p-value < ∝\), \(0.0005937 < 0.05\). Por tanto se concluye que los residuos no tienen una distribución normal.

fastGraph

library(fastGraph)
VC_SW <- 1.644854
shadeDist(xshade = VC_SW,
          ddist = "dnorm",
          parm1 = 0,
          lower.tail = FALSE,
          sub = paste("Wn:", 3.24, 
                      "VC:", 1.64),
          col = c("black", "purple"),
          main = "Shapiro Wilk",
          xtic = c(1.64, 3.24, 0))

Conclusión: Para un nivel de significancia de 5% se tiene un VC de 1.644854. De la misma manera se rechaza la hipótesis nula dado que \(W_n\) > \(VC\)