Intervalos de confianza para los parametros de regresión

Seguimos analizando el ejercicio 2 de la sesión pasada donde se analiza la relación existente entre La tasa de liberación debido al área de quemador en un proceso de combustión y la tasa de emisión de \(NO_{x}\) (ppm) Recordemos los datos:

Ejemplo practico en clases
x	y
100	150
125	140
125	180
150	210
150	190
200	320
200	280
250	400
250	430
300	440
300	390
350	600
400	610
400	670

Recordemos el ajuste obtenido para un modelo lineal:

# Ajustamos el modelo lineal 
Modelo<- lm(y~x, Datos)

# Mostramos el modelo ajustado y sus datos
summary(Modelo)

## 
## Call:
## lm(formula = y ~ x, data = Datos)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -77.88 -26.20   5.23  24.12  47.69 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -45.55191   25.46779  -1.789   0.0989 .  
## x             1.71143    0.09969  17.168 8.23e-10 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 36.75 on 12 degrees of freedom
## Multiple R-squared:  0.9609, Adjusted R-squared:  0.9576 
## F-statistic: 294.7 on 1 and 12 DF,  p-value: 8.226e-10

# Analisis de varianza modelo lineal
summary(aov(y~x, Datos))

##             Df Sum Sq Mean Sq F value   Pr(>F)    
## x            1 398030  398030   294.7 8.23e-10 ***
## Residuals   12  16205    1350                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Tenemos que nuestro modelo lineal es

\[Y=-45.55191+1.71143X\]

con un coeficiente de determinación

\[r^2= 96.09\%\]

La desviación estandar de este modelo (Puede comprobarlo):

\[S=36.75\] Ahora, suponga que los parámetros de regresión verdadera son \(\beta_{1}=1.70\) , \(\beta_{0}=-50\) y \(\sigma=35\). Generemos una muestra aleatoria de los errores con media 0 y desviación estándar 35, y adicione este error aleatorio a la recta de regresion para calcular nuevamente las 14 observaciones de \(Y\).

# Graficamos los puntos
plot(x,y, main= " Modelo lineal ejericio 2")

# Calculamos estimado 

Y_estimado <- Modelo$coefficients[1]+Modelo$coefficients[2]*x

# Graficamos la recta
lines(x, Y_estimado, col="red")

# creamos una lista donde guardamos los modelos de MCO simulados
Simulados <- list()


for (i in 1:50){
# Generamos el error aleatorio
error<- rnorm(14,mean=0, sd=35)

# Ajustamos el modelo lineal con los errores aleatorios
Modelo_error<- lm(y~x+error, Datos)

Y_estimado_error <- Modelo_error$coefficients[1]+Modelo_error$coefficients[2]*x

# Graficamos la recta
lines(x, Y_estimado_error, col="black")
}

Podemos notar que la presencia del error aleatorio, hace que los parámetros de la recta de regresión cambie (Intente extraer estos los valores de \(\beta_{1}\) , \(\beta_{0}\) y \(\sigma\) para esta simulación para comprobar). Por lo tanto, se debe establecer un intervalo de confianza para que poder generar validez al modelo creado.

En este caso, un intervalo de confianza de \(100(1-\alpha)\) para la pendiente \(\beta_{1}\) de la linea de regresion verdadera es:

\[\hat{\beta_{1}} \pm t_{\frac{\alpha}{2},n-2}* S_{\hat{\beta{1}}}\], donde \(S_{\hat{\beta{1}}}= \frac{S}{\sqrt{S_{xx}}}\).

Intervalos de confianza para los parametros de regresión

Ing. Cesar Lopez

2022-08-09

x	y
100	150
125	140
125	180
150	210
150	190
200	320
200	280
250	400
250	430
300	440
300	390
350	600
400	610
400	670

x	y
100	150
125	140
125	180
150	210
150	190
200	320
200	280
250	400
250	430
300	440
300	390
350	600
400	610
400	670

x	y
100	150
125	140
125	180
150	210
150	190
200	320
200	280
250	400
250	430
300	440
300	390
350	600
400	610
400	670