Seguimos analizando el ejercicio 2 de la sesión pasada donde se analiza la relación existente entre La tasa de liberación debido al área de quemador en un proceso de combustión y la tasa de emisión de \(NO_{x}\) (ppm) Recordemos los datos:
| x | y |
|---|---|
| 100 | 150 |
| 125 | 140 |
| 125 | 180 |
| 150 | 210 |
| 150 | 190 |
| 200 | 320 |
| 200 | 280 |
| 250 | 400 |
| 250 | 430 |
| 300 | 440 |
| 300 | 390 |
| 350 | 600 |
| 400 | 610 |
| 400 | 670 |
Recordemos el ajuste obtenido para un modelo lineal:
# Ajustamos el modelo lineal
Modelo<- lm(y~x, Datos)
# Mostramos el modelo ajustado y sus datos
summary(Modelo)
##
## Call:
## lm(formula = y ~ x, data = Datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -77.88 -26.20 5.23 24.12 47.69
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -45.55191 25.46779 -1.789 0.0989 .
## x 1.71143 0.09969 17.168 8.23e-10 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 36.75 on 12 degrees of freedom
## Multiple R-squared: 0.9609, Adjusted R-squared: 0.9576
## F-statistic: 294.7 on 1 and 12 DF, p-value: 8.226e-10
# Analisis de varianza modelo lineal
summary(aov(y~x, Datos))
## Df Sum Sq Mean Sq F value Pr(>F)
## x 1 398030 398030 294.7 8.23e-10 ***
## Residuals 12 16205 1350
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Tenemos que nuestro modelo lineal es
\[Y=-45.55191+1.71143X\]
con un coeficiente de determinación
\[r^2= 96.09\%\]
La desviación estandar de este modelo (Puede comprobarlo):
\[S=36.75\] Ahora, suponga que los parámetros de regresión verdadera son \(\beta_{1}=1.70\) , \(\beta_{0}=-50\) y \(\sigma=35\). Generemos una muestra aleatoria de los errores con media 0 y desviación estándar 35, y adicione este error aleatorio a la recta de regresion para calcular nuevamente las 14 observaciones de \(Y\).
# Graficamos los puntos
plot(x,y, main= " Modelo lineal ejericio 2")
# Calculamos estimado
Y_estimado <- Modelo$coefficients[1]+Modelo$coefficients[2]*x
# Graficamos la recta
lines(x, Y_estimado, col="red")
# creamos una lista donde guardamos los modelos de MCO simulados
Simulados <- list()
for (i in 1:50){
# Generamos el error aleatorio
error<- rnorm(14,mean=0, sd=35)
# Ajustamos el modelo lineal con los errores aleatorios
Modelo_error<- lm(y~x+error, Datos)
Y_estimado_error <- Modelo_error$coefficients[1]+Modelo_error$coefficients[2]*x
# Graficamos la recta
lines(x, Y_estimado_error, col="black")
}
Podemos notar que la presencia del error aleatorio, hace que los parámetros de la recta de regresión cambie (Intente extraer estos los valores de \(\beta_{1}\) , \(\beta_{0}\) y \(\sigma\) para esta simulación para comprobar). Por lo tanto, se debe establecer un intervalo de confianza para que poder generar validez al modelo creado.
En este caso, un intervalo de confianza de \(100(1-\alpha)\) para la pendiente \(\beta_{1}\) de la linea de regresion verdadera es:
\[\hat{\beta_{1}} \pm t_{\frac{\alpha}{2},n-2}* S_{\hat{\beta{1}}}\], donde \(S_{\hat{\beta{1}}}= \frac{S}{\sqrt{S_{xx}}}\).