En la tabla B.1 figuran datos relativos al rendimiento de los 26 equipos de la National Football League en 1976. Se sospecha que el número de yardas ganadas por tierra por los oponentes (x8) tiene un efecto en el número de juegos ganados por un equipo ( y ).
Ajuste un modelo de regresión lineal simple que relacione los juegos ganados y con las yardas ganadas por tierra por los oponentes x8 .
dat1 <-data.frame(TABLE_B1$y,TABLE_B1$x8)
n<-nrow(dat1)
x<-dat1$TABLE_B1.x8 # Las yardas ganadas por tierra por los oponentes
y<-dat1$TABLE_B1.y # Juegos ganados
media_x<-mean(dat1$TABLE_B1.x8) #media de las yardas ganadas por tierra por los oponentes
media_y<-mean(dat1$TABLE_B1.y) #media de Juegos ganados
SXY<-sum(((x-mean(x)))*(y-mean(y)))
SXX<-sum((x-mean(x))^2)
b1<-SXY/SXX
b0<-mean(y)-b1*mean(x)
b0
## [1] 21.78825
b1
## [1] -0.0070251
reg<- lm(y~x,dat=dat1)
summary(reg)
##
## Call:
## lm(formula = y ~ x, data = dat1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.804 -1.591 -0.647 2.032 4.580
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 21.788251 2.696233 8.081 1.46e-08 ***
## x -0.007025 0.001260 -5.577 7.38e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.393 on 26 degrees of freedom
## Multiple R-squared: 0.5447, Adjusted R-squared: 0.5272
## F-statistic: 31.1 on 1 and 26 DF, p-value: 7.381e-06
y = 21.78825 -0.0070251x
Diagrama de dispersión para explorar la relación lineal
Construir la tabla de análisis de varianza y probar la significación de la regresión.
SST<- sum((y-mean(y))^2) #Suma de cuadrados total
SSR<- (b1^2)*SXX #Suma de cuadrados de la regresión
SSE<- SST-SSR #Suma de cuadrados del error
MSE<- SSE/(n-2) #Varianza del error
MSR<- SSR/1
f<-MSR/MSE
tc<- b1/sqrt(MSE/SXX) #Estadístico de prueba
SSR
## [1] 178.0923
SSE
## [1] 148.872
SST
## [1] 326.9643
MSR
## [1] 178.0923
MSE
## [1] 5.725845
f
## [1] 31.10324
pf(f,1,26, lower.tail = F)
## [1] 7.380709e-06
## Analysis of Variance Table
##
## Response: y
## Df Sum Sq Mean Sq F value Pr(>F)
## x 1 178.09 178.092 31.103 7.381e-06 ***
## Residuals 26 148.87 5.726
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Encuentre un IC del 95% en la pendiente.
b1-qt(1-0.05/2,n-2)*sqrt(MSE/SXX) ## IC de 95% para beta 1 limite inf
## [1] -0.009614347
b1+qt(1-0.05/2,n-2)*sqrt(MSE/SXX) ## IC de 95% para beta 1 limite sup
## [1] -0.004435854
## 2.5 % 97.5 %
## (Intercept) 16.246064040 27.330437725
## x -0.009614347 -0.004435854
¿Qué porcentaje de la variabilidad total en y se explica por este modelo?
r_cuadrado<-SSR/SST
r_cuadrado
## [1] 0.5446843
summary(reg)
##
## Call:
## lm(formula = y ~ x, data = dat1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.804 -1.591 -0.647 2.032 4.580
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 21.788251 2.696233 8.081 1.46e-08 ***
## x -0.007025 0.001260 -5.577 7.38e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.393 on 26 degrees of freedom
## Multiple R-squared: 0.5447, Adjusted R-squared: 0.5272
## F-statistic: 31.1 on 1 and 26 DF, p-value: 7.381e-06
Encuentra un IC del 95% en el número medio de juegos ganados si las yardas por tierra de los oponentes están limitadas a 2000 yardas.
limit<-data.frame(x=2000)
predict(reg,newdata = limit,interval = c("c"), level = 0.95)
## fit lwr upr
## 1 7.73805 6.765753 8.710348
El número promedio de juegos ganados en un intervalo de confianza del 95% es de 7.73, donde el límite inferior es 6.76 y el límite superior es de 8.74.
Supongamos que nos gustaría usar el modelo desarrollado en el Problema 2.1 para predecir el número de juegos que un equipo ganará si puede limitar las yardas por tierra de los oponentes a 1800 yardas. Encuentra una estimación puntual del número de juegos ganados cuando x8 = 1800. Encuentra un intervalo de predicción del 90% sobre el número de juegos ganados.
limit<-data.frame(x=1800)
predict(reg,newdata = limit,interval = c("p"),level = 0.9)
## fit lwr upr
## 1 9.14307 4.936392 13.34975
El número promedio de juegos ganados en un intervalo de predicción del 90% es de 9.14, donde el límite inferior es 4.93 y el límite superior es de 13.34.
En la tabla B.2 se presentan los datos recopilados durante un proyecto de energía solar en Georgia Tech. y : Flujo de calor total (kwatts) xl : Insolación (vatios/m 2 ) x2 : Posición del punto focal en dirección este (pulgadas) x3 : Posición del punto focal en dirección sur (pulgadas) x4 : Posición del punto focal en dirección norte (pulgadas) x5 : Hora del día
Ajuste un modelo de regresión lineal simple que relacione el flujo de calor total y (kilovatios) con la deflexión radial de los rayos desviados x4 (miliradianes).
dat2 <-data.frame(TABLE_B2$y,TABLE_B2$x4)
n<-nrow(dat2)
x<-dat2$TABLE_B2.x4 # Posición del punto focal en dirección norte (pulgadas)
y<-dat2$TABLE_B2.y # Flujo de calor total (kwatts)
media_x<-mean(dat2$TABLE_B2.x4) # media de la posición del punto focal en dirección norte (pulgadas)
media_y<-mean(dat2$TABLE_B2.y) # media del flujo de calor total (kwatts)
SXY<-sum(((x-mean(x)))*(y-mean(y)))
SXX<-sum((x-mean(x))^2)
b1<-SXY/SXX
b0<-mean(y)-b1*mean(x)
b0
## [1] 607.1033
b1
## [1] -21.40246
reg<- lm(y~x,dat=dat2)
summary(reg)
##
## Call:
## lm(formula = y ~ x, data = dat2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -26.2487 -4.5029 0.5202 7.9093 24.5080
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 607.103 42.906 14.150 5.24e-14 ***
## x -21.402 2.565 -8.343 5.94e-09 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 12.33 on 27 degrees of freedom
## Multiple R-squared: 0.7205, Adjusted R-squared: 0.7102
## F-statistic: 69.61 on 1 and 27 DF, p-value: 5.935e-09
y = β0+β1x+ε
y = 607.1033 -21.40246x
Construir la tabla de análisis de varianza y probar la significación de la regresión.
SST<- sum((y-mean(y))^2) #Suma de cuadrados total
SSR<- (b1^2)*SXX #Suma de cuadrados de la regresión
SSE<- SST-SSR #Suma de cuadrados del error
MSE<- SSE/(n-2) #Varianza del error
MSR<- SSR/1
f<-MSR/MSE
tc<- b1/sqrt(MSE/SXX) #Estadístico de prueba
SSR
## [1] 10578.68
SSE
## [1] 4103.244
SST
## [1] 14681.93
MSR
## [1] 10578.68
MSE
## [1] 151.972
f
## [1] 69.60944
pf(f,1,27, lower.tail = F)
## [1] 5.935009e-09
## Analysis of Variance Table
##
## Response: y
## Df Sum Sq Mean Sq F value Pr(>F)
## x 1 10578.7 10579 69.609 5.935e-09 ***
## Residuals 27 4103.2 152
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Encuentra un IC del 99% en la pendiente.
b1-qt(1-0.01/2,n-2)*sqrt(MSE/SXX) ## IC de 95% para beta 1 limite inf
## [1] -28.50995
b1+qt(1-0.01/2,n-2)*sqrt(MSE/SXX) ## IC de 95% para beta 1 limite sup
## [1] -14.29497
## 0.5 % 99.5 %
## (Intercept) 488.22411 725.98242
## x -28.50995 -14.29497
Calcular R^2.
r_cuadrado<-SSR/SST
r_cuadrado
## [1] 0.7205242
summary(reg)
##
## Call:
## lm(formula = y ~ x, data = dat2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -26.2487 -4.5029 0.5202 7.9093 24.5080
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 607.103 42.906 14.150 5.24e-14 ***
## x -21.402 2.565 -8.343 5.94e-09 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 12.33 on 27 degrees of freedom
## Multiple R-squared: 0.7205, Adjusted R-squared: 0.7102
## F-statistic: 69.61 on 1 and 27 DF, p-value: 5.935e-09
Encuentre un IC del 95% en el flujo de calor medio cuando la deflexión radial es de 16.5 miliradianes.
limit<-data.frame(x=16.5)
predict(reg,newdata = limit,interval = c("c"),level = 0.95)
## fit lwr upr
## 1 253.9627 249.1468 258.7787
El número promedio de flujo de calor en un intervalo de confianza del 95% es de 253.96, donde el límite inferior es 249.14 y el límite superior es de 258.77.
Considere el modelo de regresión lineal simple y = 50 + 10 x + ε donde ε es NID (0, 16). Supongamos que n = 20 pares de observaciones se utilizan para ajustar este modelo. Generar 500 muestras de 20 observaciones, dibujando una observación para cada nivel de x = 1, 1.5, 2, . . . , 10 para cada muestra.
Para cada muestra, calcule las estimaciones de mínimos cuadrados de la pendiente y la intersección. Construir histogramas de los valores muestrales de ˆ β0 y ˆ β1. Discutir la forma de estos histogramas
Histograma para Beta 1
Histograma para Beta 1
Para cada muestra, calcule una estimación de E ( y | x = 5). Construye un histograma de las estimaciones que obtuviste. Discutir la forma del histograma.
Para cada muestra, calcule un IC del 95% en la pendiente. ¿Cuántos de estos intervalos contienen el valor verdadero β1 = 10? ¿Es esto lo que esperarías?
El total de intervalos que contienen el valor verdadero β1 = 10 son:
## [1] 472
El % total de intervalos que contienen el valor verdadero β1 = 10 son:
## [1] 0.944
En 470 de 500 intervalos esta contenido el valor verdadero β1 = 10, esto representa el 94 % de los intervalos.
Para cada estimación de E ( y | x = 5) en la parte b, calcule el IC del 95%. ¿Cuántos de estos intervalos contienen el valor verdadero de E ( y | x = 5) = 100? ¿Es esto lo que esperarías?
El total de intervalos que contienen el valor verdadero de E ( y | x = 5) = 100 son:
## [1] 473
El % total de intervalos que contienen el valor verdadero de E ( y | x = 5) = 100 son:
## [1] 0.946
Considere el modelo de regresión lineal simple y = β0 + β1x + ε , con E ( ε ) = 0, Var ( ε ) = σ 2 , y ε no correlacionado.
COV(β0,β1) = COV(̅y - β0,β1)
COV(β0,β1) = COV(̅y, β1)- ̅x COV(β1,β1)
COV(β0,β1) = 0 - ̅x σ^2/SXX
COV(β0,β1) = - ̅x σ^2/SXX
COV(̅y,β1) = 1/nSXX * COV(∑yi, ∑(xi-̅X)yi)
COV(̅y,β1) = 1/nSXX * ∑(xi-̅X)COV(yi,yi)
COV(̅y,β1) = σ^2/nSXX * ∑(xi-̅X)
COV(̅y,β1) = 0