Paso 1: Preparar los datos Primero, ingresa los datos de la tabla B.l en R. Puedes copiar los valores de las columnas correspondientes a las variables \(y, x_2, x_7,x_8\)
data <- data.frame(
equipo = c("Washington", "Minnesota", "New England", "Oakland", "Pittsburgh", "Baltimore",
"Los Angeles", "Dallas", "Atlanta", "Buffalo", "Chicago", "Cincinnati", "Cleveland",
"Denver", "Detroit", "Green Bay", "Houston", "Kansas City", "Miami", "New Orleans",
"NY Giants", "NY Jets", "Philadelphia", "St. Louis", "San Diego", "San Francisco",
"Seattle", "Tampa Bay"),
y = c(10, 11, 11, 13, 10, 11, 10, 11, 4, 2, 7, 10, 9, 9, 6, 5, 5, 5, 6, 4, 3, 3, 4, 10, 6, 8, 2, 0),
x2 = c(2113, 2003, 2957, 2285, 2971, 2309, 2528, 2147, 1689, 2566, 2363, 2109, 2295, 1932, 2213,
1722, 1498, 1873, 2118, 1775, 1904, 1929, 2080, 2301, 2040, 2447, 1416, 1503),
x7 = c(64.7, 61.3, 60.0, 45.3, 53.8, 74.1, 65.4, 78.3, 47.6, 54.2, 48.0, 51.9, 53.6, 71.4, 58.3,
52.6, 59.3, 55.3, 69.6, 78.3, 38.1, 68.8, 68.8, 74.1, 50.0, 57.1, 56.3, 47.0),
x8 = c(2205, 2096, 1847, 1903, 1457, 1848, 1564, 1821, 2577, 2476, 1984, 1917, 1761, 1709, 1901,
2288, 2072, 2861, 2411, 2289, 2203, 2592, 2053, 1979, 2048, 1786, 2876, 2560)
)
Paso 2: Ajustar el modelo de regresión lineal múltiple Usaremos la función lm() para ajustar el modelo de regresión lineal múltiple con 𝑦 como la variable dependiente \(x_2, x_7,x_8\) como variables independientes.
# Ajustar el modelo de regresión lineal múltiple
modelo <- lm(y ~ x2 + x7 + x8, data = data)
# Ver los resultados del modelo
summary(modelo)
##
## Call:
## lm(formula = y ~ x2 + x7 + x8, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.6866 -1.5350 -0.2015 1.2955 5.2630
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 11.963192 7.062425 1.694 0.10322
## x2 0.001797 0.001576 1.141 0.26522
## x7 0.048921 0.043761 1.118 0.27467
## x8 -0.005544 0.001681 -3.298 0.00303 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.373 on 24 degrees of freedom
## Multiple R-squared: 0.5865, Adjusted R-squared: 0.5348
## F-statistic: 11.35 on 3 and 24 DF, p-value: 7.912e-05
El modelo de regresión lineal múltiple se ajusta:
\[ y = 11.96 + 0.0018 \cdot x_2 + 0.0489 \cdot x_7 - 0.0055 \cdot x_8 \]
Donde: - \(y\) es la cantidad de juegos ganados. - \(x_2\) son las yardas por aire del equipo. - \(x_7\) es el porcentaje de jugadas por tierra. - \(x_8\) son las yardas por tierra del contrario.
Paso 3: Tabla ANOVA Para generar la tabla de análisis de varianza (ANOVA), puedes usar la función anova().
# Tabla ANOVA
anova(modelo)
para saber cual es el mas significativo.
La tabla ANOVA muestra la contribución de cada variable al modelo:
| Variable | Grados de libertad (Df) | Suma de cuadrados (Sum Sq) | Cuadrado medio (Mean Sq) | Valor F (F value) | Valor p (Pr(>F)) |
|---|---|---|---|---|---|
| \(x_2\) | 1 | 115.07 | 115.068 | 20.427 | 0.00014 |
| \(x_7\) | 1 | 15.44 | 15.440 | 2.741 | 0.1108 |
| \(x_8\) | 1 | 61.26 | 61.260 | 10.875 | 0.0030 |
| Residual | 24 | 135.20 | 5.633 |
Paso 4: Pruebas t para los coeficientes El
comando summary(modelo) ya incluye los valores
t y p-values para probar las hipótesis
H_0: \beta_2 = 0, H_0: \beta_7 = 0, y
H_0: \beta_8 = 0. Si quieres extraer los valores
t de manera individual, puedes hacer lo
siguiente:
# Extraer los valores t para cada coeficiente
coefs <- summary(modelo)$coefficients
t_values <- coefs[, "t value"]
t_values
## (Intercept) x2 x7 x8
## 1.693921 1.140783 1.117918 -3.297712
Se realizaron las pruebas \(t\) para cada coeficiente bajo la hipótesis nula \(H_0\) de que el coeficiente es igual a cero. Los resultados son los siguientes:
Paso 5: Cálculo de \(R^2\) y
\(R_{\text{adj}}^2\) Los valores \(R^2\) y \(R_{\text{adj}}^2\) también estarán en la
salida de summary(modelo). Si deseas obtenerlos por
separado:
# Obtener R^2 y R^2 ajustado
r_squared <- summary(modelo)$r.squared
r_squared_adj <- summary(modelo)$adj.r.squared
r_squared
## [1] 0.586512
r_squared_adj
## [1] 0.5348261
Los valores de \(R^2\) y \(R^2_{\text{adj}}\) son los siguientes:
\[ R^2 = 0.5865, \quad R^2_{\text{adj}} = 0.5348 \]
Esto sugiere que el modelo explica el 58.65% de la variabilidad en los juegos ganados. El valor ajustado es ligeramente menor, lo que significa que el modelo tiene un ajuste razonable sin sobreajustarse.
Paso 6: Prueba \(F\) parcial para \(x_7\) Para la prueba \(F\) parcial para la variable \(x_7\), puedes usar el siguiente código para crear un modelo reducido (sin \(x_7\)) y comparar los modelos completo y reducido:
# Ajustar un modelo sin x7
modelo_reducido <- lm(y ~ x2 + x8, data = data)
# Comparar los modelos con la prueba F
anova(modelo_reducido, modelo)
Se realizó una comparación entre el Modelo 1 (\(y \sim x_2 + x_8\)) y el Modelo 2 (\(y \sim x_2 + x_7 + x_8\)) utilizando una prueba de análisis de varianza (ANOVA). Los resultados son los siguientes:
| Modelo | Grados de libertad residuales (Res.Df) | RSS | Df | Suma de cuadrados (Sum of Sq) | Estadístico F (F) | Valor p (Pr(>F)) |
|---|---|---|---|---|---|---|
| Modelo 1: \(y \sim x_2 + x_8\) | 25 | 142.24 | ||||
| Modelo 2: \(y \sim x_2 + x_7 + x_8\) | 24 | 135.20 | 1 | 7.04 | 1.2497 | 0.2747 |
El valor \(F\) obtenido es 1.2497, con un valor \(p = 0.2747\), lo cual no es estadísticamente significativo al nivel de significancia común de 0.05. Esto significa que la inclusión de la variable \(x_7\) (porcentaje de jugadas por tierra) no mejora significativamente el ajuste del modelo en comparación con el Modelo 1 que sólo incluye \(x_2\) y \(x_8\).
De acuerdo con este análisis, podemos concluir que la variable \(x_7\) no contribuye de manera significativa al modelo de regresión.