Paso 1: Preparar los datos Primero, ingresa los datos de la tabla B.l en R. Puedes copiar los valores de las columnas correspondientes a las variables \(y, x_2, x_7,x_8\)

data <- data.frame(
  equipo = c("Washington", "Minnesota", "New England", "Oakland", "Pittsburgh", "Baltimore", 
             "Los Angeles", "Dallas", "Atlanta", "Buffalo", "Chicago", "Cincinnati", "Cleveland",
             "Denver", "Detroit", "Green Bay", "Houston", "Kansas City", "Miami", "New Orleans",
             "NY Giants", "NY Jets", "Philadelphia", "St. Louis", "San Diego", "San Francisco",
             "Seattle", "Tampa Bay"),
  y = c(10, 11, 11, 13, 10, 11, 10, 11, 4, 2, 7, 10, 9, 9, 6, 5, 5, 5, 6, 4, 3, 3, 4, 10, 6, 8, 2, 0),
  x2 = c(2113, 2003, 2957, 2285, 2971, 2309, 2528, 2147, 1689, 2566, 2363, 2109, 2295, 1932, 2213,
         1722, 1498, 1873, 2118, 1775, 1904, 1929, 2080, 2301, 2040, 2447, 1416, 1503),
  x7 = c(64.7, 61.3, 60.0, 45.3, 53.8, 74.1, 65.4, 78.3, 47.6, 54.2, 48.0, 51.9, 53.6, 71.4, 58.3, 
         52.6, 59.3, 55.3, 69.6, 78.3, 38.1, 68.8, 68.8, 74.1, 50.0, 57.1, 56.3, 47.0),
  x8 = c(2205, 2096, 1847, 1903, 1457, 1848, 1564, 1821, 2577, 2476, 1984, 1917, 1761, 1709, 1901,
         2288, 2072, 2861, 2411, 2289, 2203, 2592, 2053, 1979, 2048, 1786, 2876, 2560)
)

Paso 2: Ajustar el modelo de regresión lineal múltiple Usaremos la función lm() para ajustar el modelo de regresión lineal múltiple con 𝑦 como la variable dependiente \(x_2, x_7,x_8\) como variables independientes.

# Ajustar el modelo de regresión lineal múltiple
modelo <- lm(y ~ x2 + x7 + x8, data = data)

# Ver los resultados del modelo
summary(modelo)
## 
## Call:
## lm(formula = y ~ x2 + x7 + x8, data = data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.6866 -1.5350 -0.2015  1.2955  5.2630 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)   
## (Intercept) 11.963192   7.062425   1.694  0.10322   
## x2           0.001797   0.001576   1.141  0.26522   
## x7           0.048921   0.043761   1.118  0.27467   
## x8          -0.005544   0.001681  -3.298  0.00303 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.373 on 24 degrees of freedom
## Multiple R-squared:  0.5865, Adjusted R-squared:  0.5348 
## F-statistic: 11.35 on 3 and 24 DF,  p-value: 7.912e-05

a. Ajuste del modelo de regresión lineal múltiple

El modelo de regresión lineal múltiple se ajusta:

\[ y = 11.96 + 0.0018 \cdot x_2 + 0.0489 \cdot x_7 - 0.0055 \cdot x_8 \]

Donde: - \(y\) es la cantidad de juegos ganados. - \(x_2\) son las yardas por aire del equipo. - \(x_7\) es el porcentaje de jugadas por tierra. - \(x_8\) son las yardas por tierra del contrario.

Paso 3: Tabla ANOVA Para generar la tabla de análisis de varianza (ANOVA), puedes usar la función anova().

# Tabla ANOVA
anova(modelo)

para saber cual es el mas significativo.

b. Tabla de análisis de varianza (ANOVA)

La tabla ANOVA muestra la contribución de cada variable al modelo:

Variable Grados de libertad (Df) Suma de cuadrados (Sum Sq) Cuadrado medio (Mean Sq) Valor F (F value) Valor p (Pr(>F))
\(x_2\) 1 115.07 115.068 20.427 0.00014
\(x_7\) 1 15.44 15.440 2.741 0.1108
\(x_8\) 1 61.26 61.260 10.875 0.0030
Residual 24 135.20 5.633

Paso 4: Pruebas t para los coeficientes El comando summary(modelo) ya incluye los valores t y p-values para probar las hipótesis H_0: \beta_2 = 0, H_0: \beta_7 = 0, y H_0: \beta_8 = 0. Si quieres extraer los valores t de manera individual, puedes hacer lo siguiente:

# Extraer los valores t para cada coeficiente
coefs <- summary(modelo)$coefficients
t_values <- coefs[, "t value"]
t_values
## (Intercept)          x2          x7          x8 
##    1.693921    1.140783    1.117918   -3.297712

c. Pruebas \(t\) para \(H_0\)

Se realizaron las pruebas \(t\) para cada coeficiente bajo la hipótesis nula \(H_0\) de que el coeficiente es igual a cero. Los resultados son los siguientes:

Paso 5: Cálculo de \(R^2\) y \(R_{\text{adj}}^2\) Los valores \(R^2\) y \(R_{\text{adj}}^2\) también estarán en la salida de summary(modelo). Si deseas obtenerlos por separado:

# Obtener R^2 y R^2 ajustado
r_squared <- summary(modelo)$r.squared
r_squared_adj <- summary(modelo)$adj.r.squared
r_squared
## [1] 0.586512
r_squared_adj
## [1] 0.5348261

d. Cálculo de \(R^2\) y \(R^2_{\text{adj}}\)

Los valores de \(R^2\) y \(R^2_{\text{adj}}\) son los siguientes:

\[ R^2 = 0.5865, \quad R^2_{\text{adj}} = 0.5348 \]

Esto sugiere que el modelo explica el 58.65% de la variabilidad en los juegos ganados. El valor ajustado es ligeramente menor, lo que significa que el modelo tiene un ajuste razonable sin sobreajustarse.

Paso 6: Prueba \(F\) parcial para \(x_7\) Para la prueba \(F\) parcial para la variable \(x_7\), puedes usar el siguiente código para crear un modelo reducido (sin \(x_7\)) y comparar los modelos completo y reducido:

# Ajustar un modelo sin x7
modelo_reducido <- lm(y ~ x2 + x8, data = data)

# Comparar los modelos con la prueba F
anova(modelo_reducido, modelo)

e. Análisis de Varianza entre los Modelos 1 y 2

Se realizó una comparación entre el Modelo 1 (\(y \sim x_2 + x_8\)) y el Modelo 2 (\(y \sim x_2 + x_7 + x_8\)) utilizando una prueba de análisis de varianza (ANOVA). Los resultados son los siguientes:

Modelo Grados de libertad residuales (Res.Df) RSS Df Suma de cuadrados (Sum of Sq) Estadístico F (F) Valor p (Pr(>F))
Modelo 1: \(y \sim x_2 + x_8\) 25 142.24
Modelo 2: \(y \sim x_2 + x_7 + x_8\) 24 135.20 1 7.04 1.2497 0.2747

Interpretación

El valor \(F\) obtenido es 1.2497, con un valor \(p = 0.2747\), lo cual no es estadísticamente significativo al nivel de significancia común de 0.05. Esto significa que la inclusión de la variable \(x_7\) (porcentaje de jugadas por tierra) no mejora significativamente el ajuste del modelo en comparación con el Modelo 1 que sólo incluye \(x_2\) y \(x_8\).

De acuerdo con este análisis, podemos concluir que la variable \(x_7\) no contribuye de manera significativa al modelo de regresión.

Conclusiones

  1. La variable \(x_8\) (yardas por tierra del contrario) tiene un impacto significativo y negativo en el número de juegos ganados, lo que sugiere que a mayor número de yardas por tierra del contrario, menor será la cantidad de juegos ganados.
  2. Las variables \(x_2\) (yardas por aire del equipo) y \(x_7\) (porcentaje de jugadas por tierra) no son significativas, lo que indica que no tienen un efecto claro sobre los juegos ganados en este modelo.
  3. El modelo explica un 58.65% de la variabilidad en los juegos ganados. Aunque el modelo tiene un ajuste razonable, podrían existir otros factores no incluidos en este análisis que también influyen en el número de juegos ganados.