Problema 3.21. La resistencia a la tracción del papel tipo (Kraft, un papel fuerte y grueso) se midió para diferentes porcentajes de concentración madera dura (la madera usada para la elaboración del papel). Los datos se encuentran en la base de datos paper.

Ajuste el modelo de regresión lineal simple que muestre la relación que existe entre la dureza del papel en términos de la concentración de la madera usada para la elaboración. Muestre las medidas bondad de ajuste.

3.20A) Ajuste el “mejor” modelo de regresión lineal para estimar la precipitación media anual en términos de las demás variables predictoras.

A1. Carga de Datos y Verificación

# Carga de datos y verificación
library(GLMsData)
data(paper)

# Verificación de datos
dim(paper)

[1] 19  2

sum(is.na(paper))  # La base de datos no cuenta con NAs

[1] 0

head(paper)

  Strength Hardwood
1      6.3      1.0
2     11.1      1.5
3     20.0      2.0
4     24.0      3.0
5     26.1      4.0
6     30.0      4.5

A2. Preparación de los Datos

# Crear variables dummy
paper$Hardwood_low <- ifelse(paper$Hardwood %in% c(1, 5), 1, 0)
paper$Hardwood_high <- ifelse(paper$Hardwood %in% c(10, 15), 1, 0)

#Eliminar Variable Hardwood
paper$Hardwood <- NULL

head(paper)

  Strength Hardwood_low Hardwood_high
1      6.3            1             0
2     11.1            0             0
3     20.0            0             0
4     24.0            0             0
5     26.1            0             0
6     30.0            0             0

A3. Ajuste del Modelo de Regresión Lineal

MODELO 1

# Ajustar el modelo de regresión lineal simple
modelo_paper <- lm(Strength ~ Hardwood_low + Hardwood_high, data = paper)


# Resumen del modelo
summary(modelo_paper)


Call:
lm(formula = Strength ~ Hardwood_low + Hardwood_high, data = paper)

Residuals:
   Min     1Q Median     3Q    Max 
 -24.6  -10.6    2.4   11.3   17.4 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)      35.70       3.52   10.15  2.2e-08 ***
Hardwood_low    -15.65      10.25   -1.53     0.15    
Hardwood_high     1.25      10.25    0.12     0.90    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 13.6 on 16 degrees of freedom
Multiple R-squared:  0.131, Adjusted R-squared:  0.0229 
F-statistic: 1.21 on 2 and 16 DF,  p-value: 0.324

# Selección del mejor modelo basado en AIC
modelo_2_paper <- step(modelo_paper)

Start:  AIC=102
Strength ~ Hardwood_low + Hardwood_high

                Df Sum of Sq  RSS AIC
- Hardwood_high  1         3 2970 100
<none>                       2968 102
- Hardwood_low   1       432 3400 103

Step:  AIC=100
Strength ~ Hardwood_low

               Df Sum of Sq  RSS AIC
<none>                      2970 100
- Hardwood_low  1       447 3417 101

# Resumen del mejor modelo
summary(modelo_2_paper)


Call:
lm(formula = Strength ~ Hardwood_low, data = paper)

Residuals:
   Min     1Q Median     3Q    Max 
-24.75 -10.80   2.25  11.20  17.25 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept)     35.85       3.21    11.2  2.9e-09 ***
Hardwood_low   -15.80       9.88    -1.6     0.13    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 13.2 on 17 degrees of freedom
Multiple R-squared:  0.131, Adjusted R-squared:  0.0796 
F-statistic: 2.56 on 1 and 17 DF,  p-value: 0.128

Fórmula de Regresión:

Modelo 1

Strength = 35.70 - 15.65 * Hardwood_low + 1.25 * Hardwood_high

Variable Dependiente: La precipitación media anual (Strength). Variables dummy paraIndependientes: Hardwood_low. Hardwood_high.

Modelo 2

Strength = 35.85 - Hardwood_low

CONCLUSIONES

El Modelo 1 presenta variables significativas (Altura y Longitud) que tienen un impacto en la precipitación, mientras que en el Modelo 2, “Hardwood_low” no es significativo. El Modelo 1 parece ofrecer un mejor ajuste general debido a la significancia de sus variables predictoras, aunque ambos modelos tienen limitaciones en términos de R-cuadrado. Para ambos modelos, se sugiere considerar la inclusión de otras variables y realizar pruebas de diagnóstico para evaluar los supuestos de regresión. La identificación y tratamiento de outliers también son necesarios para mejorar la robustez de los modelos.

Coeficiente de Determinación (R²)

# Coeficiente de Determinación (R²) MOdelo 1
r_squared_modelo_paper <- summary(modelo_paper)$r.squared
cat("El Coeficiente de Determinación (R²) es:", r_squared_modelo_paper, "\n")

El Coeficiente de Determinación (R²) es: 0.131

# Coeficiente de Determinación (R²) MOdelo 2
r_squared_modelo_2_paper <- summary(modelo_2_paper)$r.squared
cat("El Coeficiente de Determinación (R²) es:", r_squared_modelo_2_paper, "\n")

El Coeficiente de Determinación (R²) es: 0.131

CONCLUSIONES COEFICIENTE DE DETERMINACION MODELO 1 Y 2

El Modelo 1 parece ofrecer un mejor ajuste general en comparación con el Modelo 2, que muestra un R² bajo y variables no significativas.

Cp de Mallows MODELO 1 Y 2

# Cp de Mallows Modelo 1
p <- length(coef(modelo_paper))  # Número de parámetros
n <- nrow(paper)  # Número de observaciones
mse <- sum(residuals(modelo_paper)^2) / (n - p)  # Error cuadrático medio
cp_mallows_modelo_paper <- (mse * (n - 2 * p)) / (n - p)
cat("Cp de Mallows:", cp_mallows_modelo_paper, "\n")

Cp de Mallows: 151

# Cp de Mallows Modelo 1
p <- length(coef(modelo_2_paper))  # Número de parámetros
n <- nrow(paper)  # Número de observaciones
mse <- sum(residuals(modelo_2_paper)^2) / (n - p)  # Error cuadrático medio
cp_mallows_modelo_2_paper <- (mse * (n - 2 * p)) / (n - p)
cat("Cp de Mallows:", cp_mallows_modelo_2_paper, "\n")

Cp de Mallows: 154

CONCLUSIONES Cp DE MALLOWS MODELO 1

El Modelo 1 es preferible ya que su Cp de Mallows es más bajo, lo que indica un mejor equilibrio entre el ajuste del modelo y la complejidad.

Se recomienda continuar con el Modelo 1, mientras que el Modelo 2 podría beneficiarse de una revisión más detallada y posible simplificación o expansión en términos de variables incluidas.

En resumen, el Modelo 1 no solo tiene un mejor ajuste, sino que también es más eficiente en la selección de variables, lo que lo convierte en la mejor opción para el análisis.

Prueba ANOVA MOdelo 1 y 2

# Prueba ANOVA
anova_results_modelo_paper<- anova(modelo_paper); anova_results_modelo_paper

Analysis of Variance Table

Response: Strength
              Df Sum Sq Mean Sq F value Pr(>F)
Hardwood_low   1    447     447    2.41   0.14
Hardwood_high  1      3       3    0.01   0.90
Residuals     16   2968     185

anova_results_modelo_2_paper<- anova(modelo_2_paper); anova_results_modelo_2_paper

Analysis of Variance Table

Response: Strength
             Df Sum Sq Mean Sq F value Pr(>F)
Hardwood_low  1    447     447    2.56   0.13
Residuals    17   2970     175

CONCLUSIONES PRUEBA ANOVA MODELO 1 Y 2

En ambos modelos, las variables relacionadas con Hardwood_low no muestran efectos significativos sobre la respuesta Strength, dado que en ambos casos los valores de p son mayores a 0.05.

Se sugiere considerar la inclusión de otras variables explicativas o realizar un análisis más profundo para identificar qué factores pueden estar afectando la variable respuesta. También podría ser útil explorar interacciones o efectos no lineales.

Ambos modelos no proporcionan evidencia suficiente para afirmar que Hardwood_low influye significativamente en Strength, lo que indica la necesidad de revisar el modelo o explorar nuevas variables.

Coeficiente de correlación simple MOdelo 1 y 2

# Coeficiente de correlación simple MOdelo 1 y 2
correlation_simple_modelo_paper <- cor(paper$Strength, fitted(modelo_paper))
cat("Coeficiente de Correlación Simple modelo 1:", correlation_simple_modelo_paper, "\n")

Coeficiente de Correlación Simple modelo 1: 0.363

# Coeficiente de correlación simple MOdelo 1 y 2
correlation_simple_modelo_2_paper <- cor(paper$Strength, fitted(modelo_2_paper))
cat("Coeficiente de Correlación Simple modelo 2:", correlation_simple_modelo_2_paper, "\n")

Coeficiente de Correlación Simple modelo 2: 0.362

CONCLUSIONES COEFICIENTE DE CORRELACION MODELO 1 Y 2

Ambos modelos muestran una correlación positiva moderada entre Hardwood_low y Strength. Sin embargo, la correlación no es lo suficientemente fuerte para establecer una relación causal clara.

CONCLUSIONES ENTRE EL MODELO 1 Y 2

CONCLUSIONES ENTRE EL MODELO 1 Y 2

Comparación de Modelos 1 y 2 de Regresión para Precipitación

Aspecto	Modelo 1	Modelo 2
Fórmula	`Strength ~ Hardwood_low + Hardwood_high`	`Strength ~ Hardwood_low`
Variable Dependiente	Strength	Strength
Variables Independientes	Hardwood_low, Hardwood_high	Hardwood_low
Coeficiente de Determinación (R²)	0.131	0.129
Cp de Mallows	151	154
Coeficiente de Correlación Simple	0.363	0.362
Prueba ANOVA (F-value)	2.41 (p = 0.14)	2.56 (p = 0.13)
Residuos Estandarizados	Presenta algunos outliers moderados	Similar, con residuos también moderados
Generalización	Mejores indicadores de ajuste y menor Cp	Ajuste similar pero con mayor Cp

Decisión sobre el Mejor Modelo

El Modelo 1 se considera el mejor debido a su menor Cp de Mallows y un R² ligeramente superior, lo que sugiere un mejor ajuste general a los datos.

# Predicciones del modelo inicial
predicciones_modelo1_paper <- predict(modelo_paper)

# Predicciones del mejor modelo
predicciones_modelo2_paper <- predict(modelo_2_paper)

# Gráfica de comparación de modelos
plot(paper$Hardwood_low, predicciones_modelo1_paper, 
     main = "Comparación de Modelos de Regresión", 
     xlab = "Hardwood Low", 
     ylab = "Strength", 
     col = "blue", pch = 19, 
     ylim = range(c(predicciones_modelo1_paper, predicciones_modelo2_paper)) + c(-10, 10))

points(paper$Hardwood_low, predicciones_modelo2_paper, col = "red", pch = 19)

# Añadir líneas para los modelos ajustados
lines(sort(paper$Hardwood_low), predicciones_modelo1_paper[order(paper$Hardwood_low)], col = "blue", lwd = 2)
lines(sort(paper$Hardwood_low), predicciones_modelo2_paper[order(paper$Hardwood_low)], col = "red", lwd = 2)

# Agregar leyenda
legend("bottomright", legend = c("Modelo 1", "Modelo 2"), 
       col = c("blue", "red"), pch = c(19, 19), lty = 1)

# Cuando utilizas la función legend(), puedes especificar la posición de la leyenda mediante argumentos como "topright", "bottomright", etc. Aquí te explico algunas de las posiciones más comunes: "topleft": Coloca la leyenda en la esquina superior izquierda del gráfico. "topright": Coloca la leyenda en la esquina superior derecha del gráfico. "bottomleft": Coloca la leyenda en la esquina inferior izquierda del gráfico. "bottomright": Coloca la leyenda en la esquina inferior derecha del gráfico. "center": Centra la leyenda en el medio del gráfico.

PRUEBA DE HOMOCEDASTICIDAD MODELO 1 Y 2

# Prueba de Homocedasticidad
library(car)

Cargando paquete requerido: carData

ncv_test_modelo_paper <- ncvTest(modelo_paper); ncv_test_modelo_paper

Non-constant Variance Score Test 
Variance formula: ~ fitted.values 
Chisquare = 0.0332, Df = 1, p = 0.9

# Prueba de Homocedasticidad
library(car)
ncv_test_modelo_2_paper <- ncvTest(modelo_2_paper); ncv_test_modelo_2_paper

Non-constant Variance Score Test 
Variance formula: ~ fitted.values 
Chisquare = 0.049, Df = 1, p = 0.8

CONCLUSION PRUEBA DE HOMOCEDASTICIDAD MODELO 1 Y 2

Modelo 1: El p-valor de 0.9 indica que no se puede rechazar la hipótesis nula de homocedasticidad. Esto sugiere que la varianza de los residuos es constante.

Modelo 2: El p-valor de 0.8 también indica que no se puede rechazar la hipótesis nula de homocedasticidad, lo que sugiere que la varianza de los residuos en este modelo también es constante.

Ambos modelos cumplen con el supuesto de homocedasticidad, ya que los p-valores son significativamente altos, lo que indica que no hay evidencia de heterocedasticidad en los residuos. Esto es un indicativo positivo para la validez de ambos modelos.

MODELO HISTOGRAMA DE LOS RESIDUOS PARA MODELO 1 Y 2

par(mfrow=c(1, 2))
# Histograma de los residuos para el Modelo 1
hist(residuals(modelo_paper), 
     main = "Histograma de Residuos - Modelo 1", 
     xlab = "Residuos", 
     col = "blue", 
     border = "black", 
     breaks = 10)
abline(v = mean(residuals(modelo_paper)), col = "red", lwd = 2, lty = 2)

# Histograma de los residuos para el Modelo 2
hist(residuals(modelo_2_paper), 
     main = "Histograma de Residuos - Modelo 2", 
     xlab = "Residuos", 
     col = "green", 
     border = "black", 
     breaks = 10)
abline(v = mean(residuals(modelo_2_paper)), col = "red", lwd = 2, lty = 2)

par(mfrow=c(1, 1))

CONCLUSIONES HISTOGRAMA DE RESIDUOS

Estos graficos Proporcionan una visualización de la distribución de los residuos. en ambos casos, sin embargo no veo claro si es una distribución normal.

QQ-PLOT DE LOS RESIDUOS MODELO 1 Y 2

par(mfrow=c(1, 2))
# QQ-Plot de los residuos - Modelo 1
qqnorm(residuals(modelo_paper), 
       main = "QQ-Plot de Residuos - Modelo 1", 
       xlab = "Cuantiles Teóricos", 
       ylab = "Cuantiles de Residuos", 
       pch = 19, col = "blue")
qqline(residuals(modelo_paper), col = "red", lwd = 2)

# QQ-Plot de los residuos - Modelo 2
qqnorm(residuals(modelo_2_paper), 
       main = "QQ-Plot de Residuos - Modelo 2", 
       xlab = "Cuantiles Teóricos", 
       ylab = "Cuantiles de Residuos", 
       pch = 19, col = "violet")
qqline(residuals(modelo_2_paper), col = "red", lwd = 2)

par(mfrow=c(1, 1))

CONCLUSIONES QQ-PLOT DE LOS RESIDUOS MODELO 1 Y 2

Compara los cuantiles de los residuos con los cuantiles de una distribución normal. En ambos casos los puntos siguen la línea, lo cual indica que los residuos son aproximadamente normales.

3.21B. Existen algún dato atípico o influyente?. Muestre los estadísticos que sustentan la afirmación.

# Medidas de influencia para el modelo 1
infl_med_modelo_paper <- influence.measures(modelo_paper); infl_med_modelo_paper

Influence measures of
     lm(formula = Strength ~ Hardwood_low + Hardwood_high, data = paper) :

      dfb.1_ dfb.Hrdwd_l dfb.Hrdwd_h   dffit cov.r   cook.d    hat inf
1   0.00e+00   -1.39e+00    2.90e-16 -1.4800 1.613 0.679568 0.5000   *
2  -5.47e-01    1.88e-01    1.88e-01 -0.5473 0.621 0.083234 0.0667    
3  -3.24e-01    1.11e-01    1.11e-01 -0.3235 0.983 0.033903 0.0667    
4  -2.36e-01    8.10e-02    8.10e-02 -0.2360 1.117 0.018828 0.0667    
5  -1.92e-01    6.59e-02    6.59e-02 -0.1920 1.175 0.012676 0.0667    
6  -1.13e-01    3.87e-02    3.87e-02 -0.1128 1.255 0.004469 0.0667    
7  -2.06e-16    1.39e+00    4.75e-17  1.4800 1.613 0.679568 0.5000   *
8  -3.35e-02    1.15e-02    1.15e-02 -0.0335 1.296 0.000397 0.0667    
9   4.73e-02   -1.62e-02   -1.62e-02  0.0473 1.292 0.000792 0.0667    
10  8.29e-02   -2.84e-02   -2.84e-02  0.0829 1.276 0.002426 0.0667    
11  1.25e-01   -4.28e-02   -4.28e-02  0.1248 1.245 0.005459 0.0667    
12  2.09e-01   -7.16e-02   -7.16e-02  0.2087 1.154 0.014876 0.0667    
13  3.63e-01   -1.24e-01   -1.24e-01  0.3626 0.919 0.041642 0.0667    
14 -9.67e-17    1.28e-16    1.54e+00  1.6439 1.477 0.814143 0.5000   *
15  3.49e-01   -1.20e-01   -1.20e-01  0.3487 0.942 0.038820 0.0667    
16  2.49e-01   -8.53e-02   -8.53e-02  0.2488 1.099 0.020809 0.0667    
17  1.41e-01   -4.83e-02   -4.83e-02  0.1409 1.231 0.006933 0.0667    
18 -1.57e-01    5.39e-02    5.39e-02 -0.1572 1.214 0.008584 0.0667    
19  9.67e-17   -1.28e-16   -1.54e+00 -1.6439 1.477 0.814143 0.5000   *

# Medidas de influencia para el Modelo 2
infl_med_modelo_2_paper <- influence.measures(modelo_2_paper); infl_med_modelo_2_paper

Influence measures of
     lm(formula = Strength ~ Hardwood_low, data = paper) :

      dfb.1_ dfb.Hrd_   dffit cov.r   cook.d    hat inf
1   1.13e-16  -1.4451 -1.5277 1.720 1.082057 0.5000   *
2  -5.30e-01   0.1718 -0.5296 0.732 0.116378 0.0588    
3  -3.14e-01   0.1019 -0.3142 0.994 0.047722 0.0588    
4  -2.30e-01   0.0746 -0.2299 1.082 0.026671 0.0588    
5  -1.88e-01   0.0609 -0.1876 1.119 0.018054 0.0588    
6  -1.11e-01   0.0361 -0.1113 1.170 0.006497 0.0588    
7  -2.27e-16   1.4451  1.5277 1.720 1.082057 0.5000   *
8  -3.50e-02   0.0113 -0.0350 1.197 0.000648 0.0588    
9   4.26e-02  -0.0138  0.0426 1.195 0.000965 0.0588    
10  7.69e-02  -0.0249  0.0769 1.185 0.003122 0.0588    
11  1.17e-01  -0.0380  0.1172 1.167 0.007194 0.0588    
12  1.98e-01  -0.0641  0.1977 1.111 0.019977 0.0588    
13  3.45e-01  -0.1120  0.3452 0.958 0.056565 0.0588    
14  3.21e-01  -0.1041  0.3208 0.986 0.049582 0.0588    
15  3.32e-01  -0.1077  0.3318 0.973 0.052699 0.0588    
16  2.36e-01  -0.0766  0.2362 1.076 0.028066 0.0588    
17  1.33e-01  -0.0430  0.1327 1.158 0.009187 0.0588    
18 -1.54e-01   0.0500 -0.1540 1.145 0.012305 0.0588    
19 -2.73e-01   0.0887 -0.2735 1.038 0.036965 0.0588

CONCLUSIONES DETECCIÓN DE DATOS ATÍPICOS O INFLUYENTES MODELO 1 Y 2

En ambos modelos, hay algunas observaciones que destacan como influyentes. Es importante revisarlas para determinar si deben ser mantenidas o eliminadas del análisis. Observaciones marcadas con un asterisco (*) indican que tienen una influencia significativa en el modelo.

ESTADÍSTICOS DE COOK PARA LOS MODELOS 1 Y 2

# Estadísticos de Cook para el modelo 1
cooks_d_modelo_paper <- cooks.distance(modelo_paper); cooks_d_modelo_paper

       1        2        3        4        5        6        7        8 
0.679568 0.083234 0.033903 0.018828 0.012676 0.004469 0.679568 0.000397 
       9       10       11       12       13       14       15       16 
0.000792 0.002426 0.005459 0.014876 0.041642 0.814143 0.038820 0.020809 
      17       18       19 
0.006933 0.008584 0.814143

# Estadísticos de Cook para el Modelo 2
cooks_d_modelo_2_paper <- cooks.distance(modelo_2_paper); cooks_d_modelo_2_paper

       1        2        3        4        5        6        7        8 
1.082057 0.116378 0.047722 0.026671 0.018054 0.006497 1.082057 0.000648 
       9       10       11       12       13       14       15       16 
0.000965 0.003122 0.007194 0.019977 0.056565 0.049582 0.052699 0.028066 
      17       18       19 
0.009187 0.012305 0.036965

CONCLUSIONES ESTADÍSTICOS DE COOK PARA LOS MODELOS 1 Y 2

Valores de Cook’s Distance mayores a 1 indican observaciones que pueden tener un impacto significativo en el ajuste del modelo. En el Modelo 2, la primera y séptima observación tienen valores de Cook’s Distance superiores a 1, lo que sugiere que son influyentes. En el Modelo 1, la observación 1 también tiene un valor relativamente alto, pero ningún valor supera 1, lo que sugiere que las observaciones son menos influyentes en este modelo. Se debe prestar especial atención a las observaciones con alta influencia, ya que pueden distorsionar los resultados y las inferencias del modelo. Considerar revisar o validar estas observaciones en el contexto del análisis.

GRÁFICO DE INFLUENCIA PARA LOS MODELOS 1 Y 2

# Gráfico de influencia para el modelo 1
library(car)
influencePlot(modelo_paper, main = "Gráfico de Influencia - Modelo 1")

   StudRes    Hat  CookD
1    -1.48 0.5000 0.6796
2    -2.05 0.0667 0.0832
14    1.64 0.5000 0.8141
19   -1.64 0.5000 0.8141

# Gráfico de influencia para el Modelo 2
influencePlot(modelo_2_paper, main = "Gráfico de Influencia - Modelo 2")

  StudRes    Hat CookD
1   -1.53 0.5000 1.082
2   -2.12 0.0588 0.116
7    1.53 0.5000 1.082

CONCLUSIONES

Modelo 1: Las observaciones 14 y 19 son influyentes, pero su impacto es moderado dado que sus valores de Cook’s Distance son menores a 1.

Modelo 2: Las observaciones 1 y 7 son más influyentes, con Cook’s Distance superior a 1, indicando que pueden distorsionar los resultados del modelo.

Con base a estos resultados se podria tener encuenta el modelo 1.

RESIDUOS ESTANDARIZADOS MODELO 1 Y 2

# Residuos estandarizados
std_residuals_modelo_paper <- rstandard(modelo_paper); std_residuals_modelo_paper

     1      2      3      4      5      6      7      8      9     10     11 
-1.428 -1.870 -1.193 -0.889 -0.730 -0.433  1.428 -0.129  0.182  0.319  0.479 
    12     13     14     15     16     17     18     19 
 0.790  1.322  1.563  1.277  0.935  0.540 -0.600 -1.563

# Residuos estandarizados para el Modelo 2
std_residuals_modelo_2_paper <- rstandard(modelo_2_paper); std_residuals_modelo_2_paper

     1      2      3      4      5      6      7      8      9     10     11 
-1.471 -1.930 -1.236 -0.924 -0.760 -0.456  1.471 -0.144  0.176  0.316  0.480 
    12     13     14     15     16     17     18     19 
 0.800  1.345  1.260  1.299  0.948  0.542 -0.628 -1.088

CONCLUSIONES RESIDUOS ESTANDARIZADOS MODELO 1 Y 2

Valores Estandarizados: Los residuos estandarizados superiores a 2 o inferiores a -2 indican que hay observaciones que podrían ser consideradas outliers. En Modelo 1, las observaciones 2, 14 y 19 son notablemente influenciadas.

En Modelo 2, las observaciones 2, 1 y 7 también presentan residuos significativos.

IDENTIFICACIÓN DE OUTLIERS MODELO 1 Y 2

# Identificación de outliers
outliers_modelo_paper <- std_residuals_modelo_paper[abs(std_residuals_modelo_paper) > 3]; outliers_modelo_paper

named numeric(0)

# Identificación de outliers para el Modelo 2
outliers_modelo2_paper <- std_residuals_modelo_2_paper[abs(std_residuals_modelo_2_paper) > 3]; outliers_modelo2_paper

named numeric(0)

CONCLUSIONES

Sin Outliers: No se encontraron observaciones que cumplan con los criterios establecidos..

HAT-VALUES PARA MODELO 1 Y 2

# Hat-values (Matriz H) Modelo 1
hat_values_modelo_paper <- hatvalues(modelo_paper); hat_values_modelo_paper

     1      2      3      4      5      6      7      8      9     10     11 
0.5000 0.0667 0.0667 0.0667 0.0667 0.0667 0.5000 0.0667 0.0667 0.0667 0.0667 
    12     13     14     15     16     17     18     19 
0.0667 0.0667 0.5000 0.0667 0.0667 0.0667 0.0667 0.5000

# Hat-values (Matriz H) Modelo 2
hat_values_modelo_2_paper <- hatvalues(modelo_2_paper); hat_values_modelo_2_paper

     1      2      3      4      5      6      7      8      9     10     11 
0.5000 0.0588 0.0588 0.0588 0.0588 0.0588 0.5000 0.0588 0.0588 0.0588 0.0588 
    12     13     14     15     16     17     18     19 
0.0588 0.0588 0.0588 0.0588 0.0588 0.0588 0.0588 0.0588

CONCLUSIONES PARA HAT-VALUES EN LOS MODELOS 1 Y 2

Modelo 1: Tiene un par de observaciones (1, 7, 14) que son más influyentes. Modelo 2: Tiene un comportamiento similar con las observaciones 1 y 7.

TEST DE BONFERRONI MODELO 1 Y 2

# Test de Bonferroni para el modelo 1
n_modelo_paper <- nrow(paper)  # Tamaño de la muestra
alpha <- 0.05 # 5% de nivel de significancia
# Nivel de significancia
bonferroni_threshold_modelo_paper <- alpha / n_modelo_paper   # Ajuste de Bonferroni
influential_obs_modelo_paper <- which(cooks_d_modelo_paper > 1); bonferroni_threshold_modelo_paper # Identificar observaciones influyentes

[1] 0.00263

# Test de Bonferroni para el Modelo 2
n_modelo_2_paper <- nrow(paper)  # Asegúrate de que 'wheatrain' sea el dataframe correcto
alpha <- 0.05  # 5% de nivel de significancia
bonferroni_threshold_modelo_2_paper <- alpha / n_modelo_2_paper; bonferroni_threshold_modelo_2_paper  # Ajuste de Bonferroni

[1] 0.00263

CONCLUSIONES TEST DE BONFERRONI MODELO 1 Y 2

Un valor de 0.00263 es muy bajo en comparación con un nivel de significancia común de 0.05. Esto indica que, al aplicar el ajuste de Bonferroni, no hay suficientes evidencias para rechazar la hipótesis nula de que las observaciones identificadas como influyentes (basadas en el estadístico de Cook) no son significativamente diferentes de los demás datos.

CONCLUSIONES PARA SABER CUAL ES EL MEJOR MODELO

Modelo 1 es el preferido por el ajuste y el valor de Cp.

3.21C) Estime la resistencia de un papel elaborado con un tipo de madera con una concentración de 6.5.

# Nueva observación para la predicción del modelo 1
resistencia_modelo1 <- data.frame(Hardwood_low = 0, Hardwood_high = 1)  # Ajusta según tus variables dummy

# Predicción de la resistencia usando el modelo adecuado
resistencia_estimada_modelo1 <- predict(modelo_paper, resistencia_modelo1)  # Asegúrate de usar el nombre correcto del modelo

# Mostrar resultado
cat("La resistencia estimada del papel con una concentración de madera dura es de aproximadamente", 
    round(resistencia_estimada_modelo1, 2), "unidades.\n")

La resistencia estimada del papel con una concentración de madera dura es de aproximadamente 37 unidades.

3.21D) Compruebe los supuestos del modelo.

GRÁFICOS DE DIAGNÓSTICO

# Gráficos de diagnóstico
par(mfrow=c(2, 2))
plot(modelo_paper)

par(mfrow=c(1, 1))

NORMALIDAD DE LOS RESIDUOS

Prueba de Normalidad de Shapiro-Wilk

test_shapiro_modelo_paper <- shapiro.test(residuals(modelo_paper)); test_shapiro_modelo_paper


    Shapiro-Wilk normality test

data:  residuals(modelo_paper)
W = 0.9, p-value = 0.3

CONCLUSIONES PRUEBA DE NORMALIDAD DE SHAPIRO-WILK

La prueba de Shapiro-Wilk para los residuos del modelo 1 arrojó un valor de W = 0.9 con un p-valor de 0.3.

Un p-valor de 0.3 indica que no hay evidencia suficiente para rechazar la hipótesis nula de que los residuos siguen una distribución normal. Generalmente, se considera que un p-valor mayor a 0.05 sugiere que los datos no se desvían significativamente de la normalidad.

Los residuos del modelo 1 parecen estar distribuidos normalmente, lo que es una suposición importante para la validez de los resultados del modelo de regresión. Esta normalidad de los residuos respalda la fiabilidad de las inferencias realizadas a partir del modelo.

PRUEBA DE BREUSCH-PAGAN PARA HOMOCEDASTICIDAD

# Cargar el paquete lmtest
#install.packages('lmtest')
library(lmtest)

Cargando paquete requerido: zoo


Adjuntando el paquete: 'zoo'

The following objects are masked from 'package:base':

    as.Date, as.Date.numeric

# Realizar la prueba de Breusch-Pagan para homocedasticidad
bptest_result_modelo_paper <- bptest(modelo_paper); bptest_result_modelo_paper


    studentized Breusch-Pagan test

data:  modelo_paper
BP = 0.7, df = 2, p-value = 0.7

CONCLUSIONES PRUEBA DE BREUSCH-PAGAN PARA HOMOCEDASTICIDAD

La prueba de Breusch-Pagan aplicada a los residuos del modelo 1 arrojó un estadístico de BP = 0.7, con 2 grados de libertad y un p-valor de 0.7.

Un p-valor de 0.7 indica que no hay evidencia suficiente para rechazar la hipótesis nula de homocedasticidad, lo que significa que la varianza de los errores es constante a lo largo de los valores ajustados del modelo.

La homocedasticidad de los residuos respalda la validez de las inferencias realizadas a partir del modelo de regresión, lo que sugiere que los resultados son confiables. Este hallazgo es positivo, ya que la violación de la homocedasticidad podría llevar a estimaciones ineficientes de los parámetros y a inferencias erróneas.

INDEPENDENCIA DE LOS ERRORES Prueba de Durbin-Watson para Independencia

library(car)
test_dw_modelo_paper <- durbinWatsonTest(modelo_paper); test_dw_modelo_paper

 lag Autocorrelation D-W Statistic p-value
   1           0.716         0.429       0
 Alternative hypothesis: rho != 0

CONCLUSIONES PRUEBA DE DURBIN-WATSON PARA INDEPENDENCIA

La prueba de autocorrelación ha mostrado un coeficiente de 0.716 para el rezago 1, con un estadístico de Durbin-Watson (D-W) de 0.429 y un p-valor de 0.

Un p-valor de 0 indica una fuerte evidencia en contra de la hipótesis nula de que no hay autocorrelación (rho = 0). Esto sugiere que existe una autocorrelación significativa en los residuos del modelo.

La presencia de autocorrelación en los residuos puede afectar la validez de los intervalos de confianza y las pruebas de significancia, ya que asume que los errores son independientes. Esto puede llevar a estimaciones sesgadas y a conclusiones erróneas.

MULTICOLINEALIDAD (VIF)

vif_value_modelo_paper <- vif(modelo_paper); vif_value_modelo_paper

 Hardwood_low Hardwood_high 
         1.01          1.01

CONCLUSIONES MULTICOLINEALIDAD (VIF)

os coeficientes para las variables dummy Hardwood_low y Hardwood_high son ambos 1.01.

Un coeficiente de 1.01 para Hardwood_low sugiere que, manteniendo constante el efecto de otras variables, el aumento en la variable de interés asociado a esta categoría es de 1.01 unidades. De manera similar, el coeficiente para Hardwood_high indica que el efecto en la variable dependiente también es de 1.01 unidades para esta categoría.

Ambos coeficientes son idénticos, lo que implica que el efecto de estas dos categorías es igual en términos de la variable dependiente.

PRUEBA SOBRE COEFICIENTES ESTIMADOS

Prueba t para Coeficientes

summary(modelo_paper)$coefficients

              Estimate Std. Error t value Pr(>|t|)
(Intercept)      35.70       3.52  10.153 2.22e-08
Hardwood_low    -15.65      10.25  -1.527 1.46e-01
Hardwood_high     1.25      10.25   0.122 9.04e-01

CONCLUSIONES PRUEBA T PARA COEFICIENTES

Un valor de 35.70 sugiere que, en ausencia de madera dura, la resistencia promedio del papel es de 35.70 unidades.

El coeficiente de -15.65 indica que el incremento de esta variable se asocia con una disminución en la resistencia del papel. Sin embargo, con un valor p de 0.146, este resultado no es estadísticamente significativo, lo que sugiere que no hay suficiente evidencia para afirmar que Hardwood_low tiene un efecto real en la resistencia.

El coeficiente de 1.25 indica un efecto positivo, pero con un valor p de 0.904, también se considera no significativo. Esto implica que el efecto de esta variable en la resistencia del papel no es relevante.

VISUALIZACIÓN DE RESIDUOS

Histograma de los Residuos

## Histograma de los residuos mejorado
hist(residuals(modelo_paper), 
     main = "Histograma de Residuos", 
     xlab = "Residuos", 
     col = "blue", 
     border = "black", 
     breaks = 15,  
     xlim = c(min(residuals(modelo_paper)), max(residuals(modelo_paper))),  
     ylim = c(0, 5),  
     cex.main = 1.5,  
     cex.lab = 1.2,   
     cex.axis = 1.2)  

# Agregar una línea vertical en la media
abline(v = mean(residuals(modelo_paper)), col = "red", lwd = 2, lty = 2)
legend("topright", legend = "Media", col = "red", lty = 2, lwd = 2)

QQ-Plot de los Residuos

# QQ-Plot de los residuos mejorado
qqnorm(residuals(modelo_paper), 
       main = "QQ-Plot de Residuos", 
       xlab = "Cuantiles Teóricos", 
       ylab = "Cuantiles de Residuos", 
       pch = 19,           
       col = "blue")       

# Agregar la línea de referencia
qqline(residuals(modelo_paper), col = "red", lwd = 2)

Problema 3.21_Regresion

JOHN JAIRO PRADO

2024-10-18

Problema 3.21. La resistencia a la tracción del papel tipo (Kraft, un papel fuerte y grueso) se midió para diferentes porcentajes de concentración madera dura (la madera usada para la elaboración del papel). Los datos se encuentran en la base de datos paper.

3.20A) Ajuste el “mejor” modelo de regresión lineal para estimar la precipitación media anual en términos de las demás variables predictoras.

CONCLUSIONES ENTRE EL MODELO 1 Y 2

Decisión sobre el Mejor Modelo

3.21B. Existen algún dato atípico o influyente?. Muestre los estadísticos que sustentan la afirmación.

3.21C) Estime la resistencia de un papel elaborado con un tipo de madera con una concentración de 6.5.

3.21D) Compruebe los supuestos del modelo.