A1. Carga de Datos y Verificación
# Carga de datos y verificación
library(GLMsData)
data(paper)
# Verificación de datos
dim(paper)
[1] 19 2
sum(is.na(paper)) # La base de datos no cuenta con NAs
[1] 0
head(paper)
Strength Hardwood
1 6.3 1.0
2 11.1 1.5
3 20.0 2.0
4 24.0 3.0
5 26.1 4.0
6 30.0 4.5
A2. Preparación de los Datos
# Crear variables dummy
paper$Hardwood_low <- ifelse(paper$Hardwood %in% c(1, 5), 1, 0)
paper$Hardwood_high <- ifelse(paper$Hardwood %in% c(10, 15), 1, 0)
#Eliminar Variable Hardwood
paper$Hardwood <- NULL
head(paper)
Strength Hardwood_low Hardwood_high
1 6.3 1 0
2 11.1 0 0
3 20.0 0 0
4 24.0 0 0
5 26.1 0 0
6 30.0 0 0
A3. Ajuste del Modelo de Regresión Lineal
MODELO 1
# Ajustar el modelo de regresión lineal simple
modelo_paper <- lm(Strength ~ Hardwood_low + Hardwood_high, data = paper)
# Resumen del modelo
summary(modelo_paper)
Call:
lm(formula = Strength ~ Hardwood_low + Hardwood_high, data = paper)
Residuals:
Min 1Q Median 3Q Max
-24.6 -10.6 2.4 11.3 17.4
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 35.70 3.52 10.15 2.2e-08 ***
Hardwood_low -15.65 10.25 -1.53 0.15
Hardwood_high 1.25 10.25 0.12 0.90
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 13.6 on 16 degrees of freedom
Multiple R-squared: 0.131, Adjusted R-squared: 0.0229
F-statistic: 1.21 on 2 and 16 DF, p-value: 0.324
# Selección del mejor modelo basado en AIC
modelo_2_paper <- step(modelo_paper)
Start: AIC=102
Strength ~ Hardwood_low + Hardwood_high
Df Sum of Sq RSS AIC
- Hardwood_high 1 3 2970 100
<none> 2968 102
- Hardwood_low 1 432 3400 103
Step: AIC=100
Strength ~ Hardwood_low
Df Sum of Sq RSS AIC
<none> 2970 100
- Hardwood_low 1 447 3417 101
# Resumen del mejor modelo
summary(modelo_2_paper)
Call:
lm(formula = Strength ~ Hardwood_low, data = paper)
Residuals:
Min 1Q Median 3Q Max
-24.75 -10.80 2.25 11.20 17.25
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 35.85 3.21 11.2 2.9e-09 ***
Hardwood_low -15.80 9.88 -1.6 0.13
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 13.2 on 17 degrees of freedom
Multiple R-squared: 0.131, Adjusted R-squared: 0.0796
F-statistic: 2.56 on 1 and 17 DF, p-value: 0.128
Fórmula de Regresión:
Modelo 1
Strength = 35.70 - 15.65 * Hardwood_low + 1.25 * Hardwood_high
Variable Dependiente: La precipitación media anual (Strength). Variables dummy paraIndependientes: Hardwood_low. Hardwood_high.
Modelo 2
Strength = 35.85 - Hardwood_low
CONCLUSIONES
El Modelo 1 presenta variables significativas (Altura y Longitud) que tienen un impacto en la precipitación, mientras que en el Modelo 2, “Hardwood_low” no es significativo. El Modelo 1 parece ofrecer un mejor ajuste general debido a la significancia de sus variables predictoras, aunque ambos modelos tienen limitaciones en términos de R-cuadrado. Para ambos modelos, se sugiere considerar la inclusión de otras variables y realizar pruebas de diagnóstico para evaluar los supuestos de regresión. La identificación y tratamiento de outliers también son necesarios para mejorar la robustez de los modelos.
Coeficiente de Determinación (R²)
# Coeficiente de Determinación (R²) MOdelo 1
r_squared_modelo_paper <- summary(modelo_paper)$r.squared
cat("El Coeficiente de Determinación (R²) es:", r_squared_modelo_paper, "\n")
El Coeficiente de Determinación (R²) es: 0.131
# Coeficiente de Determinación (R²) MOdelo 2
r_squared_modelo_2_paper <- summary(modelo_2_paper)$r.squared
cat("El Coeficiente de Determinación (R²) es:", r_squared_modelo_2_paper, "\n")
El Coeficiente de Determinación (R²) es: 0.131
CONCLUSIONES COEFICIENTE DE DETERMINACION MODELO 1 Y 2
El Modelo 1 parece ofrecer un mejor ajuste general en comparación con el Modelo 2, que muestra un R² bajo y variables no significativas.
Cp de Mallows MODELO 1 Y 2
# Cp de Mallows Modelo 1
p <- length(coef(modelo_paper)) # Número de parámetros
n <- nrow(paper) # Número de observaciones
mse <- sum(residuals(modelo_paper)^2) / (n - p) # Error cuadrático medio
cp_mallows_modelo_paper <- (mse * (n - 2 * p)) / (n - p)
cat("Cp de Mallows:", cp_mallows_modelo_paper, "\n")
Cp de Mallows: 151
# Cp de Mallows Modelo 1
p <- length(coef(modelo_2_paper)) # Número de parámetros
n <- nrow(paper) # Número de observaciones
mse <- sum(residuals(modelo_2_paper)^2) / (n - p) # Error cuadrático medio
cp_mallows_modelo_2_paper <- (mse * (n - 2 * p)) / (n - p)
cat("Cp de Mallows:", cp_mallows_modelo_2_paper, "\n")
Cp de Mallows: 154
CONCLUSIONES Cp DE MALLOWS MODELO 1
El Modelo 1 es preferible ya que su Cp de Mallows es más bajo, lo que indica un mejor equilibrio entre el ajuste del modelo y la complejidad.
Se recomienda continuar con el Modelo 1, mientras que el Modelo 2 podría beneficiarse de una revisión más detallada y posible simplificación o expansión en términos de variables incluidas.
En resumen, el Modelo 1 no solo tiene un mejor ajuste, sino que también es más eficiente en la selección de variables, lo que lo convierte en la mejor opción para el análisis.
Prueba ANOVA MOdelo 1 y 2
# Prueba ANOVA
anova_results_modelo_paper<- anova(modelo_paper); anova_results_modelo_paper
Analysis of Variance Table
Response: Strength
Df Sum Sq Mean Sq F value Pr(>F)
Hardwood_low 1 447 447 2.41 0.14
Hardwood_high 1 3 3 0.01 0.90
Residuals 16 2968 185
anova_results_modelo_2_paper<- anova(modelo_2_paper); anova_results_modelo_2_paper
Analysis of Variance Table
Response: Strength
Df Sum Sq Mean Sq F value Pr(>F)
Hardwood_low 1 447 447 2.56 0.13
Residuals 17 2970 175
CONCLUSIONES PRUEBA ANOVA MODELO 1 Y 2
En ambos modelos, las variables relacionadas con Hardwood_low no muestran efectos significativos sobre la respuesta Strength, dado que en ambos casos los valores de p son mayores a 0.05.
Se sugiere considerar la inclusión de otras variables explicativas o realizar un análisis más profundo para identificar qué factores pueden estar afectando la variable respuesta. También podría ser útil explorar interacciones o efectos no lineales.
Ambos modelos no proporcionan evidencia suficiente para afirmar que Hardwood_low influye significativamente en Strength, lo que indica la necesidad de revisar el modelo o explorar nuevas variables.
Coeficiente de correlación simple MOdelo 1 y 2
# Coeficiente de correlación simple MOdelo 1 y 2
correlation_simple_modelo_paper <- cor(paper$Strength, fitted(modelo_paper))
cat("Coeficiente de Correlación Simple modelo 1:", correlation_simple_modelo_paper, "\n")
Coeficiente de Correlación Simple modelo 1: 0.363
# Coeficiente de correlación simple MOdelo 1 y 2
correlation_simple_modelo_2_paper <- cor(paper$Strength, fitted(modelo_2_paper))
cat("Coeficiente de Correlación Simple modelo 2:", correlation_simple_modelo_2_paper, "\n")
Coeficiente de Correlación Simple modelo 2: 0.362
CONCLUSIONES COEFICIENTE DE CORRELACION MODELO 1 Y 2
Ambos modelos muestran una correlación positiva moderada entre Hardwood_low y Strength. Sin embargo, la correlación no es lo suficientemente fuerte para establecer una relación causal clara.
CONCLUSIONES ENTRE EL MODELO 1 Y 2
Comparación de Modelos 1 y 2 de Regresión para Precipitación
Aspecto | Modelo 1 | Modelo 2 |
---|---|---|
Fórmula | Strength ~ Hardwood_low + Hardwood_high |
Strength ~ Hardwood_low |
Variable Dependiente | Strength | Strength |
Variables Independientes | Hardwood_low, Hardwood_high | Hardwood_low |
Coeficiente de Determinación (R²) | 0.131 | 0.129 |
Cp de Mallows | 151 | 154 |
Coeficiente de Correlación Simple | 0.363 | 0.362 |
Prueba ANOVA (F-value) | 2.41 (p = 0.14) | 2.56 (p = 0.13) |
Residuos Estandarizados | Presenta algunos outliers moderados | Similar, con residuos también moderados |
Generalización | Mejores indicadores de ajuste y menor Cp | Ajuste similar pero con mayor Cp |
El Modelo 1 se considera el mejor debido a su menor Cp de Mallows y un R² ligeramente superior, lo que sugiere un mejor ajuste general a los datos.
# Predicciones del modelo inicial
predicciones_modelo1_paper <- predict(modelo_paper)
# Predicciones del mejor modelo
predicciones_modelo2_paper <- predict(modelo_2_paper)
# Gráfica de comparación de modelos
plot(paper$Hardwood_low, predicciones_modelo1_paper,
main = "Comparación de Modelos de Regresión",
xlab = "Hardwood Low",
ylab = "Strength",
col = "blue", pch = 19,
ylim = range(c(predicciones_modelo1_paper, predicciones_modelo2_paper)) + c(-10, 10))
points(paper$Hardwood_low, predicciones_modelo2_paper, col = "red", pch = 19)
# Añadir líneas para los modelos ajustados
lines(sort(paper$Hardwood_low), predicciones_modelo1_paper[order(paper$Hardwood_low)], col = "blue", lwd = 2)
lines(sort(paper$Hardwood_low), predicciones_modelo2_paper[order(paper$Hardwood_low)], col = "red", lwd = 2)
# Agregar leyenda
legend("bottomright", legend = c("Modelo 1", "Modelo 2"),
col = c("blue", "red"), pch = c(19, 19), lty = 1)
# Cuando utilizas la función legend(), puedes especificar la posición de la leyenda mediante argumentos como "topright", "bottomright", etc. Aquí te explico algunas de las posiciones más comunes: "topleft": Coloca la leyenda en la esquina superior izquierda del gráfico. "topright": Coloca la leyenda en la esquina superior derecha del gráfico. "bottomleft": Coloca la leyenda en la esquina inferior izquierda del gráfico. "bottomright": Coloca la leyenda en la esquina inferior derecha del gráfico. "center": Centra la leyenda en el medio del gráfico.
PRUEBA DE HOMOCEDASTICIDAD MODELO 1 Y 2
# Prueba de Homocedasticidad
library(car)
Cargando paquete requerido: carData
ncv_test_modelo_paper <- ncvTest(modelo_paper); ncv_test_modelo_paper
Non-constant Variance Score Test
Variance formula: ~ fitted.values
Chisquare = 0.0332, Df = 1, p = 0.9
# Prueba de Homocedasticidad
library(car)
ncv_test_modelo_2_paper <- ncvTest(modelo_2_paper); ncv_test_modelo_2_paper
Non-constant Variance Score Test
Variance formula: ~ fitted.values
Chisquare = 0.049, Df = 1, p = 0.8
CONCLUSION PRUEBA DE HOMOCEDASTICIDAD MODELO 1 Y 2
Modelo 1: El p-valor de 0.9 indica que no se puede rechazar la hipótesis nula de homocedasticidad. Esto sugiere que la varianza de los residuos es constante.
Modelo 2: El p-valor de 0.8 también indica que no se puede rechazar la hipótesis nula de homocedasticidad, lo que sugiere que la varianza de los residuos en este modelo también es constante.
Ambos modelos cumplen con el supuesto de homocedasticidad, ya que los p-valores son significativamente altos, lo que indica que no hay evidencia de heterocedasticidad en los residuos. Esto es un indicativo positivo para la validez de ambos modelos.
MODELO HISTOGRAMA DE LOS RESIDUOS PARA MODELO 1 Y 2
par(mfrow=c(1, 2))
# Histograma de los residuos para el Modelo 1
hist(residuals(modelo_paper),
main = "Histograma de Residuos - Modelo 1",
xlab = "Residuos",
col = "blue",
border = "black",
breaks = 10)
abline(v = mean(residuals(modelo_paper)), col = "red", lwd = 2, lty = 2)
# Histograma de los residuos para el Modelo 2
hist(residuals(modelo_2_paper),
main = "Histograma de Residuos - Modelo 2",
xlab = "Residuos",
col = "green",
border = "black",
breaks = 10)
abline(v = mean(residuals(modelo_2_paper)), col = "red", lwd = 2, lty = 2)
par(mfrow=c(1, 1))
CONCLUSIONES HISTOGRAMA DE RESIDUOS
Estos graficos Proporcionan una visualización de la distribución de los residuos. en ambos casos, sin embargo no veo claro si es una distribución normal.
QQ-PLOT DE LOS RESIDUOS MODELO 1 Y 2
par(mfrow=c(1, 2))
# QQ-Plot de los residuos - Modelo 1
qqnorm(residuals(modelo_paper),
main = "QQ-Plot de Residuos - Modelo 1",
xlab = "Cuantiles Teóricos",
ylab = "Cuantiles de Residuos",
pch = 19, col = "blue")
qqline(residuals(modelo_paper), col = "red", lwd = 2)
# QQ-Plot de los residuos - Modelo 2
qqnorm(residuals(modelo_2_paper),
main = "QQ-Plot de Residuos - Modelo 2",
xlab = "Cuantiles Teóricos",
ylab = "Cuantiles de Residuos",
pch = 19, col = "violet")
qqline(residuals(modelo_2_paper), col = "red", lwd = 2)
par(mfrow=c(1, 1))
CONCLUSIONES QQ-PLOT DE LOS RESIDUOS MODELO 1 Y 2
Compara los cuantiles de los residuos con los cuantiles de una distribución normal. En ambos casos los puntos siguen la línea, lo cual indica que los residuos son aproximadamente normales.
# Medidas de influencia para el modelo 1
infl_med_modelo_paper <- influence.measures(modelo_paper); infl_med_modelo_paper
Influence measures of
lm(formula = Strength ~ Hardwood_low + Hardwood_high, data = paper) :
dfb.1_ dfb.Hrdwd_l dfb.Hrdwd_h dffit cov.r cook.d hat inf
1 0.00e+00 -1.39e+00 2.90e-16 -1.4800 1.613 0.679568 0.5000 *
2 -5.47e-01 1.88e-01 1.88e-01 -0.5473 0.621 0.083234 0.0667
3 -3.24e-01 1.11e-01 1.11e-01 -0.3235 0.983 0.033903 0.0667
4 -2.36e-01 8.10e-02 8.10e-02 -0.2360 1.117 0.018828 0.0667
5 -1.92e-01 6.59e-02 6.59e-02 -0.1920 1.175 0.012676 0.0667
6 -1.13e-01 3.87e-02 3.87e-02 -0.1128 1.255 0.004469 0.0667
7 -2.06e-16 1.39e+00 4.75e-17 1.4800 1.613 0.679568 0.5000 *
8 -3.35e-02 1.15e-02 1.15e-02 -0.0335 1.296 0.000397 0.0667
9 4.73e-02 -1.62e-02 -1.62e-02 0.0473 1.292 0.000792 0.0667
10 8.29e-02 -2.84e-02 -2.84e-02 0.0829 1.276 0.002426 0.0667
11 1.25e-01 -4.28e-02 -4.28e-02 0.1248 1.245 0.005459 0.0667
12 2.09e-01 -7.16e-02 -7.16e-02 0.2087 1.154 0.014876 0.0667
13 3.63e-01 -1.24e-01 -1.24e-01 0.3626 0.919 0.041642 0.0667
14 -9.67e-17 1.28e-16 1.54e+00 1.6439 1.477 0.814143 0.5000 *
15 3.49e-01 -1.20e-01 -1.20e-01 0.3487 0.942 0.038820 0.0667
16 2.49e-01 -8.53e-02 -8.53e-02 0.2488 1.099 0.020809 0.0667
17 1.41e-01 -4.83e-02 -4.83e-02 0.1409 1.231 0.006933 0.0667
18 -1.57e-01 5.39e-02 5.39e-02 -0.1572 1.214 0.008584 0.0667
19 9.67e-17 -1.28e-16 -1.54e+00 -1.6439 1.477 0.814143 0.5000 *
# Medidas de influencia para el Modelo 2
infl_med_modelo_2_paper <- influence.measures(modelo_2_paper); infl_med_modelo_2_paper
Influence measures of
lm(formula = Strength ~ Hardwood_low, data = paper) :
dfb.1_ dfb.Hrd_ dffit cov.r cook.d hat inf
1 1.13e-16 -1.4451 -1.5277 1.720 1.082057 0.5000 *
2 -5.30e-01 0.1718 -0.5296 0.732 0.116378 0.0588
3 -3.14e-01 0.1019 -0.3142 0.994 0.047722 0.0588
4 -2.30e-01 0.0746 -0.2299 1.082 0.026671 0.0588
5 -1.88e-01 0.0609 -0.1876 1.119 0.018054 0.0588
6 -1.11e-01 0.0361 -0.1113 1.170 0.006497 0.0588
7 -2.27e-16 1.4451 1.5277 1.720 1.082057 0.5000 *
8 -3.50e-02 0.0113 -0.0350 1.197 0.000648 0.0588
9 4.26e-02 -0.0138 0.0426 1.195 0.000965 0.0588
10 7.69e-02 -0.0249 0.0769 1.185 0.003122 0.0588
11 1.17e-01 -0.0380 0.1172 1.167 0.007194 0.0588
12 1.98e-01 -0.0641 0.1977 1.111 0.019977 0.0588
13 3.45e-01 -0.1120 0.3452 0.958 0.056565 0.0588
14 3.21e-01 -0.1041 0.3208 0.986 0.049582 0.0588
15 3.32e-01 -0.1077 0.3318 0.973 0.052699 0.0588
16 2.36e-01 -0.0766 0.2362 1.076 0.028066 0.0588
17 1.33e-01 -0.0430 0.1327 1.158 0.009187 0.0588
18 -1.54e-01 0.0500 -0.1540 1.145 0.012305 0.0588
19 -2.73e-01 0.0887 -0.2735 1.038 0.036965 0.0588
CONCLUSIONES DETECCIÓN DE DATOS ATÍPICOS O INFLUYENTES MODELO 1 Y 2
En ambos modelos, hay algunas observaciones que destacan como influyentes. Es importante revisarlas para determinar si deben ser mantenidas o eliminadas del análisis. Observaciones marcadas con un asterisco (*) indican que tienen una influencia significativa en el modelo.
ESTADÍSTICOS DE COOK PARA LOS MODELOS 1 Y 2
# Estadísticos de Cook para el modelo 1
cooks_d_modelo_paper <- cooks.distance(modelo_paper); cooks_d_modelo_paper
1 2 3 4 5 6 7 8
0.679568 0.083234 0.033903 0.018828 0.012676 0.004469 0.679568 0.000397
9 10 11 12 13 14 15 16
0.000792 0.002426 0.005459 0.014876 0.041642 0.814143 0.038820 0.020809
17 18 19
0.006933 0.008584 0.814143
# Estadísticos de Cook para el Modelo 2
cooks_d_modelo_2_paper <- cooks.distance(modelo_2_paper); cooks_d_modelo_2_paper
1 2 3 4 5 6 7 8
1.082057 0.116378 0.047722 0.026671 0.018054 0.006497 1.082057 0.000648
9 10 11 12 13 14 15 16
0.000965 0.003122 0.007194 0.019977 0.056565 0.049582 0.052699 0.028066
17 18 19
0.009187 0.012305 0.036965
CONCLUSIONES ESTADÍSTICOS DE COOK PARA LOS MODELOS 1 Y 2
Valores de Cook’s Distance mayores a 1 indican observaciones que pueden tener un impacto significativo en el ajuste del modelo. En el Modelo 2, la primera y séptima observación tienen valores de Cook’s Distance superiores a 1, lo que sugiere que son influyentes. En el Modelo 1, la observación 1 también tiene un valor relativamente alto, pero ningún valor supera 1, lo que sugiere que las observaciones son menos influyentes en este modelo. Se debe prestar especial atención a las observaciones con alta influencia, ya que pueden distorsionar los resultados y las inferencias del modelo. Considerar revisar o validar estas observaciones en el contexto del análisis.
GRÁFICO DE INFLUENCIA PARA LOS MODELOS 1 Y 2
# Gráfico de influencia para el modelo 1
library(car)
influencePlot(modelo_paper, main = "Gráfico de Influencia - Modelo 1")
StudRes Hat CookD
1 -1.48 0.5000 0.6796
2 -2.05 0.0667 0.0832
14 1.64 0.5000 0.8141
19 -1.64 0.5000 0.8141
# Gráfico de influencia para el Modelo 2
influencePlot(modelo_2_paper, main = "Gráfico de Influencia - Modelo 2")
StudRes Hat CookD
1 -1.53 0.5000 1.082
2 -2.12 0.0588 0.116
7 1.53 0.5000 1.082
CONCLUSIONES
Modelo 1: Las observaciones 14 y 19 son influyentes, pero su impacto es moderado dado que sus valores de Cook’s Distance son menores a 1.
Modelo 2: Las observaciones 1 y 7 son más influyentes, con Cook’s Distance superior a 1, indicando que pueden distorsionar los resultados del modelo.
Con base a estos resultados se podria tener encuenta el modelo 1.
RESIDUOS ESTANDARIZADOS MODELO 1 Y 2
# Residuos estandarizados
std_residuals_modelo_paper <- rstandard(modelo_paper); std_residuals_modelo_paper
1 2 3 4 5 6 7 8 9 10 11
-1.428 -1.870 -1.193 -0.889 -0.730 -0.433 1.428 -0.129 0.182 0.319 0.479
12 13 14 15 16 17 18 19
0.790 1.322 1.563 1.277 0.935 0.540 -0.600 -1.563
# Residuos estandarizados para el Modelo 2
std_residuals_modelo_2_paper <- rstandard(modelo_2_paper); std_residuals_modelo_2_paper
1 2 3 4 5 6 7 8 9 10 11
-1.471 -1.930 -1.236 -0.924 -0.760 -0.456 1.471 -0.144 0.176 0.316 0.480
12 13 14 15 16 17 18 19
0.800 1.345 1.260 1.299 0.948 0.542 -0.628 -1.088
CONCLUSIONES RESIDUOS ESTANDARIZADOS MODELO 1 Y 2
Valores Estandarizados: Los residuos estandarizados superiores a 2 o inferiores a -2 indican que hay observaciones que podrían ser consideradas outliers. En Modelo 1, las observaciones 2, 14 y 19 son notablemente influenciadas.
En Modelo 2, las observaciones 2, 1 y 7 también presentan residuos significativos.
IDENTIFICACIÓN DE OUTLIERS MODELO 1 Y 2
# Identificación de outliers
outliers_modelo_paper <- std_residuals_modelo_paper[abs(std_residuals_modelo_paper) > 3]; outliers_modelo_paper
named numeric(0)
# Identificación de outliers para el Modelo 2
outliers_modelo2_paper <- std_residuals_modelo_2_paper[abs(std_residuals_modelo_2_paper) > 3]; outliers_modelo2_paper
named numeric(0)
CONCLUSIONES
Sin Outliers: No se encontraron observaciones que cumplan con los criterios establecidos..
HAT-VALUES PARA MODELO 1 Y 2
# Hat-values (Matriz H) Modelo 1
hat_values_modelo_paper <- hatvalues(modelo_paper); hat_values_modelo_paper
1 2 3 4 5 6 7 8 9 10 11
0.5000 0.0667 0.0667 0.0667 0.0667 0.0667 0.5000 0.0667 0.0667 0.0667 0.0667
12 13 14 15 16 17 18 19
0.0667 0.0667 0.5000 0.0667 0.0667 0.0667 0.0667 0.5000
# Hat-values (Matriz H) Modelo 2
hat_values_modelo_2_paper <- hatvalues(modelo_2_paper); hat_values_modelo_2_paper
1 2 3 4 5 6 7 8 9 10 11
0.5000 0.0588 0.0588 0.0588 0.0588 0.0588 0.5000 0.0588 0.0588 0.0588 0.0588
12 13 14 15 16 17 18 19
0.0588 0.0588 0.0588 0.0588 0.0588 0.0588 0.0588 0.0588
CONCLUSIONES PARA HAT-VALUES EN LOS MODELOS 1 Y 2
Modelo 1: Tiene un par de observaciones (1, 7, 14) que son más influyentes. Modelo 2: Tiene un comportamiento similar con las observaciones 1 y 7.
TEST DE BONFERRONI MODELO 1 Y 2
# Test de Bonferroni para el modelo 1
n_modelo_paper <- nrow(paper) # Tamaño de la muestra
alpha <- 0.05 # 5% de nivel de significancia
# Nivel de significancia
bonferroni_threshold_modelo_paper <- alpha / n_modelo_paper # Ajuste de Bonferroni
influential_obs_modelo_paper <- which(cooks_d_modelo_paper > 1); bonferroni_threshold_modelo_paper # Identificar observaciones influyentes
[1] 0.00263
# Test de Bonferroni para el Modelo 2
n_modelo_2_paper <- nrow(paper) # Asegúrate de que 'wheatrain' sea el dataframe correcto
alpha <- 0.05 # 5% de nivel de significancia
bonferroni_threshold_modelo_2_paper <- alpha / n_modelo_2_paper; bonferroni_threshold_modelo_2_paper # Ajuste de Bonferroni
[1] 0.00263
CONCLUSIONES TEST DE BONFERRONI MODELO 1 Y 2
Un valor de 0.00263 es muy bajo en comparación con un nivel de significancia común de 0.05. Esto indica que, al aplicar el ajuste de Bonferroni, no hay suficientes evidencias para rechazar la hipótesis nula de que las observaciones identificadas como influyentes (basadas en el estadístico de Cook) no son significativamente diferentes de los demás datos.
CONCLUSIONES PARA SABER CUAL ES EL MEJOR MODELO
Modelo 1 es el preferido por el ajuste y el valor de Cp.
# Nueva observación para la predicción del modelo 1
resistencia_modelo1 <- data.frame(Hardwood_low = 0, Hardwood_high = 1) # Ajusta según tus variables dummy
# Predicción de la resistencia usando el modelo adecuado
resistencia_estimada_modelo1 <- predict(modelo_paper, resistencia_modelo1) # Asegúrate de usar el nombre correcto del modelo
# Mostrar resultado
cat("La resistencia estimada del papel con una concentración de madera dura es de aproximadamente",
round(resistencia_estimada_modelo1, 2), "unidades.\n")
La resistencia estimada del papel con una concentración de madera dura es de aproximadamente 37 unidades.
GRÁFICOS DE DIAGNÓSTICO
# Gráficos de diagnóstico
par(mfrow=c(2, 2))
plot(modelo_paper)
par(mfrow=c(1, 1))
NORMALIDAD DE LOS RESIDUOS
Prueba de Normalidad de Shapiro-Wilk
test_shapiro_modelo_paper <- shapiro.test(residuals(modelo_paper)); test_shapiro_modelo_paper
Shapiro-Wilk normality test
data: residuals(modelo_paper)
W = 0.9, p-value = 0.3
CONCLUSIONES PRUEBA DE NORMALIDAD DE SHAPIRO-WILK
La prueba de Shapiro-Wilk para los residuos del modelo 1 arrojó un valor de W = 0.9 con un p-valor de 0.3.
Un p-valor de 0.3 indica que no hay evidencia suficiente para rechazar la hipótesis nula de que los residuos siguen una distribución normal. Generalmente, se considera que un p-valor mayor a 0.05 sugiere que los datos no se desvían significativamente de la normalidad.
Los residuos del modelo 1 parecen estar distribuidos normalmente, lo que es una suposición importante para la validez de los resultados del modelo de regresión. Esta normalidad de los residuos respalda la fiabilidad de las inferencias realizadas a partir del modelo.
PRUEBA DE BREUSCH-PAGAN PARA HOMOCEDASTICIDAD
# Cargar el paquete lmtest
#install.packages('lmtest')
library(lmtest)
Cargando paquete requerido: zoo
Adjuntando el paquete: 'zoo'
The following objects are masked from 'package:base':
as.Date, as.Date.numeric
# Realizar la prueba de Breusch-Pagan para homocedasticidad
bptest_result_modelo_paper <- bptest(modelo_paper); bptest_result_modelo_paper
studentized Breusch-Pagan test
data: modelo_paper
BP = 0.7, df = 2, p-value = 0.7
CONCLUSIONES PRUEBA DE BREUSCH-PAGAN PARA HOMOCEDASTICIDAD
La prueba de Breusch-Pagan aplicada a los residuos del modelo 1 arrojó un estadístico de BP = 0.7, con 2 grados de libertad y un p-valor de 0.7.
Un p-valor de 0.7 indica que no hay evidencia suficiente para rechazar la hipótesis nula de homocedasticidad, lo que significa que la varianza de los errores es constante a lo largo de los valores ajustados del modelo.
La homocedasticidad de los residuos respalda la validez de las inferencias realizadas a partir del modelo de regresión, lo que sugiere que los resultados son confiables. Este hallazgo es positivo, ya que la violación de la homocedasticidad podría llevar a estimaciones ineficientes de los parámetros y a inferencias erróneas.
INDEPENDENCIA DE LOS ERRORES Prueba de Durbin-Watson para Independencia
library(car)
test_dw_modelo_paper <- durbinWatsonTest(modelo_paper); test_dw_modelo_paper
lag Autocorrelation D-W Statistic p-value
1 0.716 0.429 0
Alternative hypothesis: rho != 0
CONCLUSIONES PRUEBA DE DURBIN-WATSON PARA INDEPENDENCIA
La prueba de autocorrelación ha mostrado un coeficiente de 0.716 para el rezago 1, con un estadístico de Durbin-Watson (D-W) de 0.429 y un p-valor de 0.
Un p-valor de 0 indica una fuerte evidencia en contra de la hipótesis nula de que no hay autocorrelación (rho = 0). Esto sugiere que existe una autocorrelación significativa en los residuos del modelo.
La presencia de autocorrelación en los residuos puede afectar la validez de los intervalos de confianza y las pruebas de significancia, ya que asume que los errores son independientes. Esto puede llevar a estimaciones sesgadas y a conclusiones erróneas.
MULTICOLINEALIDAD (VIF)
vif_value_modelo_paper <- vif(modelo_paper); vif_value_modelo_paper
Hardwood_low Hardwood_high
1.01 1.01
CONCLUSIONES MULTICOLINEALIDAD (VIF)
os coeficientes para las variables dummy Hardwood_low y Hardwood_high son ambos 1.01.
Un coeficiente de 1.01 para Hardwood_low sugiere que, manteniendo constante el efecto de otras variables, el aumento en la variable de interés asociado a esta categoría es de 1.01 unidades. De manera similar, el coeficiente para Hardwood_high indica que el efecto en la variable dependiente también es de 1.01 unidades para esta categoría.
Ambos coeficientes son idénticos, lo que implica que el efecto de estas dos categorías es igual en términos de la variable dependiente.
PRUEBA SOBRE COEFICIENTES ESTIMADOS
Prueba t para Coeficientes
summary(modelo_paper)$coefficients
Estimate Std. Error t value Pr(>|t|)
(Intercept) 35.70 3.52 10.153 2.22e-08
Hardwood_low -15.65 10.25 -1.527 1.46e-01
Hardwood_high 1.25 10.25 0.122 9.04e-01
CONCLUSIONES PRUEBA T PARA COEFICIENTES
Un valor de 35.70 sugiere que, en ausencia de madera dura, la resistencia promedio del papel es de 35.70 unidades.
El coeficiente de -15.65 indica que el incremento de esta variable se asocia con una disminución en la resistencia del papel. Sin embargo, con un valor p de 0.146, este resultado no es estadísticamente significativo, lo que sugiere que no hay suficiente evidencia para afirmar que Hardwood_low tiene un efecto real en la resistencia.
El coeficiente de 1.25 indica un efecto positivo, pero con un valor p de 0.904, también se considera no significativo. Esto implica que el efecto de esta variable en la resistencia del papel no es relevante.
VISUALIZACIÓN DE RESIDUOS
Histograma de los Residuos
## Histograma de los residuos mejorado
hist(residuals(modelo_paper),
main = "Histograma de Residuos",
xlab = "Residuos",
col = "blue",
border = "black",
breaks = 15,
xlim = c(min(residuals(modelo_paper)), max(residuals(modelo_paper))),
ylim = c(0, 5),
cex.main = 1.5,
cex.lab = 1.2,
cex.axis = 1.2)
# Agregar una línea vertical en la media
abline(v = mean(residuals(modelo_paper)), col = "red", lwd = 2, lty = 2)
legend("topright", legend = "Media", col = "red", lty = 2, lwd = 2)
QQ-Plot de los Residuos
# QQ-Plot de los residuos mejorado
qqnorm(residuals(modelo_paper),
main = "QQ-Plot de Residuos",
xlab = "Cuantiles Teóricos",
ylab = "Cuantiles de Residuos",
pch = 19,
col = "blue")
# Agregar la línea de referencia
qqline(residuals(modelo_paper), col = "red", lwd = 2)