Ejercicio

Linnerrud.csv

Linnerud<-read.csv("Linnerud.csv",row.names=1) # lectura del archivo eventualmente read.table con sus opciones
attach(Linnerud)                               # archivo en uso
lab <- rownames(Linnerud)                      # etiquetas de las unidades en lab 
n <- dim(Linnerud)[1]

1) Pulls ~ Weight,Waist y Pulse

Pulls

# 1) regresión con lm: tres regresores variable objetivo Pulls
lm1 = lm(Pulls~Weight+Waist+Pulse,data=Linnerud)
lm1;summary(lm1);anova(lm1);vcov(lm1)          # resultados, anova, covarianza entre beta

## 
## Call:
## lm(formula = Pulls ~ Weight + Waist + Pulse, data = Linnerud)
## 
## Coefficients:
## (Intercept)       Weight        Waist        Pulse  
##    47.96841      0.07884     -1.45584     -0.01895

## 
## Call:
## lm(formula = Pulls ~ Weight + Waist + Pulse, data = Linnerud)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -7.5175 -4.0524  0.3752  3.4907  6.1531 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)  
## (Intercept) 47.96841   18.28462   2.623   0.0184 *
## Weight       0.07884    0.08902   0.886   0.3889  
## Waist       -1.45584    0.68283  -2.132   0.0488 *
## Pulse       -0.01895    0.16050  -0.118   0.9075  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.681 on 16 degrees of freedom
## Multiple R-squared:  0.3396, Adjusted R-squared:  0.2157 
## F-statistic: 2.742 on 3 and 16 DF,  p-value: 0.07742

## Analysis of Variance Table
## 
## Response: Pulls
##           Df Sum Sq Mean Sq F value  Pr(>F)  
## Weight     1  80.63  80.631  3.6791 0.07312 .
## Waist      1  99.36  99.359  4.5337 0.04911 *
## Pulse      1   0.31   0.306  0.0139 0.90748  
## Residuals 16 350.65  21.916                  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

##             (Intercept)       Weight        Waist        Pulse
## (Intercept) 334.3275110  0.314032279 -7.729019652 -2.062577274
## Weight        0.3140323  0.007925198 -0.051736827  0.001818378
## Waist        -7.7290197 -0.051736827  0.466253548  0.008268118
## Pulse        -2.0625773  0.001818378  0.008268118  0.025759778

# Análisis de Anova lm1: Pulls ~ Weight + Waist + Pulse :

# 1) Weight:
# Sum Sq: 80.63
# F value: 3.6791
# Pr(>F): 0.07312 (casi significativo al nivel del 0.05)
# Interpretación: Weight explica una cantidad moderada de la variabilidad en Pulls cuando es el primer predictor considerado. La p-value sugiere que, aunque cercana a ser significativa, no hay suficiente evidencia para afirmar que Weight tiene un efecto significativo sobre Pulls al 5% de nivel de significancia.


# 2) Waist:
# Sum Sq: 99.36
# F value: 4.5337
# Pr(>F): 0.04911 (significativo al nivel del 0.05)
# Interpretación: Después de ajustar por Weight, Waist provee una contribución adicional significativa a la variabilidad en Pulls. Esto indica que, más allá del efecto de Weight, Waist tiene un impacto negativo(b_waist=-1.45584) significativo en Pulls.

# Pulse:
# Sum Sq: 0.31
# F value: 0.0139
# Pr(>F): 0.90748 (no significativo)
# Interpretación: Pulse, después de ajustar por Weight y Waist, no contribuye significativamente a la explicación de la variabilidad en Pulls.

# gráficos
plot(lm1$fitted.values,Linnerud$Pulls,asp=1)
abline(0,1)
text(lm1$fitted.values,Linnerud$Pulls,pos=3)

plot(lm1$fitted.values,lm1$residuals,asp=1)
abline(0,0)
text(lm1$fitted.values,lm1$residuals,pos=3)

# Análisis Gráfico de Residuos vs Valores Ajustados:

# Las observaciones 11 y 20 tiene un alto valor residual, lo cual habría que evaluar estos puntos extremos ya que podría indicar que hay influencias atípicas afectando el modelo, o que para estos puntos específicos el modelo no captura bien la realidad.

# Por otro lado las observaciones 9 y 14 de acuerdo al gráfico podrías representar un alto grado de apalancamiento, hay que evaluar su retiro y analizar que tanta influencia para el modelo lm1

# 2) regresión con lm: 02 regresores variable objetivo Pulls
lm2 = lm(Pulls~Weight+Waist,data=Linnerud)
lm2;summary(lm2);anova(lm2);vcov(lm2)          # resultados, anova, covarianza entre beta

## 
## Call:
## lm(formula = Pulls ~ Weight + Waist, data = Linnerud)
## 
## Coefficients:
## (Intercept)       Weight        Waist  
##    46.45109      0.08018     -1.44976

## 
## Call:
## lm(formula = Pulls ~ Weight + Waist, data = Linnerud)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -7.6741 -3.9385  0.4012  3.4465  6.2901 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)   
## (Intercept) 46.45109   12.62397   3.680  0.00186 **
## Weight       0.08018    0.08570   0.936  0.36258   
## Waist       -1.44976    0.66084  -2.194  0.04244 * 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.544 on 17 degrees of freedom
## Multiple R-squared:  0.339,  Adjusted R-squared:  0.2612 
## F-statistic: 4.359 on 2 and 17 DF,  p-value: 0.02963

## Analysis of Variance Table
## 
## Response: Pulls
##           Df Sum Sq Mean Sq F value  Pr(>F)  
## Weight     1  80.63  80.631  3.9056 0.06458 .
## Waist      1  99.36  99.359  4.8128 0.04244 *
## Residuals 17 350.96  20.645                  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

##             (Intercept)       Weight      Waist
## (Intercept) 159.3647058  0.432969159 -6.6570837
## Weight        0.4329692  0.007344595 -0.0492857
## Waist        -6.6570837 -0.049285702  0.4367093

# 1)Weight (Peso):
# Df: 1. Esto indica que Weight contribuye con un término al modelo.
# Sum Sq: 80.63. Esta es la suma de cuadrados atribuida a la variabilidad explicada por Weight.
# Mean Sq: 80.63. Esto es la suma de cuadrados dividida por el número de grados de libertad, que es la medida de la variabilidad que Weight explica por unidad de grado de libertad.
# F value: 3.9056. La razón entre la variabilidad explicada por Weight y la variabilidad no explicada por el modelo (los residuos).
# Pr(>F): 0.06458. Este es el p-valor asociado con el estadístico F de Weight. Un p-valor mayor a 0.05 indica que Weight no es estadísticamente significativo al nivel del 5%, pero está cerca de serlo.

# 2)Waist (Cintura):
# Df: 1
# Sum Sq: 99.36
# Mean Sq: 99.36
# F value: 4.8128
# Pr(>F): 0.04244. Aquí el p-valor es menor que 0.05, indicando que Waist es un predictor estadísticamente significativo de Pulls al nivel del 5%.

# El modelo lm2 es significativo al nivel del 5%, con un p-valor global de 0.02963, lo que indica que el conjunto de predictores proporciona una mejor predicción que un modelo sin ellos.

plot(lm2$fitted.values,Linnerud$Pulls,asp=1)
abline(0,1)
text(lm2$fitted.values,Linnerud$Pulls,pos=3)

plot(lm2$fitted.values,lm2$residuals,asp=1)
abline(0,0)
text(lm2$fitted.values,lm2$residuals,pos=3)

# Análisis Gráfico:

# Gráfico de Valores Ajustados vs Observados

# Los puntos en este gráfico están dispersos alrededor de la línea diagonal, la cual representa el lugar donde los valores predichos son iguales a los valores observados

# La mayoría de los puntos no se alinean precisamente sobre esta línea, pero parecen seguir una tendencia que sugiere que hay cierta correlación entre los valores predichos y observados.

# Gráfico de Residuos vs Valores Ajustados

# Los residuos no muestran un patrón específico alrededor del eje horizontal, lo que es un buen indicio de que no hay problemas evidentes de heteroscedasticidad (varianza no constante de los errores).

# Observaciones como la 11 y 20 presentan un alto valor residual, lo que podría tener una influencia en el modelo 

# Por otro lado, las observaciones 14 y 9 tiene un alto grado de apalancamiento, se evaluará el retiro del modelo para medir su influencia

# 3) regresión con lm: 01 regresor variable objetivo Pulls
lm3 = lm(Pulls~Waist,data=Linnerud)
lm3;summary(lm3);anova(lm3);vcov(lm3)

## 
## Call:
## lm(formula = Pulls ~ Waist, data = Linnerud)
## 
## Coefficients:
## (Intercept)        Waist  
##     41.7243      -0.9117

## 
## Call:
## lm(formula = Pulls ~ Waist, data = Linnerud)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -9.638 -3.925  1.288  3.296  6.274 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)   
## (Intercept)  41.7243    11.5288   3.619  0.00196 **
## Waist        -0.9117     0.3244  -2.810  0.01158 * 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.528 on 18 degrees of freedom
## Multiple R-squared:  0.305,  Adjusted R-squared:  0.2663 
## F-statistic: 7.898 on 1 and 18 DF,  p-value: 0.01158

## Analysis of Variance Table
## 
## Response: Pulls
##           Df Sum Sq Mean Sq F value  Pr(>F)  
## Waist      1 161.92 161.919  7.8978 0.01158 *
## Residuals 18 369.03  20.502                  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

##             (Intercept)      Waist
## (Intercept)  132.913999 -3.7256755
## Waist         -3.725675  0.1052451

# Análisis de Resultados:
# 1) Waist (Cintura):
# Df (Grados de libertad): 1. Esto indica que hay un solo predictor en el modelo.
# Sum Sq (Suma de cuadrados): 161.92. Esta es la suma de cuadrados que indica la cantidad de variabilidad en la respuesta que se explica por el predictor Waist.
# Mean Sq (Media de cuadrados): 161.92. Es la suma de cuadrados dividida por los grados de libertad, que en este caso es el mismo valor dado que hay un solo predictor.
# F value (Valor F): 7.8978. Este es el valor de la estadística F para Waist. Un valor F más alto sugiere una mayor variabilidad explicada por el modelo en comparación con la variabilidad inexplicada (residuos).
# Pr(>F) (p-valor): 0.01158. Este es el p-valor asociado con la estadística F de Waist. Dado que el p-valor es menor que 0.05, hay evidencia estadísticamente significativa para rechazar la hipótesis nula de que Waist no tiene ningún efecto sobre Pulls.

# El predictor Waist es estadísticamente significativo en la predicción de Pulls. Esto significa que hay una relación lineal significativa entre Waist y Pulls en la muestra de datos utilizada para este modelo.
# El modelo explica aproximadamente el 30.5% de la variabilidad en Pulls, como lo indica el R-cuadrado.

# Dado que Waist es un predictor significativo, se puede concluir que hay una relación negativa entre la medida de la cintura y la cantidad de Pulls que una persona puede realizar, lo cual tiene sentido desde un punto de vista físico.

plot(lm3$fitted.values,Linnerud$Pulls,asp=1)
abline(0,1)
text(lm3$fitted.values,Linnerud$Pulls,pos=3)

plot(lm3$fitted.values,lm3$residuals,asp=1)
abline(0,0)
text(lm3$fitted.values,lm3$residuals,pos=3)

# Gráfico de Valores Ajustados vs Observados

# La mayoría de los puntos se dispersan alrededor de la línea diagonal, que representa una predicción perfecta.
# Aunque muchos puntos están cerca de la línea, hay varios que están notoriamente lejos, lo que indica errores considerables en la predicción.

# Hay una relación entre Waist y Pulls capturada por el modelo, pero no explica completamente la variabilidad de Pulls.

# Gráfico de Residuos vs Valores Ajustados

# Los residuos no presentan un patrón claro en relación con los valores ajustados, lo que es bueno porque sugiere que no hay problemas obvios como heteroscedasticidad o no linealidad no capturada.

# Algunos puntos tienen residuos más grandes que otros, indicando que para estos puntos específicos, el modelo no es tan preciso.Observaciones con alto valor residual: 11 y 20

# Se puede ver que las observaciones 14 y 9 presentarían un alto valor de apalancamiento, se analizará luego, pero de primera vista se pueden ver rápidamente.

# comparación con anova
anova(lm2,lm1)

## Analysis of Variance Table
## 
## Model 1: Pulls ~ Weight + Waist
## Model 2: Pulls ~ Weight + Waist + Pulse
##   Res.Df    RSS Df Sum of Sq      F Pr(>F)
## 1     17 350.96                           
## 2     16 350.65  1   0.30552 0.0139 0.9075

anova(lm3,lm2)

## Analysis of Variance Table
## 
## Model 1: Pulls ~ Waist
## Model 2: Pulls ~ Weight + Waist
##   Res.Df    RSS Df Sum of Sq      F Pr(>F)
## 1     18 369.03                           
## 2     17 350.96  1    18.071 0.8753 0.3626

anova(lm3,lm1)

## Analysis of Variance Table
## 
## Model 1: Pulls ~ Waist
## Model 2: Pulls ~ Weight + Waist + Pulse
##   Res.Df    RSS Df Sum of Sq      F Pr(>F)
## 1     18 369.03                           
## 2     16 350.65  2    18.377 0.4193 0.6646

# Análisis de Anova:

# Comparación entre lm2 (Weight + Waist) y lm1 (Weight + Waist + Pulse)

# El p-valor es 0.9075 para la comparación entre lm2 y lm1. Este valor es mucho mayor que 0.05, lo que indica que la adición de Pulse al modelo (lm1) no mejora significativamente el ajuste en comparación con el modelo que solo incluye Weight y Waist (lm2). Esto sugiere que Pulse no es un predictor significativo de Pulls.

# Comparación entre lm3 (Waist) y lm2 (Weight + Waist)

# El p-valor para esta comparación es 0.3626. De nuevo, este p-valor es mayor que 0.05, indicando que agregar Weight al modelo lm3 para obtener el modelo lm2 no mejora significativamente el ajuste. Esto sugiere que la adición de Weight no contribuye de manera significativa al modelo que ya tiene Waist.

# Comparación entre lm3 (Waist) y lm1 (Weight + Waist + Pulse)

# El p-valor es 0.6646 para la comparación entre lm3 y lm1. Este p-valor es también mayor que 0.05, lo que indica que la adición de Weight y Pulse juntos al modelo lm3 para formar el modelo lm1 no mejora significativamente el ajuste del modelo.


# Al comparar los tres modelos, ninguno de los términos adicionales en lm1 o lm2 mejora significativamente el modelo en comparación con lm3, que solo tiene Waist como predictor. El mejor modelo es aquel que proporciona el ajuste adecuado con la menor cantidad de predictores. Esto es lm3, ya que incluye solo el predictor significativo (Waist) y no hay evidencia estadística de que agregar Weight o Pulse mejore el modelo.

Retirando observaciones con alto apalancamiento

lm1: Pulls~Weight+Waist+Pulse

# Hallando observaciones y apalancamientos de lm1
p = 3 
niv = 2 * p / n; niv

## [1] 0.3

inf=influence(lm1)$hat; inf

##          1          2          3          4          5          6          7          8          9         10         11         12         13         14         15         16         17         18         19         20 
## 0.10655710 0.07274466 0.10454362 0.14458388 0.21767716 0.05211761 0.17497701 0.06993305 0.71976680 0.11322903 0.12146711 0.12293309 0.18069260 0.63478590 0.18304599 0.19664999 0.13010298 0.16288488 0.11801577 0.37329175

out=rbind(which(inf>niv),inf[which(inf>niv)])
rownames(out) = c("unidad","apalancamiento"); out

##                        9         14         20
## unidad         9.0000000 14.0000000 20.0000000
## apalancamiento 0.7197668  0.6347859  0.3732917

library(faraway)
halfnorm(influence(lm1)$hat)

# De acuerdo a los resultados obtenidos para el lm1 las observaciones con alto valores de apalancamientos son el 9, 14 y 20. Por lo que serán retirados y medir su influencia en el modelo

# comparación de la regresión eliminando los puntos observaciones con alto apalancamiento
plot(lm1$fitted.values,Linnerud$Pulls,asp=1)
abline(0,1)
text(lm1$fitted.values,Linnerud$Pulls,lab=rownames(Linnerud), pos = 3)

lin = Linnerud[-c(9,14,20),]; lin

##    Weight Waist Pulse Pulls Squats Jumps
## 1     191    36    50     5    162    60
## 2     189    37    52     2    110    60
## 3     193    38    58    12    101   101
## 4     162    35    62    12    105    37
## 5     189    35    46    13    155    58
## 6     182    36    56     4    101    42
## 7     211    38    56     8    101    38
## 8     167    34    60     6    125    40
## 10    154    33    56    17    251   250
## 11    169    34    50    17    120    38
## 12    166    33    52    13    210   115
## 13    154    34    64    14    215   105
## 15    193    36    46     6     70    31
## 16    202    37    62    12    210   120
## 17    176    37    54     4     60    25
## 18    157    32    52    11    230    80
## 19    156    33    54    15    225    73

lm1n = lm(Pulls~Weight+Waist+Pulse,data=lin)
summary(lm1n); anova(lm1n)

## 
## Call:
## lm(formula = Pulls ~ Weight + Waist + Pulse, data = lin)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -7.006 -3.244  0.919  2.170  6.241 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)  
## (Intercept)  56.2467    24.2255   2.322   0.0371 *
## Weight        0.0716     0.1393   0.514   0.6158  
## Waist        -2.0453     1.3114  -1.560   0.1428  
## Pulse         0.2391     0.2394   0.998   0.3363  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.276 on 13 degrees of freedom
## Multiple R-squared:  0.3523, Adjusted R-squared:  0.2028 
## F-statistic: 2.357 on 3 and 13 DF,  p-value: 0.1192

## Analysis of Variance Table
## 
## Response: Pulls
##           Df  Sum Sq Mean Sq F value  Pr(>F)  
## Weight     1  83.863  83.863  4.5869 0.05173 .
## Waist      1  27.171  27.171  1.4861 0.24448  
## Pulse      1  18.224  18.224  0.9968 0.33632  
## Residuals 13 237.683  18.283                  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

points(lm1n$fitted.values,lin$Pulls,col="red")
text(lm1n$fitted.values,lin$Pulls,lab=rownames(lin),pos=3,col="red")

# Coeficientes lm1n:

# Intercept: Es significativo (p = 0.0371), lo que indica que el modelo ajusta una línea que no pasa por el origen.
# Weight: No es significativo (p = 0.6158), lo que indica que su contribución al modelo, después de retirar los outliers, no mejora la predicción de Pulls de forma estadísticamente significativa.
# Waist: No es significativo (p = 0.1428), pero su p-valor está más cerca de ser significativo comparado con el peso.
# Pulse: Tampoco es significativo (p = 0.3363).

# Al retirar las observaciones con alto apalancamiento, el modelo ajustado no encuentra significancia estadística para los predictores Weight, Waist y Pulse, aunque el p-valor de Weight es marginal.

# Estos resultados podrían indicar que el modelo original estaba siendo influenciado por las observaciones con alto apalancamiento

lm2: Pulls~Weight+Waist

# Hallando observaciones y apalancamientos de lm2
p = 2 
niv = 2 * p / n; niv

## [1] 0.2

inf=influence(lm2)$hat; inf

##          1          2          3          4          5          6          7          8          9         10         11         12         13         14         15         16         17         18         19         20 
## 0.07679375 0.06318203 0.08800572 0.11971453 0.11172633 0.05198759 0.16424537 0.06179186 0.40731605 0.10524153 0.06007660 0.08393966 0.14231453 0.62945013 0.09013298 0.12019083 0.12642067 0.10986862 0.09457599 0.29302525

out=rbind(which(inf>niv),inf[which(inf>niv)])
rownames(out) = c("unidad","apalancamiento"); out

##                        9         14         20
## unidad         9.0000000 14.0000000 20.0000000
## apalancamiento 0.4073161  0.6294501  0.2930252

library(faraway)
halfnorm(influence(lm2)$hat)

# Se hallaron las observaciones con valores altos de apalancamiento: 9,14 y 20

# comparación de la regresión eliminando los puntos observaciones con alto apalancamiento
plot(lm2$fitted.values,Linnerud$Pulls,asp=1)
abline(0,1)
text(lm2$fitted.values,Linnerud$Pulls,lab=rownames(Linnerud), pos = 3)

lin = Linnerud[-c(9,14,20),]; lin

##    Weight Waist Pulse Pulls Squats Jumps
## 1     191    36    50     5    162    60
## 2     189    37    52     2    110    60
## 3     193    38    58    12    101   101
## 4     162    35    62    12    105    37
## 5     189    35    46    13    155    58
## 6     182    36    56     4    101    42
## 7     211    38    56     8    101    38
## 8     167    34    60     6    125    40
## 10    154    33    56    17    251   250
## 11    169    34    50    17    120    38
## 12    166    33    52    13    210   115
## 13    154    34    64    14    215   105
## 15    193    36    46     6     70    31
## 16    202    37    62    12    210   120
## 17    176    37    54     4     60    25
## 18    157    32    52    11    230    80
## 19    156    33    54    15    225    73

lm2n = lm(Pulls~Weight+Waist,data=lin)
summary(lm2n); anova(lm2n)

## 
## Call:
## lm(formula = Pulls ~ Weight + Waist, data = lin)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -5.710 -3.568  1.638  2.748  5.870 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)  
## (Intercept) 58.915488  24.074769   2.447   0.0282 *
## Weight      -0.004061   0.116836  -0.035   0.9728  
## Waist       -1.368456   1.122427  -1.219   0.2429  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.275 on 14 degrees of freedom
## Multiple R-squared:  0.3026, Adjusted R-squared:  0.203 
## F-statistic: 3.037 on 2 and 14 DF,  p-value: 0.08024

## Analysis of Variance Table
## 
## Response: Pulls
##           Df  Sum Sq Mean Sq F value  Pr(>F)  
## Weight     1  83.863  83.863  4.5879 0.05026 .
## Waist      1  27.171  27.171  1.4864 0.24291  
## Residuals 14 255.907  18.279                  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

points(lm2n$fitted.values,lin$Pulls,col="red")
text(lm2n$fitted.values,lin$Pulls,lab=rownames(lin),pos=3,col="red")

# Weight:

# F value de 4.5879 con un p-valor al borde de la significancia (p = 0.05026). Esto sugiere que Weight podría tener una influencia en Pulls, pero después de eliminar los puntos de alto apalancamiento, esta influencia es mucho menos clara.

#Waist:

# F value de 1.4864 con un p-valor de 0.24291, lo que indica que Waist no es significativo para predecir Pulls en este modelo reducido.

# Retirar los puntos de alto apalancamiento ha cambiado la significancia de los predictores. En el modelo original lm2, Waist era un predictor significativo, pero en el modelo lm2n ya no lo es.

# El modelo lm2n no es estadísticamente significativo en su conjunto a un nivel de confianza del 5%, dado que el p-valor del estadístico F es mayor que 0.05 (p = 0.08024), pero está cerca del umbral de significancia.

lm3: Pulls~Waist

# Hallando observaciones y apalancamientos de lm3
p = 1 
niv = 2 * p / n; niv

## [1] 0.1

inf=influence(lm3)$hat; inf

##          1          2          3          4          5          6          7          8          9         10         11         12         13         14         15         16         17         18         19         20 
## 0.05184805 0.06314168 0.08470226 0.05082136 0.05082136 0.05184805 0.08470226 0.06006160 0.14938398 0.07956879 0.06006160 0.07956879 0.06006160 0.62679671 0.05184805 0.06314168 0.06314168 0.10934292 0.07956879 0.07956879

out=rbind(which(inf>niv),inf[which(inf>niv)])
rownames(out) = c("unidad","apalancamiento"); out

##                       9         14         18
## unidad         9.000000 14.0000000 18.0000000
## apalancamiento 0.149384  0.6267967  0.1093429

library(faraway)
halfnorm(influence(lm3)$hat)

# Las observaciones con alto nivel de apalancamiento son 9, 14 y 18. Por lo que se retirará para medir su impacto en el modelo lm3

# comparación de la regresión eliminando los puntos observaciones con alto apalancamiento
plot(lm1$fitted.values,Linnerud$Pulls,asp=1)
abline(0,1)
text(lm1$fitted.values,Linnerud$Pulls,lab=rownames(Linnerud), pos = 3)

lin = Linnerud[-c(9,14,18),]; lin

##    Weight Waist Pulse Pulls Squats Jumps
## 1     191    36    50     5    162    60
## 2     189    37    52     2    110    60
## 3     193    38    58    12    101   101
## 4     162    35    62    12    105    37
## 5     189    35    46    13    155    58
## 6     182    36    56     4    101    42
## 7     211    38    56     8    101    38
## 8     167    34    60     6    125    40
## 10    154    33    56    17    251   250
## 11    169    34    50    17    120    38
## 12    166    33    52    13    210   115
## 13    154    34    64    14    215   105
## 15    193    36    46     6     70    31
## 16    202    37    62    12    210   120
## 17    176    37    54     4     60    25
## 19    156    33    54    15    225    73
## 20    138    33    68     2    110    43

lm3n = lm(Pulls~Waist,data=lin)
summary(lm3n); anova(lm3n)

## 
## Call:
## lm(formula = Pulls ~ Waist, data = lin)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -10.074  -3.659   1.617   3.203   6.064 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)  
## (Intercept)  49.6359    24.1893   2.052   0.0581 .
## Waist        -1.1382     0.6857  -1.660   0.1177  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.9 on 15 degrees of freedom
## Multiple R-squared:  0.1552, Adjusted R-squared:  0.09888 
## F-statistic: 2.756 on 1 and 15 DF,  p-value: 0.1177

## Analysis of Variance Table
## 
## Response: Pulls
##           Df Sum Sq Mean Sq F value Pr(>F)
## Waist      1  66.15  66.152  2.7557 0.1177
## Residuals 15 360.08  24.006

points(lm3n$fitted.values,lin$Pulls,col="red")
text(lm3n$fitted.values,lin$Pulls,lab=rownames(lin),pos=3,col="red")

# El valor F es de 2.7557 con un p-valor de 0.1177. Esto sugiere que el modelo no proporciona una mejora significativa en la predicción sobre la media de la variable de respuesta, Pulls, en este conjunto de datos reducido.

# Después de eliminar los puntos con alto apalancamiento, Waist ya no es un predictor significativo del número de Pulls. Esto podría sugerir que la relación entre Waist y Pulls no es tan fuerte como indicaban los datos originales, o que las observaciones eliminadas estaban influenciando la relación de manera significativa.
# Dado que el R-cuadrado ajustado es bastante bajo y el modelo no es significativo al nivel de 0.05, esto indica que el modelo con Waist como único predictor puede no ser adecuado para predecir Pulls con precisión.

Squats

# 1) regresión con lm: tres regresores y variable objetivo Squats
lm1 = lm(Squats~Weight+Waist+Pulse,data=Linnerud)
lm1;summary(lm1);anova(lm1);vcov(lm1)          # resultados, anova, covarianza entre beta

## 
## Call:
## lm(formula = Squats ~ Weight + Waist + Pulse, data = Linnerud)
## 
## Coefficients:
## (Intercept)       Weight        Waist        Pulse  
##    623.2817       0.7277     -17.3872       0.1393

## 
## Call:
## lm(formula = Squats ~ Weight + Waist + Pulse, data = Linnerud)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -74.19 -36.68 -12.41  40.28  81.64 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)   
## (Intercept) 623.2817   199.9013   3.118  0.00663 **
## Weight        0.7277     0.9733   0.748  0.46552   
## Waist       -17.3872     7.4652  -2.329  0.03328 * 
## Pulse         0.1393     1.7547   0.079  0.93770   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 51.18 on 16 degrees of freedom
## Multiple R-squared:  0.4365, Adjusted R-squared:  0.3308 
## F-statistic: 4.131 on 3 and 16 DF,  p-value: 0.02394

## Analysis of Variance Table
## 
## Response: Squats
##           Df Sum Sq Mean Sq F value  Pr(>F)  
## Weight     1  18083 18083.4  6.9034 0.01829 *
## Waist      1  14365 14365.1  5.4839 0.03246 *
## Pulse      1     17    16.5  0.0063 0.93770  
## Residuals 16  41912  2619.5                  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

##             (Intercept)     Weight        Waist        Pulse
## (Intercept) 39960.51033 37.5347218 -923.8114108 -246.5296386
## Weight         37.53472  0.9472596   -6.1838465    0.2173418
## Waist        -923.81141 -6.1838465   55.7289757    0.9882471
## Pulse        -246.52964  0.2173418    0.9882471    3.0789385

# Análisis de Anova lm1: Squats ~ Weight + Waist + Pulse :

# 1) Weight (Peso):
# Df (Grados de libertad): 1, indica que hay un solo término para Weight.
# Sum Sq (Suma de cuadrados): 18083.4, es la variabilidad explicada por el peso.
# Mean Sq (Media de cuadrados): 18083.4, es la suma de cuadrados dividida por los grados de libertad.
# F value: 6.9034, es el valor de la estadística F para Weight.
# Pr(>F): 0.01829, es el p-valor asociado con la estadística F. Un p-valor menor que 0.05 indica que Weight es un predictor estadísticamente significativo para Squats.

# 2) Waist (Cintura)
# Df: 1
# Sum Sq: 14365.1
# Mean Sq: 14365.1
# F value: 5.4839
# Pr(>F): 0.03246, al ser menor que 0.05, también es significativo en el modelo.


# 3) Pulse (Pulso):
# Df: 1
# Sum Sq: 16.5
# Mean Sq: 16.5
# F value: 0.0063
# Pr(>F): 0.93770, muy por encima de 0.05, lo que indica que Pulse no es un predictor significativo para Squats.


# Tanto Weight como Waist son predictores significativos en este modelo para Squats, con Waist teniendo un impacto mayor debido a un mayor valor F.

# gráficos
plot(lm1$fitted.values,Linnerud$Squats,asp=1)
abline(0,1)
text(lm1$fitted.values,Linnerud$Squats,pos=3)

plot(lm1$fitted.values,lm1$residuals,asp=1)
abline(0,0)
text(lm1$fitted.values,lm1$residuals,pos=3)

# Análisis Gráfico 

# Los puntos etiquetados con números altos, especialmente el 10, 18, y 19, están lejos de la línea, lo que sugiere que son valores atípicos o situaciones donde el modelo no predice con precisión.
# La tendencia general de los puntos sugiere que hay una relación positiva entre los valores ajustados y los observados, pero no es perfecta. Esto es coherente con un R-cuadrado que no es muy alto.

# Las observaciones 10 y 15 se alejan de la linea horizontal (linea 0) lo cual sugiere que tienen un alto valor residual (outliers) lo que podría afectar a las predicciones del modelo. 

# Asimismo, tiene valores altoa de apalancamiento para las observaciones 14 y 9, los cuales evaluaremos sobre el retiro de estas observaciones para ver el impacto sobre el modelo lm1

# 2) regresión con lm: 02 regresores y variable objetivo Jumps
lm2 = lm(Squats~Weight+Waist,data=Linnerud)
lm2;summary(lm2);anova(lm2);vcov(lm2)          # resultados, anova, covarianza entre beta

## 
## Call:
## lm(formula = Squats ~ Weight + Waist, data = Linnerud)
## 
## Coefficients:
## (Intercept)       Weight        Waist  
##    634.4370       0.7178     -17.4319

## 
## Call:
## lm(formula = Squats ~ Weight + Waist, data = Linnerud)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -75.43 -36.56 -12.34  40.27  81.27 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 634.4370   137.9818   4.598 0.000256 ***
## Weight        0.7178     0.9367   0.766 0.453997    
## Waist       -17.4319     7.2231  -2.413 0.027376 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 49.66 on 17 degrees of freedom
## Multiple R-squared:  0.4363, Adjusted R-squared:  0.3699 
## F-statistic: 6.578 on 2 and 17 DF,  p-value: 0.007658

## Analysis of Variance Table
## 
## Response: Squats
##           Df Sum Sq Mean Sq F value  Pr(>F)  
## Weight     1  18083 18083.4  7.3319 0.01493 *
## Waist      1  14365 14365.1  5.8243 0.02738 *
## Residuals 17  41929  2466.4                  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

##             (Intercept)     Weight       Waist
## (Intercept) 19038.99012 51.7259797 -795.308784
## Weight         51.72598  0.8774444   -5.888067
## Waist        -795.30878 -5.8880665   52.172810

# Coeficientes:

# Intercept: Muy significativo con un p-valor de 0.000256, lo que indica que la interceptación es estadísticamente diferente de cero.
# Weight: No es significativo (p = 0.453997), sugiriendo que, después de ajustar por la cintura, el peso no contribuye significativamente a la predicción de Squats.
# Waist: Es significativo (p = 0.027376), indicando que hay una asociación negativa significativa entre la medida de la cintura y el número de Squats.

# El R-cuadrado ajustado es de 0.3699, lo que significa que aproximadamente el 37% de la variabilidad en Squats es explicada por los predictores incluidos.

# El ANOVA muestra que tanto Weight como Waist contribuyen significativamente al modelo. Aunque Weight tiene un p-valor mayor que Waist, aún es significativo en este modelo al nivel del 5% (p = 0.01493).

# Aunque el coeficiente para Weight no es significativo individualmente, su contribución al modelo en conjunto es significativa, lo que sugiere que puede haber una relación compleja que no se capta al considerar los efectores de los predictores por separado.

# Waist parece ser un predictor clave para Squats, con una relación inversa clara: a medida que aumenta la medida de la cintura, el número de Squats tiende a disminuir.

# gráficos
plot(lm2$fitted.values,Linnerud$Squats,asp=1)
abline(0,1)
text(lm2$fitted.values,Linnerud$Squats,pos=3)

plot(lm2$fitted.values,lm2$residuals,asp=1)
abline(0,0)
text(lm2$fitted.values,lm2$residuals,pos=3)

# Se puede apreciar que las observaciones 10 y 15 tiene un alto valor residual lo cual sugiere que puedan ser outliers y afecten al modelo lm2

# Por otro lado las observaciones 14 y 9 parece tener un alto valor de apalancamiento, se evaluará su posterior retiro para medir su influencia en el modelo

# 3) regresión con lm: 01 regresores y variable objetivo Jumps
lm3 = lm(Squats~Waist,data=Linnerud)
lm3;summary(lm3);anova(lm3);vcov(lm3)          # resultados, anova, covarianza entre beta

## 
## Call:
## lm(formula = Squats ~ Waist, data = Linnerud)
## 
## Coefficients:
## (Intercept)        Waist  
##      592.12       -12.61

## 
## Call:
## lm(formula = Squats ~ Waist, data = Linnerud)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -67.981 -39.461  -6.403  39.016  84.634 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  592.121    124.992   4.737 0.000164 ***
## Waist        -12.615      3.517  -3.587 0.002109 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 49.09 on 18 degrees of freedom
## Multiple R-squared:  0.4168, Adjusted R-squared:  0.3844 
## F-statistic: 12.86 on 1 and 18 DF,  p-value: 0.002109

## Analysis of Variance Table
## 
## Response: Squats
##           Df Sum Sq Mean Sq F value   Pr(>F)   
## Waist      1  31000 31000.1  12.864 0.002109 **
## Residuals 18  43377  2409.8                    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

##             (Intercept)      Waist
## (Intercept)  15623.0477 -437.92532
## Waist         -437.9253   12.37077

# Coeficientes:

# Intercept: Con un p-valor extremadamente bajo (0.000164), es muy significativo, sugiriendo que el valor base de Squats es sustancialmente diferente de cero cuando Waist es cero.

# Waist: También es altamente significativo (p = 0.002109), indicando una fuerte relación negativa entre la medida de la cintura y el número de Squats que una persona puede realizar.

# El F-estadístico es 12.86 con un p-valor de 0.002109, lo que demuestra que el modelo es estadísticamente significativo en conjunto.

# La ANOVA muestra que Waist tiene una contribución significativa al modelo, con un F value de 12.864 y un p-valor de 0.002109, reafirmando la importancia de esta variable en la predicción de Squats.

# El modelo con solo Waist como predictor es fuerte y sugiere una relación negativa con Squats. A medida que aumenta la medida de la cintura, el número de sentadillas que una persona puede hacer disminuye.

# gráficos
plot(lm3$fitted.values,Linnerud$Squats,asp=1)
abline(0,1)
text(lm3$fitted.values,Linnerud$Squats,pos=3)

plot(lm3$fitted.values,lm3$residuals,asp=1)
abline(0,0)
text(lm3$fitted.values,lm3$residuals,pos=3)

# Se puede ver que las observaciones 16 y 15 tiene un alto valor residual, lo cual podría tener un influencia en el modelo a ser valores atipicos

# Por otro lado, las observaciones 14 y 9 parecen tener un alto valor de apalancamiento, lo cual se va a evaluar para medir el grado de influencia.

# comparación con anova
anova(lm2,lm1)

## Analysis of Variance Table
## 
## Model 1: Squats ~ Weight + Waist
## Model 2: Squats ~ Weight + Waist + Pulse
##   Res.Df   RSS Df Sum of Sq      F Pr(>F)
## 1     17 41929                           
## 2     16 41912  1    16.513 0.0063 0.9377

anova(lm3,lm2)

## Analysis of Variance Table
## 
## Model 1: Squats ~ Waist
## Model 2: Squats ~ Weight + Waist
##   Res.Df   RSS Df Sum of Sq      F Pr(>F)
## 1     18 43377                           
## 2     17 41929  1    1448.4 0.5872  0.454

anova(lm3,lm1)

## Analysis of Variance Table
## 
## Model 1: Squats ~ Waist
## Model 2: Squats ~ Weight + Waist + Pulse
##   Res.Df   RSS Df Sum of Sq      F Pr(>F)
## 1     18 43377                           
## 2     16 41912  2    1464.9 0.2796 0.7597

# Análisis de Anova:

# Comparación entre lm2 y lm1:
# lm2: Squats ~ Weight + Waist
# lm1: Squats ~ Weight + Waist + Pulse
# La adición de Pulse al modelo lm2 no produce una mejora significativa en el ajuste, ya que el p-valor de la prueba F para la suma de cuadrados que Pulse añade al modelo es 0.9377, que es mucho mayor que 0.05.

# Pulse no es un predictor significativo de Squats cuando ya se tienen en cuenta Weight y Waist.

# Comparación entre lm3 y lm2:
# lm3: Squats ~ Waist
# lm2: Squats ~ Weight + Waist
# El modelo lm2, que incluye Weight además de Waist, no muestra una mejora significativa sobre el modelo lm3, que solo incluye Waist. Esto se ve reflejado en un p-valor de 0.454 para el cambio en suma de cuadrados al agregar Weight.

# La variable Weight no añade poder predictivo significativo al modelo que ya incluye Waist.

# Comparación entre lm3 y lm1:
# lm3: Squats ~ Waist
# lm1: Squats ~ Weight + Waist + Pulse
# La comparación directa entre lm3 y lm1 muestra que la inclusión de Weight y Pulse (comparando con el modelo que solo tiene Waist) tampoco mejora significativamente el modelo, con un p-valor de 0.7597.

# Ni Weight ni Pulse agregan significativamente al modelo que incluye solamente Waist como predictor de Squats.

# Basándonos en los resultados de las pruebas ANOVA, parece que el modelo más simple lm3 (Squats ~ Waist) es adecuado y no se mejora significativamente al agregar Weight o Pulse. Esto va en línea con el principio de parsimonia, que favorece modelos más simples que explican los datos de manera suficiente

Retirando observaciones con alto apalancamiento

lm1: Squats~Weight+Waist+Pulse

# Hallando observaciones y apalancamientos de lm1
p = 3 
niv = 2 * p / n; niv

## [1] 0.3

inf=influence(lm1)$hat; inf

##          1          2          3          4          5          6          7          8          9         10         11         12         13         14         15         16         17         18         19         20 
## 0.10655710 0.07274466 0.10454362 0.14458388 0.21767716 0.05211761 0.17497701 0.06993305 0.71976680 0.11322903 0.12146711 0.12293309 0.18069260 0.63478590 0.18304599 0.19664999 0.13010298 0.16288488 0.11801577 0.37329175

out=rbind(which(inf>niv),inf[which(inf>niv)])
rownames(out) = c("unidad","apalancamiento"); out

##                        9         14         20
## unidad         9.0000000 14.0000000 20.0000000
## apalancamiento 0.7197668  0.6347859  0.3732917

library(faraway)
halfnorm(influence(lm1)$hat)

# Se tiene las observaciones con alto valor de apalancamiento : 5,9,14,20. Los cuales vamos a retirar para medir su impacto o grado de influencia en el modelo

# comparación de la regresión eliminando los puntos observaciones con alto apalancamiento
plot(lm1$fitted.values,Linnerud$Squats,asp=1)
abline(0,1)
text(lm1$fitted.values,Linnerud$Squats,lab=rownames(Linnerud), pos = 3)

lin = Linnerud[-c(5,9,14,20),]; lin

##    Weight Waist Pulse Pulls Squats Jumps
## 1     191    36    50     5    162    60
## 2     189    37    52     2    110    60
## 3     193    38    58    12    101   101
## 4     162    35    62    12    105    37
## 6     182    36    56     4    101    42
## 7     211    38    56     8    101    38
## 8     167    34    60     6    125    40
## 10    154    33    56    17    251   250
## 11    169    34    50    17    120    38
## 12    166    33    52    13    210   115
## 13    154    34    64    14    215   105
## 15    193    36    46     6     70    31
## 16    202    37    62    12    210   120
## 17    176    37    54     4     60    25
## 18    157    32    52    11    230    80
## 19    156    33    54    15    225    73

lm1n = lm(Squats~Weight+Waist+Pulse,data=lin)
summary(lm1n); anova(lm1n)

## 
## Call:
## lm(formula = Squats ~ Weight + Waist + Pulse, data = lin)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -78.915 -32.132   4.701  28.728  56.719 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)   
## (Intercept)  989.041    253.977   3.894  0.00213 **
## Weight         2.595      1.426   1.820  0.09378 . 
## Waist        -45.103     13.372  -3.373  0.00554 **
## Pulse          5.250      2.503   2.097  0.05783 . 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 42.95 on 12 degrees of freedom
## Multiple R-squared:  0.635,  Adjusted R-squared:  0.5437 
## F-statistic: 6.958 on 3 and 12 DF,  p-value: 0.005747

## Analysis of Variance Table
## 
## Response: Squats
##           Df  Sum Sq Mean Sq F value  Pr(>F)  
## Weight     1 16676.1 16676.1  9.0397 0.01093 *
## Waist      1 13720.0 13720.0  7.4373 0.01836 *
## Pulse      1  8113.8  8113.8  4.3983 0.05783 .
## Residuals 12 22137.1  1844.8                  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

points(lm1n$fitted.values,lin$Squats,col="red")
text(lm1n$fitted.values,lin$Squats,lab=rownames(lin),pos=3,col="red")

# Coeficientes lm1n:

# Intercept: Es muy significativo (p = 0.00213), lo que indica que el número de sentadillas no es cero incluso cuando todas las variables predictoras son cero.
# Weight: Ahora muestra un p-valor cercano a ser significativo (p = 0.09378), lo que sugiere una posible influencia en el número de sentadillas que una persona puede hacer.
# Waist: Muy significativo (p = 0.00554), lo que indica una fuerte relación negativa entre la medida de la cintura y el número de sentadillas.
# Pulse: Casi significativo (p = 0.05783), lo que sugiere que podría haber una influencia en el número de sentadillas, pero no es concluyente en el nivel del 5%.


# El ANOVA refleja la significancia de las variables Weight, Waist, y Pulse, con Waist mostrando la mayor contribución al modelo seguido de Weight y Pulse.

# La retirada de observaciones con alto apalancamiento parece haber tenido un efecto positivo en el modelo. Todos los predictores ahora muestran más influencia (en mayor o menos medida) en la variable respuesta, y las estadísticas del modelo han mejorado.

# Waist sigue siendo el predictor más fuerte para el número de Squats, pero ahora Weight y Pulse también parecen tener una mayor influencia, aunque el último no alcance la significancia al nivel del 5%.

lm2: Squats~Weight+Waist

# Hallando observaciones y apalancamientos de lm2
p = 2
niv = 2 * p / n; niv

## [1] 0.2

inf=influence(lm2)$hat; inf

##          1          2          3          4          5          6          7          8          9         10         11         12         13         14         15         16         17         18         19         20 
## 0.07679375 0.06318203 0.08800572 0.11971453 0.11172633 0.05198759 0.16424537 0.06179186 0.40731605 0.10524153 0.06007660 0.08393966 0.14231453 0.62945013 0.09013298 0.12019083 0.12642067 0.10986862 0.09457599 0.29302525

out=rbind(which(inf>niv),inf[which(inf>niv)])
rownames(out) = c("unidad","apalancamiento"); out

##                        9         14         20
## unidad         9.0000000 14.0000000 20.0000000
## apalancamiento 0.4073161  0.6294501  0.2930252

library(faraway)
halfnorm(influence(lm2)$hat)

# Se presenta las observaciones 7,9,14 y 20 con valores altos de apalancamiento. Por lo que se va a retirar y medir su impacto en el modelo

# comparación de la regresión eliminando los puntos observaciones con alto apalancamiento
plot(lm2$fitted.values,Linnerud$Squats,asp=1)
abline(0,1)
text(lm2$fitted.values,Linnerud$Squats,lab=rownames(Linnerud), pos = 3)

lin = Linnerud[-c(7,9,14,20),]; lin

##    Weight Waist Pulse Pulls Squats Jumps
## 1     191    36    50     5    162    60
## 2     189    37    52     2    110    60
## 3     193    38    58    12    101   101
## 4     162    35    62    12    105    37
## 5     189    35    46    13    155    58
## 6     182    36    56     4    101    42
## 8     167    34    60     6    125    40
## 10    154    33    56    17    251   250
## 11    169    34    50    17    120    38
## 12    166    33    52    13    210   115
## 13    154    34    64    14    215   105
## 15    193    36    46     6     70    31
## 16    202    37    62    12    210   120
## 17    176    37    54     4     60    25
## 18    157    32    52    11    230    80
## 19    156    33    54    15    225    73

lm2n = lm(Squats~Weight+Waist,data=lin)
summary(lm2n); anova(lm2n)

## 
## Call:
## lm(formula = Squats ~ Weight + Waist, data = lin)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -70.262 -32.454   2.549  25.032  91.792 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)   
## (Intercept) 1067.992    276.370   3.864  0.00195 **
## Weight         1.021      1.396   0.731  0.47754   
## Waist        -31.245     12.734  -2.454  0.02901 * 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 48.4 on 13 degrees of freedom
## Multiple R-squared:  0.4761, Adjusted R-squared:  0.3955 
## F-statistic: 5.906 on 2 and 13 DF,  p-value: 0.01497

## Analysis of Variance Table
## 
## Response: Squats
##           Df Sum Sq Mean Sq F value  Pr(>F)  
## Weight     1  13566 13565.9  5.7919 0.03169 *
## Waist      1  14101 14101.0  6.0204 0.02901 *
## Residuals 13  30449  2342.2                  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

points(lm2n$fitted.values,lin$Squats,col="red")
text(lm2n$fitted.values,lin$Squats,lab=rownames(lin),pos=3,col="red")

lm3: Squats~Waist

# Hallando observaciones y apalancamientos de lm3
p = 1
niv = 2 * p / n; niv

## [1] 0.1

inf=influence(lm3)$hat; inf

##          1          2          3          4          5          6          7          8          9         10         11         12         13         14         15         16         17         18         19         20 
## 0.05184805 0.06314168 0.08470226 0.05082136 0.05082136 0.05184805 0.08470226 0.06006160 0.14938398 0.07956879 0.06006160 0.07956879 0.06006160 0.62679671 0.05184805 0.06314168 0.06314168 0.10934292 0.07956879 0.07956879

out=rbind(which(inf>niv),inf[which(inf>niv)])
rownames(out) = c("unidad","apalancamiento"); out

##                       9         14         18
## unidad         9.000000 14.0000000 18.0000000
## apalancamiento 0.149384  0.6267967  0.1093429

library(faraway)
halfnorm(influence(lm3)$hat)

# Las observaciones 19 y 20 son los que presentan un alto valor de apalancamiento. Por lo que se va a evaluar su retiro del modelo y medir su nivel de influencia

# comparación de la regresión eliminando los puntos observaciones con alto apalancamiento
plot(lm3$fitted.values,Linnerud$Squats,asp=1)
abline(0,1)
text(lm3$fitted.values,Linnerud$Squats,lab=rownames(Linnerud), pos = 3)

lin = Linnerud[-c(19,20),]; lin

##    Weight Waist Pulse Pulls Squats Jumps
## 1     191    36    50     5    162    60
## 2     189    37    52     2    110    60
## 3     193    38    58    12    101   101
## 4     162    35    62    12    105    37
## 5     189    35    46    13    155    58
## 6     182    36    56     4    101    42
## 7     211    38    56     8    101    38
## 8     167    34    60     6    125    40
## 9     176    31    74    15    200    40
## 10    154    33    56    17    251   250
## 11    169    34    50    17    120    38
## 12    166    33    52    13    210   115
## 13    154    34    64    14    215   105
## 14    247    46    50     1     50    50
## 15    193    36    46     6     70    31
## 16    202    37    62    12    210   120
## 17    176    37    54     4     60    25
## 18    157    32    52    11    230    80

lm3n = lm(Squats~Waist,data=lin)
summary(lm3n); anova(lm3n)

## 
## Call:
## lm(formula = Squats ~ Waist, data = lin)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -68.825 -39.113  -7.613  37.954  84.034 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  601.748    126.947   4.740 0.000222 ***
## Waist        -12.859      3.545  -3.627 0.002266 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 47.83 on 16 degrees of freedom
## Multiple R-squared:  0.4512, Adjusted R-squared:  0.4169 
## F-statistic: 13.16 on 1 and 16 DF,  p-value: 0.002266

## Analysis of Variance Table
## 
## Response: Squats
##           Df Sum Sq Mean Sq F value   Pr(>F)   
## Waist      1  30094 30094.3  13.156 0.002266 **
## Residuals 16  36599  2287.5                    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

points(lm3n$fitted.values,lin$Squats,col="red")
text(lm3n$fitted.values,lin$Squats,lab=rownames(lin),pos=3,col="red")

# lm2n
# Coeficientes:

# Intercept: Es significativo con un p-valor de 0.00195, indicando una interceptación importante.
# Weight: No es significativo (p = 0.47754), lo que sugiere que el peso, después de ajustar por la cintura, no es un predictor significativo del número de Squats.
# Waist: Es significativo (p = 0.02901), manteniendo una relación negativa con la cantidad de Squats.

# La ANOVA muestra la significancia de las variables Weight y Waist con p-valores de 0.03169 y 0.02901, respectivamente. Esto sugiere que ambas variables tienen una contribución estadísticamente significativa al modelo, aunque el p-valor de Weight es un poco más alto, lo que indica una significancia más marginal.

# La eliminación de puntos de alto apalancamiento parece haber tenido un impacto positivo en el modelo, al menos en términos de significancia estadística de las variables.
# La medida de la cintura (Waist) sigue siendo un predictor significativo para el número de Squats, y ahora el peso (Weight) muestra una contribución significativa al modelo, aunque más marginal en comparación con Waist.

Jumps

# 1) regresión con lm: tres regresores y variable objetivo Jumps
lm1 = lm(Jumps~Weight+Waist+Pulse,data=Linnerud)
lm1;summary(lm1);anova(lm1);vcov(lm1)          # resultados, anova, covarianza entre beta

## 
## Call:
## lm(formula = Jumps ~ Weight + Waist + Pulse, data = Linnerud)
## 
## Coefficients:
## (Intercept)       Weight        Waist        Pulse  
##    179.8868      -0.5379       0.2338      -0.3886

## 
## Call:
## lm(formula = Jumps ~ Weight + Waist + Pulse, data = Linnerud)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -47.89 -34.93 -10.12  14.95 166.99 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)
## (Intercept) 179.8868   212.2842   0.847    0.409
## Weight       -0.5379     1.0336  -0.520    0.610
## Waist         0.2338     7.9276   0.029    0.977
## Pulse        -0.3886     1.8634  -0.209    0.837
## 
## Residual standard error: 54.35 on 16 degrees of freedom
## Multiple R-squared:  0.0539, Adjusted R-squared:  -0.1235 
## F-statistic: 0.3039 on 3 and 16 DF,  p-value: 0.8222

## Analysis of Variance Table
## 
## Response: Jumps
##           Df Sum Sq Mean Sq F value Pr(>F)
## Weight     1   2558 2558.34  0.8660 0.3659
## Waist      1      6    6.08  0.0021 0.9644
## Pulse      1    128  128.47  0.0435 0.8374
## Residuals 16  47265 2954.08

##             (Intercept)     Weight        Waist        Pulse
## (Intercept) 45064.56460 42.3289363 -1041.807491 -278.0182418
## Weight         42.32894  1.0682507    -6.973694    0.2451023
## Waist       -1041.80749 -6.9736935    62.847096    1.1144734
## Pulse        -278.01824  0.2451023     1.114473    3.4722035

# Análisis de Anova lm3: Jumps ~ Weight + Waist + Pulse :

# 1) Weight (Peso):
# Df (Grados de libertad): 1, lo que significa que este término está agregando un grado de libertad al modelo.
# Sum Sq (Suma de cuadrados): 2558.34, que es la variabilidad en la respuesta Jumps que el modelo atribuye a Weight.
# Mean Sq (Media de cuadrados): 2558.34, que es la Sum Sq dividida por los Df, indicando la variabilidad media que Weight explica por unidad de Df.
# F value: 0.8660, es el valor de la estadística F para Weight, representando la razón entre la variabilidad que Weight explica y la variabilidad que los residuos explican.
# Pr(>F): 0.3659, es el p-valor asociado a la estadística F. Un p-valor por encima de 0.05 sugiere que Weight no es un predictor estadísticamente significativo para Jumps.

# 2) Waist (Cintura):
# Df: 1
# Sum Sq: 6.08, una variabilidad casi nula atribuida a Waist.
# Mean Sq: 6.08
# F value: 0.0021, un valor F extremadamente bajo, indicando que Waist no explica casi nada de la variabilidad en Jumps.
# Pr(>F): 0.9644, un p-valor alto, confirmando que Waist no es un predictor significativo para Jumps.

# 3) Pulse (Pulso):
# Df: 1
# Sum Sq: 128.47, la variabilidad en Jumps que se atribuye a Pulse.
# Mean Sq: 128.47
# F value: 0.0435, otro valor F muy bajo.
# Pr(>F): 0.8374, un p-valor muy alto, indicando que Pulse tampoco es un predictor significativo para Jumps.

# Ninguno de los regresores (Weight, Waist, Pulse) ha demostrado ser significativo para explicar la variabilidad en la variable de respuesta Jumps. Esto se refleja en los altos p-valores y bajos valores F. Además, el modelo en su conjunto tiene un p-valor de ANOVA de 0.8222, lo que implica que el modelo no es mejor que uno sin ningún regresor en términos de explicar la variabilidad en Jumps.

# gráficos
plot(lm1$fitted.values,Linnerud$Jumps,asp=1)
abline(0,1)
text(lm1$fitted.values,Linnerud$Jumps,pos=3)

plot(lm1$fitted.values,lm1$residuals,asp=1)
abline(0,0)
text(lm1$fitted.values,lm1$residuals,pos=3)

# Anáisis Gráfico:

# Hay una gran cantidad de puntos que están lejos de la línea diagonal, lo cual indica un pobre ajuste del modelo para predecir los valores observados de Jumps.

# La observación 10 se desvía significativamente de la línea, lo que sugiere que es un outlier o que el modelo no puede capturar la variabilidad en este caso.

# Los residuos no parecen distribuirse aleatoriamente alrededor del eje horizontal, lo que sugeriría que el modelo está bien especificado.

# Hay un patrón en los residuos que sugiere que el modelo no captura toda la variabilidad de los datos, posiblemente debido a la falta de un predictor importante o a la necesidad de una transformación no lineal.

# Una primera impresión: La observación 14 parece tener un alto grado de apalancamiento, se evaluará posteriormente para su retiro y ver el comportamiento sin esta observación

# 2) regresión con lm: 02 regresores y variable objetivo Jumps
lm2 = lm(Jumps~Weight+Waist,data=Linnerud)
lm2;summary(lm2);anova(lm2);vcov(lm2)

## 
## Call:
## lm(formula = Jumps ~ Weight + Waist, data = Linnerud)
## 
## Coefficients:
## (Intercept)       Weight        Waist  
##    148.7720      -0.5104       0.3585

## 
## Call:
## lm(formula = Jumps ~ Weight + Waist, data = Linnerud)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -47.201 -33.053  -7.412  13.771 168.004 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)
## (Intercept) 148.7720   146.6993   1.014    0.325
## Weight       -0.5104     0.9959  -0.513    0.615
## Waist         0.3585     7.6794   0.047    0.963
## 
## Residual standard error: 52.8 on 17 degrees of freedom
## Multiple R-squared:  0.05133,    Adjusted R-squared:  -0.06028 
## F-statistic: 0.4599 on 2 and 17 DF,  p-value: 0.639

## Analysis of Variance Table
## 
## Response: Jumps
##           Df Sum Sq Mean Sq F value Pr(>F)
## Weight     1   2558 2558.34  0.9177 0.3515
## Waist      1      6    6.08  0.0022 0.9633
## Residuals 17  47394 2787.87

##             (Intercept)     Weight       Waist
## (Intercept) 21520.67345 58.4683280 -898.975236
## Weight         58.46833  0.9918171   -6.655561
## Waist        -898.97524 -6.6555608   58.973401

# Coeficientes:

# Intercepto: El intercepto no es estadísticamente significativo (p = 0.325), lo que sugiere que, para un peso y cintura de cero, el valor de Jumps esperado es aproximadamente 148.7720, pero esta estimación no es confiable dada la falta de significancia.
# Peso (Weight): También carece de significancia estadística (p = 0.615), con un coeficiente negativo, lo que indicaría que un aumento en el peso se asocia con una disminución en el número de saltos, aunque este efecto no es estadísticamente significativo.
# Cintura (Waist): Este coeficiente tampoco es significativo (p = 0.963), y su coeficiente positivo sugiere un aumento en Jumps con un incremento en la cintura, pero de nuevo, este resultado no es confiable debido a su falta de significancia.

# ANOVA del Modelo lm2
# La tabla ANOVA muestra que ni Weight ni Waist contribuyen significativamente a explicar la variabilidad en Jumps:

# Peso (Weight): F value = 0.9177, p = 0.3515.
# Cintura (Waist): F value = 0.0022, p = 0.9633.

# Este modelo no parece ser adecuado para predecir Jumps basado en Weight y Waist. Ninguno de los predictores es estadísticamente significativo, y el modelo en su conjunto no mejora la predicción más allá de simplemente usar la media de Jumps.

# gráficos
plot(lm2$fitted.values,Linnerud$Jumps,asp=1)
abline(0,1)
text(lm2$fitted.values,Linnerud$Jumps,pos=3)

plot(lm2$fitted.values,lm2$residuals,asp=1)
abline(0,0)
text(lm2$fitted.values,lm2$residuals,pos=3)

# Análisis:

# Las observaciones 10 y 17 tienen un alto valor residual, por lo que podria influenciar en el modelo 

# Las observaciones 14 y 20 podrian presentar un valor alto de apalancamiento. Se evaluara, luego, su impacto en el modelo.

# 3) regresión con lm: 01 regresores y variable objetivo Jumps
lm3 = lm(Jumps~Waist,data=Linnerud)
lm3;summary(lm3);anova(lm3);vcov(lm3)

## 
## Call:
## lm(formula = Jumps ~ Waist, data = Linnerud)
## 
## Coefficients:
## (Intercept)        Waist  
##     178.862       -3.067

## 
## Call:
## lm(formula = Jumps ~ Waist, data = Linnerud)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -43.79 -34.61 -10.99  16.76 172.34 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)
## (Intercept)  178.862    131.657   1.359    0.191
## Waist         -3.067      3.705  -0.828    0.419
## 
## Residual standard error: 51.71 on 18 degrees of freedom
## Multiple R-squared:  0.03667,    Adjusted R-squared:  -0.01685 
## F-statistic: 0.6852 on 1 and 18 DF,  p-value: 0.4186

## Analysis of Variance Table
## 
## Response: Jumps
##           Df Sum Sq Mean Sq F value Pr(>F)
## Waist      1   1832  1832.1  0.6852 0.4186
## Residuals 18  48126  2673.7

##             (Intercept)      Waist
## (Intercept)   17333.588 -485.87300
## Waist          -485.873   13.72523

# Coeficientes lm3:

# Intercepto: No es estadísticamente significativo (p = 0.191), indicando que el valor base de Jumps, cuando la cintura es cero, no es estadísticamente diferente de cero en este contexto.
# Waist: También carece de significancia estadística (p = 0.419), con un coeficiente negativo, lo que sugeriría una relación decreciente entre la cintura y el número de saltos, aunque este resultado no es confiable debido a la falta de significancia.

# La tabla ANOVA confirma que la variable Waist no contribuye significativamente a explicar la variabilidad en Jumps:

# Waist: F value = 0.6852, p = 0.4186.

# Este modelo no parece ser adecuado para predecir Jumps usando solo Waist como predictor. Ni el intercepto ni la variable predictor son significativos, y el modelo en su conjunto no mejora la predicción más allá de simplemente usar la media de Jumps.

# gráficos
plot(lm3$fitted.values,Linnerud$Jumps,asp=1)
abline(0,1)
text(lm3$fitted.values,Linnerud$Jumps,pos=3)

plot(lm3$fitted.values,lm3$residuals,asp=1)
abline(0,0)
text(lm3$fitted.values,lm3$residuals,pos=3)

# Análisis:

# Las observaciones 10 y 09 tienen un alto valor residual, por lo que podria influenciar en el modelo 

# Las observaciones 14 y 09 podrian presentar un valor alto de apalancamiento. Se evaluara, luego, su impacto en el modelo.

# comparación con anova
anova(lm2,lm1)

## Analysis of Variance Table
## 
## Model 1: Jumps ~ Weight + Waist
## Model 2: Jumps ~ Weight + Waist + Pulse
##   Res.Df   RSS Df Sum of Sq      F Pr(>F)
## 1     17 47394                           
## 2     16 47265  1    128.47 0.0435 0.8374

anova(lm3,lm2)

## Analysis of Variance Table
## 
## Model 1: Jumps ~ Waist
## Model 2: Jumps ~ Weight + Waist
##   Res.Df   RSS Df Sum of Sq      F Pr(>F)
## 1     18 48126                           
## 2     17 47394  1    732.35 0.2627 0.6149

anova(lm3,lm1)

## Analysis of Variance Table
## 
## Model 1: Jumps ~ Waist
## Model 2: Jumps ~ Weight + Waist + Pulse
##   Res.Df   RSS Df Sum of Sq      F Pr(>F)
## 1     18 48126                           
## 2     16 47265  2    860.83 0.1457 0.8655

# Análisis de Anova:

# Comparación entre lm2 y lm1:
# Modelo lm2: Jumps ~ Weight + Waist
# Modelo lm1: Jumps ~ Weight + Waist + Pulse
# El resultado muestra que la adición de Pulse al modelo no mejora significativamente el ajuste:

# Diferencia en grados de libertad (Df): 1
# Suma de cuadrados (Sum of Sq): 128.47, lo que implica que la adición de Pulse solo explica una pequeña cantidad adicional de la variabilidad en Jumps.
# Valor F: 0.0435 y p-valor: 0.8374, lo que indica que Pulse no es un predictor significativo al nivel del 5% cuando Weight y Waist ya están en el modelo.
# Conclusión:
# Pulse no proporciona una mejora significativa en la predicción de Jumps cuando se añade a un modelo que ya incluye Weight y Waist.

# Comparación entre lm3 y lm2:
# Modelo lm3: Jumps ~ Waist
# Modelo lm2: Jumps ~ Weight + Waist
# Esta comparación evalúa la adición de Weight al modelo que solo tiene Waist:

# Diferencia en grados de libertad (Df): 1
# Suma de cuadrados (Sum of Sq): 732.35, lo que indica la cantidad adicional de variabilidad en Jumps que Weight podría explicar.
# Valor F: 0.2627 y p-valor: 0.6149, mostrando que Weight tampoco es un predictor significativo al nivel del 5% cuando se añade al modelo con Waist.
# Conclusión:
# Weight no mejora significativamente el modelo cuando se añade a Waist para predecir Jumps.

# Comparación entre lm3 y lm1:
# Modelo lm3: Jumps ~ Waist
# Modelo lm1: Jumps ~ Weight + Waist + Pulse
# Esta comparación evalúa la adición de Weight y Pulse al modelo que solo tiene Waist:

# Diferencia en grados de libertad (Df): 2
# Suma de cuadrados (Sum of Sq): 860.83, sugiriendo la variabilidad adicional explicada por añadir ambos Weight y Pulse.
# Valor F: 0.1457 y p-valor: 0.8655, indicando que ni Weight ni Pulse proporcionan una mejora significativa sobre el modelo que solo usa Waist.
# Conclusión General:
# Ninguna de las variables adicionales (Weight y Pulse) mejora significativamente el modelo de predicción de Jumps cuando se añaden a Waist. Esto sugiere que Waist podría ser el único predictor significativo de los evaluados, aunque su efecto en solitario tampoco es particularmente fuerte según el ajuste del modelo

Retirando observaciones con alto apalancamiento

lm1: Jumps~Weight+Waist+Pulse

# Hallando observaciones y apalancamientos de lm1
p = 3 
niv = 2 * p / n; niv

## [1] 0.3

inf=influence(lm1)$hat; inf

##          1          2          3          4          5          6          7          8          9         10         11         12         13         14         15         16         17         18         19         20 
## 0.10655710 0.07274466 0.10454362 0.14458388 0.21767716 0.05211761 0.17497701 0.06993305 0.71976680 0.11322903 0.12146711 0.12293309 0.18069260 0.63478590 0.18304599 0.19664999 0.13010298 0.16288488 0.11801577 0.37329175

out=rbind(which(inf>niv),inf[which(inf>niv)])
rownames(out) = c("unidad","apalancamiento"); out

##                        9         14         20
## unidad         9.0000000 14.0000000 20.0000000
## apalancamiento 0.7197668  0.6347859  0.3732917

library(faraway)
halfnorm(influence(lm1)$hat)

# Se halla las observaciones que tienen mayor apalancamiento: 9,14,20. Ahora se evaluara su influencia en el modelo lm1

# comparación de la regresión eliminando los puntos observaciones con alto apalancamiento
plot(lm1$fitted.values,Linnerud$Jumps,asp=1)
abline(0,1)
text(lm1$fitted.values,Linnerud$Jumps,lab=rownames(Linnerud), pos = 3)

lin = Linnerud[-c(9,14,20),]; lin

##    Weight Waist Pulse Pulls Squats Jumps
## 1     191    36    50     5    162    60
## 2     189    37    52     2    110    60
## 3     193    38    58    12    101   101
## 4     162    35    62    12    105    37
## 5     189    35    46    13    155    58
## 6     182    36    56     4    101    42
## 7     211    38    56     8    101    38
## 8     167    34    60     6    125    40
## 10    154    33    56    17    251   250
## 11    169    34    50    17    120    38
## 12    166    33    52    13    210   115
## 13    154    34    64    14    215   105
## 15    193    36    46     6     70    31
## 16    202    37    62    12    210   120
## 17    176    37    54     4     60    25
## 18    157    32    52    11    230    80
## 19    156    33    54    15    225    73

lm1n = lm(Jumps~Weight+Waist+Pulse,data=lin)
summary(lm1n); anova(lm1n)

## 
## Call:
## lm(formula = Jumps ~ Weight + Waist + Pulse, data = lin)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -64.96 -24.20 -12.37  16.01 151.18 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)
## (Intercept) 349.3573   306.9065   1.138    0.276
## Weight        0.7199     1.7644   0.408    0.690
## Waist       -16.6491    16.6138  -1.002    0.335
## Pulse         3.3576     3.0335   1.107    0.288
## 
## Residual standard error: 54.17 on 13 degrees of freedom
## Multiple R-squared:  0.1973, Adjusted R-squared:  0.0121 
## F-statistic: 1.065 on 3 and 13 DF,  p-value: 0.3975

## Analysis of Variance Table
## 
## Response: Jumps
##           Df Sum Sq Mean Sq F value Pr(>F)
## Weight     1   5043  5043.2  1.7186 0.2126
## Waist      1    740   740.1  0.2522 0.6239
## Pulse      1   3595  3595.1  1.2251 0.2884
## Residuals 13  38147  2934.4

points(lm1n$fitted.values,lin$Jumps,col="red")
text(lm1n$fitted.values,lin$Jumps,lab=rownames(lin),pos=3,col="red")

# Coeficientes lm1n:

# Intercept: El intercepto es 349.3573 con un error estándar bastante alto (306.9065), y su p-valor es 0.276, indicando que no es estadísticamente significativo.
# Weight: El coeficiente para Weight es 0.7199, con un p-valor de 0.690, lo cual muestra que no tiene una influencia significativa en Jumps en este modelo reducido.
# Waist: El coeficiente para Waist es -16.6491 con un p-valor de 0.335, también indicando que no es un predictor significativo para Jumps.
# Pulse: El coeficiente para Pulse es 3.3576, y su p-valor es 0.288, mostrando que tampoco es significativo.

# ANOVA del Modelo lm1n
# Weight: Con un F value de 1.7186 y un p-valor de 0.2126, no es estadísticamente significativo.
# Waist: Con un F value de 0.2522 y un p-valor de 0.6239, tampoco es significativo.
# Pulse: Con un F value de 1.2251 y un p-valor de 0.2884, igualmente no es significativo.

# Retirar las observaciones con alto apalancamiento no ha llevado a una mejora en la significancia de los predictores o en el ajuste general del modelo. De hecho, el modelo ajustado sugiere que ninguno de los tres predictores tiene un impacto significativo en la variable de respuesta Jumps.

lm2: Jumps~Weight+Waist

# Hallando observaciones y apalancamientos de lm2
p = 2
niv = 2 * p / n; niv

## [1] 0.2

inf=influence(lm2)$hat; inf

##          1          2          3          4          5          6          7          8          9         10         11         12         13         14         15         16         17         18         19         20 
## 0.07679375 0.06318203 0.08800572 0.11971453 0.11172633 0.05198759 0.16424537 0.06179186 0.40731605 0.10524153 0.06007660 0.08393966 0.14231453 0.62945013 0.09013298 0.12019083 0.12642067 0.10986862 0.09457599 0.29302525

out=rbind(which(inf>niv),inf[which(inf>niv)])
rownames(out) = c("unidad","apalancamiento"); out

##                        9         14         20
## unidad         9.0000000 14.0000000 20.0000000
## apalancamiento 0.4073161  0.6294501  0.2930252

library(faraway)
halfnorm(influence(lm2)$hat)

# Se halla las observaciones que tienen mayor apalancamiento: 9,14,20. Ahora se evaluara su influencia en el modelo lm2

# comparación de la regresión eliminando los puntos observaciones con alto apalancamiento
plot(lm2$fitted.values,Linnerud$Jumps,asp=1)
abline(0,1)
text(lm2$fitted.values,Linnerud$Jumps,lab=rownames(Linnerud), pos = 3)

lin = Linnerud[-c(9,14,20),]; lin

##    Weight Waist Pulse Pulls Squats Jumps
## 1     191    36    50     5    162    60
## 2     189    37    52     2    110    60
## 3     193    38    58    12    101   101
## 4     162    35    62    12    105    37
## 5     189    35    46    13    155    58
## 6     182    36    56     4    101    42
## 7     211    38    56     8    101    38
## 8     167    34    60     6    125    40
## 10    154    33    56    17    251   250
## 11    169    34    50    17    120    38
## 12    166    33    52    13    210   115
## 13    154    34    64    14    215   105
## 15    193    36    46     6     70    31
## 16    202    37    62    12    210   120
## 17    176    37    54     4     60    25
## 18    157    32    52    11    230    80
## 19    156    33    54    15    225    73

lm2n = lm(Jumps~Weight+Waist,data=lin)
summary(lm2n); anova(lm2n)

## 
## Call:
## lm(formula = Jumps ~ Weight + Waist, data = lin)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -48.07 -32.56 -14.07  13.79 151.65 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)
## (Intercept) 386.8413   307.4752   1.258    0.229
## Weight       -0.3428     1.4922  -0.230    0.822
## Waist        -7.1422    14.3353  -0.498    0.626
## 
## Residual standard error: 54.6 on 14 degrees of freedom
## Multiple R-squared:  0.1217, Adjusted R-squared:  -0.003786 
## F-statistic: 0.9698 on 2 and 14 DF,  p-value: 0.4032

## Analysis of Variance Table
## 
## Response: Jumps
##           Df Sum Sq Mean Sq F value Pr(>F)
## Weight     1   5043  5043.2  1.6914 0.2144
## Waist      1    740   740.1  0.2482 0.6261
## Residuals 14  41742  2981.6

points(lm2n$fitted.values,lin$Jumps,col="red")
text(lm2n$fitted.values,lin$Jumps,lab=rownames(lin),pos=3,col="red")

# Coeficientes lm2n:

# Intercept: El intercepto tiene un valor de 386.8413, pero no es estadísticamente significativo (p = 0.229), lo que indica que el valor de base para Jumps no está bien definido por el modelo sin considerar los predictores.
# Weight: El coeficiente de Weight es -0.3428 con un p-valor de 0.822, lo que indica que no tiene un impacto significativo en Jumps.
# Waist: El coeficiente de Waist es -7.1422 con un p-valor de 0.626, mostrando también que no es un predictor significativo para Jumps.

# ANOVA del Modelo lm2n
# Weight: Con un F value de 1.6914 y un p-valor de 0.2144, lo que sugiere que Weight no contribuye significativamente al modelo.
# Waist: Con un F value de 0.2482 y un p-valor de 0.6261, indicando igualmente que no es un predictor significativo para Jumps.

# La eliminación de las observaciones con alto apalancamiento no ha mejorado la significancia de los predictores en el modelo lm2n. Tanto Weight como Waist no son significativos para predecir Jumps, y el ajuste general del modelo es insuficiente.

lm3: Jumps~Waist

# Hallando observaciones y apalancamientos de lm3
p = 1 
niv = 2 * p / n; niv

## [1] 0.1

inf=influence(lm3)$hat; inf

##          1          2          3          4          5          6          7          8          9         10         11         12         13         14         15         16         17         18         19         20 
## 0.05184805 0.06314168 0.08470226 0.05082136 0.05082136 0.05184805 0.08470226 0.06006160 0.14938398 0.07956879 0.06006160 0.07956879 0.06006160 0.62679671 0.05184805 0.06314168 0.06314168 0.10934292 0.07956879 0.07956879

out=rbind(which(inf>niv),inf[which(inf>niv)])
rownames(out) = c("unidad","apalancamiento"); out

##                       9         14         18
## unidad         9.000000 14.0000000 18.0000000
## apalancamiento 0.149384  0.6267967  0.1093429

library(faraway)
halfnorm(influence(lm3)$hat)

# Se halla las observaciones que tienen mayor apalancamiento: 9,14,18. Ahora se evaluara su influencia en el modelo lm3

# comparación de la regresión eliminando los puntos observaciones con alto apalancamiento
plot(lm3$fitted.values,Linnerud$Jumps,asp=1)
abline(0,1)
text(lm3$fitted.values,Linnerud$Jumps,lab=rownames(Linnerud), pos = 3)

lin = Linnerud[-c(9,14,18),]; lin

##    Weight Waist Pulse Pulls Squats Jumps
## 1     191    36    50     5    162    60
## 2     189    37    52     2    110    60
## 3     193    38    58    12    101   101
## 4     162    35    62    12    105    37
## 5     189    35    46    13    155    58
## 6     182    36    56     4    101    42
## 7     211    38    56     8    101    38
## 8     167    34    60     6    125    40
## 10    154    33    56    17    251   250
## 11    169    34    50    17    120    38
## 12    166    33    52    13    210   115
## 13    154    34    64    14    215   105
## 15    193    36    46     6     70    31
## 16    202    37    62    12    210   120
## 17    176    37    54     4     60    25
## 19    156    33    54    15    225    73
## 20    138    33    68     2    110    43

lm3n = lm(Jumps~Waist,data=lin)
summary(lm3n); anova(lm3n)

## 
## Call:
## lm(formula = Jumps ~ Waist, data = lin)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -50.54 -34.58 -16.90  20.78 156.46 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)
## (Intercept)  401.068    267.396   1.500    0.154
## Waist         -9.319      7.580  -1.229    0.238
## 
## Residual standard error: 54.16 on 15 degrees of freedom
## Multiple R-squared:  0.09155,    Adjusted R-squared:  0.03099 
## F-statistic: 1.512 on 1 and 15 DF,  p-value: 0.2378

## Analysis of Variance Table
## 
## Response: Jumps
##           Df Sum Sq Mean Sq F value Pr(>F)
## Waist      1   4434  4434.3  1.5116 0.2378
## Residuals 15  44001  2933.4

points(lm3n$fitted.values,lin$Jumps,col="red")
text(lm3n$fitted.values,lin$Jumps,lab=rownames(lin),pos=3,col="red")

# Coeficientes lm3n:

# Intercept: El intercepto es 401.068 con un error estándar de 267.396. Su p-valor de 0.154 indica que no es estadísticamente significativo, lo que sugiere que el valor base de Jumps no está bien definido por el modelo sin considerar Waist.
# Waist: El coeficiente para Waist es -9.319 con un p-valor de 0.238. Esto muestra que, aunque la tendencia es que un aumento en la medida de la cintura podría disminuir el número de saltos, esta relación no es estadísticamente significativa en este conjunto de datos ajustado.

# ANOVA del Modelo lm3n
# Waist: Tiene un F value de 1.5116 y un p-valor de 0.2378, confirmando que no es un predictor significativo de Jumps.

# El modelo simplificado lm3n sugiere que la medida de la cintura (Waist) no proporciona una base significativa para predecir el número de Jumps en este conjunto de datos ajustado. La falta de significancia estadística y el bajo R-cuadrado ajustado sugieren que otros factores no capturados por este modelo pueden ser responsables de las variaciones en Jumps.

Decathlon.csv

Decathlon<-read.csv("Decathlon.csv",row.names=1) # lectura del archivo eventualmente read.table con sus opciones
attach(Decathlon)                               # archivo en uso
lab <- rownames(Decathlon)                      # etiquetas de las unidades en lab 
n <- dim(Decathlon)[1]

####lm1:Points~X100m+Shot.put+Discus

# 1) regresión con lm: tres regresores y variable objetivo Points
lm1 = lm(Points~X100m+Shot.put+Discus,data=Decathlon)
lm1;summary(lm1);anova(lm1);vcov(lm1)          # resultados, anova, covarianza entre beta

## 
## Call:
## lm(formula = Points ~ X100m + Shot.put + Discus, data = Decathlon)
## 
## Coefficients:
## (Intercept)        X100m     Shot.put       Discus  
##    15210.15      -908.93       127.90        20.11

## 
## Call:
## lm(formula = Points ~ X100m + Shot.put + Discus, data = Decathlon)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -586.91  -72.04   32.24  122.51  472.46 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 15210.15    2608.86   5.830 5.18e-06 ***
## X100m        -908.93     202.06  -4.498 0.000149 ***
## Shot.put      127.90      71.05   1.800 0.084438 .  
## Discus         20.11      17.62   1.142 0.264873    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 225.3 on 24 degrees of freedom
## Multiple R-squared:  0.6748, Adjusted R-squared:  0.6342 
## F-statistic:  16.6 on 3 and 24 DF,  p-value: 4.71e-06

## Analysis of Variance Table
## 
## Response: Points
##           Df  Sum Sq Mean Sq F value    Pr(>F)    
## X100m      1 1909787 1909787 37.6096 2.461e-06 ***
## Shot.put   1  553219  553219 10.8946  0.003007 ** 
## Discus     1   66181   66181  1.3033  0.264873    
## Residuals 24 1218703   50779                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

##             (Intercept)         X100m    Shot.put      Discus
## (Intercept) 6806130.610 -504793.61840 -84505.0827 -1312.59444
## X100m       -504793.618   40829.21193   4241.6448   -65.81187
## Shot.put     -84505.083    4241.64481   5048.4687  -802.90212
## Discus        -1312.594     -65.81187   -802.9021   310.38197

# Coeficienteslm1:

# Intercepto: 15210.15, muy significativo con un p-valor de 5.18e-06, lo que indica que cuando todas las variables predictoras son cero, el puntaje esperado es significativamente diferente de cero.
# X100m: -908.93, también muy significativo (p = 0.000149). Hay una relación negativa entre los tiempos en 100 metros y los puntos totales, lo que tiene sentido dado que menores tiempos en carreras de velocidad suelen correlacionar con mejores desempeños generales.
# Shot.put: 127.90, casi significativo (p = 0.084438). Esto sugiere una relación positiva entre el rendimiento en lanzamiento de peso y los puntos totales, aunque no es estadísticamente significativo al nivel del 5%.
# Discus: 20.11, no significativo (p = 0.264873), lo que indica que el lanzamiento de disco no tiene un impacto significativo en la predicción de los puntos dentro del modelo.

# ANOVA del Modelo lm1
# X100m: Tiene el mayor impacto en el modelo con un Sum Sq significativo y un F value de 37.6096 (p = 2.461e-06), demostrando una fuerte influencia en los puntos.
# Shot.put: También es relevante con un Sum Sq de 553219 y un F value de 10.8946 (p = 0.003007), indicando una contribución importante al modelo.
# Discus: Aporta menos al modelo, con un Sum Sq de 66181 y un F value de 1.3033 (p = 0.264873), lo que no es significativo.

# gráficos
plot(lm1$fitted.values,Decathlon$Points,asp=1)
abline(0,1)
text(lm1$fitted.values,Decathlon$Points,pos=3)

plot(lm1$fitted.values,lm1$residuals,asp=1)
abline(0,0)
text(lm1$fitted.values,lm1$residuals,pos=3)

# Las observaciones 1 y 26 tienen un alto valor residual, lo cual sugiere que dado su condición de observaciones outliers puede afectar al modelo 

# Las observaciones 25 y 3 aparentemente tiene un alto valor de apalancamiento, se evaluará retirarlos para medir su impacto.

####lm2:Points~X100m+Shot.put

# 2) regresión con lm: 02 regresores y variable objetivo Points
lm2 = lm(Points~X100m+Shot.put,data=Decathlon)
lm2;summary(lm2);anova(lm2);vcov(lm2)          # resultados, anova, covarianza entre beta

## 
## Call:
## lm(formula = Points ~ X100m + Shot.put, data = Decathlon)
## 
## Coefficients:
## (Intercept)        X100m     Shot.put  
##     15295.2       -904.7        179.9

## 
## Call:
## lm(formula = Points ~ X100m + Shot.put, data = Decathlon)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -562.22  -86.96   17.97  144.50  469.84 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 15295.20    2623.56   5.830 4.43e-06 ***
## X100m        -904.67     203.25  -4.451 0.000155 ***
## Shot.put      179.93      54.84   3.281 0.003046 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 226.7 on 25 degrees of freedom
## Multiple R-squared:  0.6572, Adjusted R-squared:  0.6297 
## F-statistic: 23.96 on 2 and 25 DF,  p-value: 1.543e-06

## Analysis of Variance Table
## 
## Response: Points
##           Df  Sum Sq Mean Sq F value    Pr(>F)    
## X100m      1 1909787 1909787  37.159 2.268e-06 ***
## Shot.put   1  553219  553219  10.764  0.003046 ** 
## Residuals 25 1284884   51395                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

##             (Intercept)       X100m   Shot.put
## (Intercept)  6883085.92 -511199.585 -88966.957
## X100m        -511199.59   41310.438   4120.797
## Shot.put      -88966.96    4120.797   3007.557

# Coeficientes lm2:

# Intercepto: 15295.2, significativo con un p-valor de 4.43e-06, sugiriendo un alto puntaje base cuando X100m y Shot.put son cero.
# X100m: -904.67, altamente significativo (p = 0.000155). Esto indica que hay una fuerte relación negativa entre los tiempos en 100 metros y los puntos, lo que es lógico ya que tiempos menores en sprints se correlacionan con mejores desempeños generales.
# Shot.put: 179.93, también significativo (p = 0.003046). Esto muestra una relación positiva entre el rendimiento en lanzamiento de peso y los puntos totales, indicando que mejores desempeños en esta prueba aumentan la puntuación total.

# ANOVA del Modelo lm2
# La tabla ANOVA muestra que tanto X100m como Shot.put son significativos con un Sum Sq significativo para ambos. Esto sugiere que ambos eventos tienen una influencia estadísticamente significativa en la puntuación total del decatlón.

# El modelo lm2 sugiere que tanto X100m como Shot.put son predictores importantes para los puntos en el decatlón, con X100m siendo especialmente significativo.

# gráficos
plot(lm2$fitted.values,Decathlon$Points,asp=1)
abline(0,1)
text(lm2$fitted.values,Decathlon$Points,pos=3)

plot(lm2$fitted.values,lm2$residuals,asp=1)
abline(0,0)
text(lm2$fitted.values,lm2$residuals,pos=3)

# Las observaciones 1 y 26 tienen un alto valor residual, lo cual sugiere que dado su condición de observaciones outliers puede afectar al modelo lm2

# Las observaciones 25 y 3 aparentemente tiene un alto valor de apalancamiento, se evaluará retirarlos para medir su impacto al modelo lm2

####lm3:Points~X100m

# 3) regresión con lm: 01 regresor y variable objetivo Points
lm3 = lm(Points~X100m,data=Decathlon)
lm3;summary(lm3);anova(lm3);vcov(lm3)

## 
## Call:
## lm(formula = Points ~ X100m, data = Decathlon)
## 
## Coefficients:
## (Intercept)        X100m  
##       20618        -1151

## 
## Call:
## lm(formula = Points ~ X100m, data = Decathlon)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -542.67 -153.80    4.98  142.22  765.81 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  20617.6     2418.2   8.526 5.25e-09 ***
## X100m        -1151.2      221.5  -5.197 2.00e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 265.9 on 26 degrees of freedom
## Multiple R-squared:  0.5096, Adjusted R-squared:  0.4907 
## F-statistic: 27.01 on 1 and 26 DF,  p-value: 1.997e-05

## Analysis of Variance Table
## 
## Response: Points
##           Df  Sum Sq Mean Sq F value    Pr(>F)    
## X100m      1 1909787 1909787  27.014 1.997e-05 ***
## Residuals 26 1838104   70696                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

##             (Intercept)      X100m
## (Intercept)   5847883.4 -535499.40
## X100m         -535499.4   49057.66

# Coeficienteslm3:

# Intercepto: 20617.6, altamente significativo con un p-valor de aproximadamente 5.25e-09, indicando un alto valor base para los puntos cuando el tiempo en los 100 metros es cero.
# X100m: -1151.2, también muy significativo (p = 2.00e-05). La relación negativa entre el tiempo de los 100 metros y los puntos es consistente con la expectativa de que mejores (más bajos) tiempos en los 100 metros se correlacionan con puntuaciones más altas en el decatlón.

# ANOVA del Modelo lm3
# El ANOVA refleja la significancia de X100m con un Sum Sq de 1909787 y un F value de 27.014, demostrando que es un predictor muy influyente en la puntuación total del decatlón.

# X100m es un predictor muy potente y significativo para la puntuación en el decatlón, demostrando que los tiempos más rápidos en los 100 metros están fuertemente asociados con puntuaciones más altas.

# gráficos
plot(lm3$fitted.values,Decathlon$Points,asp=1)
abline(0,1)
text(lm2$fitted.values,Decathlon$Points,pos=3)

plot(lm3$fitted.values,lm3$residuals,asp=1)
abline(0,0)
text(lm3$fitted.values,lm3$residuals,pos=3)

# Las observaciones 1 y 26 tienen un alto valor residual, lo cual sugiere que dado su condición de observaciones outliers puede afectar al modelo lm3

# Las observaciones 25 y 3 aparentemente tiene un alto valor de apalancamiento, se evaluará retirarlos para medir su impacto al modelo lm3

# comparación con anova
anova(lm2,lm1)

## Analysis of Variance Table
## 
## Model 1: Points ~ X100m + Shot.put
## Model 2: Points ~ X100m + Shot.put + Discus
##   Res.Df     RSS Df Sum of Sq      F Pr(>F)
## 1     25 1284884                           
## 2     24 1218703  1     66181 1.3033 0.2649

anova(lm3,lm2)

## Analysis of Variance Table
## 
## Model 1: Points ~ X100m
## Model 2: Points ~ X100m + Shot.put
##   Res.Df     RSS Df Sum of Sq      F   Pr(>F)   
## 1     26 1838104                                
## 2     25 1284884  1    553219 10.764 0.003046 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

anova(lm3,lm1)

## Analysis of Variance Table
## 
## Model 1: Points ~ X100m
## Model 2: Points ~ X100m + Shot.put + Discus
##   Res.Df     RSS Df Sum of Sq      F   Pr(>F)   
## 1     26 1838104                                
## 2     24 1218703  2    619400 6.0989 0.007217 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

# Comparación entre lm2 y lm1
# Modelo lm2: Points ~ X100m + Shot.put
# Modelo lm1: Points ~ X100m + Shot.put + Discus
# Resultados:

# Reducción en RSS: Al agregar Discus a lm2, se reduce el Residual Sum of Squares (RSS) por 66181.
# F value: 1.3033, lo que indica la relación entre la variación explicada por Discus y la variación no explicada por el modelo.
# p-value: 0.2649, significando que la adición de Discus no mejora significativamente el modelo en términos de ajuste.
# Conclusión:
# Discus no aporta una mejora significativa al modelo que ya incluye X100m y Shot.put. Esto sugiere que Discus puede no ser un predictor tan influyente para Points en este contexto.

# Comparación entre lm3 y lm2
# Modelo lm3: Points ~ X100m
# Modelo lm2: Points ~ X100m + Shot.put
# Resultados:

# Reducción en RSS: Al añadir Shot.put a lm3, se reduce el RSS en 553219.
# F value: 10.764, indicando una fuerte relación entre la variación explicada por Shot.put y la variación no explicada por lm3.
# p-value: 0.003046, lo que es estadísticamente significativo.
# Conclusión:
# Shot.put mejora significativamente el modelo que solo incluye X100m. Esto sugiere que Shot.put es un predictor importante y debería incluirse en el modelo para una mejor predicción de Points.

# Comparación entre lm3 y lm1
# Modelo lm3: Points ~ X100m
# Modelo lm1: Points ~ X100m + Shot.put + Discus
# Resultados:

# Reducción en RSS: Al agregar Shot.put y Discus a lm3, se reduce el RSS por 619400.
# F value: 6.0989, indicando una buena mejora en el modelo.
# p-value: 0.007217, que es estadísticamente significativo.
# Conclusión:
# La combinación de Shot.put y Discus mejora significativamente el modelo que solo incluye X100m. Esto muestra que, aunque Discus no aporta significativamente por sí solo, en combinación con Shot.put sí contribuye a un modelo más robusto para predecir Points.

# lm1 es probablemente el mejor modelo. Aunque la adición de Discus no mejora significativamente el modelo sobre lm2 en términos de p-valor de la ANOVA, la combinación de X100m, Shot.put, y Discus proporciona el ajuste más completo, como lo indica el R-cuadrado ajustado más alto y un F-statistic generalmente robusto. Esto sugiere que lm1 captura más de la variabilidad en Points que los modelos más simplificados.

####lm1:Points~X110m.hurdle +Javeline+X1500m

# 2) regresión con lm: tres regresores y variable objetivo Points
lm1 = lm(Points~X110m.hurdle +Javeline+X1500m,data=Decathlon)
lm1;summary(lm1);anova(lm1);vcov(lm1)          # resultados, anova, covarianza entre beta

## 
## Call:
## lm(formula = Points ~ X110m.hurdle + Javeline + X1500m, data = Decathlon)
## 
## Coefficients:
##  (Intercept)  X110m.hurdle      Javeline        X1500m  
##    14803.597      -512.357        26.187        -3.023

## 
## Call:
## lm(formula = Points ~ X110m.hurdle + Javeline + X1500m, data = Decathlon)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -466.52 -147.34  -29.56  191.88  465.43 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  14803.597   2128.092   6.956 3.41e-07 ***
## X110m.hurdle  -512.357    114.369  -4.480 0.000156 ***
## Javeline        26.187     10.343   2.532 0.018308 *  
## X1500m          -3.023      4.606  -0.656 0.517786    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 258.7 on 24 degrees of freedom
## Multiple R-squared:  0.5716, Adjusted R-squared:  0.518 
## F-statistic: 10.67 on 3 and 24 DF,  p-value: 0.0001198

## Analysis of Variance Table
## 
## Response: Points
##              Df  Sum Sq Mean Sq F value    Pr(>F)    
## X110m.hurdle  1 1598891 1598891 23.8978 5.515e-05 ***
## Javeline      1  514441  514441  7.6891   0.01057 *  
## X1500m        1   28830   28830  0.4309   0.51779    
## Residuals    24 1605729   66905                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

##              (Intercept)  X110m.hurdle     Javeline      X1500m
## (Intercept)  4528777.479 -168822.25611 -10133.82006 -5303.69164
## X110m.hurdle -168822.256   13080.28723     43.21878   -86.79617
## Javeline      -10133.820      43.21878    106.98466    11.52294
## X1500m         -5303.692     -86.79617     11.52294    21.21277

# gráficos
plot(lm1$fitted.values,Decathlon$Points,asp=1)
abline(0,1)
text(lm2$fitted.values,Decathlon$Points,pos=3)

plot(lm1$fitted.values,lm1$residuals,asp=1)
abline(0,0)
text(lm1$fitted.values,lm1$residuals,pos=3)

# Las observaciones 3 y 23 tienen un alto valor residual, lo cual sugiere que dado su condición de observaciones outliers puede afectar al modelo lm2

# Las observaciones 21 y 1 aparentemente tiene un alto valor de apalancamiento, se evaluará retirarlos para medir su impacto al modelo lm2

####lm2:Points~X110m.hurdle +Javeline

# 2) regresión con lm: tres regresores y variable objetivo Points
lm2 = lm(Points~X110m.hurdle +Javeline,data=Decathlon)
lm2;summary(lm2);anova(lm2);vcov(lm2)          # resultados, anova, covarianza entre beta

## 
## Call:
## lm(formula = Points ~ X110m.hurdle + Javeline, data = Decathlon)
## 
## Coefficients:
##  (Intercept)  X110m.hurdle      Javeline  
##     14047.68       -524.73         27.83

## 
## Call:
## lm(formula = Points ~ X110m.hurdle + Javeline, data = Decathlon)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -508.5 -165.0   -4.1  200.6  462.1 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  14047.680   1769.131   7.940 2.69e-08 ***
## X110m.hurdle  -524.728    111.514  -4.705 7.99e-05 ***
## Javeline        27.830      9.921   2.805   0.0096 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 255.7 on 25 degrees of freedom
## Multiple R-squared:  0.5639, Adjusted R-squared:  0.529 
## F-statistic: 16.16 on 2 and 25 DF,  p-value: 3.127e-05

## Analysis of Variance Table
## 
## Response: Points
##              Df  Sum Sq Mean Sq F value    Pr(>F)    
## X110m.hurdle  1 1598891 1598891 24.4545 4.296e-05 ***
## Javeline      1  514441  514441  7.8682  0.009596 ** 
## Residuals    25 1634559   65382                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

##              (Intercept)  X110m.hurdle    Javeline
## (Intercept)  3129824.791 -186186.36350 -7087.71434
## X110m.hurdle -186186.363   12435.47542    88.31007
## Javeline       -7087.714      88.31007    98.43245

# Coeficientes lm2:

# Intercepto: 14047.68, extremadamente significativo con un p-valor de 2.69e-08, lo que indica un valor base alto para los puntos cuando las otras variables son cero.
# X110m.hurdle: -524.73, significativo (p = 7.99e-05). Este coeficiente negativo indica que mejores tiempos (más bajos) en los 110 metros con vallas están fuertemente asociados con puntuaciones más altas en el decatlón.
# Javeline: 27.83, también significativo (p = 0.0096). Este coeficiente positivo sugiere que mejores desempeños (distancias más largas) en el lanzamiento de jabalina se correlacionan con puntuaciones más altas.

# ANOVA del Modelo lm2
# La tabla ANOVA refleja la significancia de ambos, X110m.hurdle y Javeline, con Sum Sq significativos y F values que indican una influencia estadísticamente significativa en la puntuación total del decatlón para ambos eventos.

# X110m.hurdle y Javeline son predictores significativos y potentes para los puntos en el decatlón, con X110m.hurdle mostrando un impacto particularmente fuerte.

# gráficos
plot(lm2$fitted.values,Decathlon$Points,asp=1)
abline(0,1)
text(lm2$fitted.values,Decathlon$Points,pos=3)

plot(lm2$fitted.values,lm2$residuals,asp=1)
abline(0,0)
text(lm2$fitted.values,lm2$residuals,pos=3)

# Las observaciones 3 y 23 tienen un alto valor residual, lo cual sugiere que dado su condición de observaciones outliers puede afectar al modelo lm2

# Las observaciones 21 y 1 aparentemente tiene un alto valor de apalancamiento, se evaluará retirarlos para medir su impacto al modelo lm2

####lm3:Points~Javeline

# 3) regresión con lm: tres regresores y variable objetivo Points
lm3 = lm(Points~Javeline,data=Decathlon)
lm3;summary(lm3);anova(lm3);vcov(lm3)          # resultados, anova, covarianza entre beta

## 
## Call:
## lm(formula = Points ~ Javeline, data = Decathlon)
## 
## Coefficients:
## (Intercept)     Javeline  
##     6191.35        31.56

## 
## Call:
## lm(formula = Points ~ Javeline, data = Decathlon)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -637.16 -251.15   28.82  210.24  781.04 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  6191.35     787.70    7.86 2.46e-08 ***
## Javeline       31.56      13.32    2.37   0.0255 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 344.3 on 26 degrees of freedom
## Multiple R-squared:  0.1776, Adjusted R-squared:  0.146 
## F-statistic: 5.615 on 1 and 26 DF,  p-value: 0.02551

## Analysis of Variance Table
## 
## Response: Points
##           Df  Sum Sq Mean Sq F value  Pr(>F)  
## Javeline   1  665671  665671  5.6153 0.02551 *
## Residuals 26 3082220  118547                  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

##             (Intercept)   Javeline
## (Intercept)   620465.39 -10453.652
## Javeline      -10453.65    177.334

# Coeficientes lm3:

# Intercepto: 6191.35, muy significativo con un p-valor de 2.46e-08, sugiriendo que existe un puntaje base cuando la distancia de lanzamiento de jabalina es cero.
# Javeline: 31.56, significativo (p = 0.0255). Este coeficiente positivo indica que a medida que la distancia en lanzamiento de jabalina aumenta, también lo hacen los puntos en el decatlón, reflejando una relación lineal positiva.

# ANOVA del Modelo lm3
# La tabla ANOVA indica que Javeline tiene una influencia significativa en la puntuación total del decatlón, con un F value de 5.6153 y un p-valor de 0.02551.

# Aunque Javeline es un predictor significativo de los puntos en el decatlón, su capacidad explicativa es limitada, como lo indica el bajo R-cuadrado ajustado. Esto sugiere que el lanzamiento de jabalina, aunque importante, no captura la mayoría de la variabilidad en los puntos.

# gráficos
plot(lm3$fitted.values,Decathlon$Points,asp=1)
abline(0,1)
text(lm3$fitted.values,Decathlon$Points,pos=3)

plot(lm3$fitted.values,lm3$residuals,asp=1)
abline(0,0)
text(lm3$fitted.values,lm3$residuals,pos=3)

# Las observaciones 3 y 28 tienen un alto valor residual, lo cual sugiere que dado su condición de observaciones outliers puede afectar al modelo lm2

# Las observaciones 21 y 1 aparentemente tiene un alto valor de apalancamiento, se evaluará retirarlos para medir su impacto al modelo lm2

# comparación con anova
anova(lm2,lm1)

## Analysis of Variance Table
## 
## Model 1: Points ~ X110m.hurdle + Javeline
## Model 2: Points ~ X110m.hurdle + Javeline + X1500m
##   Res.Df     RSS Df Sum of Sq      F Pr(>F)
## 1     25 1634559                           
## 2     24 1605729  1     28830 0.4309 0.5178

anova(lm3,lm2)

## Analysis of Variance Table
## 
## Model 1: Points ~ Javeline
## Model 2: Points ~ X110m.hurdle + Javeline
##   Res.Df     RSS Df Sum of Sq      F    Pr(>F)    
## 1     26 3082220                                  
## 2     25 1634559  1   1447661 22.142 7.994e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

anova(lm3,lm1)

## Analysis of Variance Table
## 
## Model 1: Points ~ Javeline
## Model 2: Points ~ X110m.hurdle + Javeline + X1500m
##   Res.Df     RSS Df Sum of Sq      F    Pr(>F)    
## 1     26 3082220                                  
## 2     24 1605729  2   1476491 11.034 0.0003997 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

# Comparación entre lm2 y lm1 (Agregando X1500m)
# Modelo lm2: Points ~ X110m.hurdle + Javeline
# Modelo lm1: Points ~ X110m.hurdle + Javeline + X1500m
# Resultados:

# Reducción en RSS: Al añadir X1500m, el RSS disminuye solo en 28830.
# F value: 0.4309, indicando una relación entre la variación explicada por X1500m y la variación no explicada por el modelo anterior que no es fuerte.
# p-value: 0.5178, lo que significa que la adición de X1500m no mejora significativamente el modelo en términos de ajuste.
# Conclusión:
#  X1500m no proporciona una mejora significativa en el modelo que ya incluye X110m.hurdle y Javeline. Esto sugiere que X1500m puede no ser un predictor tan influyente para Points en este conjunto de datos.

#  Comparación entre lm3 y lm2 (Agregando X110m.hurdle a Javeline)
#  Modelo lm3: Points ~ Javeline
#  Modelo lm2: Points ~ X110m.hurdle + Javeline
#  Resultados:

#  Reducción en RSS: Al añadir X110m.hurdle, el RSS disminuye sustancialmente en 1447661.
#  F value: 22.142, indicando una fuerte relación entre la variación explicada por X110m.hurdle y la variación no explicada por lm3.
#  p-value: 7.994e-05, que es altamente significativo.
#  Conclusión:
#  X110m.hurdle mejora significativamente el modelo que solo incluye Javeline. Esto sugiere que X110m.hurdle es un predictor muy importante y debería incluirse en el modelo para una mejor predicción de Points.

#  Comparación entre lm3 y lm1 (Agregando X110m.hurdle + X1500m a Javeline)
#   lm3: Points ~ Javeline
#  Modelo lm1: Points ~ X110m.hurdle + Javeline + X1500m
#  Resultados:

#  Reducción en RSS: Al añadir X110m.hurdle y X1500m, el RSS disminuye en 1476491.
#  F value: 11.034, indicando una mejora considerable en el modelo.
#  p-value: 0.0003997, que es extremadamente significativo.
#  Conclusión:
#  La combinación de X110m.hurdle y X1500m mejora significativamente el modelo que solo incluye Javeline. Esto muestra que, aunque X1500m no aportó significativamente por sí solo, en combinación con X110m.hurdle contribuye a un modelo más robusto para predecir Points.

# El mejor modelo es lm1 (Points ~ X110m.hurdle + Javeline + X1500m): Aunque la adición de X1500m no fue significativa por sí sola, la combinación de X110m.hurdle, Javeline, y X1500m resulta ser la más efectiva en términos de ajuste y significancia estadística. Este modelo captura una mayor variabilidad en los puntos y ofrece una comprensión más completa de cómo estos eventos impactan los puntos totales en el decatlón.

####lm1:Points~Long.jump+High.jump+X400m

# 1) regresión con lm: tres regresores y variable objetivo Points
lm1 = lm(Points~Long.jump+High.jump+X400m,data=Decathlon)
lm1;summary(lm1);anova(lm1);vcov(lm1)          # resultados, anova, covarianza entre beta

## 
## Call:
## lm(formula = Points ~ Long.jump + High.jump + X400m, data = Decathlon)
## 
## Coefficients:
## (Intercept)    Long.jump    High.jump        X400m  
##      7413.7        384.1       1817.3       -115.8

## 
## Call:
## lm(formula = Points ~ Long.jump + High.jump + X400m, data = Decathlon)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -346.97 -109.56   -0.63   85.62  301.27 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  7413.69    2421.87   3.061  0.00536 ** 
## Long.jump     384.10     133.46   2.878  0.00828 ** 
## High.jump    1817.34     380.74   4.773 7.39e-05 ***
## X400m        -115.80      34.17  -3.389  0.00242 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 166.3 on 24 degrees of freedom
## Multiple R-squared:  0.8229, Adjusted R-squared:  0.8008 
## F-statistic: 37.18 on 3 and 24 DF,  p-value: 3.506e-09

## Analysis of Variance Table
## 
## Response: Points
##           Df  Sum Sq Mean Sq F value    Pr(>F)    
## Long.jump  1 2210210 2210210  79.922 4.183e-09 ***
## High.jump  1  556416  556416  20.120 0.0001536 ***
## X400m      1  317556  317556  11.483 0.0024242 ** 
## Residuals 24  663708   27654                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

##             (Intercept)  Long.jump   High.jump      X400m
## (Intercept)  5865452.49 -247385.23 -110922.138 -77561.072
## Long.jump    -247385.23   17811.58  -16143.455   3021.120
## High.jump    -110922.14  -16143.46  144959.156  -1174.875
## X400m         -77561.07    3021.12   -1174.875   1167.759

# Coeficientes:

# Intercepto: 7413.69, significativo (p = 0.00536), sugiriendo un valor base considerable para los puntos cuando todas las variables predictoras son cero.
# Long.jump: 384.10, significativo (p = 0.00828), indicando que un mejor desempeño en salto de longitud está positivamente correlacionado con una mayor puntuación.
# High.jump: 1817.34, altamente significativo (p = 7.39e-05), lo que muestra una fuerte relación positiva entre el rendimiento en salto de altura y los puntos.
# X400m: -115.80, también significativo (p = 0.00242), indicando una relación negativa entre los tiempos en los 400 metros y los puntos; tiempos más bajos, que son mejores, se asocian con puntuaciones más altas.

# ANOVA del Modelo lm1
# La tabla ANOVA confirma la significancia de todas las variables con valores F y p-valores muy bajos, indicando que cada evento tiene una contribución significativa a la puntuación total.

# Conclusiones
# lm1 es un modelo robusto para predecir los puntos en el decatlón basado en Long.jump, High.jump, y X400m. Las significancias estadísticas de los coeficientes y el alto R-cuadrado ajustado indican que este modelo captura bien la variabilidad en los puntos.
# La inclusión de estas tres pruebas, que implican tanto habilidades técnicas como resistencia, ofrece una perspectiva comprensiva y efectiva en la evaluación del rendimiento atlético en el decatlón.

# gráficos
plot(lm1$fitted.values,Decathlon$Points,asp=1)
abline(0,1)
text(lm1$fitted.values,Decathlon$Points,pos=3)

plot(lm1$fitted.values,lm1$residuals,asp=1)
abline(0,0)
text(lm1$fitted.values,lm1$residuals,pos=3)

# Las observaciones 2 y 25 tienen un alto valor residual, lo cual sugiere que dado su condición de observaciones outliers puede afectar al modelo lm1

# Las observaciones 28 y 3 aparentemente tiene un alto valor de apalancamiento, se evaluará retirarlos para medir su impacto al modelo lm1

####lm2:Points~Long.jump+High.jump

# 2) regresión con lm: dos regresores y variable objetivo Points
lm2 = lm(Points~Long.jump+High.jump,data=Decathlon)
lm2;summary(lm2);anova(lm2);vcov(lm2)          # resultados, anova, covarianza entre beta

## 
## Call:
## lm(formula = Points ~ Long.jump + High.jump, data = Decathlon)
## 
## Coefficients:
## (Intercept)    Long.jump    High.jump  
##      -277.5        683.7       1700.8

## 
## Call:
## lm(formula = Points ~ Long.jump + High.jump, data = Decathlon)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -453.69 -146.07  -20.61  147.50  396.01 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   -277.5     1006.6  -0.276 0.785054    
## Long.jump      683.7      119.1   5.740 5.57e-06 ***
## High.jump     1700.8      451.7   3.765 0.000903 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 198.1 on 25 degrees of freedom
## Multiple R-squared:  0.7382, Adjusted R-squared:  0.7172 
## F-statistic: 35.24 on 2 and 25 DF,  p-value: 5.309e-08

## Analysis of Variance Table
## 
## Response: Points
##           Df  Sum Sq Mean Sq F value    Pr(>F)    
## Long.jump  1 2210210 2210210  56.310 7.395e-08 ***
## High.jump  1  556416  556416  14.176 0.0009034 ***
## Residuals 25  981264   39251                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

##             (Intercept) Long.jump  High.jump
## (Intercept)  1013316.81 -66319.59 -268188.71
## Long.jump     -66319.59  14186.98  -18598.66
## High.jump    -268188.71 -18598.66  204065.69

# Coeficientes lm2:

# Intercepto: -277.5, no significativo (p = 0.785054), sugiriendo que el valor base ajustado por Long.jump y High.jump no es estadísticamente diferente de cero.
# Long.jump: 683.7, muy significativo (p = 5.57e-06), indicando que mejores desempeños en salto de longitud están positivamente correlacionados con una mayor puntuación en el decatlón.
# High.jump: 1700.8, también altamente significativo (p = 0.000903), mostrando una fuerte relación positiva entre el rendimiento en salto de altura y los puntos.

# ANOVA del Modelo lm2
# La tabla ANOVA confirma la significancia de Long.jump y High.jump, ambos con Sum Sq significativos y F values que indican una contribución importante a la puntuación total.

# lm2 es un modelo efectivo para predecir los puntos en el decatlón basado en Long.jump y High.jump. Los coeficientes significativos y el alto R-cuadrado ajustado indican que este modelo captura bien la variabilidad en los puntos y ofrece una comprensión sólida de cómo estos dos eventos impactan el rendimiento en el decatlón.
# Aunque el modelo es robusto, todavía hay cerca de un 28% de la variabilidad en los puntos que no se explica por estas dos variables, lo que sugiere que otros eventos o factores también influyen significativamente en el rendimiento general.

# gráficos
plot(lm2$fitted.values,Decathlon$Points,asp=1)
abline(0,1)
text(lm2$fitted.values,Decathlon$Points,pos=3)

plot(lm2$fitted.values,lm2$residuals,asp=1)
abline(0,0)
text(lm2$fitted.values,lm2$residuals,pos=3)

# Las observaciones 14 y 25 tienen un alto valor residual, lo cual sugiere que dado su condición de observaciones outliers puede afectar al modelo lm2

# Las observaciones 28 y 1 aparentemente tiene un alto valor de apalancamiento, se evaluará retirarlos para medir su impacto al modelo lm2

####lm3:Points~Long.jump

# 3) regresión con lm: 01 regresor y variable objetivo Points
lm3 = lm(Points~Long.jump,data=Decathlon)
lm3;summary(lm3);anova(lm3);vcov(lm3)          # resultados, anova, covarianza entre beta

## 
## Call:
## lm(formula = Points ~ Long.jump, data = Decathlon)
## 
## Coefficients:
## (Intercept)    Long.jump  
##      1957.8        838.7

## 
## Call:
## lm(formula = Points ~ Long.jump, data = Decathlon)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -463.74 -180.32  -22.23  197.59  416.41 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   1957.8      997.9   1.962   0.0606 .  
## Long.jump      838.7      137.2   6.113 1.84e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 243.2 on 26 degrees of freedom
## Multiple R-squared:  0.5897, Adjusted R-squared:  0.5739 
## F-statistic: 37.37 on 1 and 26 DF,  p-value: 1.84e-06

## Analysis of Variance Table
## 
## Response: Points
##           Df  Sum Sq Mean Sq F value   Pr(>F)    
## Long.jump  1 2210210 2210210  37.371 1.84e-06 ***
## Residuals 26 1537681   59142                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

##             (Intercept)  Long.jump
## (Intercept)    995757.5 -136758.10
## Long.jump     -136758.1   18822.39

# Coeficientes lm3:

# Intercepto: 1957.8, marginalmente significativo con un p-valor de 0.0606, indicando un valor base cuando la distancia en salto de longitud es cero.
# Long.jump: 838.7, altamente significativo (p = 1.84e-06). Este coeficiente positivo sugiere que mejores desempeños en salto de longitud están fuertemente correlacionados con una mayor puntuación en el decatlón.

# ANOVA del Modelo lm3
# La tabla ANOVA confirma la significancia de Long.jump con un Sum Sq significativo y un F value de 37.371, indicando una contribución importante a la puntuación total del decatlón.

# lm3 es un modelo efectivo para predecir los puntos en el decatlón basado únicamente en el desempeño en salto de longitud. La significancia estadística del coeficiente y el R-cuadrado ajustado relativamente alto indican que este evento por sí solo tiene un impacto considerable en los puntos.
# Sin embargo, el modelo no explica alrededor del 42.61% de la variabilidad en los puntos, lo que sugiere que otros eventos o factores también influyen significativamente en el rendimiento general.

# gráficos
plot(lm3$fitted.values,Decathlon$Points,asp=1)
abline(0,1)
text(lm3$fitted.values,Decathlon$Points,pos=3)

plot(lm3$fitted.values,lm3$residuals,asp=1)
abline(0,0)
text(lm3$fitted.values,lm3$residuals,pos=3)

# Las observaciones 20 y 25 tienen un alto valor residual, lo cual sugiere que dado su condición de observaciones outliers puede afectar al modelo lm2

# Las observaciones 20 y 2 aparentemente tiene un alto valor de apalancamiento, se evaluará retirarlos para medir su impacto al modelo lm2

# comparación con anova
anova(lm2,lm1)

## Analysis of Variance Table
## 
## Model 1: Points ~ Long.jump + High.jump
## Model 2: Points ~ Long.jump + High.jump + X400m
##   Res.Df    RSS Df Sum of Sq      F   Pr(>F)   
## 1     25 981264                                
## 2     24 663708  1    317556 11.483 0.002424 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

anova(lm3,lm2)

## Analysis of Variance Table
## 
## Model 1: Points ~ Long.jump
## Model 2: Points ~ Long.jump + High.jump
##   Res.Df     RSS Df Sum of Sq      F    Pr(>F)    
## 1     26 1537681                                  
## 2     25  981264  1    556416 14.176 0.0009034 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

anova(lm3,lm1)

## Analysis of Variance Table
## 
## Model 1: Points ~ Long.jump
## Model 2: Points ~ Long.jump + High.jump + X400m
##   Res.Df     RSS Df Sum of Sq      F    Pr(>F)    
## 1     26 1537681                                  
## 2     24  663708  2    873973 15.802 4.181e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

# Análisis

# Comparación entre lm2 y lm1 (Agregando X400m a Long.jump + High.jump)
# Modelo lm2: Points ~ Long.jump + High.jump
# Modelo lm1: Points ~ Long.jump + High.jump + X400m
# Resultados:

# Reducción en RSS: Al añadir X400m, el RSS disminuye sustancialmente en 317556.
# F value: 11.483, indicando una fuerte relación entre la variación explicada por X400m y la variación no explicada por lm2.
# p-value: 0.002424, que es estadísticamente significativo.
# Conclusión:
# La inclusión de X400m mejora significativamente el modelo que ya incluye Long.jump y High.jump. Esto sugiere que X400m es un predictor importante y debería incluirse en el modelo para una mejor predicción de Points.

# Comparación entre lm3 y lm2 (Agregando High.jump a Long.jump)
# Modelo lm3: Points ~ Long.jump
# Modelo lm2: Points ~ Long.jump + High.jump
# Resultados:

# Reducción en RSS: Al añadir High.jump, el RSS disminuye notablemente en 556416.
# F value: 14.176, indicando una fuerte relación entre la variación explicada por # High.jump y la variación no explicada por lm3.
# p-value: 0.0009034, que es altamente significativo.
# Conclusión:
# High.jump también mejora significativamente el modelo que solo incluye Long.jump. Esto indica que High.jump es un predictor crucial y mejora sustancialmente la capacidad del modelo para explicar los puntos.

# Comparación entre lm3 y lm1 (Agregando High.jump + X400m a Long.jump)
# Modelo lm3: Points ~ Long.jump
# Modelo lm1: Points ~ Long.jump + High.jump + X400m
# Resultados:

# Reducción en RSS: La adición de High.jump y X400m reduce el RSS en 873973.
# F value: 15.802, indicando una mejora considerable en el modelo.
# p-value: 4.181e-05, que es extremadamente significativo.
# Conclusión:
# La combinación de High.jump y X400m mejora significativamente el modelo que solo incluye Long.jump. Esto muestra que la inclusión de ambos eventos produce un modelo más robusto y efectivo para predecir Points.

# El mejor modelo es lm1 (Points ~ Long.jump + High.jump + X400m). Este modelo no solo tiene la reducción más grande en RSS cuando se comparan todos los modelos, sino que también muestra los valores F y p-values más significativos, indicando que la combinación de estos tres eventos captura de manera efectiva la variabilidad en los puntos y proporciona el ajuste más completo.
# Este modelo es superior porque incorpora la influencia combinada de habilidades tanto técnicas como de resistencia, ofreciendo una perspectiva comprensiva y efectiva en la evaluación del rendimiento atlético en el decatlón.

Ejercicio_4

Kevin Gargate Osorio

2024-04-20

Linnerrud.csv

1) Pulls ~ Weight,Waist y Pulse

Pulls

Retirando observaciones con alto apalancamiento

lm1: Pulls~Weight+Waist+Pulse

lm2: Pulls~Weight+Waist

lm3: Pulls~Waist

Squats

Retirando observaciones con alto apalancamiento

lm1: Squats~Weight+Waist+Pulse

lm2: Squats~Weight+Waist

lm3: Squats~Waist

Jumps

Retirando observaciones con alto apalancamiento

lm1: Jumps~Weight+Waist+Pulse

lm2: Jumps~Weight+Waist

lm3: Jumps~Waist

Decathlon.csv