Ejercicio inicial de Regresión Lineal.

Este ejemplo tiene como objetivo en que el alumno conozca los procedimientos para llevar a cabo un análisis de regresión con una sola variable.

Información del problema

El problema trata del análsis del cambio de un porcentaje de fibra en una prenda de vestir, en la cual se desea saber si existe una relación entre el porcentaje de fibra y la resistencia de la fibra.

Análisis:

Lectura de datos:

##    Porcentaje.de.fibra Resistencia
## 1                   12         144
## 2                    4         134
## 3                   18         157
## 4                   24         167
## 5                   28         174
## 6                   26         171
## 7                    8         142
## 8                   16         156
## 9                   22         166
## 10                  10         149
## 11                  30         183
## 12                   6         145
## 13                  20         168
## 14                  14         160

Es importante el hacer mención sobre la cantidad de datos, se requieren al menos 10 observaciones por cada variable introducida en el modelo.

Las variables del análisis son:

names(Datos_Regresion_1)
## [1] "Porcentaje.de.fibra" "Resistencia"

Se genera un modelo lineal:

Modelo <- lm(Resistencia~Porcentaje.de.fibra)
ANOVA <- aov(Modelo)
summary(ANOVA)
##                     Df Sum Sq Mean Sq F value   Pr(>F)    
## Porcentaje.de.fibra  1 2400.5    2400   159.7 2.71e-08 ***
## Residuals           12  180.3      15                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Se observa que existe evidencia estadística de relación entre la variable independiente y la independiente, por lo menos un coeficiente de la ecuación de regresión es diferente a cero.

Análisis de los coeficientes y ecuación de regresión.

summary(Modelo)
## 
## Call:
## lm(formula = Resistencia ~ Porcentaje.de.fibra)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -6.165 -2.529 -1.165  3.221  6.587 
## 
## Coefficients:
##                     Estimate Std. Error t value Pr(>|t|)    
## (Intercept)         130.6747     2.4178   54.05 1.06e-15 ***
## Porcentaje.de.fibra   1.6242     0.1285   12.64 2.71e-08 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.876 on 12 degrees of freedom
## Multiple R-squared:  0.9301, Adjusted R-squared:  0.9243 
## F-statistic: 159.7 on 1 and 12 DF,  p-value: 2.707e-08

Se observa que tanto la ordenada al orígen como la variable independiente son significativos.
La ecuación es: Resistencia = 130.675 + 1.624* Porcentaje.de.fibra

Análisis de la ideoneidad del modelo

Gráfico de residuos estandarizados:

plot(residuals(Modelo), 
     main="Gráfica de residuos del modelo")

Residuos estandarizados:

plot(rstandard(Modelo), ylim=c(-3,3))
abline(h=3, col=2)
abline(h=-3, col=2)

Gráfica de probabilidad normal de los residuos

qqnorm(rstandard(Modelo))
qqline(rstandard(Modelo))

No se observan problemas potenciales con las observaciones.

Gráfica de la relación entre las 2 variables:

plot(Resistencia~ Porcentaje.de.fibra, main="Relación entre la Resistencia y el Porcentaje de Fibra",
     xlab="Porcentaje de Fibra")
abline(Modelo)

Al igual que en el análisis anterior, se aprecia que a mayor porcentaje de fibra, mayor resistencia de la fibra.

Para hacer predicciones del modelo obtenido:

Se busca analizar el comportamiento de la Resistencia para los siguientes valores de Porcentaje de la Fibra:
1. 32
2. 34
3. 36

fibra <-(c(32,34, 36))
predict(Modelo, data.frame(Porcentaje.de.fibra=fibra), level=0.95, interval="confidence")
##        fit      lwr      upr
## 1 182.6484 177.8804 187.4163
## 2 185.8967 180.6288 191.1646
## 3 189.1451 183.3662 194.9239

Los valores de resistencia obtenidos para cada valor de porcentaje de fibra son:
1. Valor medio: 182.6, intervalo al 95% de nivel de confianza de 177.9 a 187.4
2. Valor medio: 185.9, intervalo al 95% de nivel de confianza de 180.6 a 191.2
1. Valor medio: 182.6, intervalo al 95% de nivel de confianza de 183.4 a 194.9