Tarea 8. Análisis de regresión lineal

Un negocio de venta por catálogo de computadoras personales, software y hardware mantiene un almacén centralizado para la distribución y esta interesada en examinar los factores que afectan sus costos. En la actualidad, se cobra una pequeña cuota por manejo independiente del monto de la orden, Se recolectaron datos de los últimos 24 meses que indican los costos de distribución, las ventas y el número de órdenes recibidas. Realiza un análisis de correlación con los siguientes datos.


Solución

Sean las variables:
\(x=\) Costo de distribución
\(y=\) ventas realizadas
\(z=\) Número de órdenes recibidas


Factores que afectan sus costos

##       x   y    z
## 1 52.95 386 4015
## 2 71.66 446 3806
## 3 85.58 512 5309
## 4 63.69 401 4262
## 5 72.81 457 4296
## 6 68.44 458 4097

a). Diagrama de dispersión entre \(x\), \(y\) y \(z\). ¿Es válido ajustar un modelo lineal?.

Respuesta: Sí, es válido ajustar un modelo lineal. La gráfica muestra una tendencia lineal clara entre las variables (ventas y costos de distribución), evidenciada por la alineación general de los puntos alrededor de la línea de regresión. Existe una relación lineal positiva entre el costo de distribución y las ventas, lo que respalda el uso de un modelo de regresión lineal para describir esta relación. \(x\), \(y\) y \(z\).

b). Propuesta de un modelo de regresión lineal y verificación de los supuestos.


Sea el modelo de regresión lineal:
\[y=\beta_0+\beta_1x+\epsilon\] donde
\(\beta_0=\) Es el intercepto del modelo.
\(\beta_1=\) Es la pendiente del modelo.
\(\epsilon=\) Es el error aleatorio del modelo.

Sean los residuales del modelo: \[\hat{e}=y-\hat y\] donde \(\hat y=\hat\beta_0 \;+\; \hat\beta_1 x\) son los ajustados del modelo por los estimadores de mínimos cuadrados de \(\hat\beta_0\) y de \(\hat\beta_1\):

\[\hat\beta_0=\bar y - \hat\beta_1 \bar x \;\;\;\;\;\;\;\;\;\;\;\; \hat\beta_1=\frac{\sum_{i=1}^n x_i y_i - n \bar x \bar y}{\sum_{i=1}^n x_i^2 - n \bar{x}^2}\]

Modelo de regresión estimado

\(\hat y=\) 65.6421815 + 4.3233939 x



Verificación de los supuestos del modelo de regresión

1. Prueba de normalidad

\(H_0:\) Los \(\hat{e}\) tienen distribución normal \(\;\) vs. \(\;\) \(H_a:\) Los \(\hat{e}\) no tiene distribución normal

## 
##  RESULTADOS PARA LA PRUEBA DE NORMALIDAD 
##         Estadistica  ValorCal     Pvalor
## 1      Shapiro-Wilk 0.9181554 0.05318207
## 2 Cramer-Von-Misses 0.1148665 0.06536525
## 3  Anderson-Darling 0.6805098 0.06596152
## 4   Shapiro-Francia 0.9010489 0.02472605
## 5        Lilliefort 0.1564206 0.13440620
## Pvalor minimo: 0.02472605

Conclusión: El P-valor mínimo es 0.02472605, que es menor que 0.05 (nivel de significancia comúnmente utilizado). Esto indica que hay suficiente evidencia para rechazar \(H_0\) en la prueba de Shapiro-Francia. En otras palabras, los residuos no siguen una distribución normal según esta prueba específica..


2. Prueba de la media

Sea

\(E(\hat{e})=\) Media de los residuales del modelo.

\(H_0: E(\hat{e}) = 0\) \(\;\) vs. \(\;\) \(H_a: E(\hat{e}) \neq 0\)

## 
##  RESULTADOS PARA LA PRUEBA DE LA MEDIA 
##   Estadistica     Valor
## 1          LI -18.42196
## 2          LS  18.42196
## 3          Tc   0.00000
## 4          gl  23.00000
## 5     P-valor   1.00000

Conclusión: No se rechaza \(H_0\) el valor p= 1.000, es mucho mayor al nivel de significancia. Esto significa que no hay suficiente evidencia para rechazar la hipótesis nula de que la media de los residuos es cero (𝐸(𝑒)=0).


3. Prueba de homocedasticidad

\(H_0: V(\hat{e}) = \sigma^2\) para toda \(x\) \(\;\) vs. \(\;\) \(H_a: V(\hat{e}) \neq \sigma^2\) para alguna \(x\).

## 
##  RESULTADOS PARA LA PRUEBA DE HOMOCEDASTICIDAD 
##   Estadistica      Valor    PValor
## 1 Brush-Pagan 0.04077444 0.8399739
## 2       Score 0.08136168 0.7754605
## Pvalor minimo: 0.7754605

Conclusión:No hay evidencia suficiente para rechazar la hipótesis nula, lo que sugiere que los residuos tienen una varianza constante (homocedasticidad) en este caso.


4. Verificación del supuesto de independencia

Sea

\(\rho_{\epsilon_i , \epsilon_j}=\) La verdadera correlación entre el i-ésimo y el j-ésimo residual.

\(H_0: \rho_{\epsilon_i , \epsilon_j}=0\) para toda \(i\neq j\) \(\;\) vs. \(\;\) \(H_a: \rho_{\epsilon_i , \epsilon_j} \neq 0\) para algún par \((i,j)\)

Resultados
##  lag Autocorrelation D-W Statistic p-value
##    1        0.166828      1.653379   0.398
##  Alternative hypothesis: rho != 0

Conclusión: El valor𝑝= 0.404 es mayor que el nivel de significancia α=0.05. Por lo tanto, no se rechaza \(H_0\) lo que implica que no hay evidencia de autocorrelación significativa en los residuos. Esto sugiere que los residuos son independientes



Conclusión Gral: Se cumplen todos los supuestos del modelo de regresión.


c). Significancia del modelo de regresión.


Prueba para la pendiente \(\beta_1\) con la estadística T-student y con el ANOVA

\(H_0: \beta_1=0\) \(\;\) \(\;\) vs. \(\;\) \(\;\) \(H_a: \beta_1 \neq 0\)

Resultados
## 
## Call:
## lm(formula = y ~ x + z)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -133.647  -18.452   -1.322   19.781   79.948 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)  
## (Intercept) 65.64218   57.50663   1.141   0.2665  
## x            4.32339    1.86539   2.318   0.0306 *
## z            0.01884    0.03272   0.576   0.5709  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 45.66 on 21 degrees of freedom
## Multiple R-squared:  0.7137, Adjusted R-squared:  0.6864 
## F-statistic: 26.17 on 2 and 21 DF,  p-value: 1.981e-06
## Analysis of Variance Table
## 
## Response: y
##           Df Sum Sq Mean Sq F value    Pr(>F)    
## x          1 108425  108425 52.0135 4.164e-07 ***
## z          1    691     691  0.3315    0.5709    
## Residuals 21  43776    2085                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Conclusión: La variable x(ventas) tiene un efecto significativo en los costos de distribución, ya que se rechaza \(H_0\) para su coeficiente. En cambio, la variable z no muestra un impacto significativo, ya que no se rechaza \(H_0\). Esto sugiere que x es un predictor relevante, mientras que z no contribuye significativamente al modelo.


d). Intervalos de confianza del 95% para los parámetros del modelo de regresión.


##   Param          LI         LS
## 1    b0 -53.9494085 185.233772
## 2    b1   0.4441093   8.202679

Interpretación: El costo de distribución base (cuando no hay ventas ni ordenes) podría variar ampliamente entre 53 y 185, lo que sugiere que este valor no es significativamente diferente de cero. Por cada unidad adicional de ventas, el costo de distribución aumenta en promedio entre 0.44 y 8.20. Esto indica que las ventas tienen un impacto significativo en los costos de distribución. Por otro lado, las órdenes (z) no contribuyen significativamente al modelo, como se observa en análisis previos. Por lo tanto, las ventas son el principal factor que afecta los costos de distribución.


e). Coeficiente de determinación del modelo de regresión.


\(R^2=\) 0.7136819

Interpretación: sugiere que aproximadamente el 71.37% de la variabilidad en los costos de distribución puede ser explicada por las ventas y órdenes recibidas.