## Loading required package: carData
##
## Attaching package: 'psych'
## The following object is masked from 'package:car':
##
## logit
## The following objects are masked from 'package:ggplot2':
##
## %+%, alpha
## Loading required package: zoo
##
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
##
## as.Date, as.Date.numeric
En el presente trabajo, utilizamos el concepto de correlación y regresión lineal. También abordamos la revisión de algunos de los supuestos del modelo tales como linealidad,normalidad,homocedasticidad e independencia. Esto se realiza con la base de datos del comportamiento de las máquinas expendedoras de la Mercatería en la Pontificia Universidad Javeriana Cali durante el periodo comprendido entre febrero de 2022 y julio de 2023.
La base de datos original está compuesta por 17 variables y 5023 observaciones en total. Para efectos del trabajo se utilizan las siguientes variables cuantitativas.
• Unidades: cantidad de unidades vendidas en las máquinas expendedoras de la Mercatería.
• Precio: precio de cada producto puesto a la venta en las máquinas expendedoras en pesos colombianos.
• Costo_promedio_unitario: cálculo de la media del costo de los productos puestos a la venta en pesos colombianos.
• Ventas: es la cantidad total de ingresos generados por la venta de productos en las máquinas expendedoras durante un tiempo determinado en pesos colombianos.
• Utilidad: es la ganancia que se obtiene de la venta total de los productos en las máquinas expendedoras. Se calcula como el producto de las ventas totales con el margen promedio en pesos colombianos.
Se tiene como variable dependiente o respuesta a la utilidad e independiente a las unidades, veamos a la relación existente entre ambas variables, gráficamente y, a nivel de correlación. Si creamos un plot de ambas variables (x = Unidades, y = Utilidad) podemos ver como hay una relación positiva entre ellas.
Planteemos la siguiente hipótesis:
\[H_a: A \ mayor \ cantidad \ de \ productos \ vendidos, \ las \ utilidades \ aumentan \ de \ manera \ positiva(relación \ directa)\]
##
## Pearson's product-moment correlation
##
## data: Mercateria$Unidades and Mercateria$Utilidad
## t = 81.613, df = 5021, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.7429645 0.7667486
## sample estimates:
## cor
## 0.7551049
## `geom_smooth()` using formula = 'y ~ x'
Las unidades vendidas y la utilidad generada muestra una correlación de 0.75, lo que indica una relación positiva fuerte. Esto sugiere que, en general, a medida que se venden más productos, la utilidad también tiende a incrementarse.Esto se debe a que, con un mayor volumen de ventas, los costos fijos se distribuyen entre más unidades, lo que reduce el costo por unidad y aumenta la rentabilidad.
##
## Call:
## lm(formula = Mercateria$Utilidad ~ Mercateria$Unidades, data = Mercateria)
##
## Residuals:
## Min 1Q Median 3Q Max
## -134893 -4231 -1102 3672 321258
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1676.604 326.758 5.131 2.99e-07 ***
## Mercateria$Unidades 578.445 7.088 81.613 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 17380 on 5021 degrees of freedom
## Multiple R-squared: 0.5702, Adjusted R-squared: 0.5701
## F-statistic: 6661 on 1 and 5021 DF, p-value: < 2.2e-16
Prueba de hipótesis para el intercepto: \[H_0:β_0=0\] \[H_a:β_0≠0\] Prueba de hipótesis para la pendiente: \[H_0:β_1=0\] \[H_a:β_1≠0\] En primer lugar, los p-value para los estimadores son bastante pequeños,por lo tanto, se rechazan las hipótesis nulas y se validan las hipótesis alternativas, así mismo, se puede asegurar que los valores de los estimadores si son significativos puesto que son distintos de cero.
Los estimadores son \(β_0=1676.604,β_1=578.445,σ^2=17380\),mientras que la ecuación del modelo ajustado quedaría de la forma: \[Utilidad=1676.604+578.445Unidades+ε ,ε∼N(0,17380)\]
Según la ecuación, si no se venden ninguna de las unidades de los productos, la utilidad esperada sería de aproximadamente 1676.604. La pendiente es positiva, lo que indica que a medida que se venden más productos, la utilidad aumenta; en concreto, cada unidad adicional vendida incrementa la utilidad en 578.445. Adicionalmente, el coeficiente de determinación (R-cuadrado) es de 0.5702. En este caso el 57.02% de los datos se ajustan al modelo de forma lineal, en otras palabras, dicho porcentaje de la variabilidad de la utilidad se explica por el número de unidades vendidas.
Una forma de comprobar la linealidad es ver si la media de los residuos del modelo es igual, o cercana a cero. En este caso,se cumple con una media de praticamente de cero.
## [1] -1.313641e-13
Para comprobar la normalidad, utilizamos el test de Anderson-Darling, dado que el número de observaciones es superior a 5000 (n=5023). El resultado del test muestra un p-value de < 2.2e-16, que es significativamente menor que un α. Por lo tanto, rechazamos la hipótesis nula de normalidad, lo que indica que los residuos no siguen una distribución normal.
\[H_0: \ La \ distribución \ es \ normal\]
\[H_1:La \ distribución \ no \ es \ normal\]
##
## Anderson-Darling normality test
##
## data: residuos1
## A = 372.02, p-value < 2.2e-16
Al mismo tiempo, utilizamos un gráfico QQ-PLOT para valorar la
normalidad visualmente. En un gráfico Q-Q, los cuantiles de la muestra
se comparan con los cuantiles teóricos de la distribución de interés. Si
los puntos en el gráfico se ajustan aproximadamente a una línea
diagonal, indica que los datos siguen de cerca la distribución teórica
(normal).
A partir de los gráficos se puede decir que la distribución de los residuos no sigue una normalidad perfecta, debido a la presencia de asimetría y valores atípicos.
Para evaluar la homocedasticidad de los residuos utilizamos el test de Breusch-Pagan, con la función bptest().La función captura los residuos guardados en el objeto modelo1 para realizar los cálculos.
\[H_0:Existe \ homogeneidad \ en \ las \ varianzas\] \[H_1:No \ existe \ homogeneidad \ en \ las \ varianzas\]
##
## studentized Breusch-Pagan test
##
## data: modelo1
## BP = 845.43, df = 1, p-value < 2.2e-16
Dado que el p-value es significativamente menor que α, rechazamos la hipótesis nula de homocedasticidad. Esto indica que las varianzas de los residuos son distintas, lo que sugiere la presencia de heterocedasticidad en el modelo.
\[H_0:autocorrelación = 0 (independencia)\]
\[H_a:autocorrelación ≠ 0 (no \ hay \ independencia)\]
## lag Autocorrelation D-W Statistic p-value
## 1 0.3835767 1.232587 0
## Alternative hypothesis: rho != 0
Dado que el p-value es 0, que es significativamente menor que un α, rechazamos la hipótesis nula. Esto indica que existe una autocorrelación en los residuos diferente a cero, lo que implica que no son independientes. El valor del estadístico de Durbin-Watson (1.23) se encuentra bastante por debajo del valor esperado (2) para un modelo sin autocorrelación, lo que refuerza la conclusión de que los residuos presentan correlación positiva.
Se tiene como variable dependiente o respuesta las ventas e independiente a las unidades, veamos a la relación existente entre ambas variables, gráficamente y, a nivel de correlación. Si creamos un plot de ambas variables (x = Unidades, y = Ventas) podemos ver como hay una relación positiva entre ellas.
Planteemos la siguiente hipótesis:
\[H_a: A \ mayor \ cantidad \ de \ productos \ vendidos, \ las \ ventas \ aumentan \ de \ manera \ positiva(relación \ directa)\]
##
## Pearson's product-moment correlation
##
## data: Mercateria$Unidades and Mercateria$Ventas
## t = 106.35, df = 5021, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.8235068 0.8405201
## sample estimates:
## cor
## 0.8322092
## `geom_smooth()` using formula = 'y ~ x'
Las unidades vendidas y las ventas generadas muestran una correlación de 0.83, lo que indica una relación positiva fuerte. Esto sugiere que, en general, a medida que se venden más productos, las ventas también tiende a incrementarse.
##
## Call:
## lm(formula = Mercateria$Ventas ~ Mercateria$Unidades, data = Mercateria)
##
## Residuals:
## Min 1Q Median 3Q Max
## -278496 -12659 -4865 10117 341674
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 10265.58 711.41 14.43 <2e-16 ***
## Mercateria$Unidades 1641.16 15.43 106.36 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 37840 on 5021 degrees of freedom
## Multiple R-squared: 0.6926, Adjusted R-squared: 0.6925
## F-statistic: 1.131e+04 on 1 and 5021 DF, p-value: < 2.2e-16
Prueba de hipótesis para el intercepto: \[H_0:β_0=0\] \[H_a:β_0≠0\] Prueba de hipótesis para la pendiente: \[H_0:β_1=0\] \[H_a:β_1≠0\] Este modelo se comporta de foma muy similar al anterior, los valores-p de los estimadores rechazan las hipótesis nulas de sus pruebas correspondientes, de modo que si son significativos. El valor-p de todo el modelo también indica que tiene sentido aplicar el modelo de regresión a las variables seleccionadas.
Los estimadores son \(β_0=10265.58,β_1=1641.16,σ^2=37840\),mientras que la ecuación del modelo ajustado quedaría de la forma: \[Ventas=10265.58+1641.16Unidades+ε ,ε∼N(0,37840)\]
Según la ecuación, si no se venden ninguna de las unidades de los productos, las ventas esperada serían de aproximadamente 10265.58. La pendiente es positiva, lo que indica que a medida que se venden más productos, las ventas aumenta; en concreto, cada unidad adicional vendida incrementa las ventas en 1641.16. Adicionalmente, el coeficiente de determinación (R-cuadrado) es de 0.6926. En este caso el 69.26% de la variabilidad de las ventas se explica por el número de unidades vendidas.
Una forma de comprobar la linealidad es ver si la media de los residuos del modelo es igual, o cercana a cero. En este caso,se cumple con una media de praticamente de cero.
## [1] -1.188334e-12
Para comprobar la normalidad, utilizamos el test de Anderson-Darling. El resultado del test muestra un p-value de < 2.2e-16, que es significativamente menor que un α. Por lo tanto, rechazamos la hipótesis nula de normalidad, lo que indica que los residuos no siguen una distribución normal.
\[H_0: \ La \ distribución \ es \ normal\]
\[H_1:La \ distribución \ no \ es \ normal\]
##
## Anderson-Darling normality test
##
## data: residuos2
## A = 243.54, p-value < 2.2e-16
Al mismo tiempo, utilizamos un gráfico QQ-PLOT para valorar la
normalidad visualmente.
La distribución de los residuos no sigue una normalidad perfecta, debido a la presencia de asimetría y valores atípicos.
\[H_0:Existe \ homogeneidad \ en \ las \ varianzas\] \[H_1:No \ existe \ homogeneidad \ en \ las \ varianzas\]
##
## studentized Breusch-Pagan test
##
## data: modelo2
## BP = 1573.7, df = 1, p-value < 2.2e-16
Dado que el p-value es significativamente menor que α, rechazamos la hipótesis nula de homocedasticidad. Esto indica que las varianzas de los residuos son distintas, lo que sugiere la presencia de heterocedasticidad en el modelo.
\[H_0:autocorrelación = 0 (independencia)\]
\[H_a:autocorrelación ≠ 0 (no \ hay \ independencia)\]
## lag Autocorrelation D-W Statistic p-value
## 1 0.4207133 1.158514 0
## Alternative hypothesis: rho != 0
Dado que el p-value es 0, que es significativamente menor que un α, rechazamos la hipótesis nula. Esto indica que existe una autocorrelación en los residuos diferente a cero, lo que implica que no son independientes. El valor del estadístico de Durbin-Watson (1.15) se encuentra bastante por debajo del valor esperado (2) para un modelo sin autocorrelación, lo que refuerza la conclusión de que los residuos presentan correlación positiva.
Se tiene como variable dependiente o respuesta el precio e independiente costo promedio unitario, veamos a la relación existente entre ambas variables, gráficamente y, a nivel de correlación. Si creamos un plot de ambas variables (x = Costo, y = Precio) podemos ver como hay una relación positiva entre ellas.
Planteemos la siguiente hipótesis:
\[H_a: A \ mayor \ costo \ promedio \ unitario, \ el \ precio \ de \ venta \ aumenta \ de \ manera \ positiva(relación \ directa)\]
##
## Pearson's product-moment correlation
##
## data: Mercateria$Precio and Mercateria$Costo_promedio_unitario
## t = 178.36, df = 5021, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.9254756 0.9330205
## sample estimates:
## cor
## 0.929345
## `geom_smooth()` using formula = 'y ~ x'
El costo promedio unitario y el precio muestran una correlación de 0.929, lo que indica una relación positiva muy fuerte. Esto sugiere que, en general, a medida que los costos de los productos son mayores, los precios también tiende a incrementarse.
##
## Call:
## lm(formula = Mercateria$Precio ~ Mercateria$Costo_promedio_unitario,
## data = Mercateria)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2188.78 -231.41 -22.82 220.98 1916.61
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.294e+02 1.158e+01 28.43 <2e-16 ***
## Mercateria$Costo_promedio_unitario 1.194e+00 6.697e-03 178.36 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 342.9 on 5021 degrees of freedom
## Multiple R-squared: 0.8637, Adjusted R-squared: 0.8637
## F-statistic: 3.181e+04 on 1 and 5021 DF, p-value: < 2.2e-16
Prueba de hipótesis para el intercepto: \[H_0:β_0=0\] \[H_a:β_0≠0\] Prueba de hipótesis para la pendiente: \[H_0:β_1=0\] \[H_a:β_1≠0\] Los valores-p de los estimadores rechazan las hipótesis nulas de sus pruebas correspondientes, de modo que si son significativos.
Los estimadores son \(β_0=329.4,β_1=1.194,σ^2=342.9\). La ecuación del modelo ajustado sería: \[Precio=329.4+1.194Costo+ε ,ε∼N(0,342.9)\]
Según la ecuación, si el costo es 0, el precio esperado sería de aproximadamente 329.4. La pendiente es positiva,indicando que a medida que aumenta el costo, el precio también aumenta; en concreto, cada incremento de 1 en el costo resulta en un aumento de 1.194 en el precio. Adicionalmente, el coeficiente de determinación (R-cuadrado) es de 0.8637. En este caso el 86.37% de la variabilidad del precio se explica por el costo promedio unitario.
Una forma de comprobar la linealidad es ver si la media de los residuos del modelo es igual, o cercana a cero. En este caso,se cumple con una media de praticamente de cero.
## [1] 5.291282e-14
El resultado del test Anderson-Darling muestra un p-value de < 2.2e-16, que es significativamente menor que un α. Por lo tanto, rechazamos la hipótesis nula de normalidad, lo que indica que los residuos no siguen una distribución normal. \[H_0: \ La \ distribución \ es \ normal\] \[H_1:La \ distribución \ no \ es \ normal\]
##
## Anderson-Darling normality test
##
## data: residuos3
## A = 15.911, p-value < 2.2e-16
Utilizamos un gráfico QQ-PLOT para valorar la normalidad visualmente. Al igual que el histograma y un diagrama de cajas.
\[H_0:Existe \ homogeneidad \ en \ las \ varianzas\] \[H_1:No \ existe \ homogeneidad \ en \ las \ varianzas\]
##
## studentized Breusch-Pagan test
##
## data: modelo3
## BP = 172.56, df = 1, p-value < 2.2e-16
Dado que el p-value es significativamente menor que α, rechazamos la hipótesis nula de homocedasticidad. Esto indica que las varianzas de los residuos son distintas, lo que sugiere la presencia de heterocedasticidad en el modelo.
\[H_0:autocorrelación = 0 (independencia)\]
\[H_a:autocorrelación ≠ 0 (no \ hay \ independencia)\]
## lag Autocorrelation D-W Statistic p-value
## 1 0.5454808 0.908419 0
## Alternative hypothesis: rho != 0
Dado que el p-value es 0, que es significativamente menor que un α, rechazamos la hipótesis nula. Esto indica que existe una autocorrelación en los residuos diferente a cero, lo que implica que no son independientes.