##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
La Mercatería, fundada en 2010, surgió con el propósito de fungir como un laboratorio integral para el estudio de mercadeo, logística y consumo masivo en el ámbito universitario. Esto con el fin de proporcionar a los estudiantes, la oportunidad de realizar actividades prácticas como el análisis de ventas.
A partir del 2017, la Mercatería evolucionó de ser un laboratorio académico a un establecimiento de comercio dentro de la Pontificia Universidad Javeriana Cali. Este cambio se originó al reconocer la necesidad de gestionar ventas reales, abandonando los supuestos y proporcionando así una experiencia de aprendizaje más completa. La iniciativa generó nuevas oportunidades laborales, como empleos para cajeros, personal encargado del suministro de mercancías, entre otros.
Adicionalmente, la propuesta de valor de la Mercatería, como un modelo de negocio se enfoca en satisfacer eficientemente las necesidades de los clientes ofreciendo una experiencia de compra óptima en el menor tiempo posible y a precios más bajos en comparación con otros establecimientos de comercio en la universidad como las cafeterías. Esta distinción permite a los consumidores elegir entre ahorrar más al dirigirse a la Mercatería o gastar su excedente en las cafeterías. Los consumidores de la Mercatería están mayoritariamente conformados por estudiantes, quienes tienen edades que oscilan entre los 18 y 22 años, representando el 70% del mercado de la Mercatería. Seguidos de los colaboradores de la universidad, que constituyen un 20%. Además, un 7% corresponde a personas involucradas en posgrados o seminarios, mientras que el 3% restante engloba a visitantes o contratistas.
Actualmente la Mercatería opera en dos puntos físicos, uno en el edificio Guayacanes (siendo el punto principal) y otro en el edificio Almendros. Sin embargo, con el objetivo de satisfacer las necesidades de una mayor población estudiantil, se ha implementado un nuevo enfoque mediante la introducción de máquinas expendedoras en varios edificios de la universidad, incluyendo Almendros, Saman, Cedros, Lago y Central.
Estas máquinas ofrecen una amplia variedad de productos de marcas reconocidas como Colombina, Manitoba, Margarita, Cristal, Coca Cola, Tosh, Nestlé, entre otras. Por lo tanto, resulta importante estudiar su comportamiento para comprender cómo funcionan y así identificar áreas de mejora que permitan optimizar el rendimiento.
Con la implementación de las máquinas expendedoras, es fundamental evaluar tanto la efectividad y accesibilidad de su ubicación, así como la idoneidad de los productos ofrecidos para satisfacer las necesidades y preferencias de los usuarios. Esto implica identificar las familias de productos más vendidos y priorizar su exhibición, al tiempo que se retiran aquellos con escasa rotación. Esto permitirá mejorar la experiencia del usuario y maximizar el rendimiento de las máquinas. En esta ocasión, nos centraremos en analizar el comportamiento de las máquinas expendedoras de la Mercatería desde febrero de 2022 hasta julio de 2023.
Analizar el comportamiento de las máquinas expendedoras de la Mercatería en la Pontificia Universidad Javeriana Cali durante el periodo comprendido entre febrero de 2022 y julio de 2023.
Para este trabajo, se utilizaron herramientas estadísticas y análisis gráfico en R Markdown, centrado especialmente en la relación entre las variables cuantitativas y cualitativas. Para ello, se llevó a cabo un análisis de diversos indicadores estadísticos, tales como la media, la mediana, la desviación estándar, entre otros.
Se elaboraron gráficos estadísticos, como el histograma, el diagrama de barras y el gráfico de dispersión,diagrama de caja (boxplot) lo cual permite visualizar de manera clara la dispersión de los datos.
Asimismo, se realizaron pruebas de hipótesis y regresión lineal.
La base de datos original está compuesta por 17 variables y 5023 observaciones en total. Sin embargo, para efectos del trabajo se realizaron varias filtraciones y cambios, tales como:
• Se eligieron 4 variables cualitativas y 6 variables cuantitativas.
• Se renombraron algunas variables para más facilidad.
• Se utilizó la función “replace_all” para cambiar el nombre de las observaciones en las variables: Categoria, Familia y Ubicación.
A continuación, se listan y definen las variables de interés tenidas en cuenta.
• Ubicacion: edificio donde se encuentra instalada la máquina expendedora de la Mercatería (“ALMENDROS”, “CEDROS UNO”,“CEDROS DOS,”CENTRAL UNO”,“CENTRAL DOS”,“CENTRAL TRES”,“LAGO UNO”,“LAGO DOS”,“SAMAN”).
• Categoria: indica el tipo de producto ofrecido por la Mercatería (“ALIMENTOS”,“BEBIDAS”).
• Familia: familia a la que pertenece el tipo de producto ofrecido por la Mercatería (“AGUA”,“AGUA CON GAS”,“BEBIDA AROMATICA”,“BEBIDA SABORIZADA”,“CONFITERIA”,“CONSERVAS”,“DESAYUNO”,“FIESTA”, “GALLETERIA”, “GASEOSAS”,“LACTEOS”,“PASABOCAS”,“PONQUES”,“REPOSTERIA).
• Subfamilia: subfamilia a la que pertenece el tipo de producto ofrecido por la Mercatería.
• Unidades: cantidad de unidades vendidas en las máquinas expendedoras de la Mercatería.
• Precio: precio de cada producto puesto a la venta en las máquinas expendedoras en pesos colombianos.
• Costo_promedio_unitario: cálculo de la media del costo de los productos puestos a la venta en pesos colombianos.
• Margen_promedio: representa la ganancia promedio que se obtiene por cada unidad vendida.
• Ventas: es la cantidad total de ingresos generados por la venta de productos en las máquinas expendedoras durante un tiempo determinado en pesos colombianos.
• Utilidad: es la ganancia que se obtiene de la venta total de los productos en las máquinas expendedoras. Se calcula como el producto de las ventas totales con el margen promedio en pesos colombianos.
##
## Attaching package: 'table1'
## The following objects are masked from 'package:base':
##
## units, units<-
Overall (N=5023) |
|
---|---|
Ubicación | |
ALMENDROS | 527 (10.5%) |
CEDROS DOS | 517 (10.3%) |
CEDROS UNO | 536 (10.7%) |
CENTRAL DOS | 528 (10.5%) |
CENTRAL TRES | 601 (12.0%) |
CENTRAL UNO | 579 (11.5%) |
LAGO DOS | 573 (11.4%) |
LAGO UNO | 566 (11.3%) |
SAMAN | 596 (11.9%) |
Categoria | |
ALIMENTOS | 3127 (62.3%) |
BEBIDAS | 1896 (37.7%) |
Familia | |
AGUA | 337 (6.7%) |
AGUA CON GAS | 3 (0.1%) |
BEBIDA AROMATICA | 7 (0.1%) |
BEBIDA SABORIZADA | 548 (10.9%) |
CONFITERIA | 1341 (26.7%) |
CONSERVAS | 19 (0.4%) |
DESAYUNO | 166 (3.3%) |
FIESTA | 376 (7.5%) |
GALLETERIA | 1076 (21.4%) |
GASEOSAS | 554 (11.0%) |
LACTEOS | 471 (9.4%) |
PASABOCAS | 90 (1.8%) |
PONQUES | 22 (0.4%) |
REPOSTERIA | 13 (0.3%) |
Subfamilia | |
3010 - AGUA | 134 (2.7%) |
3012 - AGUA CON GAS | 3 (0.1%) |
3014 - AGUA SABORIZADA | 203 (4.0%) |
3027 - AVENA | 102 (2.0%) |
3028 - AVENA DESLACTOSADA | 21 (0.4%) |
3029 - AVENA LIGHT | 51 (1.0%) |
3064 - CEREALES | 4 (0.1%) |
3068 - CHOCOLATES | 173 (3.4%) |
3089 - CREMA DE CHOCOLATE | 13 (0.3%) |
3120 - ENERGIZANTE | 178 (3.5%) |
3134 - GALLETAS DULCES | 824 (16.4%) |
3135 - GALLETAS SALADAS | 252 (5.0%) |
3136 - GASEOSA | 513 (10.2%) |
3145 - GOLOSINAS | 92 (1.8%) |
3167 - JUGOS | 276 (5.5%) |
3178 - LECHE | 41 (0.8%) |
3180 - LECHE DESLACTOSADA | 22 (0.4%) |
3183 - LECHE SABORIZADA | 206 (4.1%) |
3194 - MALTA | 41 (0.8%) |
3236 - POLVO AZUCARADO | 3 (0.1%) |
3253 - SALCHICHAS | 19 (0.4%) |
3267 - SNACKS | 1392 (27.7%) |
3281 - TE | 94 (1.9%) |
3282 - TÈ | 7 (0.1%) |
3292 - TORTAS | 22 (0.4%) |
3311 - YOGURT | 4 (0.1%) |
3313 - YOGURT CON CEREAL | 162 (3.2%) |
3317 - YOGURT NIÑOS | 24 (0.5%) |
Missing | 147 (2.9%) |
Unidades | |
Mean (SD) | 30.5 (34.6) |
Median [Min, Max] | 20.0 [1.00, 379] |
Precio | |
Mean (SD) | 2210 (929) |
Median [Min, Max] | 2100 [200, 5500] |
Costo_promedio_unitario | |
Mean (SD) | 1570 (723) |
Median [Min, Max] | 1520 [114, 3870] |
Margen_promedio | |
Mean (SD) | 31.5 (15.2) |
Median [Min, Max] | 32.0 [-762, 95.2] |
Ventas | |
Mean (SD) | 60300 (68200) |
Median [Min, Max] | 40800 [200, 777000] |
Utilidad | |
Mean (SD) | 19300 (26500) |
Median [Min, Max] | 11900 [-20000, 472000] |
La Mercatería distribuye sus productos mediante nueve máquinas expendedoras, siendo tres de ellas en la plazoleta central, dos en Cedro, dos Lagos, una en Almendros y una en Saman.
En el gráfico se observa el rendimiento de las máquinas expendedoras, destacando que la máquina ubicada en Central tres, fue la más utilizada, alcanzando un 12% del total de ventas, con 601 transacciones. Esto se debe probablemente a su ubicación en la zona más transitada de la universidad, lo que la hace más visible y accesible. Por otro lado, la máquina situada en el edificio Cedro Rosado dos, fue la menos utilizada, con un 10,3% de participación en las ventas, totalizando 517 transacciones. Esto podría explicarse por la menor afluencia de personas en ese edificio, ya que es el más alejado de la universidad.
Los productos de las máquinas expendedoras de la Mercatería se dividen en dos categorías: Alimentos y Bebidas. En el siguiente gráfico podemos observar que la mayoría de productos que se venden pertenecen a la categoría de alimentos, con un total de 3127 productos, el cual representa el 62.3%. Mientras que los productos de la categoría de bebidas se venden en menos cantidad, con un total de 1896, que representa el 37.7%.
Adicionalmente, en el diagrama de cajas correspondiente a la variable categoría, se observa que los datos están muy agrupados, indicando que los valores son muy similares entre sí. Aunque algunos productos se encuentran fuera del rango principal, no se consideran atípicos debido al gran tamaño de la base de datos. Por lo tanto, ambas cajas muestran que la mayoría de los datos están concentrados en un rango estrecho de valores.
Dentro de las 14 familias de productos de Mercatería, se observa que la mayoría de los productos vendidos en las máquinas expendedoras pertenecen a confitería, con un total de 1,341 productos (26.7%), incluyendo chocolates, golosinas y snacks. En contraste, los productos de agua con gas y bebida aromática son los menos vendidos, con solo 3 unidades (0.1%) y 7 unidades (0.1%) respectivamente.
Por otro lado, en cuanto al costo promedio de las familias de productos, se observa que las categorías con mayores costos son confitería, galletería y lácteos.
En relación con los ingresos y la utilidad por familia de productos, se evidencia que aunque confitería es aquella con más unidades vendidas, no es la que genera la mayor utilidad. De hecho, la familia que genera la mayor utilidad es el agua, a pesar de tener menos unidades vendidas. Además, se puede evidenciar que las familias de gaseosas, bebidas saborizadas y galletería también generan una alta utilidad. En contraste, las categorías de lácteos y pasabocas tienen una utilidad muy baja.
El promedio de ventas diarias es de 31 productos, contando con días con una sola venta y otros con 379 ventas. Su desviación estándar es de 34,6 y la mediana de 20.
El precio promedio de los productos puestos a la venta en las máquinas expendedoras es de 2210 pesos, además de encontrar que el producto más barato cuesta 200 pesos y el más caro 5500 pesos.
En este histograma, que muestra la frecuencia de los precios de los productos de las máquinas expendedoras, se observa que el precio más común es de 2000 pesos. Además, el histograma tiende a ser simétrico, reflejando un comportamiento equilibrado en la distribución de los precios.
La media de los costos promedio unitarios de los productos de las máquinas expendedoras es de 1570 pesos, siendo el mínimo de 114 pesos y el máximo de 3870. Su desviación estándar es de 723 y la mediana de 1520.
En este histograma podemos ver la frecuencia con la que los productos toman ciertos costos unitarios, por ejemplo podemos ver que el costo unitario más recurrente está entre los 500 pesos y los 2000 pesos, estando presente en unos 1200 productos. Además podemos observar que este histograma cuenta con una asimetría positiva o sesgo hacia la derecha.
En cuanto al margen que aportan los productos de las máquinas expendedoras, el promedio aportado es de 31,5 pesos, además de tener un mínimo en negativo, -762 pesos, que representaría más costos que beneficios, y un máximo de de 95,2 pesos.
El promedio de ventas totales que realizan las máquinas vending es de 60300 pesos, contando con un mínimo de 200 pesos y un máximo de 777000 pesos. Su mediana es de 40800.
La utilidad promedio que generan las máquinas vending es de 19300 pesos, con un mínimo que representa pérdidas de 20000 pesos, y con un máximo de utilidad de 472000 pesos
A continuación realizamos pruebas de hipótesis y calculamos intervalos de confianza utilizando las variables cuantitativas “Unidades” y “Utilidad”. Además, se tomó la variable cualitativa “Categorías”, la cual se conforma por las opciones “ALIMENTOS” y “BEBIDAS”.
##
## One Sample t-test
##
## data: Unidades
## t = 62.422, df = 5022, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## 29.51618 31.43027
## sample estimates:
## mean of x
## 30.47322
## [1] 34.59876
La media de la variable de unidades es 30.47322 y su desviación estándar es 34.59876. Con una confiabilidad del 95%, el promedio de unidades se encuentra en el intervalo (29.51618,31.43027).
##
## One Sample t-test
##
## data: Utilidad
## t = 51.619, df = 5022, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## 18570.54 20036.82
## sample estimates:
## mean of x
## 19303.68
## [1] 26504.23
La media de la variable de utilidad es 19303.68 y su desviación estándar es 26504.23. Con una confiabilidad del 95%, el promedio de la utilidad se encuentra en el intervalo (18570.54, 20036.82).
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ forcats 1.0.0 ✔ readr 2.1.5
## ✔ lubridate 1.9.3 ✔ tibble 3.2.1
## ✔ purrr 1.0.2 ✔ tidyr 1.3.1
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
Las unidades promedio de alimentos es de 27.68884, mientras que las unidades promedio de bebidas es de 35.06540.
La desviación de las unidades de la categoría Alimentos es de 32, aproximadamente. Y la desviación de las unidades de la categoría Bebidas es de 39, aproximadamente.
El promedio de la utilidad de los alimentos es de 13268.18,mientras que el promedio de las bebidas es de 29257.80.
La desviación de la utilidad de la categoría Alimentos es de 15377.46 Y la desviación de la utilidad de la categoría Bebidas es de 36226.05
Queremos verificar si el promedio de unidades es menor a 35, utilizando un nivel de confianza del 95%.
\[𝐻_0:𝜇 ≥ 35\] \[𝐻_a:𝜇 < 35\]
##
## One Sample t-test
##
## data: Unidades
## t = -9.2728, df = 5022, p-value < 2.2e-16
## alternative hypothesis: true mean is less than 35
## 95 percent confidence interval:
## -Inf 31.27635
## sample estimates:
## mean of x
## 30.47322
\[Si \ p-value < α, \ rechazo \ 𝐻_0\]
\[2.2e-16 < 0.05\]
Como el p-value es mucho menor que el nivel de significancia de 0.05, se rechaza la hipótesis nula. Esto indica que hay suficiente evidencia para afirmar que el promedio de unidades es menor a 35. El intervalo de confianza es (−Inf,31.27635).Esto quiere decir que, con un 95% de confianza, el verdadero promedio de unidades está por debajo de 31.27635.
Se estima que el promedio de la utilidad es mayor a 20.000, utilizando un nivel de confianza del 99%.
\[𝐻_0:𝜇 ≤ 20000\]
\[𝐻_a:𝜇 > 20000\]
##
## One Sample t-test
##
## data: Utilidad
## t = -1.862, df = 5022, p-value = 0.9687
## alternative hypothesis: true mean is greater than 20000
## 99 percent confidence interval:
## 18433.42 Inf
## sample estimates:
## mean of x
## 19303.68
\[Si \ p-value < α, \ rechazo \ 𝐻_0\]
\[0.9687 < 0.01\]
Como el p-value (0.9687) es mucho mayor que el nivel de significancia de 0.01, no se rechaza la hipótesis nula. Esto significa que no hay suficiente evidencia para concluir que el promedio de la utilidad es mayor a 20.000. El intervalo de confianza es (18433.42, Inf).Esto significa que, con un 99% de confianza, el verdadero promedio de utilidad está por encima de 18433.42.
Se estima que la proporcion de alimentos es mayor o igual del 70%, con una confiabilidad del 99%.
\[𝐻_0: p ≥ 0.7\]
\[𝐻_a: p < 0.7\]
##
## 1-sample proportions test with continuity correction
##
## data: 3127 out of 5023, null probability 0.7
## X-squared = 143.16, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is less than 0.7
## 99 percent confidence interval:
## 0.0000000 0.6384066
## sample estimates:
## p
## 0.6225363
\[Si \ p-value < α, \ rechazo \ 𝐻_0\]
\[2.2e-16 < 0.01\]
Como el p-value es mucho más pequeño que 0.01,se rechaza la hipótesis nula. Por lo tanto, se puede afirmar que la proporción de alimentos en la muestra es menor al 70%. El intervalo de confianza es (0, 0.6384066).Esto significa que, con un 99% de confianza, la proporción de alimentos está por debajo de 0.6384066.
En el análisis se considera que la proporcion de bebidas es menor o igual al 30%.
\[𝐻_0: p ≤ 0.30\]
\[𝐻_a: p > 0.30\]
##
## 1-sample proportions test with continuity correction
##
## data: 1896 out of 5023, null probability 0.3
## X-squared = 143.16, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is greater than 0.3
## 95 percent confidence interval:
## 0.3661832 1.0000000
## sample estimates:
## p
## 0.3774637
\[Si \ p-value < α, \ rechazo \ 𝐻_0\]
\[2.2e-16 < 0.05\]
Como el p-value es mucho menor que 0.05, se rechaza la hipótesis nula. Esto significa que la proporción de bebidas en la muestra es mayor al 30%. El intervalo de confianza es (0.3661832, 1).Esto significa que, con un 95% de confianza, la proporción de alimentos está por encima de 0.3661832, y debajo de 1.
Se considera que el promedio de las unidades de los alimentos es superior al de las bebidas por al menos 8
\[𝐻_0:μA − μB ≤ 8\]
\[𝐻_a:μA − μB > 8\]
##
## Welch Two Sample t-test
##
## data: UniA and UniB
## t = -14.619, df = 3403.7, p-value = 1
## alternative hypothesis: true difference in means is greater than 8
## 95 percent confidence interval:
## -9.107088 Inf
## sample estimates:
## mean of x mean of y
## 27.68884 35.06540
\[Si \ p-value < α, \ rechazo \ 𝐻_0\]
\[1 < 0.05\]
Dado que el p-value es 1, no se puede rechazar la hipótesis nula. Esto significa que no hay evidencia para afirmar que el promedio de las unidades de alimentos es superior al de las bebidas por más de 8 unidades. El intervalo de confianza del 95% es (-9.107088, Inf), lo que impone que,la diferencia entre los promedios de las unidades de alimentos y bebidas podría ser cualquier valor mayor o igual a -9.107088.
Se considera que el promedio de utilidad entre alimentos y bebidas es igual.
\[𝐻_0: μA - μB = 0\]
\[𝐻_a: μA - μB ≠ 0\]
##
## Welch Two Sample t-test
##
## data: UtilA and UtilB
## t = -18.248, df = 2314.9, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 99 percent confidence interval:
## -18248.49 -13730.74
## sample estimates:
## mean of x mean of y
## 13268.18 29257.80
\[Si \ p-value < α, \ rechazo \ 𝐻_0\]
\[2.2e-16 < 0.01\]
Dado que el p-value es 2.2e-16, y este valor es mucho menor que 0.01, se rechaza la hipótesis nula. Por lo tanto, el promedio de la utilidad entre los alimentos y las bebidas es significativamente diferente. El intervalo de confianza del 99% indica que la diferencia entre los promedios de utilidad de los alimentos y bebidas se encuentra entre -18,248.49 y -13,730.74. Como este intervalo es negativo, podemos concluir que la utilidad promedio de los alimentos es menor que la de las bebidas.
Se estima que la proporción de alimentos es diferente a la de bebidas. Con una confiabilidad del 90%.
\[𝐻_0: PA - PB = 0\]
\[𝐻_a: PA - PB ≠ 0\]
##
## 2-sample test for equality of proportions with continuity correction
##
## data: c(3127, 1896) out of c(5023, 5023)
## X-squared = 602.39, df = 1, p-value < 2.2e-16
## alternative hypothesis: two.sided
## 90 percent confidence interval:
## 0.2289632 0.2611821
## sample estimates:
## prop 1 prop 2
## 0.6225363 0.3774637
\[Si \ p-value < α, \ rechazo \ 𝐻_0\]
\[2.2e-16 < 0.1\]
Dado que el p-value es mucho menor que 0.1, se rechaza la hipótesis nula. Por lo tanto, se concluye que existe evidencia para afirmar que la proporción de alimentos es diferente a la proporción de bebidas. El intervalo de confianza del 90% indica que la diferencia entre las proporciones de alimentos y bebidas se encuentra entre 0.2289 y 0.2612. Teniendo en cuenta que este intervalo es positivo, podemos concluir que la proporción de alimentos es mayor que la de bebidas.
## Loading required package: carData
##
## Attaching package: 'car'
## The following object is masked from 'package:purrr':
##
## some
## The following object is masked from 'package:dplyr':
##
## recode
##
## Attaching package: 'psych'
## The following object is masked from 'package:car':
##
## logit
## The following objects are masked from 'package:ggplot2':
##
## %+%, alpha
## Loading required package: zoo
##
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
##
## as.Date, as.Date.numeric
Ahora bien,por medio de algunas de las variables cuantitativas,utilizamos el concepto de correlación y regresión lineal. También abordamos la revisión de algunos de los supuestos del modelo tales como linealidad,normalidad,homocedasticidad e independencia.
Se tiene como variable dependiente o respuesta a la utilidad e independiente a las unidades, veamos a la relación existente entre ambas variables, gráficamente y, a nivel de correlación. Si creamos un plot de ambas variables (x = Unidades, y = Utilidad) podemos ver como hay una relación positiva entre ellas.
Planteemos la siguiente hipótesis:
\[H_a: A \ mayor \ cantidad \ de \ productos \ vendidos, \ las \ utilidades \ aumentan \ de \ manera \ positiva(relación \ directa)\]
##
## Pearson's product-moment correlation
##
## data: Mercateria$Unidades and Mercateria$Utilidad
## t = 81.613, df = 5021, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.7429645 0.7667486
## sample estimates:
## cor
## 0.7551049
## `geom_smooth()` using formula = 'y ~ x'
Las unidades vendidas y la utilidad generada muestra una correlación de 0.75, lo que indica una relación positiva fuerte. Esto sugiere que, en general, a medida que se venden más productos, la utilidad también tiende a incrementarse.Esto se debe a que, con un mayor volumen de ventas, los costos fijos se distribuyen entre más unidades, lo que reduce el costo por unidad y aumenta la rentabilidad.
Adicionalmente, el gráfico muestra un punto máximo de utilidad cerca de las 250 unidades vendidas, indicando que este es el nivel de ventas más rentable. A partir de este punto, cualquier aumento adicional en la cantidad vendida sigue contribuyendo positivamente a la utilidad. También se observa que hay puntos de pérdida entre las primeras 100 unidades vendidas. Esto sugiere que al principio, las ventas no son suficientes para cubrir los costos. Sin embargo, una vez que se supera este umbral, cada unidad adicional vendida contribuye de manera significativa a la utilidad total.
##
## Call:
## lm(formula = Mercateria$Utilidad ~ Mercateria$Unidades, data = Mercateria)
##
## Residuals:
## Min 1Q Median 3Q Max
## -134893 -4231 -1102 3672 321258
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1676.604 326.758 5.131 2.99e-07 ***
## Mercateria$Unidades 578.445 7.088 81.613 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 17380 on 5021 degrees of freedom
## Multiple R-squared: 0.5702, Adjusted R-squared: 0.5701
## F-statistic: 6661 on 1 and 5021 DF, p-value: < 2.2e-16
Prueba de hipótesis para el intercepto: \[H_0:β_0=0\] \[H_a:β_0≠0\] Prueba de hipótesis para la pendiente: \[H_0:β_1=0\] \[H_a:β_1≠0\] En primer lugar, los p-value para los estimadores son bastante pequeños,por lo tanto, se rechazan las hipótesis nulas y se validan las hipótesis alternativas, así mismo, se puede asegurar que los valores de los estimadores si son significativos puesto que son distintos de cero.
Los estimadores son \(β_0=1676.604,β_1=578.445,σ^2=17380\),mientras que la ecuación del modelo ajustado quedaría de la forma: \[Utilidad=1676.604+578.445Unidades+ε ,ε∼N(0,17380^2)\]
Según la ecuación, si no se venden ninguna de las unidades de los productos, la utilidad esperada sería de aproximadamente 1676.604. La pendiente es positiva, lo que indica que a medida que se venden más productos, la utilidad aumenta; en concreto, cada unidad adicional vendida incrementa la utilidad en 578.445. Adicionalmente, el coeficiente de determinación (R-cuadrado) es de 0.5702. En este caso el 57.02% de los datos se ajustan al modelo de forma lineal, en otras palabras, dicho porcentaje de la variabilidad de la utilidad se explica por el número de unidades vendidas.
Una forma de comprobar la linealidad es ver si la media de los residuos del modelo es igual, o cercana a cero. En este caso,se cumple con una media de praticamente de cero.
## [1] -1.313641e-13
Para comprobar la normalidad, utilizamos el test de Anderson-Darling, dado que el número de observaciones es superior a 5000 (n=5023). El resultado del test muestra un p-value de < 2.2e-16, que es significativamente menor que un α. Por lo tanto, rechazamos la hipótesis nula de normalidad, lo que indica que los residuos no siguen una distribución normal.
\[H_0: \ La \ distribución \ es \ normal\]
\[H_1:La \ distribución \ no \ es \ normal\]
##
## Anderson-Darling normality test
##
## data: residuos1
## A = 372.02, p-value < 2.2e-16
Al mismo tiempo, utilizamos un gráfico QQ-PLOT para valorar la
normalidad visualmente. En un gráfico Q-Q, los cuantiles de la muestra
se comparan con los cuantiles teóricos de la distribución de interés. Si
los puntos en el gráfico se ajustan aproximadamente a una línea
diagonal, indica que los datos siguen de cerca la distribución teórica
(normal).
A partir de los gráficos se puede decir que la distribución de los residuos no sigue una normalidad perfecta, debido a la presencia de asimetría y valores atípicos.
Para evaluar la homocedasticidad de los residuos utilizamos el test de Breusch-Pagan, con la función bptest().La función captura los residuos guardados en el objeto modelo1 para realizar los cálculos.
\[H_0:Existe \ homogeneidad \ en \ las \ varianzas\] \[H_1:No \ existe \ homogeneidad \ en \ las \ varianzas\]
##
## studentized Breusch-Pagan test
##
## data: modelo1
## BP = 845.43, df = 1, p-value < 2.2e-16
Dado que el p-value es significativamente menor que α, rechazamos la hipótesis nula de homocedasticidad. Esto indica que las varianzas de los residuos son distintas, lo que sugiere la presencia de heterocedasticidad en el modelo.
\[H_0:autocorrelación = 0 (independencia)\]
\[H_a:autocorrelación ≠ 0 (no \ hay \ independencia)\]
## lag Autocorrelation D-W Statistic p-value
## 1 0.3835767 1.232587 0
## Alternative hypothesis: rho != 0
Dado que el p-value es 0, que es significativamente menor que un α, rechazamos la hipótesis nula. Esto indica que existe una autocorrelación en los residuos diferente a cero, lo que implica que no son independientes. El valor del estadístico de Durbin-Watson (1.23) se encuentra bastante por debajo del valor esperado (2) para un modelo sin autocorrelación, lo que refuerza la conclusión de que los residuos presentan correlación positiva.
Se tiene como variable dependiente o respuesta las ventas e independiente a las unidades, veamos a la relación existente entre ambas variables, gráficamente y, a nivel de correlación. Si creamos un plot de ambas variables (x = Unidades, y = Ventas) podemos ver como hay una relación positiva entre ellas.
Planteemos la siguiente hipótesis:
\[H_a: A \ mayor \ cantidad \ de \ productos \ vendidos, \ las \ ventas \ aumentan \ de \ manera \ positiva(relación \ directa)\]
##
## Pearson's product-moment correlation
##
## data: Mercateria$Unidades and Mercateria$Ventas
## t = 106.35, df = 5021, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.8235068 0.8405201
## sample estimates:
## cor
## 0.8322092
## `geom_smooth()` using formula = 'y ~ x'
Las unidades vendidas y las ventas generadas muestran una correlación de 0.83, lo que indica una relación positiva fuerte. Esto sugiere que, en general, a medida que se venden más productos, las ventas también tiende a incrementarse.
##
## Call:
## lm(formula = Mercateria$Ventas ~ Mercateria$Unidades, data = Mercateria)
##
## Residuals:
## Min 1Q Median 3Q Max
## -278496 -12659 -4865 10117 341674
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 10265.58 711.41 14.43 <2e-16 ***
## Mercateria$Unidades 1641.16 15.43 106.36 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 37840 on 5021 degrees of freedom
## Multiple R-squared: 0.6926, Adjusted R-squared: 0.6925
## F-statistic: 1.131e+04 on 1 and 5021 DF, p-value: < 2.2e-16
Prueba de hipótesis para el intercepto: \[H_0:β_0=0\] \[H_a:β_0≠0\] Prueba de hipótesis para la pendiente: \[H_0:β_1=0\] \[H_a:β_1≠0\] Este modelo se comporta de foma muy similar al anterior, los valores-p de los estimadores rechazan las hipótesis nulas de sus pruebas correspondientes, de modo que si son significativos. El valor-p de todo el modelo también indica que tiene sentido aplicar el modelo de regresión a las variables seleccionadas.
Los estimadores son \(β_0=10265.58,β_1=1641.16,σ^2=37840\),mientras que la ecuación del modelo ajustado quedaría de la forma: \[Ventas=10265.58+1641.16Unidades+ε ,ε∼N(0,37840^2)\]
Según la ecuación, si no se venden ninguna de las unidades de los productos, las ventas esperada serían de aproximadamente 10265.58. La pendiente es positiva, lo que indica que a medida que se venden más productos, las ventas aumenta; en concreto, cada unidad adicional vendida incrementa las ventas en 1641.16. Adicionalmente, el coeficiente de determinación (R-cuadrado) es de 0.6926. En este caso el 69.26% de la variabilidad de las ventas se explica por el número de unidades vendidas.
Una forma de comprobar la linealidad es ver si la media de los residuos del modelo es igual, o cercana a cero. En este caso,se cumple con una media de praticamente de cero.
## [1] -1.188334e-12
Para comprobar la normalidad, utilizamos el test de Anderson-Darling. El resultado del test muestra un p-value de < 2.2e-16, que es significativamente menor que un α. Por lo tanto, rechazamos la hipótesis nula de normalidad, lo que indica que los residuos no siguen una distribución normal.
\[H_0: \ La \ distribución \ es \ normal\]
\[H_1:La \ distribución \ no \ es \ normal\]
##
## Anderson-Darling normality test
##
## data: residuos2
## A = 243.54, p-value < 2.2e-16
Al mismo tiempo, utilizamos un gráfico QQ-PLOT para valorar la
normalidad visualmente.
La distribución de los residuos no sigue una normalidad perfecta, debido a la presencia de asimetría y valores atípicos.
\[H_0:Existe \ homogeneidad \ en \ las \ varianzas\] \[H_1:No \ existe \ homogeneidad \ en \ las \ varianzas\]
##
## studentized Breusch-Pagan test
##
## data: modelo2
## BP = 1573.7, df = 1, p-value < 2.2e-16
Dado que el p-value es significativamente menor que α, rechazamos la hipótesis nula de homocedasticidad. Esto indica que las varianzas de los residuos son distintas, lo que sugiere la presencia de heterocedasticidad en el modelo.
\[H_0:autocorrelación = 0 (independencia)\]
\[H_a:autocorrelación ≠ 0 (no \ hay \ independencia)\]
## lag Autocorrelation D-W Statistic p-value
## 1 0.4207133 1.158514 0
## Alternative hypothesis: rho != 0
Dado que el p-value es 0, que es significativamente menor que un α, rechazamos la hipótesis nula. Esto indica que existe una autocorrelación en los residuos diferente a cero, lo que implica que no son independientes. El valor del estadístico de Durbin-Watson (1.15) se encuentra bastante por debajo del valor esperado (2) para un modelo sin autocorrelación, lo que refuerza la conclusión de que los residuos presentan correlación positiva.
Se tiene como variable dependiente o respuesta el precio e independiente costo promedio unitario, veamos a la relación existente entre ambas variables, gráficamente y, a nivel de correlación. Si creamos un plot de ambas variables (x = Costo, y = Precio) podemos ver como hay una relación positiva entre ellas.
Planteemos la siguiente hipótesis:
\[H_a: A \ mayor \ costo \ promedio \ unitario, \ el \ precio \ de \ venta \ aumenta \ de \ manera \ positiva(relación \ directa)\]
##
## Pearson's product-moment correlation
##
## data: Mercateria$Precio and Mercateria$Costo_promedio_unitario
## t = 178.36, df = 5021, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.9254756 0.9330205
## sample estimates:
## cor
## 0.929345
## `geom_smooth()` using formula = 'y ~ x'
El costo promedio unitario y el precio muestran una correlación de 0.929, lo que indica una relación positiva muy fuerte. Esto sugiere que, en general, a medida que los costos de los productos son mayores, los precios también tiende a incrementarse.
##
## Call:
## lm(formula = Mercateria$Precio ~ Mercateria$Costo_promedio_unitario,
## data = Mercateria)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2188.78 -231.41 -22.82 220.98 1916.61
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.294e+02 1.158e+01 28.43 <2e-16 ***
## Mercateria$Costo_promedio_unitario 1.194e+00 6.697e-03 178.36 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 342.9 on 5021 degrees of freedom
## Multiple R-squared: 0.8637, Adjusted R-squared: 0.8637
## F-statistic: 3.181e+04 on 1 and 5021 DF, p-value: < 2.2e-16
Prueba de hipótesis para el intercepto: \[H_0:β_0=0\] \[H_a:β_0≠0\] Prueba de hipótesis para la pendiente: \[H_0:β_1=0\] \[H_a:β_1≠0\] Los valores-p de los estimadores rechazan las hipótesis nulas de sus pruebas correspondientes, de modo que si son significativos.
Los estimadores son \(β_0=329.4,β_1=1.194,σ^2=342.9\). La ecuación del modelo ajustado sería: \[Precio=329.4+1.194Costo+ε ,ε∼N(0,342.9^2)\]
Según la ecuación, si el costo es 0, el precio esperado sería de aproximadamente 329.4. La pendiente es positiva,indicando que a medida que aumenta el costo, el precio también aumenta; en concreto, cada incremento de 1 en el costo resulta en un aumento de 1.194 en el precio. Adicionalmente, el coeficiente de determinación (R-cuadrado) es de 0.8637. En este caso el 86.37% de la variabilidad del precio se explica por el costo promedio unitario.
Una forma de comprobar la linealidad es ver si la media de los residuos del modelo es igual, o cercana a cero. En este caso,se cumple con una media de praticamente de cero.
## [1] 5.291282e-14
El resultado del test Anderson-Darling muestra un p-value de < 2.2e-16, que es significativamente menor que un α. Por lo tanto, rechazamos la hipótesis nula de normalidad, lo que indica que los residuos no siguen una distribución normal. \[H_0: \ La \ distribución \ es \ normal\] \[H_1:La \ distribución \ no \ es \ normal\]
##
## Anderson-Darling normality test
##
## data: residuos3
## A = 15.911, p-value < 2.2e-16
Utilizamos un gráfico QQ-PLOT para valorar la normalidad visualmente. Al igual que el histograma y un diagrama de cajas.
\[H_0:Existe \ homogeneidad \ en \ las \ varianzas\] \[H_1:No \ existe \ homogeneidad \ en \ las \ varianzas\]
##
## studentized Breusch-Pagan test
##
## data: modelo3
## BP = 172.56, df = 1, p-value < 2.2e-16
Dado que el p-value es significativamente menor que α, rechazamos la hipótesis nula de homocedasticidad. Esto indica que las varianzas de los residuos son distintas, lo que sugiere la presencia de heterocedasticidad en el modelo.
\[H_0:autocorrelación = 0 (independencia)\]
\[H_a:autocorrelación ≠ 0 (no \ hay \ independencia)\]
## lag Autocorrelation D-W Statistic p-value
## 1 0.5454808 0.908419 0
## Alternative hypothesis: rho != 0
Dado que el p-value es 0, que es significativamente menor que un α, rechazamos la hipótesis nula. Esto indica que existe una autocorrelación en los residuos diferente a cero, lo que implica que no son independientes.
La base de datos fue proporcionada por la Mercateria con fines netamente académicos.