I. Introducción
II. Problema de estudio
III. Objetivos
- General
IV. Metodología
- Identificación de dataset - Tratamiento de datos
V. Resultados y análisis
VI. Pruebas de hipótesis
VII. Regresión lineal y supuestos
Referencia

## 
## Attaching package: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

I. Introducción

La Mercatería, fundada en 2010, surgió con el propósito de fungir como un laboratorio integral para el estudio de mercadeo, logística y consumo masivo en el ámbito universitario. Esto con el fin de proporcionar a los estudiantes, la oportunidad de realizar actividades prácticas como el análisis de ventas.

A partir del 2017, la Mercatería evolucionó de ser un laboratorio académico a un establecimiento de comercio dentro de la Pontificia Universidad Javeriana Cali. Este cambio se originó al reconocer la necesidad de gestionar ventas reales, abandonando los supuestos y proporcionando así una experiencia de aprendizaje más completa. La iniciativa generó nuevas oportunidades laborales, como empleos para cajeros, personal encargado del suministro de mercancías, entre otros.

Adicionalmente, la propuesta de valor de la Mercatería, como un modelo de negocio se enfoca en satisfacer eficientemente las necesidades de los clientes ofreciendo una experiencia de compra óptima en el menor tiempo posible y a precios más bajos en comparación con otros establecimientos de comercio en la universidad como las cafeterías. Esta distinción permite a los consumidores elegir entre ahorrar más al dirigirse a la Mercatería o gastar su excedente en las cafeterías. Los consumidores de la Mercatería están mayoritariamente conformados por estudiantes, quienes tienen edades que oscilan entre los 18 y 22 años, representando el 70% del mercado de la Mercatería. Seguidos de los colaboradores de la universidad, que constituyen un 20%. Además, un 7% corresponde a personas involucradas en posgrados o seminarios, mientras que el 3% restante engloba a visitantes o contratistas.

Actualmente la Mercatería opera en dos puntos físicos, uno en el edificio Guayacanes (siendo el punto principal) y otro en el edificio Almendros. Sin embargo, con el objetivo de satisfacer las necesidades de una mayor población estudiantil, se ha implementado un nuevo enfoque mediante la introducción de máquinas expendedoras en varios edificios de la universidad, incluyendo Almendros, Saman, Cedros, Lago y Central.

Estas máquinas ofrecen una amplia variedad de productos de marcas reconocidas como Colombina, Manitoba, Margarita, Cristal, Coca Cola, Tosh, Nestlé, entre otras. Por lo tanto, resulta importante estudiar su comportamiento para comprender cómo funcionan y así identificar áreas de mejora que permitan optimizar el rendimiento.

II. Problema de estudio

Con la implementación de las máquinas expendedoras, es fundamental evaluar tanto la efectividad y accesibilidad de su ubicación, así como la idoneidad de los productos ofrecidos para satisfacer las necesidades y preferencias de los usuarios. Esto implica identificar las familias de productos más vendidos y priorizar su exhibición, al tiempo que se retiran aquellos con escasa rotación. Esto permitirá mejorar la experiencia del usuario y maximizar el rendimiento de las máquinas. En esta ocasión, nos centraremos en analizar el comportamiento de las máquinas expendedoras de la Mercatería desde febrero de 2022 hasta julio de 2023.

III. Objetivos

General

Analizar el comportamiento de las máquinas expendedoras de la Mercatería en la Pontificia Universidad Javeriana Cali durante el periodo comprendido entre febrero de 2022 y julio de 2023.

IV. Metodología

Para este trabajo, se utilizaron herramientas estadísticas y análisis gráfico en R Markdown, centrado especialmente en la relación entre las variables cuantitativas y cualitativas. Para ello, se llevó a cabo un análisis de diversos indicadores estadísticos, tales como la media, la mediana, la desviación estándar, entre otros.

Se elaboraron gráficos estadísticos, como el histograma, el diagrama de barras y el gráfico de dispersión,diagrama de caja (boxplot) lo cual permite visualizar de manera clara la dispersión de los datos.

Asimismo, se realizaron pruebas de hipótesis y regresión lineal.

Identificación de dataset - Tratamiento de datos

La base de datos original está compuesta por 17 variables y 5023 observaciones en total. Sin embargo, para efectos del trabajo se realizaron varias filtraciones y cambios, tales como:

• Se eligieron 4 variables cualitativas y 6 variables cuantitativas.

• Se renombraron algunas variables para más facilidad.

• Se utilizó la función “replace_all” para cambiar el nombre de las observaciones en las variables: Categoria, Familia y Ubicación.

A continuación, se listan y definen las variables de interés tenidas en cuenta.

Variables cualitativas:

• Ubicacion: edificio donde se encuentra instalada la máquina expendedora de la Mercatería (“ALMENDROS”, “CEDROS UNO”,“CEDROS DOS,”CENTRAL UNO”,“CENTRAL DOS”,“CENTRAL TRES”,“LAGO UNO”,“LAGO DOS”,“SAMAN”).

• Categoria: indica el tipo de producto ofrecido por la Mercatería (“ALIMENTOS”,“BEBIDAS”).

• Familia: familia a la que pertenece el tipo de producto ofrecido por la Mercatería (“AGUA”,“AGUA CON GAS”,“BEBIDA AROMATICA”,“BEBIDA SABORIZADA”,“CONFITERIA”,“CONSERVAS”,“DESAYUNO”,“FIESTA”, “GALLETERIA”, “GASEOSAS”,“LACTEOS”,“PASABOCAS”,“PONQUES”,“REPOSTERIA).

• Subfamilia: subfamilia a la que pertenece el tipo de producto ofrecido por la Mercatería.

Variables cuantitativas:

• Unidades: cantidad de unidades vendidas en las máquinas expendedoras de la Mercatería.

• Precio: precio de cada producto puesto a la venta en las máquinas expendedoras en pesos colombianos.

• Costo_promedio_unitario: cálculo de la media del costo de los productos puestos a la venta en pesos colombianos.

• Margen_promedio: representa la ganancia promedio que se obtiene por cada unidad vendida.

• Ventas: es la cantidad total de ingresos generados por la venta de productos en las máquinas expendedoras durante un tiempo determinado en pesos colombianos.

• Utilidad: es la ganancia que se obtiene de la venta total de los productos en las máquinas expendedoras. Se calcula como el producto de las ventas totales con el margen promedio en pesos colombianos.

V. Resultados y análisis

Variables cualitativas

## 
## Attaching package: 'table1'

## The following objects are masked from 'package:base':
## 
##     units, units<-

	Overall (N=5023)
Ubicación
ALMENDROS	527 (10.5%)
CEDROS DOS	517 (10.3%)
CEDROS UNO	536 (10.7%)
CENTRAL DOS	528 (10.5%)
CENTRAL TRES	601 (12.0%)
CENTRAL UNO	579 (11.5%)
LAGO DOS	573 (11.4%)
LAGO UNO	566 (11.3%)
SAMAN	596 (11.9%)
Categoria
ALIMENTOS	3127 (62.3%)
BEBIDAS	1896 (37.7%)
Familia
AGUA	337 (6.7%)
AGUA CON GAS	3 (0.1%)
BEBIDA AROMATICA	7 (0.1%)
BEBIDA SABORIZADA	548 (10.9%)
CONFITERIA	1341 (26.7%)
CONSERVAS	19 (0.4%)
DESAYUNO	166 (3.3%)
FIESTA	376 (7.5%)
GALLETERIA	1076 (21.4%)
GASEOSAS	554 (11.0%)
LACTEOS	471 (9.4%)
PASABOCAS	90 (1.8%)
PONQUES	22 (0.4%)
REPOSTERIA	13 (0.3%)
Subfamilia
3010 - AGUA	134 (2.7%)
3012 - AGUA CON GAS	3 (0.1%)
3014 - AGUA SABORIZADA	203 (4.0%)
3027 - AVENA	102 (2.0%)
3028 - AVENA DESLACTOSADA	21 (0.4%)
3029 - AVENA LIGHT	51 (1.0%)
3064 - CEREALES	4 (0.1%)
3068 - CHOCOLATES	173 (3.4%)
3089 - CREMA DE CHOCOLATE	13 (0.3%)
3120 - ENERGIZANTE	178 (3.5%)
3134 - GALLETAS DULCES	824 (16.4%)
3135 - GALLETAS SALADAS	252 (5.0%)
3136 - GASEOSA	513 (10.2%)
3145 - GOLOSINAS	92 (1.8%)
3167 - JUGOS	276 (5.5%)
3178 - LECHE	41 (0.8%)
3180 - LECHE DESLACTOSADA	22 (0.4%)
3183 - LECHE SABORIZADA	206 (4.1%)
3194 - MALTA	41 (0.8%)
3236 - POLVO AZUCARADO	3 (0.1%)
3253 - SALCHICHAS	19 (0.4%)
3267 - SNACKS	1392 (27.7%)
3281 - TE	94 (1.9%)
3282 - TÈ	7 (0.1%)
3292 - TORTAS	22 (0.4%)
3311 - YOGURT	4 (0.1%)
3313 - YOGURT CON CEREAL	162 (3.2%)
3317 - YOGURT NIÑOS	24 (0.5%)
Missing	147 (2.9%)
Unidades
Mean (SD)	30.5 (34.6)
Median [Min, Max]	20.0 [1.00, 379]
Precio
Mean (SD)	2210 (929)
Median [Min, Max]	2100 [200, 5500]
Costo_promedio_unitario
Mean (SD)	1570 (723)
Median [Min, Max]	1520 [114, 3870]
Margen_promedio
Mean (SD)	31.5 (15.2)
Median [Min, Max]	32.0 [-762, 95.2]
Ventas
Mean (SD)	60300 (68200)
Median [Min, Max]	40800 [200, 777000]
Utilidad
Mean (SD)	19300 (26500)
Median [Min, Max]	11900 [-20000, 472000]

Ubicación

La Mercatería distribuye sus productos mediante nueve máquinas expendedoras, siendo tres de ellas en la plazoleta central, dos en Cedro, dos Lagos, una en Almendros y una en Saman.

En el gráfico se observa el rendimiento de las máquinas expendedoras, destacando que la máquina ubicada en Central tres, fue la más utilizada, alcanzando un 12% del total de ventas, con 601 transacciones. Esto se debe probablemente a su ubicación en la zona más transitada de la universidad, lo que la hace más visible y accesible. Por otro lado, la máquina situada en el edificio Cedro Rosado dos, fue la menos utilizada, con un 10,3% de participación en las ventas, totalizando 517 transacciones. Esto podría explicarse por la menor afluencia de personas en ese edificio, ya que es el más alejado de la universidad.

Categoría

Los productos de las máquinas expendedoras de la Mercatería se dividen en dos categorías: Alimentos y Bebidas. En el siguiente gráfico podemos observar que la mayoría de productos que se venden pertenecen a la categoría de alimentos, con un total de 3127 productos, el cual representa el 62.3%. Mientras que los productos de la categoría de bebidas se venden en menos cantidad, con un total de 1896, que representa el 37.7%.

Adicionalmente, en el diagrama de cajas correspondiente a la variable categoría, se observa que los datos están muy agrupados, indicando que los valores son muy similares entre sí. Aunque algunos productos se encuentran fuera del rango principal, no se consideran atípicos debido al gran tamaño de la base de datos. Por lo tanto, ambas cajas muestran que la mayoría de los datos están concentrados en un rango estrecho de valores.

Familia

Dentro de las 14 familias de productos de Mercatería, se observa que la mayoría de los productos vendidos en las máquinas expendedoras pertenecen a confitería, con un total de 1,341 productos (26.7%), incluyendo chocolates, golosinas y snacks. En contraste, los productos de agua con gas y bebida aromática son los menos vendidos, con solo 3 unidades (0.1%) y 7 unidades (0.1%) respectivamente.

Por otro lado, en cuanto al costo promedio de las familias de productos, se observa que las categorías con mayores costos son confitería, galletería y lácteos.

En relación con los ingresos y la utilidad por familia de productos, se evidencia que aunque confitería es aquella con más unidades vendidas, no es la que genera la mayor utilidad. De hecho, la familia que genera la mayor utilidad es el agua, a pesar de tener menos unidades vendidas. Además, se puede evidenciar que las familias de gaseosas, bebidas saborizadas y galletería también generan una alta utilidad. En contraste, las categorías de lácteos y pasabocas tienen una utilidad muy baja.

Variables cuantitativas

Unidades vendidas

El promedio de ventas diarias es de 31 productos, contando con días con una sola venta y otros con 379 ventas. Su desviación estándar es de 34,6 y la mediana de 20.

Precios

El precio promedio de los productos puestos a la venta en las máquinas expendedoras es de 2210 pesos, además de encontrar que el producto más barato cuesta 200 pesos y el más caro 5500 pesos.

En este histograma, que muestra la frecuencia de los precios de los productos de las máquinas expendedoras, se observa que el precio más común es de 2000 pesos. Además, el histograma tiende a ser simétrico, reflejando un comportamiento equilibrado en la distribución de los precios.

Costos promedio unitarios

La media de los costos promedio unitarios de los productos de las máquinas expendedoras es de 1570 pesos, siendo el mínimo de 114 pesos y el máximo de 3870. Su desviación estándar es de 723 y la mediana de 1520.

En este histograma podemos ver la frecuencia con la que los productos toman ciertos costos unitarios, por ejemplo podemos ver que el costo unitario más recurrente está entre los 500 pesos y los 2000 pesos, estando presente en unos 1200 productos. Además podemos observar que este histograma cuenta con una asimetría positiva o sesgo hacia la derecha.

Margen

En cuanto al margen que aportan los productos de las máquinas expendedoras, el promedio aportado es de 31,5 pesos, además de tener un mínimo en negativo, -762 pesos, que representaría más costos que beneficios, y un máximo de de 95,2 pesos.

Ventas

El promedio de ventas totales que realizan las máquinas vending es de 60300 pesos, contando con un mínimo de 200 pesos y un máximo de 777000 pesos. Su mediana es de 40800.

Utilidad

La utilidad promedio que generan las máquinas vending es de 19300 pesos, con un mínimo que representa pérdidas de 20000 pesos, y con un máximo de utilidad de 472000 pesos

VI. Pruebas de hipótesis

A continuación realizamos pruebas de hipótesis y calculamos intervalos de confianza utilizando las variables cuantitativas “Unidades” y “Utilidad”. Además, se tomó la variable cualitativa “Categorías”, la cual se conforma por las opciones “ALIMENTOS” y “BEBIDAS”.

Promedio y desviación estándar de la variable cuantitativa “Unidades”

## 
##  One Sample t-test
## 
## data:  Unidades
## t = 62.422, df = 5022, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  29.51618 31.43027
## sample estimates:
## mean of x 
##  30.47322

## [1] 34.59876

La media de la variable de unidades es 30.47322 y su desviación estándar es 34.59876. Con una confiabilidad del 95%, el promedio de unidades se encuentra en el intervalo (29.51618,31.43027).

Promedio y desviación estándar de la variable cuantitativa “Utilidad”

## 
##  One Sample t-test
## 
## data:  Utilidad
## t = 51.619, df = 5022, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  18570.54 20036.82
## sample estimates:
## mean of x 
##  19303.68

## [1] 26504.23

La media de la variable de utilidad es 19303.68 y su desviación estándar es 26504.23. Con una confiabilidad del 95%, el promedio de la utilidad se encuentra en el intervalo (18570.54, 20036.82).

Promedio de unidades por categorías

## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ forcats   1.0.0     ✔ readr     2.1.5
## ✔ lubridate 1.9.3     ✔ tibble    3.2.1
## ✔ purrr     1.0.2     ✔ tidyr     1.3.1
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors

Las unidades promedio de alimentos es de 27.68884, mientras que las unidades promedio de bebidas es de 35.06540.

La desviación de las unidades de la categoría Alimentos es de 32, aproximadamente. Y la desviación de las unidades de la categoría Bebidas es de 39, aproximadamente.

Promedio de utilidad por categorías

El promedio de la utilidad de los alimentos es de 13268.18,mientras que el promedio de las bebidas es de 29257.80.

La desviación de la utilidad de la categoría Alimentos es de 15377.46 Y la desviación de la utilidad de la categoría Bebidas es de 36226.05

Prueba de hipótesis de la media para las “Unidades”

Queremos verificar si el promedio de unidades es menor a 35, utilizando un nivel de confianza del 95%.

\[𝐻_0:𝜇 ≥ 35\] \[𝐻_a:𝜇 < 35\]

## 
##  One Sample t-test
## 
## data:  Unidades
## t = -9.2728, df = 5022, p-value < 2.2e-16
## alternative hypothesis: true mean is less than 35
## 95 percent confidence interval:
##      -Inf 31.27635
## sample estimates:
## mean of x 
##  30.47322

\[Si \ p-value < α, \ rechazo \ 𝐻_0\]

\[2.2e-16 < 0.05\]

Como el p-value es mucho menor que el nivel de significancia de 0.05, se rechaza la hipótesis nula. Esto indica que hay suficiente evidencia para afirmar que el promedio de unidades es menor a 35. El intervalo de confianza es (−Inf,31.27635).Esto quiere decir que, con un 95% de confianza, el verdadero promedio de unidades está por debajo de 31.27635.

Prueba de hipótesis de la media para las “Utilidad”

Se estima que el promedio de la utilidad es mayor a 20.000, utilizando un nivel de confianza del 99%.

\[𝐻_0:𝜇 ≤ 20000\]

\[𝐻_a:𝜇 > 20000\]

## 
##  One Sample t-test
## 
## data:  Utilidad
## t = -1.862, df = 5022, p-value = 0.9687
## alternative hypothesis: true mean is greater than 20000
## 99 percent confidence interval:
##  18433.42      Inf
## sample estimates:
## mean of x 
##  19303.68

\[Si \ p-value < α, \ rechazo \ 𝐻_0\]

\[0.9687 < 0.01\]

Como el p-value (0.9687) es mucho mayor que el nivel de significancia de 0.01, no se rechaza la hipótesis nula. Esto significa que no hay suficiente evidencia para concluir que el promedio de la utilidad es mayor a 20.000. El intervalo de confianza es (18433.42, Inf).Esto significa que, con un 99% de confianza, el verdadero promedio de utilidad está por encima de 18433.42.

Prueba de hipótesis de la proporción de “ALIMENTOS”

Se estima que la proporcion de alimentos es mayor o igual del 70%, con una confiabilidad del 99%.

\[𝐻_0: p ≥ 0.7\]

\[𝐻_a: p < 0.7\]

## 
##  1-sample proportions test with continuity correction
## 
## data:  3127 out of 5023, null probability 0.7
## X-squared = 143.16, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is less than 0.7
## 99 percent confidence interval:
##  0.0000000 0.6384066
## sample estimates:
##         p 
## 0.6225363

\[Si \ p-value < α, \ rechazo \ 𝐻_0\]

\[2.2e-16 < 0.01\]

Como el p-value es mucho más pequeño que 0.01,se rechaza la hipótesis nula. Por lo tanto, se puede afirmar que la proporción de alimentos en la muestra es menor al 70%. El intervalo de confianza es (0, 0.6384066).Esto significa que, con un 99% de confianza, la proporción de alimentos está por debajo de 0.6384066.

Prueba de hipótesis de la proporción de “BEBIDAS”

En el análisis se considera que la proporcion de bebidas es menor o igual al 30%.

\[𝐻_0: p ≤ 0.30\]

\[𝐻_a: p > 0.30\]

## 
##  1-sample proportions test with continuity correction
## 
## data:  1896 out of 5023, null probability 0.3
## X-squared = 143.16, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is greater than 0.3
## 95 percent confidence interval:
##  0.3661832 1.0000000
## sample estimates:
##         p 
## 0.3774637

\[Si \ p-value < α, \ rechazo \ 𝐻_0\]

\[2.2e-16 < 0.05\]

Como el p-value es mucho menor que 0.05, se rechaza la hipótesis nula. Esto significa que la proporción de bebidas en la muestra es mayor al 30%. El intervalo de confianza es (0.3661832, 1).Esto significa que, con un 95% de confianza, la proporción de alimentos está por encima de 0.3661832, y debajo de 1.

Diferencia de medias entre las unidades de los alimentos y las bebidas

Se considera que el promedio de las unidades de los alimentos es superior al de las bebidas por al menos 8

\[𝐻_0:μA − μB ≤ 8\]

\[𝐻_a:μA − μB > 8\]

## 
##  Welch Two Sample t-test
## 
## data:  UniA and UniB
## t = -14.619, df = 3403.7, p-value = 1
## alternative hypothesis: true difference in means is greater than 8
## 95 percent confidence interval:
##  -9.107088       Inf
## sample estimates:
## mean of x mean of y 
##  27.68884  35.06540

\[Si \ p-value < α, \ rechazo \ 𝐻_0\]

\[1 < 0.05\]

Dado que el p-value es 1, no se puede rechazar la hipótesis nula. Esto significa que no hay evidencia para afirmar que el promedio de las unidades de alimentos es superior al de las bebidas por más de 8 unidades. El intervalo de confianza del 95% es (-9.107088, Inf), lo que impone que,la diferencia entre los promedios de las unidades de alimentos y bebidas podría ser cualquier valor mayor o igual a -9.107088.

Diferencia de medias de la utilidad de los alimentos y las bebidas

Se considera que el promedio de utilidad entre alimentos y bebidas es igual.

\[𝐻_0: μA - μB = 0\]

\[𝐻_a: μA - μB ≠ 0\]

## 
##  Welch Two Sample t-test
## 
## data:  UtilA and UtilB
## t = -18.248, df = 2314.9, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 99 percent confidence interval:
##  -18248.49 -13730.74
## sample estimates:
## mean of x mean of y 
##  13268.18  29257.80

\[Si \ p-value < α, \ rechazo \ 𝐻_0\]

\[2.2e-16 < 0.01\]

Dado que el p-value es 2.2e-16, y este valor es mucho menor que 0.01, se rechaza la hipótesis nula. Por lo tanto, el promedio de la utilidad entre los alimentos y las bebidas es significativamente diferente. El intervalo de confianza del 99% indica que la diferencia entre los promedios de utilidad de los alimentos y bebidas se encuentra entre -18,248.49 y -13,730.74. Como este intervalo es negativo, podemos concluir que la utilidad promedio de los alimentos es menor que la de las bebidas.

Diferencia de proporciones

Se estima que la proporción de alimentos es diferente a la de bebidas. Con una confiabilidad del 90%.

\[𝐻_0: PA - PB = 0\]

\[𝐻_a: PA - PB ≠ 0\]

## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c(3127, 1896) out of c(5023, 5023)
## X-squared = 602.39, df = 1, p-value < 2.2e-16
## alternative hypothesis: two.sided
## 90 percent confidence interval:
##  0.2289632 0.2611821
## sample estimates:
##    prop 1    prop 2 
## 0.6225363 0.3774637

\[Si \ p-value < α, \ rechazo \ 𝐻_0\]

\[2.2e-16 < 0.1\]

Dado que el p-value es mucho menor que 0.1, se rechaza la hipótesis nula. Por lo tanto, se concluye que existe evidencia para afirmar que la proporción de alimentos es diferente a la proporción de bebidas. El intervalo de confianza del 90% indica que la diferencia entre las proporciones de alimentos y bebidas se encuentra entre 0.2289 y 0.2612. Teniendo en cuenta que este intervalo es positivo, podemos concluir que la proporción de alimentos es mayor que la de bebidas.

## Loading required package: carData

## 
## Attaching package: 'car'

## The following object is masked from 'package:purrr':
## 
##     some

## The following object is masked from 'package:dplyr':
## 
##     recode

## 
## Attaching package: 'psych'

## The following object is masked from 'package:car':
## 
##     logit

## The following objects are masked from 'package:ggplot2':
## 
##     %+%, alpha

## Loading required package: zoo

## 
## Attaching package: 'zoo'

## The following objects are masked from 'package:base':
## 
##     as.Date, as.Date.numeric

VII. Regresión lineal y supuestos

Ahora bien,por medio de algunas de las variables cuantitativas,utilizamos el concepto de correlación y regresión lineal. También abordamos la revisión de algunos de los supuestos del modelo tales como linealidad,normalidad,homocedasticidad e independencia.

Modelo 1

Se tiene como variable dependiente o respuesta a la utilidad e independiente a las unidades, veamos a la relación existente entre ambas variables, gráficamente y, a nivel de correlación. Si creamos un plot de ambas variables (x = Unidades, y = Utilidad) podemos ver como hay una relación positiva entre ellas.

Planteemos la siguiente hipótesis:

\[H_a: A \ mayor \ cantidad \ de \ productos \ vendidos, \ las \ utilidades \ aumentan \ de \ manera \ positiva(relación \ directa)\]

## 
##  Pearson's product-moment correlation
## 
## data:  Mercateria$Unidades and Mercateria$Utilidad
## t = 81.613, df = 5021, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.7429645 0.7667486
## sample estimates:
##       cor 
## 0.7551049

## `geom_smooth()` using formula = 'y ~ x'

Las unidades vendidas y la utilidad generada muestra una correlación de 0.75, lo que indica una relación positiva fuerte. Esto sugiere que, en general, a medida que se venden más productos, la utilidad también tiende a incrementarse.Esto se debe a que, con un mayor volumen de ventas, los costos fijos se distribuyen entre más unidades, lo que reduce el costo por unidad y aumenta la rentabilidad.

Adicionalmente, el gráfico muestra un punto máximo de utilidad cerca de las 250 unidades vendidas, indicando que este es el nivel de ventas más rentable. A partir de este punto, cualquier aumento adicional en la cantidad vendida sigue contribuyendo positivamente a la utilidad. También se observa que hay puntos de pérdida entre las primeras 100 unidades vendidas. Esto sugiere que al principio, las ventas no son suficientes para cubrir los costos. Sin embargo, una vez que se supera este umbral, cada unidad adicional vendida contribuye de manera significativa a la utilidad total.

## 
## Call:
## lm(formula = Mercateria$Utilidad ~ Mercateria$Unidades, data = Mercateria)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -134893   -4231   -1102    3672  321258 
## 
## Coefficients:
##                     Estimate Std. Error t value Pr(>|t|)    
## (Intercept)         1676.604    326.758   5.131 2.99e-07 ***
## Mercateria$Unidades  578.445      7.088  81.613  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 17380 on 5021 degrees of freedom
## Multiple R-squared:  0.5702, Adjusted R-squared:  0.5701 
## F-statistic:  6661 on 1 and 5021 DF,  p-value: < 2.2e-16

Prueba de hipótesis para el intercepto: \[H_0:β_0=0\] \[H_a:β_0≠0\] Prueba de hipótesis para la pendiente: \[H_0:β_1=0\] \[H_a:β_1≠0\] En primer lugar, los p-value para los estimadores son bastante pequeños,por lo tanto, se rechazan las hipótesis nulas y se validan las hipótesis alternativas, así mismo, se puede asegurar que los valores de los estimadores si son significativos puesto que son distintos de cero.

Los estimadores son \(β_0=1676.604,β_1=578.445,σ^2=17380\),mientras que la ecuación del modelo ajustado quedaría de la forma: \[Utilidad=1676.604+578.445Unidades+ε ,ε∼N(0,17380^2)\]

Según la ecuación, si no se venden ninguna de las unidades de los productos, la utilidad esperada sería de aproximadamente 1676.604. La pendiente es positiva, lo que indica que a medida que se venden más productos, la utilidad aumenta; en concreto, cada unidad adicional vendida incrementa la utilidad en 578.445. Adicionalmente, el coeficiente de determinación (R-cuadrado) es de 0.5702. En este caso el 57.02% de los datos se ajustan al modelo de forma lineal, en otras palabras, dicho porcentaje de la variabilidad de la utilidad se explica por el número de unidades vendidas.

Supuestos del modelo 1

Linealidad

Una forma de comprobar la linealidad es ver si la media de los residuos del modelo es igual, o cercana a cero. En este caso,se cumple con una media de praticamente de cero.

## [1] -1.313641e-13

Normalidad

Para comprobar la normalidad, utilizamos el test de Anderson-Darling, dado que el número de observaciones es superior a 5000 (n=5023). El resultado del test muestra un p-value de < 2.2e-16, que es significativamente menor que un α. Por lo tanto, rechazamos la hipótesis nula de normalidad, lo que indica que los residuos no siguen una distribución normal.

\[H_0: \ La \ distribución \ es \ normal\]

\[H_1:La \ distribución \ no \ es \ normal\]

## 
##  Anderson-Darling normality test
## 
## data:  residuos1
## A = 372.02, p-value < 2.2e-16

Al mismo tiempo, utilizamos un gráfico QQ-PLOT para valorar la normalidad visualmente. En un gráfico Q-Q, los cuantiles de la muestra se comparan con los cuantiles teóricos de la distribución de interés. Si los puntos en el gráfico se ajustan aproximadamente a una línea diagonal, indica que los datos siguen de cerca la distribución teórica (normal).

A partir de los gráficos se puede decir que la distribución de los residuos no sigue una normalidad perfecta, debido a la presencia de asimetría y valores atípicos.

Homocedasticidad

Para evaluar la homocedasticidad de los residuos utilizamos el test de Breusch-Pagan, con la función bptest().La función captura los residuos guardados en el objeto modelo1 para realizar los cálculos.

\[H_0:Existe \ homogeneidad \ en \ las \ varianzas\] \[H_1:No \ existe \ homogeneidad \ en \ las \ varianzas\]

## 
##  studentized Breusch-Pagan test
## 
## data:  modelo1
## BP = 845.43, df = 1, p-value < 2.2e-16

Dado que el p-value es significativamente menor que α, rechazamos la hipótesis nula de homocedasticidad. Esto indica que las varianzas de los residuos son distintas, lo que sugiere la presencia de heterocedasticidad en el modelo.

Autocorrelación o independencia en los residuos

\[H_0:autocorrelación = 0 (independencia)\]

\[H_a:autocorrelación ≠ 0 (no \ hay \ independencia)\]

##  lag Autocorrelation D-W Statistic p-value
##    1       0.3835767      1.232587       0
##  Alternative hypothesis: rho != 0

Dado que el p-value es 0, que es significativamente menor que un α, rechazamos la hipótesis nula. Esto indica que existe una autocorrelación en los residuos diferente a cero, lo que implica que no son independientes. El valor del estadístico de Durbin-Watson (1.23) se encuentra bastante por debajo del valor esperado (2) para un modelo sin autocorrelación, lo que refuerza la conclusión de que los residuos presentan correlación positiva.

Modelo 2

Se tiene como variable dependiente o respuesta las ventas e independiente a las unidades, veamos a la relación existente entre ambas variables, gráficamente y, a nivel de correlación. Si creamos un plot de ambas variables (x = Unidades, y = Ventas) podemos ver como hay una relación positiva entre ellas.

Planteemos la siguiente hipótesis:

\[H_a: A \ mayor \ cantidad \ de \ productos \ vendidos, \ las \ ventas \ aumentan \ de \ manera \ positiva(relación \ directa)\]

## 
##  Pearson's product-moment correlation
## 
## data:  Mercateria$Unidades and Mercateria$Ventas
## t = 106.35, df = 5021, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.8235068 0.8405201
## sample estimates:
##       cor 
## 0.8322092

## `geom_smooth()` using formula = 'y ~ x'

Las unidades vendidas y las ventas generadas muestran una correlación de 0.83, lo que indica una relación positiva fuerte. Esto sugiere que, en general, a medida que se venden más productos, las ventas también tiende a incrementarse.

## 
## Call:
## lm(formula = Mercateria$Ventas ~ Mercateria$Unidades, data = Mercateria)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -278496  -12659   -4865   10117  341674 
## 
## Coefficients:
##                     Estimate Std. Error t value Pr(>|t|)    
## (Intercept)         10265.58     711.41   14.43   <2e-16 ***
## Mercateria$Unidades  1641.16      15.43  106.36   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 37840 on 5021 degrees of freedom
## Multiple R-squared:  0.6926, Adjusted R-squared:  0.6925 
## F-statistic: 1.131e+04 on 1 and 5021 DF,  p-value: < 2.2e-16

Prueba de hipótesis para el intercepto: \[H_0:β_0=0\] \[H_a:β_0≠0\] Prueba de hipótesis para la pendiente: \[H_0:β_1=0\] \[H_a:β_1≠0\] Este modelo se comporta de foma muy similar al anterior, los valores-p de los estimadores rechazan las hipótesis nulas de sus pruebas correspondientes, de modo que si son significativos. El valor-p de todo el modelo también indica que tiene sentido aplicar el modelo de regresión a las variables seleccionadas.

Los estimadores son \(β_0=10265.58,β_1=1641.16,σ^2=37840\),mientras que la ecuación del modelo ajustado quedaría de la forma: \[Ventas=10265.58+1641.16Unidades+ε ,ε∼N(0,37840^2)\]

Según la ecuación, si no se venden ninguna de las unidades de los productos, las ventas esperada serían de aproximadamente 10265.58. La pendiente es positiva, lo que indica que a medida que se venden más productos, las ventas aumenta; en concreto, cada unidad adicional vendida incrementa las ventas en 1641.16. Adicionalmente, el coeficiente de determinación (R-cuadrado) es de 0.6926. En este caso el 69.26% de la variabilidad de las ventas se explica por el número de unidades vendidas.

Supuestos del modelo 2

Linealidad

Una forma de comprobar la linealidad es ver si la media de los residuos del modelo es igual, o cercana a cero. En este caso,se cumple con una media de praticamente de cero.

## [1] -1.188334e-12

Normalidad

Para comprobar la normalidad, utilizamos el test de Anderson-Darling. El resultado del test muestra un p-value de < 2.2e-16, que es significativamente menor que un α. Por lo tanto, rechazamos la hipótesis nula de normalidad, lo que indica que los residuos no siguen una distribución normal.

\[H_0: \ La \ distribución \ es \ normal\]

\[H_1:La \ distribución \ no \ es \ normal\]

## 
##  Anderson-Darling normality test
## 
## data:  residuos2
## A = 243.54, p-value < 2.2e-16

Al mismo tiempo, utilizamos un gráfico QQ-PLOT para valorar la normalidad visualmente.

La distribución de los residuos no sigue una normalidad perfecta, debido a la presencia de asimetría y valores atípicos.

Homocedasticidad

\[H_0:Existe \ homogeneidad \ en \ las \ varianzas\] \[H_1:No \ existe \ homogeneidad \ en \ las \ varianzas\]

## 
##  studentized Breusch-Pagan test
## 
## data:  modelo2
## BP = 1573.7, df = 1, p-value < 2.2e-16

Autocorrelación o independencia en los residuos

\[H_0:autocorrelación = 0 (independencia)\]

\[H_a:autocorrelación ≠ 0 (no \ hay \ independencia)\]

##  lag Autocorrelation D-W Statistic p-value
##    1       0.4207133      1.158514       0
##  Alternative hypothesis: rho != 0

Dado que el p-value es 0, que es significativamente menor que un α, rechazamos la hipótesis nula. Esto indica que existe una autocorrelación en los residuos diferente a cero, lo que implica que no son independientes. El valor del estadístico de Durbin-Watson (1.15) se encuentra bastante por debajo del valor esperado (2) para un modelo sin autocorrelación, lo que refuerza la conclusión de que los residuos presentan correlación positiva.

Modelo 3

Se tiene como variable dependiente o respuesta el precio e independiente costo promedio unitario, veamos a la relación existente entre ambas variables, gráficamente y, a nivel de correlación. Si creamos un plot de ambas variables (x = Costo, y = Precio) podemos ver como hay una relación positiva entre ellas.

Planteemos la siguiente hipótesis:

\[H_a: A \ mayor \ costo \ promedio \ unitario, \ el \ precio \ de \ venta \ aumenta \ de \ manera \ positiva(relación \ directa)\]

## 
##  Pearson's product-moment correlation
## 
## data:  Mercateria$Precio and Mercateria$Costo_promedio_unitario
## t = 178.36, df = 5021, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.9254756 0.9330205
## sample estimates:
##      cor 
## 0.929345

## `geom_smooth()` using formula = 'y ~ x'

El costo promedio unitario y el precio muestran una correlación de 0.929, lo que indica una relación positiva muy fuerte. Esto sugiere que, en general, a medida que los costos de los productos son mayores, los precios también tiende a incrementarse.

## 
## Call:
## lm(formula = Mercateria$Precio ~ Mercateria$Costo_promedio_unitario, 
##     data = Mercateria)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -2188.78  -231.41   -22.82   220.98  1916.61 
## 
## Coefficients:
##                                     Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                        3.294e+02  1.158e+01   28.43   <2e-16 ***
## Mercateria$Costo_promedio_unitario 1.194e+00  6.697e-03  178.36   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 342.9 on 5021 degrees of freedom
## Multiple R-squared:  0.8637, Adjusted R-squared:  0.8637 
## F-statistic: 3.181e+04 on 1 and 5021 DF,  p-value: < 2.2e-16

Prueba de hipótesis para el intercepto: \[H_0:β_0=0\] \[H_a:β_0≠0\] Prueba de hipótesis para la pendiente: \[H_0:β_1=0\] \[H_a:β_1≠0\] Los valores-p de los estimadores rechazan las hipótesis nulas de sus pruebas correspondientes, de modo que si son significativos.

Los estimadores son \(β_0=329.4,β_1=1.194,σ^2=342.9\). La ecuación del modelo ajustado sería: \[Precio=329.4+1.194Costo+ε ,ε∼N(0,342.9^2)\]

Según la ecuación, si el costo es 0, el precio esperado sería de aproximadamente 329.4. La pendiente es positiva,indicando que a medida que aumenta el costo, el precio también aumenta; en concreto, cada incremento de 1 en el costo resulta en un aumento de 1.194 en el precio. Adicionalmente, el coeficiente de determinación (R-cuadrado) es de 0.8637. En este caso el 86.37% de la variabilidad del precio se explica por el costo promedio unitario.

Supuestos del modelo 3

Linealidad

Una forma de comprobar la linealidad es ver si la media de los residuos del modelo es igual, o cercana a cero. En este caso,se cumple con una media de praticamente de cero.

## [1] 5.291282e-14

Normalidad

El resultado del test Anderson-Darling muestra un p-value de < 2.2e-16, que es significativamente menor que un α. Por lo tanto, rechazamos la hipótesis nula de normalidad, lo que indica que los residuos no siguen una distribución normal. \[H_0: \ La \ distribución \ es \ normal\] \[H_1:La \ distribución \ no \ es \ normal\]

## 
##  Anderson-Darling normality test
## 
## data:  residuos3
## A = 15.911, p-value < 2.2e-16

Utilizamos un gráfico QQ-PLOT para valorar la normalidad visualmente. Al igual que el histograma y un diagrama de cajas.

Homocedasticidad

\[H_0:Existe \ homogeneidad \ en \ las \ varianzas\] \[H_1:No \ existe \ homogeneidad \ en \ las \ varianzas\]

## 
##  studentized Breusch-Pagan test
## 
## data:  modelo3
## BP = 172.56, df = 1, p-value < 2.2e-16

Autocorrelación o independencia en los residuos

\[H_0:autocorrelación = 0 (independencia)\]

\[H_a:autocorrelación ≠ 0 (no \ hay \ independencia)\]

##  lag Autocorrelation D-W Statistic p-value
##    1       0.5454808      0.908419       0
##  Alternative hypothesis: rho != 0

Referencia

La base de datos fue proporcionada por la Mercateria con fines netamente académicos.

Comportamiento de las máquinas expendedoras de la Mercatería desde febrero 2022 hasta julio 2023

Maria Guevara y Antonio Solarte

2024

I. Introducción

II. Problema de estudio

III. Objetivos

General

IV. Metodología

Identificación de dataset - Tratamiento de datos

Variables cualitativas:

Variables cuantitativas:

V. Resultados y análisis

Variables cualitativas

Ubicación

Categoría

Familia

Variables cuantitativas

Unidades vendidas

Precios

Costos promedio unitarios

Margen

Ventas

Utilidad

VI. Pruebas de hipótesis

Promedio y desviación estándar de la variable cuantitativa “Unidades”

Promedio y desviación estándar de la variable cuantitativa “Utilidad”

Promedio de unidades por categorías

Promedio de utilidad por categorías

Prueba de hipótesis de la media para las “Unidades”

Prueba de hipótesis de la media para las “Utilidad”

Prueba de hipótesis de la proporción de “ALIMENTOS”

Prueba de hipótesis de la proporción de “BEBIDAS”

Diferencia de medias entre las unidades de los alimentos y las bebidas

Diferencia de medias de la utilidad de los alimentos y las bebidas

Diferencia de proporciones

VII. Regresión lineal y supuestos

Modelo 1

Supuestos del modelo 1

Linealidad

Normalidad

Homocedasticidad

Autocorrelación o independencia en los residuos

Modelo 2

Supuestos del modelo 2

Linealidad

Normalidad

Homocedasticidad

Autocorrelación o independencia en los residuos

Modelo 3

Supuestos del modelo 3

Linealidad

Normalidad

Homocedasticidad

Autocorrelación o independencia en los residuos

Referencia