Análisis de Regresión Lineal
INTRODUCCIÓN
En este trabajo se utilizará una base de datos de ventas de la tienda Foot Locker en el estado de Colorado, que contiene información detallada sobre productos, precios, métodos de venta, unidades vendidas, y márgenes operativos. A la base de datos se aplicará un análisis de regresión lineal múltiple, cuyo objetivo es identificar los factores más importantes que afectan la rentabilidad de la tienda en dicho estado.
Las variables de decisión que se utilizarán en este modelo son:
Precio por unidad: Representa el costo de cada producto individual vendido. El precio por unidad puede influir directamente en el margen operativo, ya que un aumento en el precio puede incrementar la rentabilidad si no reduce considerablemente la cantidad de productos vendidos
Unidades vendidas: Indica el número de productos vendidos. Un mayor volumen de unidades vendidas puede generar más ventas totales y, en consecuencia, un mejor margen operativo, especialmente si los costos se mantienen estables.
Beneficio operativo: Se refiere a las ganancias netas generadas por la tienda antes de deducir impuestos e intereses. El beneficio operativo refleja la eficiencia con la que Foot Locker convierte las ventas en ganancias, y es crucial para analizar la rentabilidad de la tienda.
Ventas totales: Se calcula como el producto del precio por unidad y las unidades vendidas. Las ventas totales proporcionan una visión clara del volumen de ingresos generados por la tienda, y su relación con el margen operativo es esencial para entender la eficiencia con la que la tienda genera beneficios a partir de sus ventas.
Relación entre el Margen Operativo y las Variables de investigación:
Margen operativo y precio por unidad: Un precio por unidad más alto puede aumentar el margen operativo, ya que cada producto vendido genera más ingresos. Sin embargo, si el precio es demasiado alto, podría reducir el número de unidades vendidas, lo que afectaría negativamente el margen.
Margen operativo y unidades vendidas: A medida que se venden más unidades, el margen operativo podría mejorar, ya que los costos fijos se distribuyen entre más productos. Esto podría incrementar la eficiencia operativa de la tienda.
Margen operativo y beneficio operativo: El beneficio operativo refleja la rentabilidad de la tienda antes de impuestos. Un aumento en este valor indica una mayor eficiencia en la operación de la tienda, lo que debería mejorar el margen operativo.
Margen operativo y ventas totales: Un mayor volumen de ventas totales debería, en teoría, mejorar el margen operativo. Sin embargo, es importante tener en cuenta los costos operativos, que pueden reducir los márgenes si no se gestionan adecuadamente.
La regresión lineal múltiple es una herramienta estadística que permite modelar la relación entre una variable dependiente y varias independientes. En este caso, las variables independientes son el precio por unidad, las unidades vendidas, el beneficio operativo y las ventas totales, mientras que la variable dependiente es el margen operativo de los productos vendidos. Este modelo permite analizar cómo estas variables afectan el margen operativo de Foot Locker en Colorado.
Además del modelo de regresión lineal, se emplearán gráficos adicionales para explicar de manera visual cómo afectan estas variables en la rentabilidad de la tienda. A lo largo del análisis, se evaluarán los supuestos del modelo, tales como la normalidad de los residuos y la multicolinealidad entre las variables, para asegurar que los resultados sean precisos y confiables.
METODOLOGÍA
Para llevar a cabo este trabajo, nuestra primera acción consistió en crear diversas gráficas descriptivas, incluyendo diagramas de barras, boxplots, diagramas de torta e incluso un diagrama de dispersión. Esta variedad de visualizaciones fue seleccionada cuidadosamente con el objetivo de entender de manera integral el comportamiento de las variables en el estado de Colorado.
Cada tipo de gráfico proporciona una perspectiva única: los diagramas de barras permiten comparar fácilmente categorías, los boxplots ofrecen información sobre la distribución, mientras que los diagramas de torta ilustran la proporción de cantidad total de venta de cada producto. En conjunto, estas visualizaciones nos proporcionaron una base sólida para el análisis posterior y facilitaron la identificación de patrones y tendencias significativas en los datos.
- Creación del Modelo de Regresión Lineal:
El primer paso fue desarrollar un modelo de regresión lineal que tuviera como variable dependiente el “Operating Margin” y como variables independientes el “Price per Unit”, “Total Sales”, “Operating Profit” y “Units Sold”. Este modelo permite identificar la relación entre el margen operativo y las demás variables, con el objetivo de comprender mejor su comportamiento conjunto.
- Análisis de Supuestos:
Para asegurar la validez del modelo, se realizaron pruebas sobre los cuatro supuestos fundamentales de la regresión lineal:
Supuesto de Linealidad: Se verificó que la relación entre la variable dependiente y las variables independientes sea lineal. Esto fue evaluado mediante la hipótesis nula y alternativa, comparando el valor P con un nivel de significancia de 0.05. Al rechazar la hipótesis nula, se validó la linealidad del modelo.
Supuesto de Normalidad: Se evaluó la normalidad de los residuos a través de la prueba de Shapiro-Wilk. El valor P obtenido fue mayor que el nivel de significancia, lo que indicó que los errores del modelo siguen una distribución normal, permitiendo inferencias estadísticas válidas.
Supuesto de Varianza Constante: A través de la prueba de Breusch-Pagan, se analizó si los residuos del modelo presentaban homocedasticidad. Dado que el valor P fue menor que el nivel de significancia, se concluyó que los datos presentaban heterocedasticidad, lo cual sugiere problemas en el modelo.
- Predicción de Valores:
El modelo fue utilizado para predecir los valores del margen
operativo a partir de un conjunto de datos nuevos. Se empleó la función
predict
, introduciendo el data frame y el modelo para
obtener las predicciones del margen operativo en función de las
variables independientes proporcionadas.
- Análisis de Multicolinealidad:
Para identificar posibles problemas de multicolinealidad entre las variables predictoras, se utilizó el Factor de Inflación de la Varianza (VIF). Se detectó una alta correlación entre “Total Sales” y “Units Sold”, lo que dificultaba la interpretación del modelo. Al eliminar estas variables altamente correlacionadas, el VIF de las variables restantes fue cercano a 1, lo que indica baja multicolinealidad y mayor estabilidad del modelo.
Esta metodología permitió validar el modelo, interpretar los resultados de manera precisa y hacer predicciones sobre el margen operativo en función de las variables clave
RESULTADOS DESCRIPTIVOS
Diagrama de Barras: Distribución por Categorías
El gráfico de barras ilustra la cantidad de unidades vendidas según el método de venta: en tienda (In-store) y en línea (Online). Este tipo de visualización permite una comparación clara y directa entre las dos categorías de venta.
Ejes:
El eje vertical (Y) representa la cantidad de unidades vendidas.
El eje horizontal (X) muestra los dos métodos de venta: “In-store” y “Online”.
Barras:
La barra roja representa las ventas realizadas en tienda, mientras que la barra azul representa las ventas en línea.
La altura de cada barra refleja el número total de unidades vendidas, permitiendo una visualización inmediata de la diferencia entre los métodos.
Diferencia en Ventas:
Las unidades vendidas en tienda (In-store) son significativamente más altas, superando las 30,000, en comparación con las ventas en línea (Online), que son notablemente más bajas.
Esta diferencia sugiere que la tienda física es el canal de ventas predominante para la empresa, lo que podría reflejar la preferencia de los clientes por realizar compras en persona.
Tendencias en el Comportamiento del Consumidor:
La gran disparidad en las ventas podría indicar que la mayoría de los consumidores prefieren la experiencia de compra física en lugar de las compras en línea.
Es posible que existan factores que influyen en esta tendencia, como la falta de promoción en línea, la comodidad de las compras en tienda, o la confianza del consumidor en los productos disponibles en persona.
Boxplot del margen operativo por producto en Colorado
El diagrama de cajas se utiliza para visualizar la distribución del margen operativo por producto en Colorado. Su objetivo principal es resumir las características esenciales de la distribución de los márgenes operativos, permitiendo identificar tendencias, variabilidad y valores atípicos en los datos.
El boxplot muestra cómo se distribuye el margen operativo para diferentes tipos de productos:
Categorías de Productos:
- Men’s Apparel (Ropa de Hombre)
- Men’s Athletic Footwear (Calzado Deportivo para Hombre)
- Men’s Street Footwear (Calzado Callejero para Hombre)
- Women’s Apparel (Ropa de Mujer)
- Women’s Athletic Footwear (Calzado Deportivo para Mujer)
- Women’s Street Footwear (Calzado Callejero para Mujer)
Caja (Box):
Representa el rango intercuartílico (IQR), que es el 50% central de los márgenes operativos. La línea dentro de la caja indica la mediana de cada producto, mostrando el valor típico del margen operativo.
Bigotes (Whiskers):
Se extienden desde la caja hasta los valores más extremos que no se consideran atípicos. Indican la variabilidad en los márgenes operativos.
Comparación de Productos:
Men’s Apparel tiene la mediana más alta, indicando que es el producto más rentable.
Men’s Athletic Footwear y Men’s Street Footwear muestran márgenes intermedios.
Women’s Apparel tiene un margen competitivo, mientras que Women’s Street Footwear presenta el margen operativo más bajo, lo que sugiere que podría requerir atención.
Identificación de los datos atípicos:
En este caso, el boxplot no muestra valores atípicos significativos para los productos. Esto implica que todos los márgenes operativos se encuentran dentro de un rango esperado, lo que puede ser un signo de estabilidad en el desempeño de los productos analizados. La ausencia de datos atípicos también sugiere que no hay productos que se desvíen significativamente del rendimiento esperado, lo que facilita la toma de decisiones basadas en los datos presentados.
Diagrama de pastel del porcentaje de ventas por tipo de producto
Como equipo, decidimos simplificar la información sobre los tipos de productos vendidos. Para ello, agrupamos las ventas totales y las distribuimos por cada tipo de producto comercializado, lo que nos permitió obtener los porcentajes correspondientes a cada categoría.
En el diagrama circular podemos observar el porcentaje de ventas por tipo de producto en el estado de Colorado, Cada división del gráfico representa una categoría de producto vendido por Foot Locker, y los porcentajes indican la participación de cada categoría en las ventas totales.
En primer lugar tenemos la categoría Men´s Streed Footwear, que es calzado informal para hombre, la cual tiene una participación del (19,9%), lo cual indica que este tipo de calzado es el más popular entre los productos vendidos por Foot Locker en Colorado.
Luego está la categoría Men’s Athletic Footwear que es calzado deportivo para hombres, sigue de cerca al calzado informal, representando un 19.2% de las ventas. La combinación de ambas categorías muestra que el calzado para hombres (tanto informal como deportivo) representa una gran parte de las ventas totales (39.1% en conjunto).
En tercer lugar tenemos Women’s Apparel con una participación del (18.8%) La ropa para mujeres es la tercera categoría más vendida, esto destaca la importancia de la ropa femenina en las ventas de la tienda.
Women’s Street Footwear cuenta con un 16.2% El calzado informal para mujeres tiene un peso importante, con un 16.2%. Esto refuerza la popularidad del calzado en general en este mercado, tanto para hombres como para mujeres.
El calzado deportivo para mujeres Women’s Athletic Footwear cuenta con un 13.3% de las ventas, lo cual es una proporción menor en comparación con los hombres, sin embargo es una cifra significativa.
En último lugar podemos observar que está la categoría de Men´s Appparel con un 12.6%, por lo tanto podemos afirmar que la ropa para hombre es la categoría con menor participación en las ventas.
Teniendo en cuenta lo anterior podemos afirmar que el calzado tanto deportivo como informal son el segmento dominante ya que al tener en cuenta los porcentajes de hombres y mujeres observamos que abarca más de la mitad de las ventas con un 68.6%.
Diagrama de barras de las ventas totales por género y tipo de producto
Este gráfico de barras representa la distribución de las ventas totales por genero y tipo de producto, las barras de color azul son los productos de hombre y las rosadas de mujer, el eje x clasifica los productos en las 6 categorias nombradas anteriormente y el eje y muestra las ventas totales en millones de dolares.
En los productos masculinos podemos notar lo siguiente:
Men’s Street Footwear y Men’s Athletic Footwear son los productos más vendidos para los hombres, con ventas totales que superan los 4 millones de dólares cada uno. Esto refuerza la idea de que el calzado masculino es el segmento más fuerte en este mercado.
Men’s Apparel (Ropa para hombres) presenta un rendimiento significativamente menor, con ventas cercanas a los 2 millones de dólares, lo cual es notablemente más bajo en comparación con el calzado masculino.
Teniendo en cuenta los productos femeninos podemos observar lo siguiente:
Women’s Street Footwear (Calzado informal para mujeres) tiene mejor desempeño en esta categoría, con ventas totales alrededor de 3 millones de dólares.
Women’s Apparel y Women’s Athletic Footwear tienen ventas aproximadas de 2.5 millones de dólares cada una, mostrando una demanda equilibrada entre los productos femeninos.
Teniendo en cuenta lo anterior podemos afirmar que el calzado es la categoría con mayor demanda entre los hombres y las mujeres, sin embargo en los hombres hay mayor numero de ventas que en las mujeres.
Diagrama de dispersión
El siguiente diagrama de dispersión tiene como propósito mostrar la relación entre la variable “precio por unidad” y las “unidades vendidas”. Aunque esta información también podría haberse representado en un histograma, decidimos utilizar el diagrama de dispersión por mayor claridad y conveniencia. Para determinar el tipo de relación entre las variables, se ha estimado una línea recta de la siguiente manera:
En el eje X se encuentra el precio por unidad correspondiente al producto en dolares y en el eje Y las unidades vendidas. Cada punto rojo representa una observación individual de ventas de productos con un precio y cantidad específica.
La mayoría de las observaciones se concentran en precios entre 30 y 70 dólares por unidad.
Hay una dispersión amplia en las unidades vendidas, con un rango de 200 a 800 unidades por transacción o registro, independientemente del precio.
Se observa que hay puntos con más de 600 unidades vendidas a precios menores de 40 dólares. Esto sugiere que los productos de menor precio están asociados con volúmenes de venta más altos en ciertas ocasiones, aunque no es algo constante.
El volumen de ventas varía más a medida de que los precios aumentan, lo que podría sugerir que el impacto del precio sobre las unidades vendidas no es lineal ni directo. Podemos concluir que los productos con precios más bajos tienden a venderse en mayores cantidades, no se logra evidenciar una correlación entre el aumento del precio y el aumento o la disminución de las ventas lo que sugiere que el precio no es el único factor que determina el volumen de ventas.
Diagrama de dispersión: Relación entre Margen Operativo y Precio por Unidad.
Esta línea se conoce como recta estimada que permite conocer la pendiente con la que cuenta nuestra gráfica, en este caso podemos analizar que nuestra pendiente es positiva indicando que la relación que tienen nuestras variables es directa; Una relación es directa cuando la variable independiente ( X ) a la hora de aumentar también aumenta su variable independiente ( Y ).
Nuestra variable X representa el precio por unidad en dólares con valores en un rango entre 20 y 90.
Nuestra variable Y representa el margen operativo el cual va de un rango de 0.2 a 0.8.
Cada punto azul en el gráfico representa una combinación de margen operativo y precio por unidad para diferentes observaciones o productos.
Se puede ver que los puntos están bastante dispersos, lo que sugiere que la relación entre estas dos variables no es estrictamente lineal.
Podemos observar la línea de regresión lineal, representada en rojo, parece tener una pendiente muy pequeña positiva, lo cual sugiere que existe una correlación positiva entre el precio por unidad y el margen operativo, a medida que el precio por unidad aumenta, también lo hace el margen operativo.
RESULTADOS DEL MODELO
MODELO DE REGRESIÓN LINEA
Para llevar a cabo el análisis, es fundamental crear un modelo de regresión lineal que nos permita identificar la relación del margen operativo con respecto a las demás variables. Esto nos ayudará a explorar más a fondo la naturaleza de estas relaciones.
El primer paso consiste en establecer un modelo de regresión lineal en el que la variable dependiente sea el “Operating Margin”. Esta variable dependerá de las variables independientes: “Price per Unit”, “Total Sales”, “Operating Profit” y “Units Sold”.
El objetivo de este procedimiento es, mediante una serie de códigos, determinar los valores de beta (B0, B1, B2, B3 y B4) y, a su vez, verificar los cuatro supuestos fundamentales del modelo.
Supuesto de Linealidad
El supuesto de linealidad establece que la relación entre la variable dependiente y los coeficientes del modelo (B0, B1, B2, B3, B4) es lineal. Esto significa que los cambios en los coeficientes producen cambios proporcionales en la variable dependiente. Si este supuesto no se cumple, el modelo puede no ser adecuado para realizar predicciones precisas.
Para este tenemos la siguiente hipótesis:
H0 => B0 = B1 = B2 = B2= B4
H1 => Bi ≠ Bj
Una vez planteada la hipótesis, procedemos a comparar el valor-p (2.2e-16) con el nivel de significancia (α, alpha = 0.05). Dado que el valor P obtenido es menor que el nivel de significancia, debemos rechazar la hipótesis anterior.
supuesto de Normalidad
Este supuesto nos dice que los errores del modelo de regresión deben seguir una distribución normal. Esto es esencial para garantizar la validez de las inferencias estadísticas realizadas a partir del modelo. Si los residuos no son normales, puede afectar la precisión de los intervalos de confianza y las pruebas de hipótesis, lo que podría llevar a conclusiones incorrectas sobre la relación entre las variables.
H0 => indica que nuestros datos son normales
H1 => indica que nuestros datos NO son normales
Una vez obtenido el resultado podemos observar que el valor-P (0.4589) es mayor que el valor estimado en el cual z = 0.05, logrando concluir que este modelo sirve para la realización de una inferencia estadística.
Supuesto de varianza constante - homocedasticidad
Establece que la variabilidad de los errores en un modelo de regresión debe ser constante a lo largo de todos los niveles de la variable independiente. Para esto :
H0 => indica que nuestros datos son normales
H1 => indica que nuestros datos NO son normales
Esto nos evidencia la situación de que el valor P (2.791e-07) es mayor que el valor estimado en donde z = 0.005, logrando concluir que este modelo debe de ser rechazado dado que nos indica que son datos NO normales.
Para la obtención de los siguientes resultados, se debe de utilizar el código mencionado a continuación. El cual gráficamente nos muestra los resultados de diferente manera.
##
## Call:
## lm(formula = `Operating Margin` ~ `Price per Unit` + `Total Sales` +
## `Operating Profit` + `Units Sold`, data = bc)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.25965 -0.05440 -0.00404 0.05378 0.26034
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.853e-01 5.890e-02 6.541 1.08e-09 ***
## `Price per Unit` 2.103e-03 8.172e-04 2.573 0.0111 *
## `Total Sales` -1.334e-06 2.403e-07 -5.551 1.39e-07 ***
## `Operating Profit` 3.338e-06 3.148e-07 10.605 < 2e-16 ***
## `Units Sold` -2.397e-04 1.690e-04 -1.419 0.1582
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.0948 on 139 degrees of freedom
## Multiple R-squared: 0.5621, Adjusted R-squared: 0.5495
## F-statistic: 44.6 on 4 and 139 DF, p-value: < 2.2e-16
Predicción
Este modelo tiene como funcionalidad la predicción de valores futuros que son desconocidos actualmente, en el tenemos una variable dependiente que en nuestro caso es “Margin Operating” en función de otras variables independientes, a partir de los resultados suministrados, nosotros podemos tomar decisiones basadas en datos, anticipar resultados y optimizar procesos o estrategias
Para esto debemos tener en cuenta la fórmula del Y estimado :
Y = B0 + B1X1 + B2X2 + B3X3 + B4X4
Durante la elaboración de nuestros valores betas logramos obtener sus resultados:
Una vez con estos valores ya obtenidos debemos saber quienes van a tomar los valores de Xi, donde tiene la opción de ser todo el rango que tiene cada uno de estas variables :
Price per Unit, Total Sales, Operating Profit, Units Sold.
Una vez con esto realizado podemos usar nuestro estimador :
Y = B0 + B1(X1) + B2(X2) + B3(X3) + B4(X4)
Para comenzar, debemos crear un data frame que incluya nuestras variables. Una vez que hayamos creado este data frame, utilizaremos la función “predict”, donde introduciremos tanto el data frame como el modelo, lo que nos permitirá realizar descripciones de nuestro modelo.
Estos datos nos dejan en evidencia los valores estimados de la variable Operating Margin para los datos de entrada proporcionados. Estas predicciones indican el margen operativo que se espera bajo las combinaciones de Price per Unit, Total Sales, Operating Profit, Units Sold para cada observación del dataframe. Los valores predichos oscilan entre 0.12 y 0.67, lo que sugiere que el modelo capta las variaciones del margen operativo en función de las características de los productos.
Supuesto de multicolinealidad
En este caso se evalúa si existe una alta correlación entre las variables predictoras de un modelo de regresión, lo que puede afectar la interpretación de los coeficientes y la estabilidad del modelo, planteamos una hipótesis nula y alternativa:
Supuesto de Multicolinealidad:
H0: No hay multicolinealidad entre las variables predictoras (es decir, no hay correlación alta entre ellas).
H1: Existe multicolinealidad entre las variables predictoras (hay una correlación alta entre algunas de las variables).
Para poder empezar con este caso debemos de analizar la matriz de correlación de las variables con el objetivo de poder interpretar si estas son fuertes o no.
Podemos observar en este caso que las variables de Total Sales y Units Sold tienen una correlación muy alta entre ellas y genera problemas en un modelo de regresión porque cuando las variables predictoras están altamente correlacionadas entre sí, es difícil para el modelo distinguir su efecto individual sobre la variable dependiente. Esto provoca pequeños cambios en los datos, y puede llevar a resultados erróneos.
Para detectar multicolinealidad se pueden utilizar varias pruebas. La más común es calcular el Factor de Inflación de la Varianza (VIF).
## `Price per Unit` `Total Sales` `Operating Profit` `Units Sold`
## 1.520656 23.612827 6.324113 16.954624
En este caso nosotros debemos rechazar todo valor que sea superior a 5, debido a que su correlación es excesivamente alta, como sucede con Total Sales, Operating Profit y Units Sold. Sin embargo, al eliminar una de estas variables, logramos reducir la correlación entre las restantes. Al realizar este ajuste, obtenemos lo siguiente:
# CONCLUSIONES
En este caso, donde el Factor de Inflación de la Varianza (VIF) para Price per Unit y Units Sold es exactamente igual (1.06665), podemos sacar extraer tres conclusiones:
1. Baja Multicolinealidad: Un VIF cercano a 1 indica que no hay multicolinealidad significativa entre estas variables. Un VIF de 1.06665 sugiere que la colinealidad entre estas dos variables es baja, lo que implica que ambas variables no están proporcionando información redundante en el modelo
2. Relaciones Similares: La igualdad de los VIFs sugiere que las variables tienen una relación similar en su correlación con las demás variables en el modelo. Esto podría ser indicativo de que están influenciando al modelo de manera comparable.
Efectividad del Modelo: La baja multicolinealidad en este contexto sugiere que el modelo es robusto y que las estimaciones de los coeficientes son confiables. Esto significa que podemos confiar en que el efecto de cada variable sobre la variable dependiente se estima de manera precisa.
En resumen, la igualdad de los VIFs indica que no hay preocupaciones significativas sobre la multicolinealidad, lo cual es positivo para la interpretación de los resultados del modelo.