ANÁLITICA PREDICTIVA

1. Análisis de las variables que afectan la Ganancia Operativa de Adidas

1.1. Precio por unidad por Método de Venta

Precio_por_unidad1= ggplot(Adidas, aes(y=operating_profit2,x=price_per_unit,color = sales_method))+
  geom_point()+
  ggtitle("Relación entre precio por unidad y Ganancia Operativa por Método de Venta")+
  xlab("Precio por unidad") +
  ylab("Ganancia Operativa")

ggplotly(Precio_por_unidad1)

La gráfica anterior ilustra la relación entre el precio por unidad los productos y la ganancia operativa, segmentada por canales de venta: tienda física, en línea y outlet.

Un análisis general revela que los productos más asequibles suelen tener menores ganancias operativas, un patrón común en muchos modelos de negocio donde los productos de bajo costo presentan márgenes más delgados.

El análisis de la distribución de los puntos revela las siguientes tendencias:

En Outlet (puntos azules): La mayoría de los puntos se concentran en el rango de precios bajo (0-50), con ganancias operativas generalmente bajas. Sin embargo, se observan algunos puntos aislados con precios y ganancias más altas.
En línea (puntos verdes): La distribución es similar a la de las ventas en tienda, con la mayoría de los puntos en el rango de precio bajo (40-70) y ganancias bajas. No obstante, se aprecia una mayor dispersión de puntos hacia precios y ganancias más altas.
En tienda (puntos rojos): Los datos se distribuyen de manera más dispersa a lo largo del rango de precios, con algunos puntos que presentan precios altos y ganancias operativas significativamente altas.

Esto sugiere que algunos productos vendidos en outlet pueden tener un margen de ganancia operativa elevado en comparación con los otros métodos.

1.2. Precio por unidad por Retailer

Precio_por_unidad2= ggplot(Adidas, aes(y=operating_profit2,x=price_per_unit,color = retailer))+
  geom_point()+
  ggtitle("Relación entre precio por unidad y Ganancia Operativa por Retailer")+
  xlab("Precio por unidad") +
  ylab("Ganancia Operativa")

ggplotly(Precio_por_unidad2)

La gráfica muestra la relación entre el precio por unidad y las ganancias operativas, diferenciadas por distintos minoristas (ratailer): Amazon, Foot Locker, Kohl’s, Sports Direct, Walmart y West Gear.

Distribución de los puntos por minorista:

West gear (puntos rosados): Presenta una amplia distribución de puntos a lo largo de todo el rango de precios, con un pico notable en ganancias operativas en los precios más bajos y medios. Esto puede indicar una estrategia de volumen, donde se venden muchos productos a precios competitivos con una ganancia operativa razonable.
Kohl’s (puntos verdes): Tiene puntos dispersos a través de todos los rangos de precios, con una tendencia a tener ganancias operativas bajas a moderadas, lo que podría reflejar una estrategia de precios bajos y grandes volúmenes.
Amazon (puntos rosado claro) Tiene una gran cantidad de puntos en el rango bajo y medio de precios, con ganancias operativas generalmente bajas, sugiriendo una estrategia similar a la de Kohl´s pero posiblemente con menos eficiencia o menor volumen de ventas.
Sports Direct (puntos azul turquesa): Los puntos están más concentrados en el rango medio de precios, con ganancias operativas variadas, incluyendo algunas bastante altas, lo que sugiere que pueden estar vendiendo productos con un margen más alto en ese rango de precios.
Foot Locker (puntos amarillos): Exhibe una distribución similar a la de Sport Direct con un enfoque en el rango medio de precios y algunas ganancias operativas altas.
Walmart (puntos morados claro): Muestra una concentración de puntos en el rango bajo a medio de precios, con ganancias operativas que varían de bajas a altas.

Frente al análisis de Relación precio-ganancia, en general, no hay una correlación clara y consistente entre el precio por unidad y las ganancias operativas que se mantenga a través de todos los minoristas. Sin embargo, para algunos minoristas específicos, los productos con precios más altos parecen generar mayores ganancias operativas, especialmente en casos como Foot Locker y Sports Direct.

1.3. Unidades vendidas por Método de Venta

Unidades_vendidas1= ggplot(Adidas, aes(y=operating_profit2,x=units_sold,color = sales_method))+
  geom_point()+
  ggtitle("Relación entre unidades vendidas y Ganancia Operativa por Método de ventas")+
  xlab("Unidades Vendidas") +
  ylab("Ganancia Operativa")
ggplotly(Unidades_vendidas1)

La gráfica anterior muestra la relación entre las unidades vendidas y la ganancia operativa, segmentada por métodos de venta: en tienda, en línea y en outlet. El análisis general revela patrones distintos para cada método. Las ventas en línea destacan por su alta variabilidad y potencial para alcanzar altas ganancias operativas y volúmenes de ventas.

Al analizar la distribución de los puntos por método de venta, se observan las siguientes tendencias:

En tienda (puntos azules): La mayoría de los puntos se concentran en el rango bajo de unidades vendidas (0-500 unidades), con ganancias operativas variando ampliamente pero generalmente manteniéndose en el rango medio-bajo.
En línea (puntos verdes): Los puntos están más dispersos en términos de unidades vendidas, extendiéndose hasta cerca de 1000 unidades. La dispersión en las ganancias operativas también es amplia, con algunos puntos alcanzando las ganancias operativas más altas.
En outlet (puntos rojos): Los puntos están dispersos, pero con una tendencia a agruparse hacia el rango medio de unidades vendidas y ganancias operativas.

1.4. Unidades vendidas por Retailer

Unidades_vendidas2= ggplot(Adidas, aes(y=operating_profit2,x=units_sold,color = retailer))+
  geom_point()+
  ggtitle("Relación entre unidades vendidas y Ganancia Operativa por Retailer")+
  xlab("Unidades Vendidas") +
  ylab("Ganancia Operativa")

ggplotly(Unidades_vendidas2)

La gráfica evidencia la relación entre las unidades vendidas y la ganancia operativa para distintos minoristas (retailer), cada uno representado por un color diferente. Analicemos cómo cada minorista se comporta en términos de unidades vendidas frente a las ganancias operativas correspondientes:

Distribución de los puntos por minorista:

West gear (puntos rosados): Los puntos están distribuidos principalmente en un rango amplio de unidades vendidas, con un número considerable de puntos mostrando ganancias operativas altas, especialmente en ventas de hasta 500 unidades.
Kohl’s (puntos verdes): Concentración de puntos en el rango bajo - medio de unidades vendidas, con ganancias operativas que también son moderadas. Esto sugiere que Foot Locker mantiene una consistencia en ventas y ganancias, posiblemente a través de una estrategia de precios estable y gestión efectiva de inventario.
Amazon (puntos rosado claro): Los puntos están esparcidos a lo largo de un rango amplio de unidades vendidas, con ganancias operativas generalmente en el rango medio a alto, lo que puede indicar una buena conversión de ventas en ganancias operativas.
Sports Direct (puntos azul turquesas): Puntos distribuidos de manera más uniforme en términos de unidades vendidas, con muchas observaciones mostrando ganancias operativas moderadas a altas, lo que podría reflejar una operación eficiente.
Foot Locker (puntos amarillos): Amplia distribución en términos de unidades vendidas, con una tendencia a generar ganancias operativas moderadas, lo cual es consistente con su modelo de negocio de alto volumen y bajo margen.
Walmart (puntos morados claro): Los puntos tienden a agruparse en el rango bajo a medio de unidades vendidas, con algunas excepciones alcanzando ganancias operativas significativas.

Al analizar la relación unidades vendidas-ganancia operativa se puede establecer que: Existe una tendencia general de que, a medida que aumentan las unidades vendidas, las ganancias operativas también tienden a incrementar, pero esta relación no es lineal y varía significativamente entre minoristas. Además, cada minorista parece tener una “zona de confort” donde la mayoría de sus puntos se concentra, reflejando diferentes estrategias de gestión de precios, promociones y control de costos.

2. Análisis de correlación

Adidas2<- Adidas %>% 
    select(price_per_unit,units_sold,total_sales,operating_profit2,operating_margin)
Adidas2

# A tibble: 9,648 × 5
   price_per_unit units_sold total_sales operating_profit2 operating_margin
            <dbl>      <dbl>       <dbl>             <dbl>            <dbl>
 1             50       1200       60000            30000              0.5 
 2             50       1000       50000            15000              0.3 
 3             40       1000       40000            14000              0.35
 4             45        850       38250            13388.             0.35
 5             60        900       54000            16200              0.3 
 6             50       1000       50000            12500              0.25
 7             50       1250       62500            31250              0.5 
 8             50        900       45000            13500              0.3 
 9             40        950       38000            13300              0.35
10             45        825       37125            12994.             0.35
# ℹ 9,638 more rows

cor_matrix <- cor(Adidas2)
ggcorrplot(cor_matrix,lab=TRUE, type="lower", title="Matriz de correlacción")

De la gráfica anterior podemos interpretar que existe una fuerte correlación positiva, es decir cuando una variable aumenta, la otra también lo hace, en este caso sería el el color rojo intenso.

Consideras que las correlaciones altas son:

Total_sales con units_sold: 0.92, las ventas totales dependen directamente de la cantidad de unidades vendidas.
Operating_profit2 con units_sold: 0.87, a un mayor volumen de ventas tiende a generar mayores ganancias operativas.
Operating_profit2 con Total_sales: 0.94. Esto indica que las ganancias operativas están altamente influenciadas por el volumen de ventas totales.

El margen operativo (operating_margin) parece estar desconectado de las demás variables en este análisis, mostrando correlaciones débiles o negativas.

Esto sugiere que, para optimizar la ganancia operativa, Adidas debería centrarse en incrementar el volumen de ventas totales y el número de unidades vendidas, más que en simplemente ajustar el precio por unidad.

Por lo anterior, como equipo hemos decididos tomar como variables cuantitativas significativas para nuestro modelo: units_sold y Total_sales.

3. Modelo 1 Regresión Lineal

Variables cuantitativas: Total ventas y número de unidades vendidas

Variables categóricas: Método de ventas y retailer

modelo1 <- lm(operating_profit2 ~ units_sold+total_sales+
                as.factor(sales_method)+as.factor(retailer),Adidas)
summary(modelo1)


Call:
lm(formula = operating_profit2 ~ units_sold + total_sales + as.factor(sales_method) + 
    as.factor(retailer), data = Adidas)

Residuals:
     Min       1Q   Median       3Q      Max 
-14651.7   -485.2    -64.8    417.2  14621.1 

Coefficients:
                                   Estimate Std. Error t value Pr(>|t|)    
(Intercept)                      -3.840e+02  7.399e+01  -5.191 2.14e-07 ***
units_sold                        2.157e+00  2.081e-01  10.367  < 2e-16 ***
total_sales                       3.337e-01  3.451e-03  96.685  < 2e-16 ***
as.factor(sales_method)Online     8.638e+02  5.048e+01  17.112  < 2e-16 ***
as.factor(sales_method)Outlet     2.952e+02  5.234e+01   5.640 1.75e-08 ***
as.factor(retailer)Foot Locker   -3.750e+01  6.325e+01  -0.593  0.55322    
as.factor(retailer)Kohl's        -1.363e+02  7.544e+01  -1.806  0.07093 .  
as.factor(retailer)Sports Direct  4.553e+02  6.622e+01   6.876 6.53e-12 ***
as.factor(retailer)Walmart       -2.321e+02  8.676e+01  -2.675  0.00749 ** 
as.factor(retailer)West Gear     -7.268e+01  6.456e+01  -1.126  0.26028    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 1668 on 9638 degrees of freedom
Multiple R-squared:  0.8826,    Adjusted R-squared:  0.8825 
F-statistic:  8051 on 9 and 9638 DF,  p-value: < 2.2e-16

Dado que el valor-p (2.2e-16) es menor que cualquier nivel de significancia común, podemos rechazar la hipótesis nula y deducir que: units_sold, total_sales,los sales_method (Online y Outlet) tienen una relación positiva significativa con la Ganancia Operativa (operating_profit2). Algunas cadenas de minoristas, como Sports Direct, también tienen un impacto positivo significativo. Sin embargo, otros minoristas como Foot Locker o Kohl’s no muestran una relación significativa con la Ganancia Operativa.

El modelo en general tiene una buena capacidad predictiva, explicando un 88.26% de la variabilidad de los beneficios operativos.

3.1. Betas estimados de modelo 1:

B0: Intercept: −384 B1: units_sold: 2.157 B3: total_sales: 0,333 B4: (sales_method)Online: 863,8 B5: (sales_method)Outlet: 295,2 B6: (retailer)Foot Locker: -37,5 B7: (retailer)Kohl’s: -136,3 B8: (retailer)Sports Direct: 455,3 B9: (retailer)Walmart: -232,1 B9: (retailer)West Gear: -72,6

3.2. Distribución normal de los errores:

Este analisis no lo podemos realizar debido a que la bases es superior a 5.000 registros.

3.3. Variabilidad constante de los errores (homocedasticidad):

bptest(modelo1)


    studentized Breusch-Pagan test

data:  modelo1
BP = 3090.2, df = 9, p-value < 2.2e-16

Este resultado indica que los errores no tienen una varianza constante. Esto puede afectar la precisión de las estimaciones y las pruebas de significancia.

3.4. Predicción:

Para este ejercicio hemos creado un conjunto de valores de X, y con base en estes datos calculamosla predicción y el intervalo de confianza para la predicción.

nuevos_datos <- data.frame(
  units_sold = c(1100, 1500, 2000),
  total_sales = c(50000, 75000, 100000),
  sales_method=c("Online","Outlet","In-store"),
  retailer=c("West Gear","Foot Locker","Sports Direct")
  )

nuevos_datos

  units_sold total_sales sales_method      retailer
1       1100       50000       Online     West Gear
2       1500       75000       Outlet   Foot Locker
3       2000      100000     In-store Sports Direct

pred <- predict(modelo1, newdata = nuevos_datos, interval = "prediction", level = 0.95)

pred

       fit      lwr      upr
1 19465.23 16189.98 22740.47
2 28137.28 24859.34 31415.23
3 37756.09 34473.29 41038.89

Fila 1 (West Gear, Online, 1100 unidades vendidas, 50000 ventas totales): La ganancia operativa sería de USD 19.465,23 con un 95% de confianza, el valor real del beneficio operativo se espera que esté entre 16.189,98 y 22.740,47.
Fila 2 (Foot Locker, Outlet, 1500 unidades vendidas, 75000 ventas totales): La ganancia operativa sería de USD 28.137,28 con un 95% de confianza, el valor real del beneficio operativo se espera que esté entre 24.859,34 a 31.415,23.
Fila 3 (Sports Direct, In-store, 2000 unidades vendidas, 100000 ventas totales): la ganancia operativa sería de USD 37.756,09 con un 95% de confianza, el valor real del beneficio operativo se espera que esté entre 34.473,29 y 41.038,89.

Si bien este ejercicio los sirve para entender las predicciones, no tenemos intervalo de confianza, entonces no podemos confiar en el modelo, tal cómo se explico en el numeral 3.3. de este documento.

4. Modelo 2 Regresión Lineal

Variables cuantitativas: Total ventas y número de unidades vendidas

Variables categóricas: Región y Producto

modelo2 <- lm(operating_profit2 ~ units_sold+total_sales+
                as.factor(Region)+as.factor(Product),Adidas)
summary(modelo2)


Call:
lm(formula = operating_profit2 ~ units_sold + total_sales + as.factor(Region) + 
    as.factor(Product), data = Adidas)

Residuals:
     Min       1Q   Median       3Q      Max 
-14499.7   -553.1    -55.0    455.4  14223.6 

Coefficients:
                                              Estimate Std. Error t value
(Intercept)                                  3.347e+02  5.490e+01   6.097
units_sold                                   5.824e-01  2.133e-01   2.730
total_sales                                  3.450e-01  3.556e-03  97.011
as.factor(Region)Northeast                  -1.377e+02  5.118e+01  -2.690
as.factor(Region)South                       5.875e+02  5.545e+01  10.596
as.factor(Region)Southeast                   1.693e+02  6.170e+01   2.745
as.factor(Region)West                       -4.507e+02  5.141e+01  -8.768
as.factor(Product)Men's Athletic Footwear   -2.596e+02  5.883e+01  -4.412
as.factor(Product)Men's Street Footwear      7.648e+02  6.080e+01  12.578
as.factor(Product)Women's Apparel            4.318e+02  5.846e+01   7.387
as.factor(Product)Women's Athletic Footwear -1.809e+01  5.843e+01  -0.310
as.factor(Product)Women's Street Footwear   -1.069e+02  5.894e+01  -1.814
                                            Pr(>|t|)    
(Intercept)                                 1.12e-09 ***
units_sold                                   0.00634 ** 
total_sales                                  < 2e-16 ***
as.factor(Region)Northeast                   0.00715 ** 
as.factor(Region)South                       < 2e-16 ***
as.factor(Region)Southeast                   0.00607 ** 
as.factor(Region)West                        < 2e-16 ***
as.factor(Product)Men's Athletic Footwear   1.04e-05 ***
as.factor(Product)Men's Street Footwear      < 2e-16 ***
as.factor(Product)Women's Apparel           1.63e-13 ***
as.factor(Product)Women's Athletic Footwear  0.75693    
as.factor(Product)Women's Street Footwear    0.06973 .  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 1646 on 9636 degrees of freedom
Multiple R-squared:  0.8857,    Adjusted R-squared:  0.8855 
F-statistic:  6785 on 11 and 9636 DF,  p-value: < 2.2e-16

Dado que el valor-p (2.2e-16) es menor que cualquier nivel de significancia común, podemos rechazar la hipótesis nula y deducir que: total_sales, las regiones (South y West) tienen una relación positiva significativa con la Ganancia Operativa (operating_profit2). Algunos productos, como Men’s Athletic Footwear, Men’s Street Footwear y Women’s Apparel también tienen un impacto positivo significativo. Sin embargo, otros productos como omen’s Athletic Footwear o Women’s Street Footwear no muestran una relación significativa con la Ganancia Operativa.

El modelo en general tiene una buena capacidad predictiva, explicando un 88.55% de la variabilidad de los beneficios operativos.

Es decir que el Modelo 2 es mucho más predecible que el modelo 1 que analizamos en la parte tres de este documento.

4.1. Variabilidad constante de los errores (homocedasticidad):

bptest(modelo2)


    studentized Breusch-Pagan test

data:  modelo2
BP = 3126.8, df = 11, p-value < 2.2e-16