Objetivo:

Predecir la ganancia operativa en función de las variables proporcionadas, con el fin de entender qué factores (precio, unidades vendidas, método de venta y retailer) la afectan más y cómo.

1. GRAFICAS

Se visualizan las relaciones entre las variables para identificar patrones iniciales.

Interpretación:

Se observa cómo el precio por unidad influye en las ganancias operativas y cómo esta relación varía según el método de venta utilizado. Se destacan los puntos correspondientes al método de venta ‘outlet’, los cuales muestran una ganancia operativa significativa a precios relativamente bajos. Además, se puede apreciar que los puntos del método ‘online’ se concentran en el extremo superior de la gráfica, donde los precios más altos están asociados con un incremento notable en las ganancias operativas, lo que sugiere que este método es más eficaz al maximizar las ganancias a precios elevados.

Interpretación:

Se Observa cómo el precio por unidad influye en las ganancias operativas y cómo esa relación varía dependiendo del canal retailer utilizado.

Interpretación:

La gráfica muestra la relación entre las unidades vendidas y las ganancias operativas, destacando cómo esta relación varía según el método de venta utilizado. Es particularmente notable que el método de venta outlet genera una ganancia operativa significativa, a pesar de no tener un volumen de ventas tan alto como otros métodos. Esto sugiere que las ventas en outlets, aunque en menor cantidad, tienen una mayor rentabilidad en comparación con otros canales, como el método online, que aunque tiene más unidades vendidas, no presenta la misma eficiencia en términos de ganancia operativa.

Interpretación:

Se Observa cómo las unidades vendidas influyen en las ganancias operativas y cómo esa relación varía dependiendo del método de canal retailer.

2. CORRELACIÓN

Se analizan las relaciones lineales entre las variables cuantitativas.

##                  price_per_unit units_sold total_sales operating_profit
## price_per_unit        1.0000000  0.2658685   0.5395467        0.3945458
## units_sold            0.2658685  1.0000000   0.9193389        0.8923794
## total_sales           0.5395467  0.9193389   1.0000000        0.9283941
## operating_profit      0.3945458  0.8923794   0.9283941        1.0000000
## operating_margin     -0.1374865 -0.3054792  -0.3022954       -0.2119204
##                  operating_margin
## price_per_unit         -0.1374865
## units_sold             -0.3054792
## total_sales            -0.3022954
## operating_profit       -0.2119204
## operating_margin        1.0000000

Interpretación:

3. MODELADO

Se construye un modelo de regresión múltiple para explicar la ganancia operativa.

## 
## Call:
## lm(formula = operating_profit ~ units_sold + price_per_unit + 
##     as.factor(retailer) + as.factor(sales_method), data = Adidas)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -105219  -11817      22   10235  194431 
## 
## Coefficients:
##                                   Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                      -35928.99    1237.62 -29.031  < 2e-16 ***
## units_sold                          211.76       1.20 176.482  < 2e-16 ***
## price_per_unit                      610.29      16.51  36.968  < 2e-16 ***
## as.factor(retailer)Foot Locker    -2082.17     849.70  -2.450   0.0143 *  
## as.factor(retailer)Kohl's         -7132.17    1012.97  -7.041 2.04e-12 ***
## as.factor(retailer)Sports Direct  -3782.83     891.08  -4.245 2.20e-05 ***
## as.factor(retailer)Walmart       -13202.11    1163.53 -11.347  < 2e-16 ***
## as.factor(retailer)West Gear      -6125.67     866.59  -7.069 1.67e-12 ***
## as.factor(sales_method)Online     -8656.77     676.73 -12.792  < 2e-16 ***
## as.factor(sales_method)Outlet     -8852.08     703.44 -12.584  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 22350 on 9638 degrees of freedom
## Multiple R-squared:  0.8301, Adjusted R-squared:  0.8299 
## F-statistic:  5231 on 9 and 9638 DF,  p-value: < 2.2e-16

Interpretación:

4. PREDICCIONES

Simulamos escenarios usando el modelo. Creamos un data frame con valores para las variables predictoras.

5. VALIDACIÓN

Para la verificación de que el modelo es confiable y válido. Se realiza la prueba de normalidad de Shapiro-Wilk sobre los residuos del modelo de regresión, se observó que la muestra es demasiado grande. Por tanto no se debe usar esta prueba y buscar mas alternativas.

## [1] 9648
## [1] 9648
## [1] 0
## [1] 0

Por dicho motivo se verifico el modelo con ejecución de una prueba de Kolmogorov-Smirnov.

## 
##  Asymptotic one-sample Kolmogorov-Smirnov test
## 
## data:  modelo1$residuals
## D = 0.092813, p-value < 2.2e-16
## alternative hypothesis: two-sided

Interpretación:

El valor p es muy pequeño, (p-value < 2.2e-16) lo que indica que la diferencia entre los residuos y la distribución normal es estadísticamente significativa. Pero la advertencia indica que los datos contienen valores repetidos (empates). Esto es un problema para la prueba de Kolmogorov-Smirnov, ya que asume datos continuos y sin valores duplicados, por lo tanto,se decide usar metodos mas robustos para evaluarla.

Se decide verificar el modelo con ejecución de una prueba de Anderson-Darling:

## 
##  Anderson-Darling normality test
## 
## data:  modelo1$residuals
## A = 153.92, p-value < 2.2e-16

Distribución normal de los errores:

H0: Normalidad

H1: No Normalidad

Se rechaza la HNula.

## 
##  studentized Breusch-Pagan test
## 
## data:  modelo1
## BP = 1988.8, df = 9, p-value < 2.2e-16

Variabilidad constante de los errores (homocedasticidad):

H0: Varianza Constante

H1: Varianza No Constante

Se rechaza la HNula.

## 
## t test of coefficients:
## 
##                                     Estimate  Std. Error  t value  Pr(>|t|)    
## (Intercept)                      -35928.9868   1566.7997 -22.9314 < 2.2e-16 ***
## units_sold                          211.7572      2.2105  95.7961 < 2.2e-16 ***
## price_per_unit                      610.2892     22.9682  26.5710 < 2.2e-16 ***
## as.factor(retailer)Foot Locker    -2082.1671    634.2486  -3.2829  0.001031 ** 
## as.factor(retailer)Kohl's         -7132.1704    784.7963  -9.0879 < 2.2e-16 ***
## as.factor(retailer)Sports Direct  -3782.8274    715.2043  -5.2892 1.256e-07 ***
## as.factor(retailer)Walmart       -13202.1102   1169.5385 -11.2883 < 2.2e-16 ***
## as.factor(retailer)West Gear      -6125.6675    708.0163  -8.6519 < 2.2e-16 ***
## as.factor(sales_method)Online     -8656.7751    779.8189 -11.1010 < 2.2e-16 ***
## as.factor(sales_method)Outlet     -8852.0830    836.4553 -10.5829 < 2.2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Se tuvieron que usar metodos mas robustos para evaluarla. Los valores p y los errores estándar fueron ajustados para ser robustos ante problemas como la no normalidad de los errores.

Hipótesis global del modelo

H0: Todos los coeficientes de las variables independientes son iguales a cero. Ninguna variable tiene un efecto significativo sobre la ganancia operativa.

H1: Al menos una variable independiente tiene un efecto significativo sobre la ganancia operativa.

Se rechaza la HNula.

De acuerdo al objeto del caso se concluye que:

Identificación de los factores más relevantes: