Introducción


La empresa Adidas desea analizar la ganancia operativa de sus productos identificando los factores que pueden llegar a afectar su desempeño. Esto con el fin de poder predecir su ganancia operativa en función de diferentes variables tanto cuantitativas como categóricas. Para lograrlo se tendrá que desarrollar un modelo que agrupe las variables que mejor describan el comportamiento de la variable de interés. Siendo así, todos los modelos desarrollados se construyeron tomando la ganancia operativa como variable de respuesta, o variable Y.


Modelo inicial


El primer modelo analizado se construyó con cuatro variables independientes: dos cuantitativas y dos categóricas. A continuación se pueden evidenciar el modelo y las pruebas realizadas para verificar su validez.


Modelo_adidas1 <- lm(Ganancia_operativa ~ Precio_unitario 
                     + Unidades_vendidas
                     + as.factor(Metodo)
                     + as.factor(Minorista),
                     data = Adidas_datos)

summary(Modelo_adidas1)
## 
## Call:
## lm(formula = Ganancia_operativa ~ Precio_unitario + Unidades_vendidas + 
##     as.factor(Metodo) + as.factor(Minorista), data = Adidas_datos)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -11672.1   -780.7     13.6    669.6  17563.9 
## 
## Coefficients:
##                                     Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                       -4937.9386   106.4172 -46.402  < 2e-16 ***
## Precio_unitario                      96.9777     1.4195  68.319  < 2e-16 ***
## Unidades_vendidas                    18.4859     0.1032 179.175  < 2e-16 ***
## as.factor(Metodo)Online             751.1205    58.1892  12.908  < 2e-16 ***
## as.factor(Metodo)Outlet             403.6597    60.4856   6.674 2.63e-11 ***
## as.factor(Minorista)Foot Locker     130.9444    73.0621   1.792   0.0731 .  
## as.factor(Minorista)Kohl's          -55.9731    87.1005  -0.643   0.5205    
## as.factor(Minorista)Sports Direct   508.6999    76.6202   6.639 3.32e-11 ***
## as.factor(Minorista)Walmart         -32.9122   100.0463  -0.329   0.7422    
## as.factor(Minorista)West Gear       229.2299    74.5138   3.076   0.0021 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1922 on 9638 degrees of freedom
## Multiple R-squared:  0.8442, Adjusted R-squared:  0.844 
## F-statistic:  5802 on 9 and 9638 DF,  p-value: < 2.2e-16
pearson.test(Modelo_adidas1$residuals)
## 
##  Pearson chi-square normality test
## 
## data:  Modelo_adidas1$residuals
## P = 3158.3, p-value < 2.2e-16
bptest(Modelo_adidas1)
## 
##  studentized Breusch-Pagan test
## 
## data:  Modelo_adidas1
## BP = 2215.3, df = 9, p-value < 2.2e-16
confint(Modelo_adidas1)
##                                         2.5 %      97.5 %
## (Intercept)                       -5146.53868 -4729.33848
## Precio_unitario                      94.19525    99.76024
## Unidades_vendidas                    18.28362    18.68809
## as.factor(Metodo)Online             637.05734   865.18364
## as.factor(Metodo)Outlet             285.09531   522.22419
## as.factor(Minorista)Foot Locker     -12.27266   274.16147
## as.factor(Minorista)Kohl's         -226.70842   114.76232
## as.factor(Minorista)Sports Direct   358.50830   658.89153
## as.factor(Minorista)Walmart        -229.02399   163.19956
## as.factor(Minorista)West Gear        83.16712   375.29260


Interpretación de los estimadores del modelo


Manteniendo constantes las demás variables:

Precio unitario

  • Con un nivel de significancia del 99.9%, un aumento adicional en el precio unitario genera un incremento de 96.98 USD en la ganancia operativa.

Unidades vendidas

  • Con un nivel de significancia del 99.9%, cada unidad adicional vendida genera un aumento de 18.49 USD en la ganancia operativa

Método de venta

  • Con un nivel de significancia del 99.9%, una venta adicional realizada a través del método de venta Online incrementa la ganancia operativa en 751.12 USD en comparación con el método In Store.
  • Con un nivel de significancia del 99.9%, una venta adicional realizada a través del método de venta Outlet incrementa la ganancia operativa en 403.66 USD en comparación con el método In Store.

Minorista

  • Con un nivel de significancia del 90%, una venta adicional realizada a través del Minorista Foot loker incrementa la ganancia operativa en 130.94 USD en comparación con el minorista Amazon.
  • Con un nivel de significancia del 0%, una venta adicional realizada a través del Minorista Khol´s disminuye la ganancia operativa en 55.97 USD en comparación con el minorista Amazon.
  • Con un nivel de significancia del 99.9%, una venta adicional realizada a través del Minorista Sports Direct incrementa la ganancia operativa en 508.7 USD en comparación con el minorista Amazon.
  • Con un nivel de significancia del 0%, una venta adicional realizada a través del Minorista Walmart disminuye la ganancia operativa en 32.91 USD en comparación con el minorista Amazon.
  • Con un nivel de significancia del 90%, una venta adicional realizada a través del Minorista West Gear incrementa la ganancia operativa en 229.23 USD en comparación con el minorista Amazon.

Como el p valor es menor a un alfa del 0.05, rechazamos la hipótesis nula de que las variables en su conjunto no son significativas para explicar la variable ganancia operativa. Por tanto, este modelo en su conjunto si tiene significancia.

Un R-cuadrado de 0.844 indica que aproximadamente el 84.4% de la variabilidad en la ganancia operativa puede explicarse por las variables del modelo.


Verificación de supuestos


  • Supuesto de normalidad (Pearson chi-square normality test): El p valor menor a 0.05 sugiere que los errores no siguen una distribución normal, lo que podría indicar que el modelo no captura completamente la estructura de los datos.

  • Supuesto de heterocedasticidad (Breusch-Pagan test): El valor p extremadamente bajo en la prueba de Breusch-Pagan¸ menor a 0.05 , indica que hay heterocedasticidad, es decir, que la varianza de los residuos no es constante. Esto puede sugerir que el modelo podría no ser eficiente.

  • Intervalos de confianza: Los intervalos de confianza proporcionan rangos de valores dentro de los cuales se espera que se encuentren los coeficientes del modelo con un 95% de confianza. Algunos intervalos de confianza, como los de Minorista: Kohl’s, Foot Locker y Walmart, incluyen cero, lo que indica que estos efectos podrían no ser estadísticamente significativos a ese nivel de confianza.


Correción del modelo


Para construir la segunda iteración del modelo, se analizó la matriz de correlación de todas las variables cuantitativas encontradas en los datos. Esto para verificar que las variables escogidas tuvieran una relación importante con la variable de respuesta.


cor_matrix <- cor(Adidas_datos[c(6,7,8,9,10)])
Adidas_corr <- ggcorrplot(cor_matrix,
                           lab = TRUE,
                           type = "lower",
                           title = "Matriz de correlación") 
ggplotly(Adidas_corr)

En la matriz de correlación se puede evidenciar que el precio unitario es la variable que tiene menor relación con la ganancia operativa. Por eso, se decidió que para el desarrollo de la segunda versión del modelo se cambiaría el precio unitario por las ventas totales. Manteniendo cuatro variables en total, pero esperando que el cambio genere un modelo que explique mejor la variable de interés. A continuación se pueden evidenciar el segundo modelo desarrollado y las pruebas realizadas para verificar su validez.


Modelo_adidas2 <- lm(Ganancia_operativa ~ Unidades_vendidas
                     + Ventas_totales
                     + as.factor(Metodo)
                     + as.factor(Minorista),
                     data = Adidas_datos)

summary(Modelo_adidas2)
## 
## Call:
## lm(formula = Ganancia_operativa ~ Unidades_vendidas + Ventas_totales + 
##     as.factor(Metodo) + as.factor(Minorista), data = Adidas_datos)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -14651.7   -485.2    -64.8    417.2  14621.1 
## 
## Coefficients:
##                                     Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                       -3.840e+02  7.399e+01  -5.191 2.14e-07 ***
## Unidades_vendidas                  2.157e+00  2.081e-01  10.367  < 2e-16 ***
## Ventas_totales                     3.337e-01  3.451e-03  96.685  < 2e-16 ***
## as.factor(Metodo)Online            8.638e+02  5.048e+01  17.112  < 2e-16 ***
## as.factor(Metodo)Outlet            2.952e+02  5.234e+01   5.640 1.75e-08 ***
## as.factor(Minorista)Foot Locker   -3.750e+01  6.325e+01  -0.593  0.55322    
## as.factor(Minorista)Kohl's        -1.363e+02  7.544e+01  -1.806  0.07093 .  
## as.factor(Minorista)Sports Direct  4.553e+02  6.622e+01   6.876 6.53e-12 ***
## as.factor(Minorista)Walmart       -2.321e+02  8.676e+01  -2.675  0.00749 ** 
## as.factor(Minorista)West Gear     -7.268e+01  6.456e+01  -1.126  0.26028    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1668 on 9638 degrees of freedom
## Multiple R-squared:  0.8826, Adjusted R-squared:  0.8825 
## F-statistic:  8051 on 9 and 9638 DF,  p-value: < 2.2e-16
pearson.test(Modelo_adidas2$residuals)
## 
##  Pearson chi-square normality test
## 
## data:  Modelo_adidas2$residuals
## P = 6322.9, p-value < 2.2e-16
bptest(Modelo_adidas2)
## 
##  studentized Breusch-Pagan test
## 
## data:  Modelo_adidas2
## BP = 3090.2, df = 9, p-value < 2.2e-16
confint(Modelo_adidas2)
##                                          2.5 %       97.5 %
## (Intercept)                       -529.0660530 -239.0112532
## Unidades_vendidas                    1.7492542    2.5650264
## Ventas_totales                       0.3269396    0.3404708
## as.factor(Metodo)Online            764.8741165  962.7772163
## as.factor(Metodo)Outlet            192.6154758  397.8264006
## as.factor(Minorista)Foot Locker   -161.4788614   86.4735704
## as.factor(Minorista)Kohl's        -284.1404948   11.6227724
## as.factor(Minorista)Sports Direct  325.5260050  585.1246714
## as.factor(Minorista)Walmart       -402.1441591  -62.0028679
## as.factor(Minorista)West Gear     -199.2205419   53.8661110


Interpretación de los estimadores del modelo


Manteniendo constantes las demás variables:

Unidades vendidas

  • Con un nivel de significancia del 99.9%, cada unidad adicional vendida genera un aumento de 2.16 USD en la ganancia operativa.

Ventas totales

  • Con un nivel de significancia del 99.9%, un aumento adicional en ventas totales se genera un aumento de 0.33 USD en la ganancia operativa

Método de venta

  • Con un nivel de significancia del 99.9%, una venta adicional realizada a través del método de venta Online incrementa la ganancia operativa en 863.83 USD en comparación con el método In Store.
  • Con un nivel de significancia del 99.9%, una venta adicional realizada a través del método de venta Outlet incrementa la ganancia operativa en 295.22 USD en comparación con el método In Store.

Minorista

  • Con un nivel de significancia del 0%, una venta adicional realizada a través del Minorista Foot loker disminuye la ganancia operativa en 37.50 USD en comparación con el minorista Amazon.
  • Con un nivel de significancia del 90%, una venta adicional realizada a través del Minorista Khol´s disminuye la ganancia operativa en 136.25 USD en comparación con el minorista Amazon.
  • Con un nivel de significancia del 0%, una venta adicional realizada a través del Minorista Sports Direct incrementa la ganancia operativa en 455.32 USD en comparación con el minorista Amazon.
  • Con un nivel de significancia del 99%, una venta adicional realizada a través del Minorista Walmart disminuye la ganancia operativa en 232.07 USD en comparación con el minorista Amazon.
  • Con un nivel de significancia del 0%, una venta adicional realizada a través del Minorista West Gear disminuye la ganancia operativa en 72.67 USD en comparación con el minorista Amazon.

Como el p valor es menor a un alfa del 0.05, rechazamos la hipótesis nula de que las variables en su conjunto no son significativas para explicar la variable ganancia operativa. Por tanto, este modelo en su conjunto si tiene significancia.

Un R-cuadrado de 0.8826 indica que aproximadamente el 88.26% de la variabilidad en la ganancia operativa puede explicarse por las variables del modelo.


Verificación de supuestos


  • Supuesto de normalidad (Pearson chi-square normality test): El p valor menor a 0.05 sugiere que los errores no siguen una distribución normal, lo que podría indicar que el modelo no captura completamente la estructura de los datos.

  • Supuesto de heterocedasticidad (Breusch-Pagan test): El valor p extremadamente bajo en la prueba de Breusch-Pagan¸ menor a 0.05 , indica que hay heterocedasticidad, es decir, que la varianza de los residuos no es constante. Esto puede sugerir que el modelo podría no ser eficiente.

  • Intervalos de confianza: Los intervalos de confianza proporcionan rangos de valores dentro de los cuales se espera que se encuentren los coeficientes del modelo con un 95% de confianza. Algunos intervalos de confianza, como los de Minorista: Kohl’s y Foot Locker, incluyen cero, lo que indica que estos efectos podrían no ser estadísticamente significativos a ese nivel de confianza.


Modelo final


En la última correción al modelo, se encontraron las variables categóricas que mejor lograron describir el comportamiento de la ganancia operativa. Para lograrlo, se realizó un modelo intermedio con todas las variables categóricas para evaluar cuales de ellas demostraban una mayor relación con la variable de interés. A continuación, se puede evidenciar el modelo de prueba desarrollado.


Modelo_adidasCAT <- lm(Ganancia_operativa ~ as.factor(Minorista)
                     + as.factor(Region)
                     + as.factor(Estado)
                     + as.factor(Ciudad)
                     + as.factor(Linea)
                     + as.factor(Metodo),
                     data = Adidas_datos)

summary(Modelo_adidasCAT)
## 
## Call:
## lm(formula = Ganancia_operativa ~ as.factor(Minorista) + as.factor(Region) + 
##     as.factor(Estado) + as.factor(Ciudad) + as.factor(Linea) + 
##     as.factor(Metodo), data = Adidas_datos)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -10678.1  -2239.9   -612.4   1185.8  26447.0 
## 
## Coefficients: (51 not defined because of singularities)
##                                           Estimate Std. Error t value Pr(>|t|)
## (Intercept)                                3050.90     472.83   6.452 1.15e-10
## as.factor(Minorista)Foot Locker             419.28     286.99   1.461 0.144062
## as.factor(Minorista)Kohl's                  913.65     362.93   2.517 0.011838
## as.factor(Minorista)Sports Direct           638.58     292.91   2.180 0.029270
## as.factor(Minorista)Walmart                1599.40     369.40   4.330 1.51e-05
## as.factor(Minorista)West Gear               988.28     326.77   3.024 0.002498
## as.factor(Region)Northeast                 1468.23     462.52   3.174 0.001506
## as.factor(Region)South                     6234.35     483.06  12.906  < 2e-16
## as.factor(Region)Southeast                 4052.42     465.60   8.704  < 2e-16
## as.factor(Region)West                      3573.07     520.32   6.867 6.96e-12
## as.factor(Estado)Alaska                    1024.43     559.49   1.831 0.067128
## as.factor(Estado)Arizona                    406.43     452.24   0.899 0.368835
## as.factor(Estado)Arkansas                 -3497.49     435.41  -8.033 1.07e-15
## as.factor(Estado)California                3270.01     485.50   6.735 1.73e-11
## as.factor(Estado)Colorado                   839.33     520.32   1.613 0.106752
## as.factor(Estado)Connecticut                -41.19     452.11  -0.091 0.927417
## as.factor(Estado)Delaware                   499.70     482.82   1.035 0.300718
## as.factor(Estado)Florida                    302.13     421.55   0.717 0.473571
## as.factor(Estado)Georgia                    902.03     391.28   2.305 0.021170
## as.factor(Estado)Hawaii                    1621.27     508.65   3.187 0.001440
## as.factor(Estado)Idaho                     2103.64     466.11   4.513 6.46e-06
## as.factor(Estado)Illinois                  3699.65     506.80   7.300 3.11e-13
## as.factor(Estado)Indiana                    517.00     459.37   1.125 0.260424
## as.factor(Estado)Iowa                       259.72     480.76   0.540 0.589053
## as.factor(Estado)Kansas                    3320.24     516.14   6.433 1.31e-10
## as.factor(Estado)Kentucky                   300.09     472.78   0.635 0.525625
## as.factor(Estado)Louisiana                 -289.50     427.35  -0.677 0.498158
## as.factor(Estado)Maine                     1976.71     546.59   3.616 0.000300
## as.factor(Estado)Maryland                 -1181.04     467.44  -2.527 0.011533
## as.factor(Estado)Massachusetts             -443.90     461.75  -0.961 0.336405
## as.factor(Estado)Michigan                  5147.80     507.65  10.141  < 2e-16
## as.factor(Estado)Minnesota                 1788.63     503.32   3.554 0.000382
## as.factor(Estado)Mississippi              -1942.80     394.06  -4.930 8.35e-07
## as.factor(Estado)Missouri                  1447.66     488.90   2.961 0.003074
## as.factor(Estado)Montana                   5330.83     534.36   9.976  < 2e-16
## as.factor(Estado)Nebraska                  2367.41     506.80   4.671 3.03e-06
## as.factor(Estado)Nevada                     208.23     489.08   0.426 0.670288
## as.factor(Estado)New Hampshire             2403.93     476.67   5.043 4.66e-07
## as.factor(Estado)New Jersey                -533.30     501.31  -1.064 0.287440
## as.factor(Estado)New Mexico                1015.17     425.34   2.387 0.017018
## as.factor(Estado)New York                  4488.08     462.24   9.709  < 2e-16
## as.factor(Estado)North Carolina            5085.61     441.98  11.507  < 2e-16
## as.factor(Estado)North Dakota               768.74     504.70   1.523 0.127753
## as.factor(Estado)Ohio                      7589.58     557.27  13.619  < 2e-16
## as.factor(Estado)Oklahoma                 -3631.59     426.81  -8.509  < 2e-16
## as.factor(Estado)Oregon                    -127.31     486.86  -0.261 0.793727
## as.factor(Estado)Pennsylvania              1501.19     449.20   3.342 0.000835
## as.factor(Estado)Rhode Island              -737.14     445.67  -1.654 0.098157
## as.factor(Estado)South Carolina            6576.99     423.43  15.533  < 2e-16
## as.factor(Estado)South Dakota              3060.23     504.02   6.072 1.31e-09
## as.factor(Estado)Tennessee                 -479.87     375.41  -1.278 0.201192
## as.factor(Estado)Texas                     -136.18     419.74  -0.324 0.745607
## as.factor(Estado)Utah                     -2762.81     486.86  -5.675 1.43e-08
## as.factor(Estado)Vermont                   1600.63     509.14   3.144 0.001673
## as.factor(Estado)Virginia                       NA         NA      NA       NA
## as.factor(Estado)Washington                 365.37     517.16   0.706 0.479902
## as.factor(Estado)West Virginia                  NA         NA      NA       NA
## as.factor(Estado)Wisconsin                      NA         NA      NA       NA
## as.factor(Estado)Wyoming                        NA         NA      NA       NA
## as.factor(Ciudad)Albuquerque                    NA         NA      NA       NA
## as.factor(Ciudad)Anchorage                      NA         NA      NA       NA
## as.factor(Ciudad)Atlanta                        NA         NA      NA       NA
## as.factor(Ciudad)Baltimore                      NA         NA      NA       NA
## as.factor(Ciudad)Billings                       NA         NA      NA       NA
## as.factor(Ciudad)Birmingham                     NA         NA      NA       NA
## as.factor(Ciudad)Boise                          NA         NA      NA       NA
## as.factor(Ciudad)Boston                         NA         NA      NA       NA
## as.factor(Ciudad)Burlington                     NA         NA      NA       NA
## as.factor(Ciudad)Charleston                     NA         NA      NA       NA
## as.factor(Ciudad)Charlotte                      NA         NA      NA       NA
## as.factor(Ciudad)Cheyenne                       NA         NA      NA       NA
## as.factor(Ciudad)Chicago                        NA         NA      NA       NA
## as.factor(Ciudad)Columbus                       NA         NA      NA       NA
## as.factor(Ciudad)Dallas                     -28.16     419.06  -0.067 0.946416
## as.factor(Ciudad)Denver                         NA         NA      NA       NA
## as.factor(Ciudad)Des Moines                     NA         NA      NA       NA
## as.factor(Ciudad)Detroit                        NA         NA      NA       NA
## as.factor(Ciudad)Fargo                          NA         NA      NA       NA
## as.factor(Ciudad)Hartford                       NA         NA      NA       NA
## as.factor(Ciudad)Honolulu                       NA         NA      NA       NA
## as.factor(Ciudad)Houston                        NA         NA      NA       NA
## as.factor(Ciudad)Indianapolis                   NA         NA      NA       NA
## as.factor(Ciudad)Jackson                        NA         NA      NA       NA
## as.factor(Ciudad)Knoxville                      NA         NA      NA       NA
## as.factor(Ciudad)Las Vegas                      NA         NA      NA       NA
## as.factor(Ciudad)Little Rock                    NA         NA      NA       NA
## as.factor(Ciudad)Los Angeles               -845.74     449.93  -1.880 0.060180
## as.factor(Ciudad)Louisville                     NA         NA      NA       NA
## as.factor(Ciudad)Manchester                     NA         NA      NA       NA
## as.factor(Ciudad)Miami                     4380.44     454.84   9.631  < 2e-16
## as.factor(Ciudad)Milwaukee                      NA         NA      NA       NA
## as.factor(Ciudad)Minneapolis                    NA         NA      NA       NA
## as.factor(Ciudad)New Orleans                    NA         NA      NA       NA
## as.factor(Ciudad)New York                  3405.82     461.41   7.381 1.70e-13
## as.factor(Ciudad)Newark                         NA         NA      NA       NA
## as.factor(Ciudad)Oklahoma City                  NA         NA      NA       NA
## as.factor(Ciudad)Omaha                          NA         NA      NA       NA
## as.factor(Ciudad)Orlando                        NA         NA      NA       NA
## as.factor(Ciudad)Philadelphia                   NA         NA      NA       NA
## as.factor(Ciudad)Phoenix                        NA         NA      NA       NA
## as.factor(Ciudad)Portland                       NA         NA      NA       NA
## as.factor(Ciudad)Providence                     NA         NA      NA       NA
## as.factor(Ciudad)Richmond                       NA         NA      NA       NA
## as.factor(Ciudad)Salt Lake City                 NA         NA      NA       NA
## as.factor(Ciudad)San Francisco                  NA         NA      NA       NA
## as.factor(Ciudad)Seattle                        NA         NA      NA       NA
## as.factor(Ciudad)Sioux Falls                    NA         NA      NA       NA
## as.factor(Ciudad)St. Louis                      NA         NA      NA       NA
## as.factor(Ciudad)Wichita                        NA         NA      NA       NA
## as.factor(Ciudad)Wilmington                     NA         NA      NA       NA
## as.factor(Linea)Men's Athletic Footwear     658.98     137.48   4.793 1.67e-06
## as.factor(Linea)Men's Street Footwear      3262.96     137.49  23.733  < 2e-16
## as.factor(Linea)Women's Apparel            2056.58     137.51  14.955  < 2e-16
## as.factor(Linea)Women's Athletic Footwear  -477.11     137.56  -3.468 0.000526
## as.factor(Linea)Women's Street Footwear      75.80     137.53   0.551 0.581536
## as.factor(Metodo)Online                   -4866.23     124.79 -38.995  < 2e-16
## as.factor(Metodo)Outlet                   -4292.29     145.01 -29.601  < 2e-16
##                                              
## (Intercept)                               ***
## as.factor(Minorista)Foot Locker              
## as.factor(Minorista)Kohl's                *  
## as.factor(Minorista)Sports Direct         *  
## as.factor(Minorista)Walmart               ***
## as.factor(Minorista)West Gear             ** 
## as.factor(Region)Northeast                ** 
## as.factor(Region)South                    ***
## as.factor(Region)Southeast                ***
## as.factor(Region)West                     ***
## as.factor(Estado)Alaska                   .  
## as.factor(Estado)Arizona                     
## as.factor(Estado)Arkansas                 ***
## as.factor(Estado)California               ***
## as.factor(Estado)Colorado                    
## as.factor(Estado)Connecticut                 
## as.factor(Estado)Delaware                    
## as.factor(Estado)Florida                     
## as.factor(Estado)Georgia                  *  
## as.factor(Estado)Hawaii                   ** 
## as.factor(Estado)Idaho                    ***
## as.factor(Estado)Illinois                 ***
## as.factor(Estado)Indiana                     
## as.factor(Estado)Iowa                        
## as.factor(Estado)Kansas                   ***
## as.factor(Estado)Kentucky                    
## as.factor(Estado)Louisiana                   
## as.factor(Estado)Maine                    ***
## as.factor(Estado)Maryland                 *  
## as.factor(Estado)Massachusetts               
## as.factor(Estado)Michigan                 ***
## as.factor(Estado)Minnesota                ***
## as.factor(Estado)Mississippi              ***
## as.factor(Estado)Missouri                 ** 
## as.factor(Estado)Montana                  ***
## as.factor(Estado)Nebraska                 ***
## as.factor(Estado)Nevada                      
## as.factor(Estado)New Hampshire            ***
## as.factor(Estado)New Jersey                  
## as.factor(Estado)New Mexico               *  
## as.factor(Estado)New York                 ***
## as.factor(Estado)North Carolina           ***
## as.factor(Estado)North Dakota                
## as.factor(Estado)Ohio                     ***
## as.factor(Estado)Oklahoma                 ***
## as.factor(Estado)Oregon                      
## as.factor(Estado)Pennsylvania             ***
## as.factor(Estado)Rhode Island             .  
## as.factor(Estado)South Carolina           ***
## as.factor(Estado)South Dakota             ***
## as.factor(Estado)Tennessee                   
## as.factor(Estado)Texas                       
## as.factor(Estado)Utah                     ***
## as.factor(Estado)Vermont                  ** 
## as.factor(Estado)Virginia                    
## as.factor(Estado)Washington                  
## as.factor(Estado)West Virginia               
## as.factor(Estado)Wisconsin                   
## as.factor(Estado)Wyoming                     
## as.factor(Ciudad)Albuquerque                 
## as.factor(Ciudad)Anchorage                   
## as.factor(Ciudad)Atlanta                     
## as.factor(Ciudad)Baltimore                   
## as.factor(Ciudad)Billings                    
## as.factor(Ciudad)Birmingham                  
## as.factor(Ciudad)Boise                       
## as.factor(Ciudad)Boston                      
## as.factor(Ciudad)Burlington                  
## as.factor(Ciudad)Charleston                  
## as.factor(Ciudad)Charlotte                   
## as.factor(Ciudad)Cheyenne                    
## as.factor(Ciudad)Chicago                     
## as.factor(Ciudad)Columbus                    
## as.factor(Ciudad)Dallas                      
## as.factor(Ciudad)Denver                      
## as.factor(Ciudad)Des Moines                  
## as.factor(Ciudad)Detroit                     
## as.factor(Ciudad)Fargo                       
## as.factor(Ciudad)Hartford                    
## as.factor(Ciudad)Honolulu                    
## as.factor(Ciudad)Houston                     
## as.factor(Ciudad)Indianapolis                
## as.factor(Ciudad)Jackson                     
## as.factor(Ciudad)Knoxville                   
## as.factor(Ciudad)Las Vegas                   
## as.factor(Ciudad)Little Rock                 
## as.factor(Ciudad)Los Angeles              .  
## as.factor(Ciudad)Louisville                  
## as.factor(Ciudad)Manchester                  
## as.factor(Ciudad)Miami                    ***
## as.factor(Ciudad)Milwaukee                   
## as.factor(Ciudad)Minneapolis                 
## as.factor(Ciudad)New Orleans                 
## as.factor(Ciudad)New York                 ***
## as.factor(Ciudad)Newark                      
## as.factor(Ciudad)Oklahoma City               
## as.factor(Ciudad)Omaha                       
## as.factor(Ciudad)Orlando                     
## as.factor(Ciudad)Philadelphia                
## as.factor(Ciudad)Phoenix                     
## as.factor(Ciudad)Portland                    
## as.factor(Ciudad)Providence                  
## as.factor(Ciudad)Richmond                    
## as.factor(Ciudad)Salt Lake City              
## as.factor(Ciudad)San Francisco               
## as.factor(Ciudad)Seattle                     
## as.factor(Ciudad)Sioux Falls                 
## as.factor(Ciudad)St. Louis                   
## as.factor(Ciudad)Wichita                     
## as.factor(Ciudad)Wilmington                  
## as.factor(Linea)Men's Athletic Footwear   ***
## as.factor(Linea)Men's Street Footwear     ***
## as.factor(Linea)Women's Apparel           ***
## as.factor(Linea)Women's Athletic Footwear ***
## as.factor(Linea)Women's Street Footwear      
## as.factor(Metodo)Online                   ***
## as.factor(Metodo)Outlet                   ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3898 on 9582 degrees of freedom
## Multiple R-squared:  0.3628, Adjusted R-squared:  0.3584 
## F-statistic: 83.92 on 65 and 9582 DF,  p-value: < 2.2e-16

Para ese análisis se escogieron las variables que demostraron mayor significancia con la ganancia operativa. Lo que resultó en el reemplazo de la variable Minorista por la variable Región.

Siendo así, se desarrolló un último modelo con cuatro variables independientes. Dos cuantitativas: Unidades vendidas y ventas totales. Y dos categóricas: Método de venta y región.

El modelo desarrollado y sus respectivas pruebas se pueden encontrar a continuación.


Modelo_adidas3 <- lm(Ganancia_operativa ~ Unidades_vendidas
                     + Ventas_totales
                     + as.factor(Metodo)
                     + as.factor(Region),
                     data = Adidas_datos)

summary(Modelo_adidas3)
## 
## Call:
## lm(formula = Ganancia_operativa ~ Unidades_vendidas + Ventas_totales + 
##     as.factor(Metodo) + as.factor(Region), data = Adidas_datos)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -14392.1   -504.6    -98.4    451.3  14434.2 
## 
## Coefficients:
##                              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                -253.11632   61.88197  -4.090 4.34e-05 ***
## Unidades_vendidas             1.73740    0.20963   8.288  < 2e-16 ***
## Ventas_totales                0.34071    0.00348  97.900  < 2e-16 ***
## as.factor(Metodo)Online     787.36969   51.45669  15.302  < 2e-16 ***
## as.factor(Metodo)Outlet     211.85208   53.44296   3.964 7.42e-05 ***
## as.factor(Region)Northeast    9.08714   52.13949   0.174    0.862    
## as.factor(Region)South      541.93939   57.89026   9.361  < 2e-16 ***
## as.factor(Region)Southeast   32.13764   62.41431   0.515    0.607    
## as.factor(Region)West      -436.13717   52.45538  -8.314  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1654 on 9639 degrees of freedom
## Multiple R-squared:  0.8846, Adjusted R-squared:  0.8845 
## F-statistic:  9235 on 8 and 9639 DF,  p-value: < 2.2e-16
pearson.test(Modelo_adidas3$residuals)
## 
##  Pearson chi-square normality test
## 
## data:  Modelo_adidas3$residuals
## P = 6061.7, p-value < 2.2e-16
bptest(Modelo_adidas3)
## 
##  studentized Breusch-Pagan test
## 
## data:  Modelo_adidas3
## BP = 3061.9, df = 8, p-value < 2.2e-16
confint(Modelo_adidas3)
##                                   2.5 %       97.5 %
## (Intercept)                -374.4179800 -131.8146521
## Unidades_vendidas             1.3264839    2.1483192
## Ventas_totales                0.3338841    0.3475277
## as.factor(Metodo)Online     686.5037604  888.2356119
## as.factor(Metodo)Outlet     107.0926400  316.6115096
## as.factor(Region)Northeast  -93.1172262  111.2915034
## as.factor(Region)South      428.4623150  655.4164603
## as.factor(Region)Southeast  -90.2075286  154.4828088
## as.factor(Region)West      -538.9607285 -333.3136089


Interpretación de los estimadores del modelo


Manteniendo constantes las demás variables:

Unidades vendidas

  • Con un nivel de significancia del 99.9%, cada unidad adicional vendida genera un aumento de 1.74 USD en la ganancia operativa.

Ventas totales

  • Con un nivel de significancia del 99.9%, un aumento adicional en ventas totales se genera un aumento de 0.34 USD en la ganancia operativa

Método de venta

  • Con un nivel de significancia del 99.9%, una venta adicional realizada a través del método de venta Online incrementa la ganancia operativa en 787.37 USD en comparación con el método In Store.
  • Con un nivel de significancia del 99.9%, una venta adicional realizada a través del método de venta Outlet incrementa la ganancia operativa en 211.85 USD en comparación con el método In Store.

Región

  • Con un nivel de significancia del 0%, una venta adicional realizada en la región Northeast incrementa la ganancia operativa en 9.09 USD en comparación con la región Midwest.
  • Con un nivel de significancia del 99.9%, una venta adicional realizada en la región South incrementa la ganancia operativa en 541.94 USD en comparación con la región Midwest.
  • Con un nivel de significancia del 0%, una venta adicional realizada en la región Southeast incrementa la ganancia operativa en 32.14 USD en comparación con la región Midwest.
  • Con un nivel de significancia del 99.9%, una venta adicional realizada en la región West disminuye la ganancia operativa en 436.14 USD en comparación con la región Midwest.

Como el p valor es menor a un alfa del 0.05, rechazamos la hipótesis nula de que las variables en su conjunto no son significativas para explicar la variable ganancia operativa. Por tanto, este modelo en su conjunto si tiene significancia.

Un R-cuadrado de 0.8845 indica que aproximadamente el 88.45% de la variabilidad en la ganancia operativa puede explicarse por las variables del modelo.


Verificación de supuestos


  • Supuesto de normalidad (Pearson chi-square normality test): El p valor menor a 0.05 sugiere que los errores no siguen una distribución normal, lo que podría indicar que el modelo no captura completamente la estructura de los datos.

  • Supuesto de heterocedasticidad (Breusch-Pagan test): El valor p extremadamente bajo en la prueba de Breusch-Pagan¸ menor a 0.05 , indica que hay heterocedasticidad, es decir, que la varianza de los residuos no es constante. Esto puede sugerir que el modelo podría no ser eficiente.

  • Intervalos de confianza: Los intervalos de confianza proporcionan rangos de valores dentro de los cuales se espera que se encuentren los coeficientes del modelo con un 95% de confianza. Algunos intervalos de confianza, como los de región: Northeast, Southeast y West, incluyen cero, lo que indica que estos efectos podrían no ser estadísticamente significativos a ese nivel de confianza.


Análisis adicional


Para complementar el análisis, se crearon algunos gráficos que muestren el efecto que tienen las variables explicativas sobre la fanancia operativa.


Relación entre unidades vendidas y ganancia operativa por método de venta


g1 <- ggplot(Adidas_datos, aes(x = Precio_unitario, 
                         y = Unidades_vendidas, 
                         color = Metodo))+
  geom_point() +
  ggtitle("Relación entre unidades vendidas y ganancia operativa por método de venta")+
  xlab("Unidades vendidas") +
  ylab("Ganancia operativa")

ggplotly(g1)


Relación entre ventas totales y ganancia operativa por método de venta


g2 <- ggplot(Adidas_datos, aes(x = Precio_unitario, 
                               y = Ventas_totales, 
                               color = Metodo))+
  geom_point() +
  ggtitle("Relación entre ventas totales y ganancia operativa por método de venta")+
  xlab("Ventas totales") +
  ylab("Ganancia operativa")

ggplotly(g2)


Relación entre unidades vendidas y ganancia operativa por region


g3 <- ggplot(Adidas_datos, aes(x = Precio_unitario, 
                               y = Unidades_vendidas, 
                               color = Region))+
  geom_point() +
  ggtitle("Relación entre unidades vendidas y ganancia operativa por region")+
  xlab("Unidades vendidas") +
  ylab("Ganancia operativa")

ggplotly(g3)


Relación entre ventas totales y ganancia operativa por region


g4 <- ggplot(Adidas_datos, aes(x = Precio_unitario, 
                               y = Ventas_totales, 
                               color = Region))+
  geom_point() +
  ggtitle("Relación entre ventas totales y ganancia operativa por region")+
  xlab("Ventas totales") +
  ylab("Ganancia operativa")

ggplotly(g4)


Predicciones


El desarrollo de un modelo que explique la variable ganancia operativa permite que predicción del valor que se tendría que esperar como resultado de la ganancia operativa, dados ciertos parámetros de las otras variables del modelo. A pesar de no haber cumplido los supuestos necesarios para verificar la validez del modelo, se asume que los datos recolectados representan el universo completo que la empresa Adidas desea analizar. Con esto en mente, se generaron cinco escenarios diferentes para los que se podría buscar predecir la ganancia operativa esperada.


Prediccion <- data.frame(Unidades_vendidas = c(10, 100, 250, 700, 1200),
                            Ventas_totales = c(100, 1100, 10000, 25000, 60000 ),
                            Metodo = c("In-store", "Outlet", "Online", "Online", "Outlet"),
                            Region = c("Northeast", "South", "West", "Midwest", "Southeast"))
Prediccion1 <- predict(Modelo_adidas3, Prediccion)

Prediccion
##   Unidades_vendidas Ventas_totales   Metodo    Region
## 1                10            100 In-store Northeast
## 2               100           1100   Outlet     South
## 3               250          10000   Online      West
## 4               700          25000   Online   Midwest
## 5              1200          60000   Outlet Southeast
Prediccion1
##          1          2          3          4          5 
##  -192.5846  1049.1918  3939.5259 10268.0827 22518.1110


Con el modelo desarrollado se lograron encontrar las siguientes predicciones:

Escenario 1

  • Unidades vendidas: 10
  • Ventas totales: 100
  • Método de venta: In-Store
  • Región: Northeast
  • Ganancia operativa: -192.58 USD

Escenario 2

  • Unidades vendidas: 100
  • Ventas totales: 1,100
  • Método de venta: Outlet
  • Región: South
  • Ganancia operativa: 1,049.19 USD

Escenario 3

  • Unidades vendidas: 250
  • Ventas totales: 10,000
  • Método de venta: Online
  • Región: West
  • Ganancia operativa: 3,939.53 USD

Escenario 4

  • Unidades vendidas: 700
  • Ventas totales: 25,000
  • Método de venta: Online
  • Región: Midwest
  • Ganancia operativa: 10,268.08 USD

Escenario 5

  • Unidades vendidas: 1,200
  • Ventas totales: 60,000
  • Método de venta: Outlet
  • Región: Southeast
  • Ganancia operativa: 22,518.11 USD