La empresa Adidas desea analizar la ganancia operativa de sus productos identificando los factores que pueden llegar a afectar su desempeño. Esto con el fin de poder predecir su ganancia operativa en función de diferentes variables tanto cuantitativas como categóricas. Para lograrlo se tendrá que desarrollar un modelo que agrupe las variables que mejor describan el comportamiento de la variable de interés. Siendo así, todos los modelos desarrollados se construyeron tomando la ganancia operativa como variable de respuesta, o variable Y.
El primer modelo analizado se construyó con cuatro variables independientes: dos cuantitativas y dos categóricas. A continuación se pueden evidenciar el modelo y las pruebas realizadas para verificar su validez.
Modelo_adidas1 <- lm(Ganancia_operativa ~ Precio_unitario
+ Unidades_vendidas
+ as.factor(Metodo)
+ as.factor(Minorista),
data = Adidas_datos)
summary(Modelo_adidas1)
##
## Call:
## lm(formula = Ganancia_operativa ~ Precio_unitario + Unidades_vendidas +
## as.factor(Metodo) + as.factor(Minorista), data = Adidas_datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -11672.1 -780.7 13.6 669.6 17563.9
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -4937.9386 106.4172 -46.402 < 2e-16 ***
## Precio_unitario 96.9777 1.4195 68.319 < 2e-16 ***
## Unidades_vendidas 18.4859 0.1032 179.175 < 2e-16 ***
## as.factor(Metodo)Online 751.1205 58.1892 12.908 < 2e-16 ***
## as.factor(Metodo)Outlet 403.6597 60.4856 6.674 2.63e-11 ***
## as.factor(Minorista)Foot Locker 130.9444 73.0621 1.792 0.0731 .
## as.factor(Minorista)Kohl's -55.9731 87.1005 -0.643 0.5205
## as.factor(Minorista)Sports Direct 508.6999 76.6202 6.639 3.32e-11 ***
## as.factor(Minorista)Walmart -32.9122 100.0463 -0.329 0.7422
## as.factor(Minorista)West Gear 229.2299 74.5138 3.076 0.0021 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1922 on 9638 degrees of freedom
## Multiple R-squared: 0.8442, Adjusted R-squared: 0.844
## F-statistic: 5802 on 9 and 9638 DF, p-value: < 2.2e-16
pearson.test(Modelo_adidas1$residuals)
##
## Pearson chi-square normality test
##
## data: Modelo_adidas1$residuals
## P = 3158.3, p-value < 2.2e-16
bptest(Modelo_adidas1)
##
## studentized Breusch-Pagan test
##
## data: Modelo_adidas1
## BP = 2215.3, df = 9, p-value < 2.2e-16
confint(Modelo_adidas1)
## 2.5 % 97.5 %
## (Intercept) -5146.53868 -4729.33848
## Precio_unitario 94.19525 99.76024
## Unidades_vendidas 18.28362 18.68809
## as.factor(Metodo)Online 637.05734 865.18364
## as.factor(Metodo)Outlet 285.09531 522.22419
## as.factor(Minorista)Foot Locker -12.27266 274.16147
## as.factor(Minorista)Kohl's -226.70842 114.76232
## as.factor(Minorista)Sports Direct 358.50830 658.89153
## as.factor(Minorista)Walmart -229.02399 163.19956
## as.factor(Minorista)West Gear 83.16712 375.29260
Manteniendo constantes las demás variables:
Precio unitario
Unidades vendidas
Método de venta
Minorista
Como el p valor es menor a un alfa del 0.05, rechazamos la hipótesis nula de que las variables en su conjunto no son significativas para explicar la variable ganancia operativa. Por tanto, este modelo en su conjunto si tiene significancia.
Un R-cuadrado de 0.844 indica que aproximadamente el 84.4% de la variabilidad en la ganancia operativa puede explicarse por las variables del modelo.
Supuesto de normalidad (Pearson chi-square normality test): El p valor menor a 0.05 sugiere que los errores no siguen una distribución normal, lo que podría indicar que el modelo no captura completamente la estructura de los datos.
Supuesto de heterocedasticidad (Breusch-Pagan test): El valor p extremadamente bajo en la prueba de Breusch-Pagan¸ menor a 0.05 , indica que hay heterocedasticidad, es decir, que la varianza de los residuos no es constante. Esto puede sugerir que el modelo podría no ser eficiente.
Intervalos de confianza: Los intervalos de confianza proporcionan rangos de valores dentro de los cuales se espera que se encuentren los coeficientes del modelo con un 95% de confianza. Algunos intervalos de confianza, como los de Minorista: Kohl’s, Foot Locker y Walmart, incluyen cero, lo que indica que estos efectos podrían no ser estadísticamente significativos a ese nivel de confianza.
Para construir la segunda iteración del modelo, se analizó la matriz de correlación de todas las variables cuantitativas encontradas en los datos. Esto para verificar que las variables escogidas tuvieran una relación importante con la variable de respuesta.
cor_matrix <- cor(Adidas_datos[c(6,7,8,9,10)])
Adidas_corr <- ggcorrplot(cor_matrix,
lab = TRUE,
type = "lower",
title = "Matriz de correlación")
ggplotly(Adidas_corr)
En la matriz de correlación se puede evidenciar que el precio unitario es la variable que tiene menor relación con la ganancia operativa. Por eso, se decidió que para el desarrollo de la segunda versión del modelo se cambiaría el precio unitario por las ventas totales. Manteniendo cuatro variables en total, pero esperando que el cambio genere un modelo que explique mejor la variable de interés. A continuación se pueden evidenciar el segundo modelo desarrollado y las pruebas realizadas para verificar su validez.
Modelo_adidas2 <- lm(Ganancia_operativa ~ Unidades_vendidas
+ Ventas_totales
+ as.factor(Metodo)
+ as.factor(Minorista),
data = Adidas_datos)
summary(Modelo_adidas2)
##
## Call:
## lm(formula = Ganancia_operativa ~ Unidades_vendidas + Ventas_totales +
## as.factor(Metodo) + as.factor(Minorista), data = Adidas_datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -14651.7 -485.2 -64.8 417.2 14621.1
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -3.840e+02 7.399e+01 -5.191 2.14e-07 ***
## Unidades_vendidas 2.157e+00 2.081e-01 10.367 < 2e-16 ***
## Ventas_totales 3.337e-01 3.451e-03 96.685 < 2e-16 ***
## as.factor(Metodo)Online 8.638e+02 5.048e+01 17.112 < 2e-16 ***
## as.factor(Metodo)Outlet 2.952e+02 5.234e+01 5.640 1.75e-08 ***
## as.factor(Minorista)Foot Locker -3.750e+01 6.325e+01 -0.593 0.55322
## as.factor(Minorista)Kohl's -1.363e+02 7.544e+01 -1.806 0.07093 .
## as.factor(Minorista)Sports Direct 4.553e+02 6.622e+01 6.876 6.53e-12 ***
## as.factor(Minorista)Walmart -2.321e+02 8.676e+01 -2.675 0.00749 **
## as.factor(Minorista)West Gear -7.268e+01 6.456e+01 -1.126 0.26028
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1668 on 9638 degrees of freedom
## Multiple R-squared: 0.8826, Adjusted R-squared: 0.8825
## F-statistic: 8051 on 9 and 9638 DF, p-value: < 2.2e-16
pearson.test(Modelo_adidas2$residuals)
##
## Pearson chi-square normality test
##
## data: Modelo_adidas2$residuals
## P = 6322.9, p-value < 2.2e-16
bptest(Modelo_adidas2)
##
## studentized Breusch-Pagan test
##
## data: Modelo_adidas2
## BP = 3090.2, df = 9, p-value < 2.2e-16
confint(Modelo_adidas2)
## 2.5 % 97.5 %
## (Intercept) -529.0660530 -239.0112532
## Unidades_vendidas 1.7492542 2.5650264
## Ventas_totales 0.3269396 0.3404708
## as.factor(Metodo)Online 764.8741165 962.7772163
## as.factor(Metodo)Outlet 192.6154758 397.8264006
## as.factor(Minorista)Foot Locker -161.4788614 86.4735704
## as.factor(Minorista)Kohl's -284.1404948 11.6227724
## as.factor(Minorista)Sports Direct 325.5260050 585.1246714
## as.factor(Minorista)Walmart -402.1441591 -62.0028679
## as.factor(Minorista)West Gear -199.2205419 53.8661110
Manteniendo constantes las demás variables:
Unidades vendidas
Ventas totales
Método de venta
Minorista
Como el p valor es menor a un alfa del 0.05, rechazamos la hipótesis nula de que las variables en su conjunto no son significativas para explicar la variable ganancia operativa. Por tanto, este modelo en su conjunto si tiene significancia.
Un R-cuadrado de 0.8826 indica que aproximadamente el 88.26% de la variabilidad en la ganancia operativa puede explicarse por las variables del modelo.
Supuesto de normalidad (Pearson chi-square normality test): El p valor menor a 0.05 sugiere que los errores no siguen una distribución normal, lo que podría indicar que el modelo no captura completamente la estructura de los datos.
Supuesto de heterocedasticidad (Breusch-Pagan test): El valor p extremadamente bajo en la prueba de Breusch-Pagan¸ menor a 0.05 , indica que hay heterocedasticidad, es decir, que la varianza de los residuos no es constante. Esto puede sugerir que el modelo podría no ser eficiente.
Intervalos de confianza: Los intervalos de confianza proporcionan rangos de valores dentro de los cuales se espera que se encuentren los coeficientes del modelo con un 95% de confianza. Algunos intervalos de confianza, como los de Minorista: Kohl’s y Foot Locker, incluyen cero, lo que indica que estos efectos podrían no ser estadísticamente significativos a ese nivel de confianza.
En la última correción al modelo, se encontraron las variables categóricas que mejor lograron describir el comportamiento de la ganancia operativa. Para lograrlo, se realizó un modelo intermedio con todas las variables categóricas para evaluar cuales de ellas demostraban una mayor relación con la variable de interés. A continuación, se puede evidenciar el modelo de prueba desarrollado.
Modelo_adidasCAT <- lm(Ganancia_operativa ~ as.factor(Minorista)
+ as.factor(Region)
+ as.factor(Estado)
+ as.factor(Ciudad)
+ as.factor(Linea)
+ as.factor(Metodo),
data = Adidas_datos)
summary(Modelo_adidasCAT)
##
## Call:
## lm(formula = Ganancia_operativa ~ as.factor(Minorista) + as.factor(Region) +
## as.factor(Estado) + as.factor(Ciudad) + as.factor(Linea) +
## as.factor(Metodo), data = Adidas_datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -10678.1 -2239.9 -612.4 1185.8 26447.0
##
## Coefficients: (51 not defined because of singularities)
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3050.90 472.83 6.452 1.15e-10
## as.factor(Minorista)Foot Locker 419.28 286.99 1.461 0.144062
## as.factor(Minorista)Kohl's 913.65 362.93 2.517 0.011838
## as.factor(Minorista)Sports Direct 638.58 292.91 2.180 0.029270
## as.factor(Minorista)Walmart 1599.40 369.40 4.330 1.51e-05
## as.factor(Minorista)West Gear 988.28 326.77 3.024 0.002498
## as.factor(Region)Northeast 1468.23 462.52 3.174 0.001506
## as.factor(Region)South 6234.35 483.06 12.906 < 2e-16
## as.factor(Region)Southeast 4052.42 465.60 8.704 < 2e-16
## as.factor(Region)West 3573.07 520.32 6.867 6.96e-12
## as.factor(Estado)Alaska 1024.43 559.49 1.831 0.067128
## as.factor(Estado)Arizona 406.43 452.24 0.899 0.368835
## as.factor(Estado)Arkansas -3497.49 435.41 -8.033 1.07e-15
## as.factor(Estado)California 3270.01 485.50 6.735 1.73e-11
## as.factor(Estado)Colorado 839.33 520.32 1.613 0.106752
## as.factor(Estado)Connecticut -41.19 452.11 -0.091 0.927417
## as.factor(Estado)Delaware 499.70 482.82 1.035 0.300718
## as.factor(Estado)Florida 302.13 421.55 0.717 0.473571
## as.factor(Estado)Georgia 902.03 391.28 2.305 0.021170
## as.factor(Estado)Hawaii 1621.27 508.65 3.187 0.001440
## as.factor(Estado)Idaho 2103.64 466.11 4.513 6.46e-06
## as.factor(Estado)Illinois 3699.65 506.80 7.300 3.11e-13
## as.factor(Estado)Indiana 517.00 459.37 1.125 0.260424
## as.factor(Estado)Iowa 259.72 480.76 0.540 0.589053
## as.factor(Estado)Kansas 3320.24 516.14 6.433 1.31e-10
## as.factor(Estado)Kentucky 300.09 472.78 0.635 0.525625
## as.factor(Estado)Louisiana -289.50 427.35 -0.677 0.498158
## as.factor(Estado)Maine 1976.71 546.59 3.616 0.000300
## as.factor(Estado)Maryland -1181.04 467.44 -2.527 0.011533
## as.factor(Estado)Massachusetts -443.90 461.75 -0.961 0.336405
## as.factor(Estado)Michigan 5147.80 507.65 10.141 < 2e-16
## as.factor(Estado)Minnesota 1788.63 503.32 3.554 0.000382
## as.factor(Estado)Mississippi -1942.80 394.06 -4.930 8.35e-07
## as.factor(Estado)Missouri 1447.66 488.90 2.961 0.003074
## as.factor(Estado)Montana 5330.83 534.36 9.976 < 2e-16
## as.factor(Estado)Nebraska 2367.41 506.80 4.671 3.03e-06
## as.factor(Estado)Nevada 208.23 489.08 0.426 0.670288
## as.factor(Estado)New Hampshire 2403.93 476.67 5.043 4.66e-07
## as.factor(Estado)New Jersey -533.30 501.31 -1.064 0.287440
## as.factor(Estado)New Mexico 1015.17 425.34 2.387 0.017018
## as.factor(Estado)New York 4488.08 462.24 9.709 < 2e-16
## as.factor(Estado)North Carolina 5085.61 441.98 11.507 < 2e-16
## as.factor(Estado)North Dakota 768.74 504.70 1.523 0.127753
## as.factor(Estado)Ohio 7589.58 557.27 13.619 < 2e-16
## as.factor(Estado)Oklahoma -3631.59 426.81 -8.509 < 2e-16
## as.factor(Estado)Oregon -127.31 486.86 -0.261 0.793727
## as.factor(Estado)Pennsylvania 1501.19 449.20 3.342 0.000835
## as.factor(Estado)Rhode Island -737.14 445.67 -1.654 0.098157
## as.factor(Estado)South Carolina 6576.99 423.43 15.533 < 2e-16
## as.factor(Estado)South Dakota 3060.23 504.02 6.072 1.31e-09
## as.factor(Estado)Tennessee -479.87 375.41 -1.278 0.201192
## as.factor(Estado)Texas -136.18 419.74 -0.324 0.745607
## as.factor(Estado)Utah -2762.81 486.86 -5.675 1.43e-08
## as.factor(Estado)Vermont 1600.63 509.14 3.144 0.001673
## as.factor(Estado)Virginia NA NA NA NA
## as.factor(Estado)Washington 365.37 517.16 0.706 0.479902
## as.factor(Estado)West Virginia NA NA NA NA
## as.factor(Estado)Wisconsin NA NA NA NA
## as.factor(Estado)Wyoming NA NA NA NA
## as.factor(Ciudad)Albuquerque NA NA NA NA
## as.factor(Ciudad)Anchorage NA NA NA NA
## as.factor(Ciudad)Atlanta NA NA NA NA
## as.factor(Ciudad)Baltimore NA NA NA NA
## as.factor(Ciudad)Billings NA NA NA NA
## as.factor(Ciudad)Birmingham NA NA NA NA
## as.factor(Ciudad)Boise NA NA NA NA
## as.factor(Ciudad)Boston NA NA NA NA
## as.factor(Ciudad)Burlington NA NA NA NA
## as.factor(Ciudad)Charleston NA NA NA NA
## as.factor(Ciudad)Charlotte NA NA NA NA
## as.factor(Ciudad)Cheyenne NA NA NA NA
## as.factor(Ciudad)Chicago NA NA NA NA
## as.factor(Ciudad)Columbus NA NA NA NA
## as.factor(Ciudad)Dallas -28.16 419.06 -0.067 0.946416
## as.factor(Ciudad)Denver NA NA NA NA
## as.factor(Ciudad)Des Moines NA NA NA NA
## as.factor(Ciudad)Detroit NA NA NA NA
## as.factor(Ciudad)Fargo NA NA NA NA
## as.factor(Ciudad)Hartford NA NA NA NA
## as.factor(Ciudad)Honolulu NA NA NA NA
## as.factor(Ciudad)Houston NA NA NA NA
## as.factor(Ciudad)Indianapolis NA NA NA NA
## as.factor(Ciudad)Jackson NA NA NA NA
## as.factor(Ciudad)Knoxville NA NA NA NA
## as.factor(Ciudad)Las Vegas NA NA NA NA
## as.factor(Ciudad)Little Rock NA NA NA NA
## as.factor(Ciudad)Los Angeles -845.74 449.93 -1.880 0.060180
## as.factor(Ciudad)Louisville NA NA NA NA
## as.factor(Ciudad)Manchester NA NA NA NA
## as.factor(Ciudad)Miami 4380.44 454.84 9.631 < 2e-16
## as.factor(Ciudad)Milwaukee NA NA NA NA
## as.factor(Ciudad)Minneapolis NA NA NA NA
## as.factor(Ciudad)New Orleans NA NA NA NA
## as.factor(Ciudad)New York 3405.82 461.41 7.381 1.70e-13
## as.factor(Ciudad)Newark NA NA NA NA
## as.factor(Ciudad)Oklahoma City NA NA NA NA
## as.factor(Ciudad)Omaha NA NA NA NA
## as.factor(Ciudad)Orlando NA NA NA NA
## as.factor(Ciudad)Philadelphia NA NA NA NA
## as.factor(Ciudad)Phoenix NA NA NA NA
## as.factor(Ciudad)Portland NA NA NA NA
## as.factor(Ciudad)Providence NA NA NA NA
## as.factor(Ciudad)Richmond NA NA NA NA
## as.factor(Ciudad)Salt Lake City NA NA NA NA
## as.factor(Ciudad)San Francisco NA NA NA NA
## as.factor(Ciudad)Seattle NA NA NA NA
## as.factor(Ciudad)Sioux Falls NA NA NA NA
## as.factor(Ciudad)St. Louis NA NA NA NA
## as.factor(Ciudad)Wichita NA NA NA NA
## as.factor(Ciudad)Wilmington NA NA NA NA
## as.factor(Linea)Men's Athletic Footwear 658.98 137.48 4.793 1.67e-06
## as.factor(Linea)Men's Street Footwear 3262.96 137.49 23.733 < 2e-16
## as.factor(Linea)Women's Apparel 2056.58 137.51 14.955 < 2e-16
## as.factor(Linea)Women's Athletic Footwear -477.11 137.56 -3.468 0.000526
## as.factor(Linea)Women's Street Footwear 75.80 137.53 0.551 0.581536
## as.factor(Metodo)Online -4866.23 124.79 -38.995 < 2e-16
## as.factor(Metodo)Outlet -4292.29 145.01 -29.601 < 2e-16
##
## (Intercept) ***
## as.factor(Minorista)Foot Locker
## as.factor(Minorista)Kohl's *
## as.factor(Minorista)Sports Direct *
## as.factor(Minorista)Walmart ***
## as.factor(Minorista)West Gear **
## as.factor(Region)Northeast **
## as.factor(Region)South ***
## as.factor(Region)Southeast ***
## as.factor(Region)West ***
## as.factor(Estado)Alaska .
## as.factor(Estado)Arizona
## as.factor(Estado)Arkansas ***
## as.factor(Estado)California ***
## as.factor(Estado)Colorado
## as.factor(Estado)Connecticut
## as.factor(Estado)Delaware
## as.factor(Estado)Florida
## as.factor(Estado)Georgia *
## as.factor(Estado)Hawaii **
## as.factor(Estado)Idaho ***
## as.factor(Estado)Illinois ***
## as.factor(Estado)Indiana
## as.factor(Estado)Iowa
## as.factor(Estado)Kansas ***
## as.factor(Estado)Kentucky
## as.factor(Estado)Louisiana
## as.factor(Estado)Maine ***
## as.factor(Estado)Maryland *
## as.factor(Estado)Massachusetts
## as.factor(Estado)Michigan ***
## as.factor(Estado)Minnesota ***
## as.factor(Estado)Mississippi ***
## as.factor(Estado)Missouri **
## as.factor(Estado)Montana ***
## as.factor(Estado)Nebraska ***
## as.factor(Estado)Nevada
## as.factor(Estado)New Hampshire ***
## as.factor(Estado)New Jersey
## as.factor(Estado)New Mexico *
## as.factor(Estado)New York ***
## as.factor(Estado)North Carolina ***
## as.factor(Estado)North Dakota
## as.factor(Estado)Ohio ***
## as.factor(Estado)Oklahoma ***
## as.factor(Estado)Oregon
## as.factor(Estado)Pennsylvania ***
## as.factor(Estado)Rhode Island .
## as.factor(Estado)South Carolina ***
## as.factor(Estado)South Dakota ***
## as.factor(Estado)Tennessee
## as.factor(Estado)Texas
## as.factor(Estado)Utah ***
## as.factor(Estado)Vermont **
## as.factor(Estado)Virginia
## as.factor(Estado)Washington
## as.factor(Estado)West Virginia
## as.factor(Estado)Wisconsin
## as.factor(Estado)Wyoming
## as.factor(Ciudad)Albuquerque
## as.factor(Ciudad)Anchorage
## as.factor(Ciudad)Atlanta
## as.factor(Ciudad)Baltimore
## as.factor(Ciudad)Billings
## as.factor(Ciudad)Birmingham
## as.factor(Ciudad)Boise
## as.factor(Ciudad)Boston
## as.factor(Ciudad)Burlington
## as.factor(Ciudad)Charleston
## as.factor(Ciudad)Charlotte
## as.factor(Ciudad)Cheyenne
## as.factor(Ciudad)Chicago
## as.factor(Ciudad)Columbus
## as.factor(Ciudad)Dallas
## as.factor(Ciudad)Denver
## as.factor(Ciudad)Des Moines
## as.factor(Ciudad)Detroit
## as.factor(Ciudad)Fargo
## as.factor(Ciudad)Hartford
## as.factor(Ciudad)Honolulu
## as.factor(Ciudad)Houston
## as.factor(Ciudad)Indianapolis
## as.factor(Ciudad)Jackson
## as.factor(Ciudad)Knoxville
## as.factor(Ciudad)Las Vegas
## as.factor(Ciudad)Little Rock
## as.factor(Ciudad)Los Angeles .
## as.factor(Ciudad)Louisville
## as.factor(Ciudad)Manchester
## as.factor(Ciudad)Miami ***
## as.factor(Ciudad)Milwaukee
## as.factor(Ciudad)Minneapolis
## as.factor(Ciudad)New Orleans
## as.factor(Ciudad)New York ***
## as.factor(Ciudad)Newark
## as.factor(Ciudad)Oklahoma City
## as.factor(Ciudad)Omaha
## as.factor(Ciudad)Orlando
## as.factor(Ciudad)Philadelphia
## as.factor(Ciudad)Phoenix
## as.factor(Ciudad)Portland
## as.factor(Ciudad)Providence
## as.factor(Ciudad)Richmond
## as.factor(Ciudad)Salt Lake City
## as.factor(Ciudad)San Francisco
## as.factor(Ciudad)Seattle
## as.factor(Ciudad)Sioux Falls
## as.factor(Ciudad)St. Louis
## as.factor(Ciudad)Wichita
## as.factor(Ciudad)Wilmington
## as.factor(Linea)Men's Athletic Footwear ***
## as.factor(Linea)Men's Street Footwear ***
## as.factor(Linea)Women's Apparel ***
## as.factor(Linea)Women's Athletic Footwear ***
## as.factor(Linea)Women's Street Footwear
## as.factor(Metodo)Online ***
## as.factor(Metodo)Outlet ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3898 on 9582 degrees of freedom
## Multiple R-squared: 0.3628, Adjusted R-squared: 0.3584
## F-statistic: 83.92 on 65 and 9582 DF, p-value: < 2.2e-16
Para ese análisis se escogieron las variables que demostraron mayor significancia con la ganancia operativa. Lo que resultó en el reemplazo de la variable Minorista por la variable Región.
Siendo así, se desarrolló un último modelo con cuatro variables independientes. Dos cuantitativas: Unidades vendidas y ventas totales. Y dos categóricas: Método de venta y región.
El modelo desarrollado y sus respectivas pruebas se pueden encontrar a continuación.
Modelo_adidas3 <- lm(Ganancia_operativa ~ Unidades_vendidas
+ Ventas_totales
+ as.factor(Metodo)
+ as.factor(Region),
data = Adidas_datos)
summary(Modelo_adidas3)
##
## Call:
## lm(formula = Ganancia_operativa ~ Unidades_vendidas + Ventas_totales +
## as.factor(Metodo) + as.factor(Region), data = Adidas_datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -14392.1 -504.6 -98.4 451.3 14434.2
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -253.11632 61.88197 -4.090 4.34e-05 ***
## Unidades_vendidas 1.73740 0.20963 8.288 < 2e-16 ***
## Ventas_totales 0.34071 0.00348 97.900 < 2e-16 ***
## as.factor(Metodo)Online 787.36969 51.45669 15.302 < 2e-16 ***
## as.factor(Metodo)Outlet 211.85208 53.44296 3.964 7.42e-05 ***
## as.factor(Region)Northeast 9.08714 52.13949 0.174 0.862
## as.factor(Region)South 541.93939 57.89026 9.361 < 2e-16 ***
## as.factor(Region)Southeast 32.13764 62.41431 0.515 0.607
## as.factor(Region)West -436.13717 52.45538 -8.314 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1654 on 9639 degrees of freedom
## Multiple R-squared: 0.8846, Adjusted R-squared: 0.8845
## F-statistic: 9235 on 8 and 9639 DF, p-value: < 2.2e-16
pearson.test(Modelo_adidas3$residuals)
##
## Pearson chi-square normality test
##
## data: Modelo_adidas3$residuals
## P = 6061.7, p-value < 2.2e-16
bptest(Modelo_adidas3)
##
## studentized Breusch-Pagan test
##
## data: Modelo_adidas3
## BP = 3061.9, df = 8, p-value < 2.2e-16
confint(Modelo_adidas3)
## 2.5 % 97.5 %
## (Intercept) -374.4179800 -131.8146521
## Unidades_vendidas 1.3264839 2.1483192
## Ventas_totales 0.3338841 0.3475277
## as.factor(Metodo)Online 686.5037604 888.2356119
## as.factor(Metodo)Outlet 107.0926400 316.6115096
## as.factor(Region)Northeast -93.1172262 111.2915034
## as.factor(Region)South 428.4623150 655.4164603
## as.factor(Region)Southeast -90.2075286 154.4828088
## as.factor(Region)West -538.9607285 -333.3136089
Manteniendo constantes las demás variables:
Unidades vendidas
Ventas totales
Método de venta
Región
Como el p valor es menor a un alfa del 0.05, rechazamos la hipótesis nula de que las variables en su conjunto no son significativas para explicar la variable ganancia operativa. Por tanto, este modelo en su conjunto si tiene significancia.
Un R-cuadrado de 0.8845 indica que aproximadamente el 88.45% de la variabilidad en la ganancia operativa puede explicarse por las variables del modelo.
Supuesto de normalidad (Pearson chi-square normality test): El p valor menor a 0.05 sugiere que los errores no siguen una distribución normal, lo que podría indicar que el modelo no captura completamente la estructura de los datos.
Supuesto de heterocedasticidad (Breusch-Pagan test): El valor p extremadamente bajo en la prueba de Breusch-Pagan¸ menor a 0.05 , indica que hay heterocedasticidad, es decir, que la varianza de los residuos no es constante. Esto puede sugerir que el modelo podría no ser eficiente.
Intervalos de confianza: Los intervalos de confianza proporcionan rangos de valores dentro de los cuales se espera que se encuentren los coeficientes del modelo con un 95% de confianza. Algunos intervalos de confianza, como los de región: Northeast, Southeast y West, incluyen cero, lo que indica que estos efectos podrían no ser estadísticamente significativos a ese nivel de confianza.
Para complementar el análisis, se crearon algunos gráficos que muestren el efecto que tienen las variables explicativas sobre la fanancia operativa.
g1 <- ggplot(Adidas_datos, aes(x = Precio_unitario,
y = Unidades_vendidas,
color = Metodo))+
geom_point() +
ggtitle("Relación entre unidades vendidas y ganancia operativa por método de venta")+
xlab("Unidades vendidas") +
ylab("Ganancia operativa")
ggplotly(g1)
g2 <- ggplot(Adidas_datos, aes(x = Precio_unitario,
y = Ventas_totales,
color = Metodo))+
geom_point() +
ggtitle("Relación entre ventas totales y ganancia operativa por método de venta")+
xlab("Ventas totales") +
ylab("Ganancia operativa")
ggplotly(g2)
g3 <- ggplot(Adidas_datos, aes(x = Precio_unitario,
y = Unidades_vendidas,
color = Region))+
geom_point() +
ggtitle("Relación entre unidades vendidas y ganancia operativa por region")+
xlab("Unidades vendidas") +
ylab("Ganancia operativa")
ggplotly(g3)
g4 <- ggplot(Adidas_datos, aes(x = Precio_unitario,
y = Ventas_totales,
color = Region))+
geom_point() +
ggtitle("Relación entre ventas totales y ganancia operativa por region")+
xlab("Ventas totales") +
ylab("Ganancia operativa")
ggplotly(g4)
El desarrollo de un modelo que explique la variable ganancia operativa permite que predicción del valor que se tendría que esperar como resultado de la ganancia operativa, dados ciertos parámetros de las otras variables del modelo. A pesar de no haber cumplido los supuestos necesarios para verificar la validez del modelo, se asume que los datos recolectados representan el universo completo que la empresa Adidas desea analizar. Con esto en mente, se generaron cinco escenarios diferentes para los que se podría buscar predecir la ganancia operativa esperada.
Prediccion <- data.frame(Unidades_vendidas = c(10, 100, 250, 700, 1200),
Ventas_totales = c(100, 1100, 10000, 25000, 60000 ),
Metodo = c("In-store", "Outlet", "Online", "Online", "Outlet"),
Region = c("Northeast", "South", "West", "Midwest", "Southeast"))
Prediccion1 <- predict(Modelo_adidas3, Prediccion)
Prediccion
## Unidades_vendidas Ventas_totales Metodo Region
## 1 10 100 In-store Northeast
## 2 100 1100 Outlet South
## 3 250 10000 Online West
## 4 700 25000 Online Midwest
## 5 1200 60000 Outlet Southeast
Prediccion1
## 1 2 3 4 5
## -192.5846 1049.1918 3939.5259 10268.0827 22518.1110
Con el modelo desarrollado se lograron encontrar las siguientes predicciones:
Escenario 1
Escenario 2
Escenario 3
Escenario 4
Escenario 5