Declaración del problema: Se han recopilado datos de ventas de productos en 10 tiendas en diferentes ciudades. Además, se han definido ciertos atributos de cada producto y tienda. El objetivo es observar el comportamiento de las ventas de cada producto en una tienda en particular. Se tiene una base con 443 registros correspondientes, a los cuales las características como el peso del producto y las ventas en diferentes tiendas y se tiene los siguientes productos.
setwd("G:/RData/")
data <- read.csv("train.csv",sep = ",",header = TRUE,dec = ".")
View(data)
#Propiedades de los productos y las tiendas tiendas que desempeñan
attach(data)
mytable1 <- with(data ,table(Item_Type))
mytable1
## Item_Type
## Baking Goods Breads Breakfast
## 32 13 8
## Canned Dairy Frozen Foods
## 32 39 46
## Fruits and Vegetables Hard Drinks Health and Hygiene
## 66 9 23
## Household Meat Others
## 42 29 9
## Seafood Snack Foods Soft Drinks
## 1 55 29
## Starchy Foods
## 10
Se procede a realizar un histograma para observar la distribución que poseen los datos. En el caso de la variable ventas nos indica que su distribución es sesgada a la izquierda con respecto a la distribución normal, en conclusión podríamos considerar que la variable no sigue una distribución normal.
En el caso de la variable MRP podemos concluir que la variable no sigue una distribución normal.
## [1] 0.6082828
Se puede observar que la correlación entre el MRB y las ventas es del 0.60 por lo que podemos asegurar que las variables están medianamente relacionadas o que poseen una relación directa.
##
## Call:
## lm(formula = Item_MRP ~ Item_Outlet_Sales)
##
## Residuals:
## Min 1Q Median 3Q Max
## -88.063 -39.399 -5.487 31.558 160.236
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 94.35407 3.85808 24.46 <2e-16 ***
## Item_Outlet_Sales 0.02109 0.00131 16.09 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 50.54 on 441 degrees of freedom
## Multiple R-squared: 0.37, Adjusted R-squared: 0.3686
## F-statistic: 259 on 1 and 441 DF, p-value: < 2.2e-16
Se ha obtenido la estimación de la ordenada en el origen igual a 94.35 y de la pendiente igual a 0.021, mediante el ajuste un modelo lineal. Como era de esperarse la mayor cantidad de ventas se concentra en los supermercados que en las pequeñas tiendas de comestibles, además podemos visualizar si tenemos datos atípicos.
##
## Call:
## xyplot(Item_Outlet_Sales ~ Item_MRP | Item_Fat_Content, data = data,
## type = c("p", "r "), main = "Ventas y MRP por contenido de grasa",
## xlab = "Ventas", ylab = "MRP")
##
## Number of observations:
## Item_Fat_Content
## LF low fat Low Fat reg Regular
## 11 7 269 5 151
Se puede identificar que existe una relación lineal positiva entra las variable Ventas vs MRP. Se ha detectado valores atípico es decir valore donde el MBP influye mucho en las ventas de los producto. Las distribuciones de las variables MRP y ventas son sesgadas haca la derecha y aun discriminado por visibilidad siguen teniendo la misma distribución.
##
## Call:
## lm(formula = Item_MRP ~ Item_Outlet_Sales - 1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -196.875 -3.406 31.558 75.138 248.044
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## Item_Outlet_Sales 0.04617 0.00125 36.93 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 77.49 on 442 degrees of freedom
## Multiple R-squared: 0.7552, Adjusted R-squared: 0.7547
## F-statistic: 1364 on 1 and 442 DF, p-value: < 2.2e-16
## Analysis of Variance Table
##
## Response: Item_MRP
## Df Sum Sq Mean Sq F value Pr(>F)
## Item_Outlet_Sales 1 8187297 8187297 1363.7 < 2.2e-16 ***
## Residuals 442 2653742 6004
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1