April 13, 2018

Informe modelamiento

Declaración del problema: Se han recopilado datos de ventas de productos en 10 tiendas en diferentes ciudades. Además, se han definido ciertos atributos de cada producto y tienda. El objetivo es observar el comportamiento de las ventas de cada producto en una tienda en particular. Se tiene una base con 443 registros correspondientes, a los cuales las características como el peso del producto y las ventas en diferentes tiendas y se tiene los siguientes productos.

Slide with Bullets

  • Gráfico de distribución
  • Gráfico de dispersión
  • Correlación y Boxplot
  • Modelo logit

Carga de datos

setwd("G:/RData/")
data <- read.csv("train.csv",sep = ",",header = TRUE,dec = ".") 
View(data)
#Propiedades de los productos y las tiendas tiendas que desempeñan 
attach(data)
mytable1 <- with(data ,table(Item_Type))
mytable1
## Item_Type
##          Baking Goods                Breads             Breakfast 
##                    32                    13                     8 
##                Canned                 Dairy          Frozen Foods 
##                    32                    39                    46 
## Fruits and Vegetables           Hard Drinks    Health and Hygiene 
##                    66                     9                    23 
##             Household                  Meat                Others 
##                    42                    29                     9 
##               Seafood           Snack Foods           Soft Drinks 
##                     1                    55                    29 
##         Starchy Foods 
##                    10

Gráfico de distribución

Se procede a realizar un histograma para observar la distribución que poseen los datos. En el caso de la variable ventas nos indica que su distribución es sesgada a la izquierda con respecto a la distribución normal, en conclusión podríamos considerar que la variable no sigue una distribución normal.

En el caso de la variable MRP podemos concluir que la variable no sigue una distribución normal.

Correlación entre las variables MRP y Ventas

## [1] 0.6082828

Se puede observar que la correlación entre el MRB y las ventas es del 0.60 por lo que podemos asegurar que las variables están medianamente relacionadas o que poseen una relación directa.

## 
## Call:
## lm(formula = Item_MRP ~ Item_Outlet_Sales)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -88.063 -39.399  -5.487  31.558 160.236 
## 
## Coefficients:
##                   Estimate Std. Error t value Pr(>|t|)    
## (Intercept)       94.35407    3.85808   24.46   <2e-16 ***
## Item_Outlet_Sales  0.02109    0.00131   16.09   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 50.54 on 441 degrees of freedom
## Multiple R-squared:   0.37,  Adjusted R-squared:  0.3686 
## F-statistic:   259 on 1 and 441 DF,  p-value: < 2.2e-16

Se ha obtenido la estimación de la ordenada en el origen igual a 94.35 y de la pendiente igual a 0.021, mediante el ajuste un modelo lineal. Como era de esperarse la mayor cantidad de ventas se concentra en los supermercados que en las pequeñas tiendas de comestibles, además podemos visualizar si tenemos datos atípicos.

Diagrama de bigotes

Diagrama de dispersión

## 
## Call:
## xyplot(Item_Outlet_Sales ~ Item_MRP | Item_Fat_Content, data = data, 
##     type = c("p", "r "), main = "Ventas y MRP por contenido de grasa", 
##     xlab = "Ventas", ylab = "MRP")
## 
## Number of observations:
## Item_Fat_Content
##      LF low fat Low Fat     reg Regular 
##      11       7     269       5     151

Se puede identificar que existe una relación lineal positiva entra las variable Ventas vs MRP. Se ha detectado valores atípico es decir valore donde el MBP influye mucho en las ventas de los producto. Las distribuciones de las variables MRP y ventas son sesgadas haca la derecha y aun discriminado por visibilidad siguen teniendo la misma distribución.

Plot, anova

## Analysis of Variance Table
## 
## Response: Item_MRP
##                    Df  Sum Sq Mean Sq F value    Pr(>F)    
## Item_Outlet_Sales   1 8187297 8187297  1363.7 < 2.2e-16 ***
## Residuals         442 2653742    6004                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1