Análisis descriptivo

Tom Peters,especialista en prácticas de gestión empresarial y autor de “En busca de le excelencia” considera que el exito de un negocio descansa en las ventas, por ello, a lo largo de esta practica, buscaremos dar un pronostico de ventas de los proximos 100 dias de la empresa que estamos analizando.

Para ponernos en contexto, cabe mencionar que nuestra base (P4) contiene los registros de las ventas de una empresa, la cual se dedica a vender por internet regalos para toda ocasión.

Primero analizaremos los datos que contiene nuestra base:

##    InvoiceNo        StockCode     
##  573585 :  1114   85123A :  2313  
##  581219 :   749   22423  :  2203  
##  581492 :   731   85099B :  2159  
##  580729 :   721   47566  :  1727  
##  558475 :   705   20725  :  1639  
##  579777 :   687   84879  :  1502  
##  (Other):537202   (Other):530366  
##                              Description        Quantity        
##  WHITE HANGING HEART T-LIGHT HOLDER:  2369   Min.   :-80995.00  
##  REGENCY CAKESTAND 3 TIER          :  2200   1st Qu.:     1.00  
##  JUMBO BAG RED RETROSPOT           :  2159   Median :     3.00  
##  PARTY BUNTING                     :  1727   Mean   :     9.55  
##  LUNCH BAG RED RETROSPOT           :  1638   3rd Qu.:    10.00  
##  (Other)                           :530362   Max.   : 80995.00  
##  NA's                              :  1454                      
##   InvoiceDate                    UnitPrice           CustomerID    
##  Min.   :2010-12-10 00:00:00   Min.   :-11062.06   17841  :  7983  
##  1st Qu.:2011-03-30 15:38:00   1st Qu.:     1.25   14911  :  5903  
##  Median :2011-07-21 13:00:00   Median :     2.08   14096  :  5128  
##  Mean   :2011-07-07 15:39:22   Mean   :     4.61   12748  :  4642  
##  3rd Qu.:2011-10-18 12:17:00   3rd Qu.:     4.13   14606  :  2782  
##  Max.   :2011-11-30 17:42:00   Max.   : 38970.00   (Other):380391  
##  NA's   :180460                                    NA's   :135080  
##            Country      
##  United Kingdom:495478  
##  Germany       :  9495  
##  France        :  8557  
##  EIRE          :  8196  
##  Spain         :  2533  
##  Netherlands   :  2371  
##  (Other)       : 15279

En el periodo de 10 de Diciembre del 2010 al 30 de Noviembre del 2011, la empresa tuvo ventas en 38 países, la mayor parte de los clientes como se puede observar pertenecen al Reino Unido, por lo que podemos inferir que nuestra empresa radica en dicho país, lo cual es congruente con que nuestros principales consumidores son países que pertenecen a la Unión Europea (Francia, Alemania, España, Holanda, etc). En cambio, los países que pertenecen al continente Americano y Asiático tienen muy poca participación.

También notamos la gran diversidad de producto que tiene la empresa,los cincos productos más vendidos suman menos de 10 mil unidades de más de medio millión de las ventas totales.

El promedio de la cantidad de pruductos que se vendieron fue de 9.55 con un precio promedio por producto de 4.61, lo cual generó un ingreso promedio de $44.025 por venta.

Debido a que la base contiene datos de un solo año,tuvimos que tomar la fecha por día para que nuestra serie de tiempo obtuviera una periocidad consistente.

Ahora, relizaremos un estudio de las ventas de los países consumistas apartir de la cantidad de los diferentes productos por el precio unitario

##       Country       VENTA        
##  Australia: 1   Min.   :    131  
##  Austria  : 1   1st Qu.:   2053  
##  Bahrain  : 1   Median :  10139  
##  Belgium  : 1   Mean   : 282990  
##  Brazil   : 1   3rd Qu.:  36300  
##  Canada   : 1   Max.   :9194306  
##  (Other)  :32

En la tabla anterior, se puede observar que la venta máxima que en 2011 se registró fue de 9194306 y que la venta minima fue de 131 de los 38 países; teniendo una venta promedio de 10139.

A continuación veremos ciertas gráficas que nos ayudarán a entender mejor el compartamiento que han tenido los países con respectos a las ventas que se generaron en dicho año.

Países que generan más ingresos

De la información anterior, tomamos la media de las ventas para motrar los países que estan por arriba de esta los cuales fueron los siguientes:

Como se pudo observar en la gráfica anterior, los que generan mas ingresos ala empresa son países europeos, pero quién mas genera dinero es Reino Unido,tan solo de dicho país,se recibió un ingreso de 7,500,000 en un periodo de un año.

Mmientras que los demás apesar de superar el ingreso promedio quedan muy por debajo del ingreso de Reino Unido.

Países que generan menor ingreso

Los países con menor ingreso son:

En este grafo, observamos que la mayoría de los países que estan por debajo del promeido del ingreso a la empresa, se encuentran fuera de Europa por lo que podemos intuir que la empresa no es reconocida a nivel mundial.

Decidimos quitar en el gráfico a Reino Unido debido a que el ingreso es bastante grande a los demás lo que afecta en las visualización de las observaciones restantes.

Países sin Reino Unido

La diferencia entre nuestro país con mayor ingreso al segundo es aproximadamente mas de 5,000,000 por lo que nuestro capital principal proviene de UK;de Holanda podemos deducir que hay un ingreso aproximado de 2,000,000 y que tanto Irlanda, Alemania,Francia,Australia generandon un ingreso de 1,000,000.

Otra variable que nos llamó la atención dentro de nuestra base fuela de pruducto, ya que nos interesa saber cuales son los productos que más se vendieron y los que no. Por eso realizamos un analisis de estudio general de los productos

## # A tibble: 4,212 x 2
##    Description                             VENTA
##    <fct>                                   <dbl>
##  1 AMAZON FEE                          -228541. 
##  2 Discount                             -99399. 
##  3 Adjust bad debt                      -11062. 
##  4 CRUK Commission                       -7933. 
##  5 Bank Charges                          -6154. 
##  6 ROTATING SILVER ANGELS T-LIGHT HLDR   -5238. 
##  7 SAMPLES                               -3049. 
##  8 WHITE CHERRY LIGHTS                     -54  
##  9 CREAM SWEETHEART MAGAZINE RACK          -47.8
## 10 WOODEN BOX ADVENT CALENDAR              -45.7
## # ... with 4,202 more rows
##                   Description       VENTA          
##  *Boombox Ipod Classic  :   1   Min.   :-228541.5  
##  *USB Office Mirror Ball:   1   1st Qu.:     89.2  
##  ?                      :   1   Median :    627.3  
##  ? sold as sets?        :   1   Mean   :   2553.1  
##  ??                     :   1   3rd Qu.:   2153.7  
##  (Other)                :4206   Max.   : 449461.2  
##  NA's                   :   1

Podemos observar que son 4,212 productos con los que cuenta la empresa,generando un ingreso máximo de 449,461 y una perdida de -228,542.

Debido a que son demasiados productos y que la mayoría se venden muy bien no podemos realizar una gráfica adecuada para observar los productos que más se venden, sin embrago si podemos mostralos productos que menos se venden

PRODUCTOS CON PEORES VENTAS

Los productos que casi no se vendieron en 2011 fueron: En la gráfica notemos que el principal producto que genera una perdida es “Amazon FEE”

Termiando con nuestro Análisis exploratorio hemos concluido que gran parte del capital ingresado a la empresa proviene del continente europeo, debido a la gran variedad de productos que tiene la empresa el ingreso que se obtuvo en un periodo de un año fue bastante satisfactorio, sinembargo las pérdidas que generaron ciertos productos fueron realmente considerables.

——–SERIES DE TIEMPO ———-

Al realizar nuestra serie de tiempo detectamos que no hay periodicidad diaria pero construimos con los datos una periodicidad semanal , conn el fin de generar una serie de tiempo adecuada

## # A tibble: 48 x 3
##    semana   VENTA ulti_dia  
##    <chr>    <dbl> <date>    
##  1 49      75305  2010-12-12
##  2 50     207306. 2010-12-19
##  3 51      88735. 2010-12-23
##  4 02     190469. 2011-01-16
##  5 03     133823. 2011-01-23
##  6 04     119657. 2011-01-30
##  7 05      22537. 2011-01-31
##  8 06      39348. 2011-02-13
##  9 07     140006. 2011-02-20
## 10 08     133096. 2011-02-27
## # ... with 38 more rows

SERIE DE TIEMPO POR DIA

SERIE DE TIEMPO POR SEMANA

## [1] "2010-12-10"
## [1] "2011-11-30"
## # A tibble: 48 x 3
##    semana   VENTA ulti_dia  
##    <chr>    <dbl> <date>    
##  1 49      75305  2010-12-12
##  2 50     207306. 2010-12-19
##  3 51      88735. 2010-12-23
##  4 02     190469. 2011-01-16
##  5 03     133823. 2011-01-23
##  6 04     119657. 2011-01-30
##  7 05      22537. 2011-01-31
##  8 06      39348. 2011-02-13
##  9 07     140006. 2011-02-20
## 10 08     133096. 2011-02-27
## # ... with 38 more rows
## [1] -Inf

Tendencias, ESTACIONARIEDAD Y RUIDO BLANCO

Debido a que la informacion que obtuvimos es diaria y solo cubre un año y además no lo cubre por completo, entoces usaremos la semanal.

cabe mencionar que la frecuencia semanal con periodicidad diaria ruido blanco debe estar entre -2 y 2.

Tuvimos demasiadas dificultades con nuestra base en cuestión del tiempo por lo que creamos varias series de tiempos con diferentes periodicidad en cuestion del tiempo , es decir, diarias, semanales, y quincenales, de las cuales solo tomamos la que nos parecio a nosotros tener un comportamiento adecuado para su estudio con respecto a las ventas generadas en determindao tiempo.

MENSUAL 30 DIAS

Podemos observar que de todas las gráficas anteriores las que mejor tienen un comportamiento es la semanal(7),quincenal(frecuencia de 15), la mensual (frecuencia de 30), desafortudamente la serie con una frecuencia de 365 no nos ayuda a saber su comportamiento.

Se pueden observar que no todas nuestras gráficas cuentan con datos muy pocos dispersos pero aun aún se ve en la gráfica que no es estacionaria pero para comprobar si estamos en lo cierto,relizamos las obsevaciones anteriores y de las cuales dedujimos que la autocorrelación simple tanto como en la parcial todos los rezagos se encuentran dentro del intervalo, sin embargo la media y la varianza no son constantes.

MODELOS

Con la ayuda de la función arima , obtuvimos los modelos preliminares para nuestras respectivas series, sin embargo en los tres modelos obtuvimos un ARIMA (0,0,0) con media cero es ruido blanco, lo que significa que los errores no están correlacionados en el tiempo.

Esto no implica nada sobre el tamaño de los errores, por lo que no, en general, no es una indicación de un ajuste bueno o malo.

Vamos la información general

.

## Series: serie_SEM 
## ARIMA(0,0,0) with non-zero mean 
## 
## Coefficients:
##            mean
##       50459.471
## s.e.   5494.027
## 
## sigma^2 estimated as 7.893e+10:  log likelihood=-36475.63
## AIC=72955.27   AICc=72955.27   BIC=72967.01
## 
## Training set error measures:
##                         ME     RMSE      MAE       MPE     MAPE      MASE
## Training set -1.099452e-10 280884.7 41519.36 -126.8749 132.6087 0.7833214
##                    ACF1
## Training set 0.00970583

En este caso los estadisticos de error muestran una aproximacíon a cero lo que indica que nuestro modelo es correcto.

En este caso, notamos que la ??2 no se aproxima a cero la razón podria ser porque estámos ajustando demasiados paramteros, sin embargo y que ME es -6.321953e-08 entre otros estadisticos de error. Estos son números muy pequeños, así que sí, el modelo “encaja” bien.

Es probable que esté sobre ajustando los datos en un grado extremo, y es probable que no pueda pronosticar muy fuera de la muestra; lo cual veremos mas adelante.

## Series: serie_MEN 
## ARIMA(0,0,0) with non-zero mean 
## 
## Coefficients:
##            mean
##       51193.854
## s.e.   2691.008
## 
## sigma^2 estimated as 8.131e+10:  log likelihood=-156446.7
## AIC=312897.5   AICc=312897.5   BIC=312912.1
## 
## Training set error measures:
##                         ME     RMSE      MAE       MPE     MAPE      MASE
## Training set -1.250825e-07 285145.1 42583.48 -129.2393 134.8203 0.7360133
##                     ACF1
## Training set 0.009482292

Podemos notar que para los otros dos casos, paso exactamente los mismo que en el primero.

Continuando con el análisis de la serie obtendremor la autocorrelación y autocorrelación parcial de los datos sin realizar alguna transformación de los mismos.

———-Analisis de residuales———–

Para saber si realizamos el ajuste adecuado realizaremos el analisis correspondiente de los residuales

Realizamos la siguiente prueba de hipotesis para saber si los residuales se distribuyen normal, sin embargo no lo hace por lo que nuestro ajuste hay algo raro que tenemos que indagar mas y ver en q vayamos ya que la serie si estacionario y la correlacion tiene un comportamiento normal

## 
##  Anderson-Darling normality test
## 
## data:  q$residuals
## A = 876.79, p-value < 2.2e-16

———Predicción ———-

Realizamos un pronostico 100 días adicionales al ajuste de nuestra serie semana apesar de que tuvimos un fallo en el ajuste

##          Point Forecast     Lo 95    Hi 95
## 15317.14       50459.47 -500169.9 601088.8
## 15317.29       50459.47 -500169.9 601088.8
## 15317.43       50459.47 -500169.9 601088.8
## 15317.57       50459.47 -500169.9 601088.8
## 15317.71       50459.47 -500169.9 601088.8
## 15317.86       50459.47 -500169.9 601088.8
## 15318.00       50459.47 -500169.9 601088.8
## 15318.14       50459.47 -500169.9 601088.8
## 15318.29       50459.47 -500169.9 601088.8
## 15318.43       50459.47 -500169.9 601088.8
## 15318.57       50459.47 -500169.9 601088.8
## 15318.71       50459.47 -500169.9 601088.8
## 15318.86       50459.47 -500169.9 601088.8
## 15319.00       50459.47 -500169.9 601088.8
## 15319.14       50459.47 -500169.9 601088.8
## 15319.29       50459.47 -500169.9 601088.8
## 15319.43       50459.47 -500169.9 601088.8
## 15319.57       50459.47 -500169.9 601088.8
## 15319.71       50459.47 -500169.9 601088.8
## 15319.86       50459.47 -500169.9 601088.8
## 15320.00       50459.47 -500169.9 601088.8
## 15320.14       50459.47 -500169.9 601088.8
## 15320.29       50459.47 -500169.9 601088.8
## 15320.43       50459.47 -500169.9 601088.8
## 15320.57       50459.47 -500169.9 601088.8
## 15320.71       50459.47 -500169.9 601088.8
## 15320.86       50459.47 -500169.9 601088.8
## 15321.00       50459.47 -500169.9 601088.8
## 15321.14       50459.47 -500169.9 601088.8
## 15321.29       50459.47 -500169.9 601088.8
## 15321.43       50459.47 -500169.9 601088.8
## 15321.57       50459.47 -500169.9 601088.8
## 15321.71       50459.47 -500169.9 601088.8
## 15321.86       50459.47 -500169.9 601088.8
## 15322.00       50459.47 -500169.9 601088.8
## 15322.14       50459.47 -500169.9 601088.8
## 15322.29       50459.47 -500169.9 601088.8
## 15322.43       50459.47 -500169.9 601088.8
## 15322.57       50459.47 -500169.9 601088.8
## 15322.71       50459.47 -500169.9 601088.8
## 15322.86       50459.47 -500169.9 601088.8
## 15323.00       50459.47 -500169.9 601088.8
## 15323.14       50459.47 -500169.9 601088.8
## 15323.29       50459.47 -500169.9 601088.8
## 15323.43       50459.47 -500169.9 601088.8
## 15323.57       50459.47 -500169.9 601088.8
## 15323.71       50459.47 -500169.9 601088.8
## 15323.86       50459.47 -500169.9 601088.8
## 15324.00       50459.47 -500169.9 601088.8
## 15324.14       50459.47 -500169.9 601088.8
## 15324.29       50459.47 -500169.9 601088.8
## 15324.43       50459.47 -500169.9 601088.8
## 15324.57       50459.47 -500169.9 601088.8
## 15324.71       50459.47 -500169.9 601088.8
## 15324.86       50459.47 -500169.9 601088.8
## 15325.00       50459.47 -500169.9 601088.8
## 15325.14       50459.47 -500169.9 601088.8
## 15325.29       50459.47 -500169.9 601088.8
## 15325.43       50459.47 -500169.9 601088.8
## 15325.57       50459.47 -500169.9 601088.8
## 15325.71       50459.47 -500169.9 601088.8
## 15325.86       50459.47 -500169.9 601088.8
## 15326.00       50459.47 -500169.9 601088.8
## 15326.14       50459.47 -500169.9 601088.8
## 15326.29       50459.47 -500169.9 601088.8
## 15326.43       50459.47 -500169.9 601088.8
## 15326.57       50459.47 -500169.9 601088.8
## 15326.71       50459.47 -500169.9 601088.8
## 15326.86       50459.47 -500169.9 601088.8
## 15327.00       50459.47 -500169.9 601088.8
## 15327.14       50459.47 -500169.9 601088.8
## 15327.29       50459.47 -500169.9 601088.8
## 15327.43       50459.47 -500169.9 601088.8
## 15327.57       50459.47 -500169.9 601088.8
## 15327.71       50459.47 -500169.9 601088.8
## 15327.86       50459.47 -500169.9 601088.8
## 15328.00       50459.47 -500169.9 601088.8
## 15328.14       50459.47 -500169.9 601088.8
## 15328.29       50459.47 -500169.9 601088.8
## 15328.43       50459.47 -500169.9 601088.8
## 15328.57       50459.47 -500169.9 601088.8
## 15328.71       50459.47 -500169.9 601088.8
## 15328.86       50459.47 -500169.9 601088.8
## 15329.00       50459.47 -500169.9 601088.8
## 15329.14       50459.47 -500169.9 601088.8
## 15329.29       50459.47 -500169.9 601088.8
## 15329.43       50459.47 -500169.9 601088.8
## 15329.57       50459.47 -500169.9 601088.8
## 15329.71       50459.47 -500169.9 601088.8
## 15329.86       50459.47 -500169.9 601088.8
## 15330.00       50459.47 -500169.9 601088.8
## 15330.14       50459.47 -500169.9 601088.8
## 15330.29       50459.47 -500169.9 601088.8
## 15330.43       50459.47 -500169.9 601088.8
## 15330.57       50459.47 -500169.9 601088.8
## 15330.71       50459.47 -500169.9 601088.8
## 15330.86       50459.47 -500169.9 601088.8
## 15331.00       50459.47 -500169.9 601088.8
## 15331.14       50459.47 -500169.9 601088.8
## 15331.29       50459.47 -500169.9 601088.8

Acercamiento a la predicción

Se puede observar que son constantes dichas predicciones.

CONCLUSIONES GENERALES:

Realmente este no es un trabajo bien concluido y hay muchas iconsistencias, simplemente es un avance de lo que hasta ahora hemos trabajado ya que nos hemos presentado con ciertas dificultades; sin embrago podemos aportar algunas conjeturas con esto como:

Lafortaleza de nuestra empresa se encuentra en Reino Unido, por ello sugerimos que en este país ahora nos enfoquemos en hacer clientes en vez de ventas. En otras palabras, hacer que cada vez más nuestros consumidores nos vuelvan a comprar y esto lo lograremos dando beneficios hasta los que al Momento son nuestros clientes principales (los identificamos Con su Número ID).

Notamos que existen 5 países en especial (además de Reino Unido) en los que estamos vendiendo más que en los demas. Aquí sugerimos invertir en publicidad y marketing para que las ventas en estos países sigan creciendo. Ya que como sabemos, es conveniente no poner todos los huevos en una sola canasta (Reino Unido), sino poner muchos huevos en POCAS canastas.

Para el año 2011, no tenemos registros de ventas en latinoamerica. Por lo que también es un área de oportunidad para incrementar nuestras ventas, más que en países donde actualmente hemos vendido como China que es un país con un mercado muy competido en cuanto a ventas online en donde tendríamos que invertir una cantidad mayor para subir nuestras ventas.

Otra conclusion que obtenemos es que nuestro pronóstico no muestra signos de que vayamos a tener una mala temporada, lo cual es bueno para la empresa.

Nos gustaría contar con datos de años anteriores, así podríamos ver un mejor pronóstico debido a que las ventas online están creciendo año tras año y por lo mismo vemos un futuro que está empresa siga creciendo. Como mencionamos al principio, creemos que es muy probable que la empresa esté en Reino Unido, país que pertenece al top 5 de los países que más vende online.