title: “Analisis de datos” author: “Oscar Medina Alcaino” date: “15/11/2019”

output: html_document


Introducción

En la empresa Supermercado Montserrat contiene una gran cantidad de boletas generadas por cada caja. Por lo consecuente que cada boleta corresponde a un cliente y a su vez tiene registra sus productos y su cantidad. Esta información es enviada a la central, donde es almacenada por años. Y en la misma central contienen la información contenido de sus bodegas en cada sucursal. Siendo que se obtiene la información de compra, no se sabe cuál es el producto que el cliente prefieren y su relación con la cantidad de que contiene la bodega. Por lo cual se requiere una forma visual en un plano geográfico que indique el contenido de abastecimiento de los productos en cada sucursal. Así poder comprar o trasladar los productos entre sus 35 sucursales, dependiendo a la preferencia de los clientes

Descripción de los datos

Cada sucursal contiene a lo menos 3 cajas en funcionamiento,Los datos son almacenados en la misma caja por una semana como máximo y luego son eliminadas en forma automática.

Por lo cual la cantidad de transacción son variadas de pendiendo de cada boleta, cada boleta (en su inicio) contiene la cantidad de registros que coresponde a la compra,cada archivo en la caja tiene un formatos de nombre con una exteccion numerica “IDC001”, que el número corresponde a la caja de la transaccion (001) y el nombre IDC corresponde el tipo de dato (Encriptados). Esta información se envía en forma automática al servidor master, que queda en un solo archivo HOCIDC.001, que HOCIDC corresponde el tipo de datos (Encriptados) Cuando el número supere el valor 30 son eliminados. Esto implica que la información en cada sucursal se almacenará por 1 mes.
Cada noche se procede a rescatar de ventas, esto implica obtener cada archivó en cada sucursal con el nombre de “HOCIDC.001” y copiándola a la central (Servidor repositorio) con el nombre de HOCIDC02.191112, el HOCIDC corresponde al tipo de dato (Encriptado), 02 corresponde a la sucursal y la extensión corresponde a la fecha.

Este archivo es leído y almacenados en AS400 en una sola tabla llamada “ventas.2019”

Esquema general de la información

Se obtendrá del Servidor AS400 las siguientes tablas Ventas.2019 y Locales
Definiciones de la tabla:

Archivo Ventas

  • CODLOC: Código de local
    • Tipo: Numérico (3)
    • Descripción: Corresponde a la enumeración de la sucursal
  • FECHA: Fecha del registro
    • Tipo: Date
    • Descripción: Fecha correspondiente al registro
  • HORA : Hora que se realizó el registro
    • Tipo : Time
    • Descripción: Corresponde a la hora que se realizó la transacción
  • SECCION: Número de sección que corresponde a l producto
    • Tipo: Numérico(3)
    • Descripción: Corresponde al código relacional de la sección que pertenece. Estas secciones puede ser verdura , panadería , etc.
  • NOMSEC: Nombre de la sección
    • Tipo: text(30)
    • Descripción: Corresponde al nombre que pertenes el producto.
  • PLU: numero de código del producto.
    • Tipo:Numérico(18)
    • Descripción: Corresponde al códigos de productos(Price look-up)
  • NOMPLU: Nombre del producto
    • Tipo: texto (50)
    • Descripción: Corresponde al nombre del producto
  • CANTIDAD: Cantidad de la compra
    • Tipo: doublé(4,3)
    • Descripción: Corresponde a la cantidad e la compra, puede ser valor en entero o con decimales para los pasables
  • VALOR: Valor del producto
    • Tipo: Numérico (8)
    • Descripción: Valor que el cliente pago por el producto
  • TOTAL: Total de boleta
    • Tipo: Numérico (8)
    • Descripción: Valor que el cliente canse el total de su compra
  • FOLIO: Número de boleta
    • Tipo: Numérico (12)
    • Descripción: Número de boleta o factura

Archivo Locales

  • CODLOC: Código de local
    • Tipo: Numérico (3)
    • Descripción: Corresponde a la enumeración de la sucursal
  • NOMSUP: Nombre de la sucursal
    • Tipo: text(15)
    • Descripción: Nombre de la sucursal
  • DIRSUP: Dirección de la sucursal
    • Tipo : Text
    • Descripción: La ubicacion de la sucursal #### Archivo Bodegas
  • CODLOC: Código de local
    • Tipo: Numérico (3)
    • Descripción: Corresponde a la enumeración de la sucursal
  • PLU: numero de código del producto.
    • Tipo:Numérico(18)
    • Descripción: Corresponde al códigos de productos(PLU)
  • CANINV: Cantidad de la compra
    • Tipo: doublé(4,3)
    • Descripción: Corresponde a la cantidad e la compra, puede ser valor en entero o con decimales

Procesamiento

El archivo Ventas.2019 contiene las ventas del año 2019, revisando los datos no se encuentras datos vacíos, solo que exciten dos observaciones.

El nombre de la columna “CODLOC” contiene un carácter oculto que provoca una mala lectura de su nombre, por lo cual se realiza un renombramiento de esta columna.

El archivo Locales contiene los nombres de cada sucursal excepto el posicionamiento global (GPS), por lo tanto, se convierte en excel en office 2014 en un ambiente Windows. para añadir las nuevas columnas, LONGITUD y LATITUD de cada sucursal. La información de la ubicación GPS se usará con la herramienta de google maps.

Procesamiento de datos

Se importará la información del archivo Ventas.2019, se renombrará la columna CODLOC por motivo que se encuentra el carácter («) que no corresponde.
Para esto se utilizará la sintaxis: names(Ventas)[1]<-“CODLOC”

Se importara el archivo Locales.xlsx , donde se introdujo manualmente las coordenada geográficas ya que no se encontraba esta información en el registros

Se importará el archivo Bodega, Donde se encuentra la información de cada sucursal

Obtención

Se importa el archivo Ventas.2019,Quedando con el nombre del dataset Ventas y sus valores nulos en “na”.

 Ventas       <- read.csv2("Ventas.2019", na="na")

Se importa archivo locales,Quedando con el nombre del dataset Locales y sus valores nulos en “0”.
con los tipo de columnas : “numeric”, “text”, “text”,“numeric”, “numeric”.

Locales      <- read_excel("Locales.xlsx", col_types = c("numeric", "text", "text","numeric", "numeric"), na = "0")

Se importa archivo bodegas,Quedando con el nombre del dataset Bodegas

Bodegas      <- read.csv2("Bodegas")

Transformación

Se cambia el nombre de la columna CODLOC con la siguiente para eliminar su carácter incorrecto.

names(Ventas)[1]<-"CODLOC"

Procesos

  • Se tuvo que analizar las cantidades registradas en las ventas, y las cantidades en bodegas
    Observando esta información nos encontramos que se podía unir ambas informaciones generando un porcentaje de compras y porcentaje existente en la bodega. de esta manera se podra mostrar un promedio que lo que se consumen y lo que contienen en la bodegas.

  • También se pudo obtener la media, la median de la muestra de los datos en cada sucursal.

Resultados

Shiny applications not supported in static R Markdown documents

Discusión

Compare los resultados obtenidos con lo presentado en su informe 1. ¿Obtuvo lo esperado?, si no es así porque?

Conclusión

¿Qué obtuvo de todo esto?

Referencias

Que funciones utilizó (indique la dirección de la función basada en Cran-R)