title: “Analisis de datos” author: “Oscar Medina Alcaino” date: “15/11/2019”
output: html_document
En la empresa Supermercado Montserrat contiene una gran cantidad de boletas generadas por cada caja. Por lo consecuente que cada boleta corresponde a un cliente y a su vez tiene registra sus productos y su cantidad. Esta información es enviada a la central, donde es almacenada por años. Y en la misma central contienen la información contenido de sus bodegas en cada sucursal. Siendo que se obtiene la información de compra, no se sabe cuál es el producto que el cliente prefieren y su relación con la cantidad de que contiene la bodega. Por lo cual se requiere una forma visual en un plano geográfico que indique el contenido de abastecimiento de los productos en cada sucursal. Así poder comprar o trasladar los productos entre sus 35 sucursales, dependiendo a la preferencia de los clientes
Cada sucursal contiene a lo menos 3 cajas en funcionamiento,Los datos son almacenados en la misma caja por una semana como máximo y luego son eliminadas en forma automática.
Por lo cual la cantidad de transacción son variadas de pendiendo de cada boleta, cada boleta (en su inicio) contiene la cantidad de registros que coresponde a la compra,cada archivo en la caja tiene un formatos de nombre con una exteccion numerica “IDC001”, que el número corresponde a la caja de la transaccion (001) y el nombre IDC corresponde el tipo de dato (Encriptados). Esta información se envía en forma automática al servidor master, que queda en un solo archivo HOCIDC.001, que HOCIDC corresponde el tipo de datos (Encriptados) Cuando el número supere el valor 30 son eliminados. Esto implica que la información en cada sucursal se almacenará por 1 mes.
Cada noche se procede a rescatar de ventas, esto implica obtener cada archivó en cada sucursal con el nombre de “HOCIDC.001” y copiándola a la central (Servidor repositorio) con el nombre de HOCIDC02.191112, el HOCIDC corresponde al tipo de dato (Encriptado), 02 corresponde a la sucursal y la extensión corresponde a la fecha.
Este archivo es leído y almacenados en AS400 en una sola tabla llamada “ventas.2019”
Esquema general de la información
Se obtendrá del Servidor AS400 las siguientes tablas Ventas.2019 y Locales
Definiciones de la tabla:
El archivo Ventas.2019 contiene las ventas del año 2019, revisando los datos no se encuentras datos vacíos, solo que exciten dos observaciones.
El nombre de la columna “CODLOC” contiene un carácter oculto que provoca una mala lectura de su nombre, por lo cual se realiza un renombramiento de esta columna.
El archivo Locales contiene los nombres de cada sucursal excepto el posicionamiento global (GPS), por lo tanto, se convierte en excel en office 2014 en un ambiente Windows. para añadir las nuevas columnas, LONGITUD y LATITUD de cada sucursal. La información de la ubicación GPS se usará con la herramienta de google maps.
Se importará la información del archivo Ventas.2019, se renombrará la columna CODLOC por motivo que se encuentra el carácter («) que no corresponde.
Para esto se utilizará la sintaxis: names(Ventas)[1]<-“CODLOC”
Se importara el archivo Locales.xlsx , donde se introdujo manualmente las coordenada geográficas ya que no se encontraba esta información en el registros
Se importará el archivo Bodega, Donde se encuentra la información de cada sucursal
Se importa el archivo Ventas.2019,Quedando con el nombre del dataset Ventas y sus valores nulos en “na”.
Ventas <- read.csv2("Ventas.2019", na="na")
Se importa archivo locales,Quedando con el nombre del dataset Locales y sus valores nulos en “0”.
con los tipo de columnas : “numeric”, “text”, “text”,“numeric”, “numeric”.
Locales <- read_excel("Locales.xlsx", col_types = c("numeric", "text", "text","numeric", "numeric"), na = "0")
Se importa archivo bodegas,Quedando con el nombre del dataset Bodegas
Bodegas <- read.csv2("Bodegas")
Se cambia el nombre de la columna CODLOC con la siguiente para eliminar su carácter incorrecto.
names(Ventas)[1]<-"CODLOC"
Se tuvo que analizar las cantidades registradas en las ventas, y las cantidades en bodegas
Observando esta información nos encontramos que se podía unir ambas informaciones generando un porcentaje de compras y porcentaje existente en la bodega. de esta manera se podra mostrar un promedio que lo que se consumen y lo que contienen en la bodegas.
También se pudo obtener la media, la median de la muestra de los datos en cada sucursal.
Compare los resultados obtenidos con lo presentado en su informe 1. ¿Obtuvo lo esperado?, si no es así porque?
¿Qué obtuvo de todo esto?
Que funciones utilizó (indique la dirección de la función basada en Cran-R)