Introducción

En este trabajo se analizará un conjunto de datos de una empresa de transporte, que se dedica al transporte de carga terrestre en distintas regiones del pais. Para este trabajo rescatamos y analizaremos algunos datos relacionados a la carga y rendimientos de combustible.

Cabe destacar que la empresa cuenta con dispensadores propios de combustible dispuestos en sus sucursales. En cada sucursal cuentan con uno o mas dispensadores y sus respectivos estanques. Ademas cuenta con personal a cargo de realizar la carga de combustible (bombero) por sucursal, responsable de registrar los datos necesarios para esta función.

De acuerdo a los datos que disponemos, esperamos poder hacer distintos analisis estadisticos de consumo, rendimiento, consumos por sucursal, revision de graficos, promedios, comparación de consumos por tipos de vehiculos y por marca de los camiones. Sucursales con mas movimineto, camiones y choferes con mayor movimiento, asi como también un analisis del movimiento por dia.

Descripción de los datos

El conjunto de datos a analizar corresponde a información de 4 meses (Agosto a Noviembre) del año 2019 . Son registros de un sistema interno diseñado para llevar el control del consumo de combustible y su rendimiento. Estos datos estan en linea entre las distintas sucursales, por lo tanto cada vez que un vehiculo carga combustible queda registrado en el sistema y visible para todas las sucursales. Registrando asi su odometro en linea al momento de la siguiente carga de combustible, con esto es posible el calculo del rendimiento de cada vehiculo en cada carga de combustible.

A continuacion se detalla y explica la informacion correspondiente a cada columna de datos, estos datos fueron exportados a excel y luego filtrados para su analisis en este trabajo.

Descripción de los datos que disponemos para su análisis:

num_vale : Corresponde a un numero único de comprobante de consumo de combustible (numerico).
fec_movim : Corresponde a la fecha de emision del vale de consumo (fecha).
hr_movim: Corrresponde a la hora de carga del combustible (hora).
fechr_movim: Fecha y hora de la carga de combustible
cod_suc : Es el codigo asignado por el sistema a la sucursal donde se realiza la carga de combustible (numerico).
nom_suc: Es el nombre asignado a la surcusal donde se realiza el consumo o carga de combustible (VarChar).
cod_dispen: Es el codigo asignado al dispensador de combustible en la sucursal (numerico).
nom_dispensador: Es el nombre asignado a los distintos dispensadores por sucursal (VarChar).
cod_estanque: Es el codigo asignado por el sistema a un estanque especifico (numerico).
nom_estanque: Es el nombre asignado a cada estanque generalmente estanque#num, por sucursal (VarChar).
cod_vehiculo: Es el codigo interno asignado a cada vehiculo (camion, furgon) independiente de su patente (VarChar).
**cod_tip__vehic**: Codigo asignado al tipo de vehiculo (1=camion, 2=camion3/4, 3=furgon)
tipo_vehiculo: Tipo de vehiculo (camion o furgon) que realiza la carga de combustible (VarChar).
nom_conductor: Es el nombre del conductor que realiza la carga de combustible y que a su vez está asociado a un vehiculo de su responsabilidad (VarChar)
OdomAnt: Corresponde al numero del odometro del vehiculo registrado en el sistema en su carga anterior de combustible (numerico).
OdomAct: Corresponde al numero del odometro del vehiculo que muestra el panel al momento de realizar la carga de combustible (numerico).
cant_carga: Numero de litros de combustible que se cargan en el vehiculo (numerico).
rendimiento: Corresponde al calculo del rendimiento de combustible del vehiculo que arroja el sistema con los datos del odometro anterior y actual y la carga de litros de combustible (numerico).
dispen_ini: Es el numero que registra el contador del dispensador al inicio de la carga de combustible (numerico).
dispen_fin: Es el numero que registra el contador del dispensador al final de la carga de combustible (numerico).
dispen_usr: Corresponde al nombre de usuario del sistema que realiza el registro de combustible (VarChar).
dispen_fec_reg: Corresponde a la fecha y hora del registro en el sistema que realiza el bombero (fecha + hora).
marca_vehiculo: Corresponde a la marca del vehiculo que realiza la carga de combustible (VarChar).
modelo_vehiculo: corresponde al modelo del vehiculo que realiza la carga de combustible (VarChar).

Procesamiento

El procesamiento de los datos que se quiere hacer es analizar el rendimiento de combustible para los distintos tipos de vehiculos, analizar estadisticas, graficos, tanto a niveles generales del conjunto de datos y estadisticas mas detalladas de los filtros que podamos aplicar.

Analisis, por ejemplo, de una sucursal en particular, un estanque, un chofer, un bombero, margenes de error en los datos. Verificar la consistencia de los datos, que a su vez ya fueron filtrados de un conjunto de datos mayor en donde dejamos solo los datos de una empresa en particular con tres tipos de vehiculos (camiones, camiones 3/4 y furgones).

Fueron filtrados y eliminados del conjunto de datos, previo a la carga de este trabajo, algunos datos que no eran relevantes para este analisis. Se eliminaron datos como rut de los trabajadores, datos vaciós que no eran consistentes con la muestra general, se anonimizaron algunos datos, por ejemlo algunas patentes que aparecian en algunos campos. Se eliminaron datos que claramente estaban mal ingresados al sistema por error humano, como por ejemplo rendimientos negativos para algunos registros. Todo este proceso se hizo previo a la carga de datos iniciales para este trabajo.

# fin de informe 1

# informe 2

Procesamiento de datos

Los datos rescatados para este analisis provienen de un archivo excel exportado desde el sistema que administra esta información. ##Instalamos las librerias que usaremos, para el correcto manejo de los datos son:

Eliminaremos con RStudio, columna de datos “hr_movim” que al ser importada desde excel a RStudio muestra la hora bien pero con una fecha incorrecta, como este dato ya se encuentra contenido en columna “fechr_movim” la eliminamos para limpiar el set de datos que trabajaremos.

Revisaremos además algunos gráficos con los datos que disponemos R.

Crearemos varias tablas temporales con datos filtrados por tipo de vehiculo, camiones y marca por ejemplo, para su analisis por separado.

Obtención

A continuación realizamos la carga de los datos con RStudio desde un archivo excel “ANALISIS_DATOS.xlsx” ubicado en carpeta de datos. Utilizaremos libreria “readxl” que nos permite importar y reconocer los formatos de filas, columnas y datos que contiene el archivo excel, manteniendo los formatos automaticamente. Importamos los datos a una tabla “DatosImport”

##install.packages("readxl")
library(readxl)
DatosImport <- read_excel("datos/ANALISIS_DATOS.xlsx")
DatosImport

summary(DatosImport)

##     num_vale        fec_movim                      hr_movim                  
##  Min.   : 23238   Min.   :2019-08-01 00:00:00   Min.   :1899-12-31 00:01:00  
##  1st Qu.: 26290   1st Qu.:2019-09-02 00:00:00   1st Qu.:1899-12-31 11:23:00  
##  Median : 51863   Median :2019-10-03 00:00:00   Median :1899-12-31 16:01:39  
##  Mean   : 92352   Mean   :2019-10-02 02:00:28   Mean   :1899-12-31 15:01:32  
##  3rd Qu.:185461   3rd Qu.:2019-11-05 00:00:00   3rd Qu.:1899-12-31 18:36:00  
##  Max.   :189974   Max.   :2019-11-30 00:00:00   Max.   :1899-12-31 23:57:15  
##  fechr_movim           cod_suc         nom_suc            cod_dispen    
##  Length:11689       Min.   : 1.000   Length:11689       Min.   : 1.000  
##  Class :character   1st Qu.: 1.000   Class :character   1st Qu.: 3.000  
##  Mode  :character   Median : 3.000   Mode  :character   Median : 7.000  
##                     Mean   : 6.319                      Mean   : 8.387  
##                     3rd Qu.:18.000                      3rd Qu.:18.000  
##                     Max.   :18.000                      Max.   :18.000  
##  nom_dispensador     cod_estanque    nom_estanque       cod_vehiculo      
##  Length:11689       Min.   : 1.000   Length:11689       Length:11689      
##  Class :character   1st Qu.: 2.000   Class :character   Class :character  
##  Mode  :character   Median : 5.000   Mode  :character   Mode  :character  
##                     Mean   : 7.568                                        
##                     3rd Qu.:19.000                                        
##                     Max.   :19.000                                        
##  cod_tip_vehic   tipo_vehiculo      nom_conductor         OdomAnt       
##  Min.   :1.000   Length:11689       Length:11689       Min.   :    478  
##  1st Qu.:1.000   Class :character   Class :character   1st Qu.: 287540  
##  Median :1.000   Mode  :character   Mode  :character   Median : 547824  
##  Mean   :1.114                                         Mean   : 617788  
##  3rd Qu.:1.000                                         3rd Qu.: 940184  
##  Max.   :3.000                                         Max.   :1525729  
##     OdomAct          cant_carga     rendimiento       dispen_ini      
##  Min.   :    775   Min.   :  6.0   Min.   : 1.017   Min.   :  585124  
##  1st Qu.: 288194   1st Qu.:160.0   1st Qu.: 2.273   1st Qu.: 5475734  
##  Median : 548138   Median :223.0   Median : 2.598   Median : 6689486  
##  Mean   : 618465   Mean   :234.6   Mean   : 3.306   Mean   : 6298237  
##  3rd Qu.: 940792   3rd Qu.:302.0   3rd Qu.: 3.000   3rd Qu.: 7915905  
##  Max.   :1527078   Max.   :757.0   Max.   :22.400   Max.   :10280322  
##   dispen_final       dispen_usr        dispen_fec_reg               
##  Min.   :  585414   Length:11689       Min.   :2019-08-01 00:05:00  
##  1st Qu.: 5475956   Class :character   1st Qu.:2019-09-02 18:24:00  
##  Median : 6690111   Mode  :character   Median :2019-10-03 08:19:00  
##  Mean   : 6298471                      Mean   :2019-10-02 18:56:11  
##  3rd Qu.: 7916135                      3rd Qu.:2019-11-05 10:38:00  
##  Max.   :10280659                      Max.   :2019-11-30 23:58:00  
##  marca_vehiculo     modelo_vehiculo   
##  Length:11689       Length:11689      
##  Class :character   Class :character  
##  Mode  :character   Mode  :character  
##                                       
##                                       
##

Transformación

Revisados los datos cargados, comenzamos con la tranformación de los datos. Procedemos a eliminar columna “hr_movim” dado que al importar este campo aparece una fecha+hora que no esta correcta, ademas ya tenemos el dato fecha + hora en el campo “fechr_movim”, para ello crearemos un set de datos “Datos1” en donde removeremos esa columna.

Datos1 <- DatosImport[,-c(3)]
Datos1

Procesos

Qué cálculos debió realizar, que tipo de análisis estadistico utilizó. Incluya los códigos utilizados.

Genera y revisa medidas de tendencia central para la columna de datos “rendimiento” que es el objetivo principal de analisis para este trabajo. Para explicar mejor este punto, debemos entender que el dato “rendimiento” nos indica cual es el consumo de combustible (kms x litro).

En lineas generales, analizaremos algunos calculos al set de datos completo, para luego entrar en mayores detalle y entender la diferencia de consumo y rendimiento para los distintos tipos de vehiculos.

Calculamos la Media y Mediana para el campo “rendimiento” del set completo de datos:

mean (Datos1$rendimiento)

## [1] 3.305869

median (Datos1$rendimiento)

## [1] 2.598

Desviación Standard (para rendimiento) : Podemos ver que el margen de la desviación es bajo, esto nos puede indicar que la consistencia de los datos es correcta.

sd(Datos1$rendimiento)

## [1] 2.651613

Generamos un primer grafico del rendimiento de combustible para el set de datos completo, ademas agregamos en el grafico medidas de tendencia central como mediana y media, graficadas con lineas roja y negra respectivamente.

Acá vemos como se concentran los datos en el rango de 3 a 4 (kms x lt), esto nos indica claramente un consumo asociado a un vehiculo de carga, muy distinto, al cunsumo que habitualmente vemos para vehiculos menores. Sin embargo tenemos datos con hasta 20 (kms x lt) lo cual puede significar datos mal ingresados o que corresponden a otro tipo de vehiculo, esto útimo lo analizaremos a continuación.

#histograma por defecto
hist(Datos1$rendimiento)

#histograma con parametros
hist(Datos1$rendimiento, xlab="Kms x litro", main="Histograma de Rendimiento de Combustible \npara todos los datos", col=4, breaks=30)  

# Gráfico de lineas verticales para la mediana y la media
abline(v=median(Datos1$rendimiento), col="red")    #grafica mediana
abline(v=mean(Datos1$rendimiento), col="black")    #grafica media

A continuacion utilizaremos un histograma para RStudio con la libreria “plotly”, que nos muestra un grafico de mejor visualizacion y detalle en los datos a graficar.

#install.packages("plotly")   #instala el paquete para r plotly
library(plotly)

## Loading required package: ggplot2

## 
## Attaching package: 'plotly'

## The following object is masked from 'package:ggplot2':
## 
##     last_plot

## The following object is masked from 'package:stats':
## 
##     filter

## The following object is masked from 'package:graphics':
## 
##     layout

plot_ly(data = Datos1, x =~rendimiento, type = "histogram")

De acuerdo a lo revisado en el histograma anterior, podemos revisar la consistencia de los datos, analizando la densidad de los datos para el parametro “rendimiento” de nuestro set de datos.

d <- density(Datos1$rendimiento)
plot(d, main ="Densidad de Datos1 - Rendimiento")
#polygon(d, col="blue")
# Gráfico de lineas verticales para la mediana y la media
abline(v=median(Datos1$rendimiento), col="red")    #grafica mediana
abline(v=mean(Datos1$rendimiento), col="black")    #grafica media

ANALISIS DE RENDIMIENTO POR TIPO DE VEHICULO.

Aca revisamos un grafico simple (plot), donde comparamos el redimiento por tipo de vehiculo. Para entender correctamente el grafico los numeros corresponden a: * 1= camion. * 2= camion3/4. * 3= furgon.

plot(Datos1$cod_tip_vehic, Datos1$rendimiento, main="Rendimiento por tipo de vehiculo", xlab="Tipo Vehiculo", ylab = "Kms x litro", col=4)

Podemos ver claramente como se concentran los rendimientos para los distintos tipos de vehiculo:

1 camion = cercano a 5 (kms x lt).
2 camion 3/4 = mayores a 5.
3 furgon = por sobre 5 y hasta 20.

A continuacion cargaremos librerias “dplyr” y “ggplot2” para desplegar el mismo grafico, pero con la instruccion “ggplot” En donde observamos que los rendimientos, segun el tipo de vehiculo son: Podemos ver claramente como se concentran los datos para:

1 camion = cercano a 5 (kms x litro).
2 camion 3/4 = mayores a 5 (kms x litro).
3 furgon = por sobre 5 y hasta 20 (kms x litro).

library("dplyr")

## 
## Attaching package: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

library("ggplot2")
ggplot(Datos1, aes(x=cod_tip_vehic, y=rendimiento)) + geom_point()+ggtitle("Rendimiento por tipo de vehiculo") + theme(plot.title = element_text(hjust=0.5,face="bold", color = "blue"))

ANALISIS RENDIMIENTO CAMIONES:

Para poder hacer un analisis mas especifico, revisaremos por separado los datos por tipo de vehiculo. Estos son camiones (num 1), camiones 3/4 (num 2) y furgones (num 3).

Primero aplicamos un filtro a los datos, por el campo “tipo_vehiculo” y seleccionamos solo los camiones.

camiones=subset(Datos1,tipo_vehiculo=="camion")  #crea nueva tabla camiones

library(plotly)
#hist(camiones$rendimiento)
hist(camiones$rendimiento, xlab="Kms x litro", main="Histograma de Rendimiento de Combustible \nsolo para Camiones", col=4)

plot_ly(data = camiones, x =~rendimiento, type = "histogram")

1) CAMIONES:

Para un analisis mas preciso del rendimiento de los vehuculo de tipo camiones, y de acuerdo a lo que se observa en este grafico, vemos que la mayor cantidad de datos, para el eje x está en el rango de 1 a 4. Por lo tanto aplicaremos otro filtro para los datos menores o iguales a 4.

Luego podemos observar en el gráfico como el consumo para este tipo de vehiculo está en el rango de 2 a 3,4 kms x litro aproximadamente. Dando cuenta que para este tipo de vehiculos pesados, los rendimientos de combustibles son de esa magnitud. Tambien acá agregamos mediana y media en el histograma.

CamionesFiltro=subset(camiones,rendimiento<=4)  #aplica filtro para valores menores o iguales a 4
hist(CamionesFiltro$rendimiento, xlab="Kms x Litro", main="Rendimiento combustible Camiones \n(datos selecionados del 1 al 4)", col=4)
library(plotly)

# Gráfico de lineas verticales para la mediana y la media
abline(v=median(CamionesFiltro$rendimiento), col="red")    #grafica mediana
abline(v=mean(CamionesFiltro$rendimiento), col="black")    #grafica media

plot_ly(data = CamionesFiltro, x =~rendimiento, type = "histogram")

2) CAMION 3/4:

A continuacion analizaremos el consumo para el tipo de vehiculo (2) que corresponde a camion 3/4, este es un tipo de camion intermedio, de menor tamaño que los camiones de la categoria anterior. Por lo tanto se esperaría un rendimiento mayor dado que son vehiculos mas livianos.

Procedemos a crear una nueva tabla con los datos filtrados para el “tipo_vehiculo” camion 3/4 y graficamos:

camiones34=subset(Datos1,cod_vehiculo=="CAMION 3/4") #crea nueva tabla camiones

#hist(camiones34$rendimiento)  #histograma basico
hist(camiones34$rendimiento, xlab="Kms x Litro", main="Rendimiento combustible Camiones 3/4 \n(camiones tamaño mediano)", col=4)
# Gráfico de lineas verticales para la mediana y la media
abline(v=median(camiones34$rendimiento), col="red")    #grafica mediana
abline(v=mean(camiones34$rendimiento), col="black")    #grafica media

plot_ly(data = camiones34, x =~rendimiento, type = "histogram")

3) FURGONES:

Por último, por tipo de vehiculo, aplicamos un filtro para tipo de vehiculo furgon, en donde vemos evidencia de un rendimiento distinto al de los camiones y acorde al de un vehiculo menor. En este gráfico podemos ver que el rendimiento se concentra en torno a 10 Kms x litros, es allí donde se concentran la mayor cantidad de datos. También agregamos en el grafico las medidas de tendencia central mediana y media.

furgones=subset(Datos1,tipo_vehiculo=="furgon")
#hist(furgones$rendimiento)   #histograma basico
hist(furgones$rendimiento, xlab="Kms x Litro", main="Rendimiento combustible Furgones", col=4)
# Gráfico de lineas verticales para la mediana y la media
abline(v=median(furgones$rendimiento), col="red")    #grafica mediana
abline(v=mean(furgones$rendimiento), col="black")    #grafica media

plot_ly(data = furgones, x =~rendimiento, type = "histogram")

CARGAS DE COMBUSTIBLE EN SUCURSALES:

Otro analisis que podemos hacer con los datos que disponemos, es en que sucursales se concentran los movimientos de cargas de combustibles para los vehiculos, segun el codigo de la sucursal.

ggplot(Datos1, aes(x=cod_suc, y=cant_carga)) + geom_point()+ggtitle("Frecuencia de cargas en sucursales") + theme(plot.title = element_text(hjust=0.5,face="bold", color = "blue"))

ANALISIS DE FRECUENCIA ABSOLUTA:

Como analisis adicional, con la variable de frecuebcia absoluta para el campo de “sucursal”, podemos ver en un grafico “barplot” donde se producen la mayoria de las cargas de combustible, para este caso podemos ver que en “Casa Matriz” se realizan la mayoria de las cargas de combustible.

frec_absol3 <- table(Datos1$nom_suc)
barplot(frec_absol3,xlab="Nombre Sucursales",main="Movimientos por Sucursal",border=F, las=2,cex.names = 0.45,horiz = FALSE)

La frecuencia absoluta nos sirve para revisar y explicar algunas variables, desde donde podemos analizar y desplegar varios graficos que nos explican, de acuerdo a la frecuencia, que camiones han tenido mayor movimiento, que choferes han realizado mas cargas de combustibles en el set de datos y en que sucursales se han realizado mas cargas de combustible.

# codigo R

#Generacion de tablas de frecuencia absoluta para distintas variables y su analisis:

#Frecuencia Absoluta
#frec_absol <- table(Datos1$cod_vehiculo)
#frec_absol2 <- table(Datos1$nom_conductor)
#frec_absol3 <- table(Datos1$nom_suc)

CAMIONES CON MAYOR MOVIMIENTO:

Utilizando la tabla que creamos para frecuencia absoluta, podemos ver en un grafico barplot con mejor detalle. Para este caso, los camiones con mayor movimiento o que mas veces realizaron cargas de combustible. Para visualizar los datos de mejor forma hemos ordenado de mayor a menor y luego desplegamos en grafico “barplot” de R

frec_absol <- table(Datos1$cod_vehiculo)
frec_absol  <-sort(frec_absol , decreasing=TRUE) # Orden inverso
barplot(frec_absol,xlab="Codigo Camiones",main="Movimientos por Camiones",border=F, las=2,cex.names = 0.45,horiz = FALSE)

MOVIMIENTOS POR CHOFER:

En un segundo grafico de frecuencia absoluta podemos ver un analisis similar con el dato de los choferes, en donde podemos observar, con los nombres de cada chofer una comparativa de quienes realizaron mayores y menores cargas de combustible.

Con los mismos datos obtenidos de la frecuencia absoluta para conductores, ordenamos de mayor a menor la tabla resultante y ademas filtramos los primeros 20 datos y graficamos con “barplot” de R.

En resumen, podemos observar que para los 4 meses observados, los conductores que realizaron mayores cargas de combustible, estan en el orden de 60 a 70 cargas de combustible.

frec_absol2 <- table(Datos1$nom_conductor)
frec_absol2  <-sort(frec_absol2 , decreasing=TRUE) # Orden inverso
frec_absol22 <- (head(frec_absol2,20))  #seleccionamos los primeros 20 datos
barplot(frec_absol22,xlab="nombre conductores",main="Movimientos por Conductores",border=F, las=2,cex.names = 0.45,horiz = FALSE)

Otro dato que podemos revisar, a partir de la frecuencia absoluta aplicada a la fecha de la carga de combustible, podemos observar la distribución, en estos 4 meses de las cargas de combustible por cada dia, en donde se aprecia claramente el mayor cantidad de movimientos durante la semana (cada cinco dias lun-vie) y se aprecia un menor movimiento los 2 siguientes dias (sab-dom).

Ademas podemos observar claramente la disminucion de movimiento en el mes de septiembre, para las fechas de fiestas patrias.

frec_absol4 <- table(Datos1$fec_movim)
barplot(frec_absol4,xlab="Frec. absoluta",main="fechr_movim",border=F, las=2,cex.names = 0.45,horiz = FALSE)

ANALISIS DE RENDIMIENTO POR MARCA DE CAMION:

A continuación haremos un analisis de los consumos promedio para las las tres marcas de camiones que aparecen en la muestra de datos, estas marcas son: FREIGHTLINER, MERCEDES BENZ y VOLVO.

Camiones marca FREIGHTLINER: Al set de datos “camiones” que ya hemos creado, le aplicaremos un filtro para el campo “marca_vehiculo” en donde seleccionaremos solo aquellos de marca FREIGHTLINER, este filtro lo crearemos en otro set de datos llamado “camionesFRL”, para luego mostrar un histograma del rendimiento de este tipo de camiones.

camionesFRL=subset(camiones, marca_vehiculo=="FREIGHTLINER")  #crea nuevo set de datos filtrando solo la marca Freghliner
#hist(camionesFRL$rendimiento)
hist(camionesFRL$rendimiento, xlab="Kms x litro", main="Histograma de rendimiento camion \n por marca FREIGHTLINER", col=4)

Como podemos observar en este histograma, los datos se concentran en valores inferiores a 5, por lo tanto seleccionaremos los datos menores o iguales a 4, para hacer un analisis mas preciso.

Creamos una nueva tabla con este nuevo filtro y la llamamos “CamionesFil_FREIGHTLINER” y graficamos:

CamionesFil_FREIGHTLINER=subset(camionesFRL,rendimiento<=4)  #aplica filtro para el campo rendimiento menor o igual a 4
#genera nuevo histograma de los datos filtrados de 1 a 4
hist(CamionesFil_FREIGHTLINER$rendimiento, xlab="Kms x litro", main="Rendimiento camiones FREIGHTLINER \n(datos filtrados de 1 a 4)", col=4)
# Gráfico de lineas verticales para la mediana y la media
abline(v=median(CamionesFil_FREIGHTLINER$rendimiento), col="red")    #grafica mediana
abline(v=mean(CamionesFil_FREIGHTLINER$rendimiento), col="black")    #grafica media

luego para observar con mayor detalle los numeros entregados por este set de datos, generamos un grafico de densidad.

d2<-density(CamionesFil_FREIGHTLINER$rendimiento)
plot(d2)
# Gráfico de lineas verticales para la mediana y la media
abline(v=median(CamionesFil_FREIGHTLINER$rendimiento), col="red")    #grafica mediana
abline(v=mean(CamionesFil_FREIGHTLINER$rendimiento), col="black")    #grafica media

Camiones marca MERCEDES BENZ: Al mismo set de datos “camiones” que tenemos, le aplicaremos un filtro para el campo “marca_vehiculo” en donde seleccionaremos solo aquellos de marca MERCEDES BENZ, este filtro lo crearemos en otro set de datos llamado “camionesMB”, para luego mostrar un histograma del rendimiento de este tipo de camiones.

camionesMB=subset(camiones, marca_vehiculo=="MERCEDES BENZ")
#hist(camionesMB$rendimiento)
hist(camionesMB$rendimiento, xlab="Kms x litro", main="Histograma de rendimiento camion \n por marca MERCEDES BENZ", col=4)

Como podemos observar, nuevamente en el histograma, los datos se concentran en valores inferiores a 5, por lo tanto seleccionaremos los datos menores o iguales a 4, para hacer un analisis mas preciso de los datos y graficamos nuevamente con histograma.

#aplica filtro para el campo rendimiento menor o igual a 4
CamionesFil_MERCEDEZ_BENZ=subset(camionesMB,rendimiento<=4)

#genera nuevo histograma de los datos filtrados de 1 a 4
hist(CamionesFil_MERCEDEZ_BENZ$rendimiento, xlab="Kms x litro", main="Rendimiento camiones MERCEDEZ_BENZ \n(datos filtrados de 1 a 4)", col=4)

# Gráfico de lineas verticales para la mediana y la media
abline(v=median(CamionesFil_MERCEDEZ_BENZ$rendimiento), col="red")    #grafica mediana
abline(v=mean(CamionesFil_MERCEDEZ_BENZ$rendimiento), col="black")    #grafica media

Luego para observar con mayor detalle los numeros entregados por este set de datos, generamos un grafico de densidad. El cual es consistente con los datos observados en el histograma.

d3<-density(CamionesFil_MERCEDEZ_BENZ$rendimiento)
plot(d3)
# Gráfico de lineas verticales para la mediana y la media
abline(v=median(CamionesFil_MERCEDEZ_BENZ$rendimiento), col="red")    #grafica mediana
abline(v=mean(CamionesFil_MERCEDEZ_BENZ$rendimiento), col="black")    #grafica media

Camiones marca VOLVO al set de datos “camiones”, ahora aplicaremos el filtro para el campo “marca_vehiculo” en donde seleccionaremos solo aquellos de marca VOLVO, este filtro lo crearemos en otro set de datos llamado “camionesVLV”, para luego mostrar un histograma del rendimiento de este tipo de camiones.

camionesVLV=subset(camiones, marca_vehiculo=="VOLVO")
hist(camionesVLV$rendimiento, xlab="Kms x litro", main="Histograma de rendimiento camion \n por marca VOLVO", col=4)

CamionesFil_VOLVO=subset(camionesVLV,rendimiento<=4)
hist(CamionesFil_VOLVO$rendimiento, xlab="Kms x litro", main="Rendimiento camiones VOLVO \n(datos filtrados de 1 a 4)", col=4)
# Gráfico de lineas verticales para la mediana y la media
abline(v=median(CamionesFil_VOLVO$rendimiento), col="red")    #grafica mediana
abline(v=mean(CamionesFil_VOLVO$rendimiento), col="black")    #grafica media

Luego para observar con mayor detalle los numeros entregados por este set de datos, generamos un grafico de densidad.

d4<-density(CamionesFil_VOLVO$rendimiento)
plot(d4)
# Gráfico de lineas verticales para la mediana y la media
abline(v=median(CamionesFil_VOLVO$rendimiento), col="red")    #grafica mediana
abline(v=mean(CamionesFil_VOLVO$rendimiento), col="black")    #grafica media

Finalmente para terminar este analisis por marca, revisamos los promedios de cada uno de los set de datos que filtramos por marca y poder comparar, para el campo “rendimiento” los promedios, para FREIGHTLINER, MERCEDES BENZ y VOLVO.

Promedio del rendimiento para la marca FREIGHTLINER:

mean(CamionesFil_FREIGHTLINER$rendimiento)  #Promedio del rendimiento para la marca FREIGHTLINER

## [1] 2.494935

Promedio del rendimiento para la marca MERCEDEZ BENZ:

mean(CamionesFil_MERCEDEZ_BENZ$rendimiento)  #Promedio del rendimiento para la marca MERCEDEZ BENZ

## [1] 2.537145

Promedio del rendimiento para la marca VOLVO:

mean(CamionesFil_VOLVO$rendimiento)  #Promedio del rendimiento para la marca VOLVO

## [1] 2.831482

# fin informe 2

# Informe 3 y final

Resultados

Como resultado de esta investigación, que apuntaba a analizar los rendimientos de combustible para esta empresa de transporte, y por los datos que disponemos para su analisis estadistico, hemos podido realizar y exponer varias comparaciones.

Por una parte, revisando los datos que disponemos y filtrando por tipo de vehiculo, hemos podido demostrar la coherencia de los rendimientos v/s el tipo de vehiculo que estudiamos. Revisamos acá un resumen de los 3 tipos de vehiculos y sus respectivos resultados estadisticos de rendimiento.

#muestra 3 histogramas por tipo de vehiculo
par(mfrow=c(1,3))
#hist 1
hist(CamionesFiltro$rendimiento, xlab="Kms x Litro", main="Rendimiento CAMIONES \n(datos selecionados del 1 al 4)", col=3)
library(plotly)
abline(v=median(CamionesFiltro$rendimiento), col="red")    #grafica mediana
abline(v=mean(CamionesFiltro$rendimiento), col="black")    #grafica media

#hist 2
Camiones34Filtro=subset(camiones34,rendimiento<=7)
hist(Camiones34Filtro$rendimiento, xlab="Kms x Litro", main="Rendimiento CAMIONES 3/4 \n(datos selec menor 7)", col=3)
abline(v=median(camiones34$rendimiento), col="red")    #grafica mediana
abline(v=mean(camiones34$rendimiento), col="black")    #grafica media

#hist 3
hist(furgones$rendimiento, xlab="Kms x Litro", main="Rendimiento FURGONES \ntodos los datos", col=3)
abline(v=median(furgones$rendimiento), col="red")    #grafica mediana
abline(v=mean(furgones$rendimiento), col="black")    #grafica media

par(mfrow=c(1,1))

Como muestran las graficas, podemos corroborar que para camiones el rendimiento es el menor, entendiendo que se trata de los vehiculos mas pesados y que transportan carga, por lo que se explica el rendimiento promedio aprox de 2,5 kms x lt.

Como segunda variable tenemos los Camiones 3/4, que son vehiculos de tamaño intermedio, mas pequeños que un camion de carga y mas grande que un furgon, y su rendimiento promedio está entre 5 y 5,5 kms x litro.

Por ultimo, tenemos los Furgones, que son vehiculos mas pequeños y livianos y que claramente demuestran un rendimiento mayor a 10 kms x lt promedio.

A continuación y haciendo también un resumen de los datos analizados en este trabajo, juntamos los histogramas y revisamos los rendimientos de los camiones por su marca, asi podemos apreciar lo siguiente:

#muestra 3 histogramas por marcas de camiones
par(mfrow=c(1,3))
#hist 1
hist(CamionesFil_FREIGHTLINER$rendimiento, xlab="Kms x litro", main="Rendimiento FREIGHTLINER \n(datos filtrados de 1 a 4)", col=3)
abline(v=median(CamionesFil_FREIGHTLINER$rendimiento), col="yellow")    #grafica mediana
abline(v=mean(CamionesFil_FREIGHTLINER$rendimiento), col="red")    #grafica media
#hist 2
hist(CamionesFil_MERCEDEZ_BENZ$rendimiento, xlab="Kms x litro", main="Rendimiento MERCEDEZ_BENZ \n(datos filtrados de 1 a 4)", col=3)
abline(v=median(CamionesFil_MERCEDEZ_BENZ$rendimiento), col="yellow")    #grafica mediana
abline(v=mean(CamionesFil_MERCEDEZ_BENZ$rendimiento), col="red")    #grafica media
#hist 3
hist(CamionesFil_VOLVO$rendimiento, xlab="Kms x litro", main="Rendimiento VOLVO \n(datos filtrados de 1 a 4)", col=3)
abline(v=median(CamionesFil_VOLVO$rendimiento), col="yellow")    #grafica mediana
abline(v=mean(CamionesFil_VOLVO$rendimiento), col="red")    #grafica media

par(mfrow=c(1,1))

Si revisamos los rendimientos promedios de estas 3 marcas, podemos apreciar primero, que los datos son bastantes homogeneos, varian de 1 a 4 la concentracion de los datos revisados y como se trata de un mismo tipo de vehiculo (camiones de carga todos), solo se aprecian algunas variaciones de rendimiento promedio, menor a 2,5 para Freightliner, mayor a 2,5 para MercedezBenz y cercano a 3 para Volvo.

Esta comparativa desde una mirada meramente estadistica, nos indica una clara diferencia para cada marca ademas hechas las validaciónes tecnicas, es efectivo y real que cada marca entregue esos rendimientos debido a las caracteristicas fisicas y tecnicas de cada marca.

Asi podemos explicar por ejemplo, el mayor consumo para Freightliner, dado que se trata de los veiculos de mayor tamaño y peso. Son los camiones que fisicamente estan hechos con una cabina mas grande que las otras marcas y por ende de mayor peso.

Bajo el mismo esquema de analisis, para la marca Mercedez Benz, son camiones de cabinas mas pequeños que Freightliner y por lo tanto de menor peso, esto explica que pueden dar un mayor rendimiento que la marca anterior.

Por ultimo para la marca Volvo, efectivamente se trata del tipo de camion mas pequeño que los anteriores, con una cabina mas pequeña y liviana que las dos marcas anteriores, es por ello que se explica un rendimiento algo mayor.

#muestra 3 histogramas por marcas de camiones
par(mfrow=c(1,3))
#1
plot(d2, main="FREIGHTLINER\n densidad")
abline(v=median(CamionesFil_FREIGHTLINER$rendimiento), col="yellow")    #grafica mediana
abline(v=mean(CamionesFil_FREIGHTLINER$rendimiento), col="red")    #grafica media
#2
plot(d3, main="MERCEDEZ BENZ\n densidad")
abline(v=median(CamionesFil_MERCEDEZ_BENZ$rendimiento), col="yellow")    #grafica mediana
abline(v=mean(CamionesFil_MERCEDEZ_BENZ$rendimiento), col="red")    #grafica media
#3

plot(d4, main="VOLVO\n densidad")
# Gráfico de lineas verticales para la mediana y la media
abline(v=median(CamionesFil_VOLVO$rendimiento), col="yellow")    #grafica mediana
abline(v=mean(CamionesFil_VOLVO$rendimiento), col="red")    #grafica media

par(mfrow=c(1,1))

Por ultimo, podemos ver en este último gráfico de la densidad de los datos, para el mismo set de datos, que efectivamente son consistentes con los histogramas presentados anteriormente.

Discusión

Los resultados obtenidos son bastante coherentes con la realidad, para cada uno de los analisis que realizamos, tanto de rendimiento como estadisticos para el set de datos que procesamos es coherente tanto estadisticamente como en la realidad.

Hechas algunas validaciones adicionales para enterder y explicar el porque de los resultados obtenidos de los rendimientos para los camiones por marca, por ejemplo, puedo decir que estoy conforme con la demostración estadisticas de los mas de 11 mil registros procesados, ya que se entiende y explican por si solos los graficos y sus resultados como se explica en la seccion anterior.

Conclusión

Podemos concluir a niveles generales, que una vez analizados y procesados correctamente el set de datos, teniendo el conocimiento de los datos que disponemos, como utilizarlos y como procesarlos con R Studio, tenemos un gran potencial de poder entregar informes, graficos, estadisticas que luego podemos validar en terreno con la realidad.

Ademas con el analisis estadistico de los datos individuales relacionados a cada vehiculo, chofer, dispensador entre otros, podriamos inferir y descubrir posibles fugas de combustible.

Por otra parte, si se hiciera un constante analisis estadistico de los consumos por vehiculos, por ejemplo, podriamos contar con un historial de consumo promedio de cada camion y descubrir posibles fallas por consumos o posibles fallas mecanicas de un vehiculo en particular.

Tambien se podrian hacer analisis de kilometraje por vehiculo o por chofer, con esto, podriamos distribuir de mejor forma la carga laboral para cada chofer o contar con un historial detallado del desgaste de cada camión por su kilometraje e incluso un control de las mantenciones (por los kms) de cada camion.

Como conclusión final, puedo indicar que las potencialidades de RStudio son muy amplias, con el correcto analisis de cualquier set de datos, podemos realizar estadisticas detalladas y analisis de practicamente cualquier tema donde contemos con un set de datos consistente.

Referencias

Librerias utilizadas: * readxl : libreria para lectura e importacion de datos en archivo excel * plotly : libreria para histogramas y graficas de mayor detalle * dplyr y ggplot2 : libreria para graficas

Referencias de internet y youtube para revision y estudio de las funciones: http://rpubs.com/paraneda/rplot http://rpubs.com/amaurandi/ejemploTree : construccion de graficos con plotly https://www.youtube.com/watch?v=Y8GSdzwf7LQ&pbjreload=10 : construccion de histograma

Trabajo Análisis de Datos

Victor Bravo

02/12/2019