En este trabajo se analizará un conjunto de datos de una empresa de transporte, que se dedica al transporte de carga terrestre en distintas regiones del pais. Para este trabajo rescatamos y analizaremos algunos datos relacionados a la carga y rendimientos de combustible.
Cabe destacar que la empresa cuenta con dispensadores propios de combustible dispuestos en sus sucursales. En cada sucursal cuentan con uno o mas dispensadores y sus respectivos estanques. Ademas cuenta con personal a cargo de realizar la carga de combustible (bombero) por sucursal, responsable de registrar los datos necesarios para esta función.
De acuerdo a los datos que disponemos, esperamos poder hacer distintos analisis estadisticos de consumo, rendimiento, consumos por sucursal, revision de graficos, promedios, comparación de consumos por tipos de vehiculos y por marca de los camiones. Sucursales con mas movimineto, camiones y choferes con mayor movimiento, asi como también un analisis del movimiento por dia.
El conjunto de datos a analizar corresponde a información de 4 meses (Agosto a Noviembre) del año 2019 . Son registros de un sistema interno diseñado para llevar el control del consumo de combustible y su rendimiento. Estos datos estan en linea entre las distintas sucursales, por lo tanto cada vez que un vehiculo carga combustible queda registrado en el sistema y visible para todas las sucursales. Registrando asi su odometro en linea al momento de la siguiente carga de combustible, con esto es posible el calculo del rendimiento de cada vehiculo en cada carga de combustible.
A continuacion se detalla y explica la informacion correspondiente a cada columna de datos, estos datos fueron exportados a excel y luego filtrados para su analisis en este trabajo.
Descripción de los datos que disponemos para su análisis:
El procesamiento de los datos que se quiere hacer es analizar el rendimiento de combustible para los distintos tipos de vehiculos, analizar estadisticas, graficos, tanto a niveles generales del conjunto de datos y estadisticas mas detalladas de los filtros que podamos aplicar.
Analisis, por ejemplo, de una sucursal en particular, un estanque, un chofer, un bombero, margenes de error en los datos. Verificar la consistencia de los datos, que a su vez ya fueron filtrados de un conjunto de datos mayor en donde dejamos solo los datos de una empresa en particular con tres tipos de vehiculos (camiones, camiones 3/4 y furgones).
Fueron filtrados y eliminados del conjunto de datos, previo a la carga de este trabajo, algunos datos que no eran relevantes para este analisis. Se eliminaron datos como rut de los trabajadores, datos vaciós que no eran consistentes con la muestra general, se anonimizaron algunos datos, por ejemlo algunas patentes que aparecian en algunos campos. Se eliminaron datos que claramente estaban mal ingresados al sistema por error humano, como por ejemplo rendimientos negativos para algunos registros. Todo este proceso se hizo previo a la carga de datos iniciales para este trabajo.
Los datos rescatados para este analisis provienen de un archivo excel exportado desde el sistema que administra esta información. ##Instalamos las librerias que usaremos, para el correcto manejo de los datos son:
Eliminaremos con RStudio, columna de datos “hr_movim” que al ser importada desde excel a RStudio muestra la hora bien pero con una fecha incorrecta, como este dato ya se encuentra contenido en columna “fechr_movim” la eliminamos para limpiar el set de datos que trabajaremos.
Revisaremos además algunos gráficos con los datos que disponemos R.
Crearemos varias tablas temporales con datos filtrados por tipo de vehiculo, camiones y marca por ejemplo, para su analisis por separado.
A continuación realizamos la carga de los datos con RStudio desde un archivo excel “ANALISIS_DATOS.xlsx” ubicado en carpeta de datos. Utilizaremos libreria “readxl” que nos permite importar y reconocer los formatos de filas, columnas y datos que contiene el archivo excel, manteniendo los formatos automaticamente. Importamos los datos a una tabla “DatosImport”
##install.packages("readxl")
library(readxl)
DatosImport <- read_excel("datos/ANALISIS_DATOS.xlsx")
DatosImport## num_vale fec_movim hr_movim
## Min. : 23238 Min. :2019-08-01 00:00:00 Min. :1899-12-31 00:01:00
## 1st Qu.: 26290 1st Qu.:2019-09-02 00:00:00 1st Qu.:1899-12-31 11:23:00
## Median : 51863 Median :2019-10-03 00:00:00 Median :1899-12-31 16:01:39
## Mean : 92352 Mean :2019-10-02 02:00:28 Mean :1899-12-31 15:01:32
## 3rd Qu.:185461 3rd Qu.:2019-11-05 00:00:00 3rd Qu.:1899-12-31 18:36:00
## Max. :189974 Max. :2019-11-30 00:00:00 Max. :1899-12-31 23:57:15
## fechr_movim cod_suc nom_suc cod_dispen
## Length:11689 Min. : 1.000 Length:11689 Min. : 1.000
## Class :character 1st Qu.: 1.000 Class :character 1st Qu.: 3.000
## Mode :character Median : 3.000 Mode :character Median : 7.000
## Mean : 6.319 Mean : 8.387
## 3rd Qu.:18.000 3rd Qu.:18.000
## Max. :18.000 Max. :18.000
## nom_dispensador cod_estanque nom_estanque cod_vehiculo
## Length:11689 Min. : 1.000 Length:11689 Length:11689
## Class :character 1st Qu.: 2.000 Class :character Class :character
## Mode :character Median : 5.000 Mode :character Mode :character
## Mean : 7.568
## 3rd Qu.:19.000
## Max. :19.000
## cod_tip_vehic tipo_vehiculo nom_conductor OdomAnt
## Min. :1.000 Length:11689 Length:11689 Min. : 478
## 1st Qu.:1.000 Class :character Class :character 1st Qu.: 287540
## Median :1.000 Mode :character Mode :character Median : 547824
## Mean :1.114 Mean : 617788
## 3rd Qu.:1.000 3rd Qu.: 940184
## Max. :3.000 Max. :1525729
## OdomAct cant_carga rendimiento dispen_ini
## Min. : 775 Min. : 6.0 Min. : 1.017 Min. : 585124
## 1st Qu.: 288194 1st Qu.:160.0 1st Qu.: 2.273 1st Qu.: 5475734
## Median : 548138 Median :223.0 Median : 2.598 Median : 6689486
## Mean : 618465 Mean :234.6 Mean : 3.306 Mean : 6298237
## 3rd Qu.: 940792 3rd Qu.:302.0 3rd Qu.: 3.000 3rd Qu.: 7915905
## Max. :1527078 Max. :757.0 Max. :22.400 Max. :10280322
## dispen_final dispen_usr dispen_fec_reg
## Min. : 585414 Length:11689 Min. :2019-08-01 00:05:00
## 1st Qu.: 5475956 Class :character 1st Qu.:2019-09-02 18:24:00
## Median : 6690111 Mode :character Median :2019-10-03 08:19:00
## Mean : 6298471 Mean :2019-10-02 18:56:11
## 3rd Qu.: 7916135 3rd Qu.:2019-11-05 10:38:00
## Max. :10280659 Max. :2019-11-30 23:58:00
## marca_vehiculo modelo_vehiculo
## Length:11689 Length:11689
## Class :character Class :character
## Mode :character Mode :character
##
##
##
Revisados los datos cargados, comenzamos con la tranformación de los datos. Procedemos a eliminar columna “hr_movim” dado que al importar este campo aparece una fecha+hora que no esta correcta, ademas ya tenemos el dato fecha + hora en el campo “fechr_movim”, para ello crearemos un set de datos “Datos1” en donde removeremos esa columna.
Qué cálculos debió realizar, que tipo de análisis estadistico utilizó. Incluya los códigos utilizados.
Genera y revisa medidas de tendencia central para la columna de datos “rendimiento” que es el objetivo principal de analisis para este trabajo. Para explicar mejor este punto, debemos entender que el dato “rendimiento” nos indica cual es el consumo de combustible (kms x litro).
En lineas generales, analizaremos algunos calculos al set de datos completo, para luego entrar en mayores detalle y entender la diferencia de consumo y rendimiento para los distintos tipos de vehiculos.
Calculamos la Media y Mediana para el campo “rendimiento” del set completo de datos:
## [1] 3.305869
## [1] 2.598
Desviación Standard (para rendimiento) : Podemos ver que el margen de la desviación es bajo, esto nos puede indicar que la consistencia de los datos es correcta.
## [1] 2.651613
Generamos un primer grafico del rendimiento de combustible para el set de datos completo, ademas agregamos en el grafico medidas de tendencia central como mediana y media, graficadas con lineas roja y negra respectivamente.
Acá vemos como se concentran los datos en el rango de 3 a 4 (kms x lt), esto nos indica claramente un consumo asociado a un vehiculo de carga, muy distinto, al cunsumo que habitualmente vemos para vehiculos menores. Sin embargo tenemos datos con hasta 20 (kms x lt) lo cual puede significar datos mal ingresados o que corresponden a otro tipo de vehiculo, esto útimo lo analizaremos a continuación.
#histograma con parametros
hist(Datos1$rendimiento, xlab="Kms x litro", main="Histograma de Rendimiento de Combustible \npara todos los datos", col=4, breaks=30)
# Gráfico de lineas verticales para la mediana y la media
abline(v=median(Datos1$rendimiento), col="red") #grafica mediana
abline(v=mean(Datos1$rendimiento), col="black") #grafica mediaA continuacion utilizaremos un histograma para RStudio con la libreria “plotly”, que nos muestra un grafico de mejor visualizacion y detalle en los datos a graficar.
## Loading required package: ggplot2
##
## Attaching package: 'plotly'
## The following object is masked from 'package:ggplot2':
##
## last_plot
## The following object is masked from 'package:stats':
##
## filter
## The following object is masked from 'package:graphics':
##
## layout
De acuerdo a lo revisado en el histograma anterior, podemos revisar la consistencia de los datos, analizando la densidad de los datos para el parametro “rendimiento” de nuestro set de datos.
d <- density(Datos1$rendimiento)
plot(d, main ="Densidad de Datos1 - Rendimiento")
#polygon(d, col="blue")
# Gráfico de lineas verticales para la mediana y la media
abline(v=median(Datos1$rendimiento), col="red") #grafica mediana
abline(v=mean(Datos1$rendimiento), col="black") #grafica mediaANALISIS DE RENDIMIENTO POR TIPO DE VEHICULO.
Aca revisamos un grafico simple (plot), donde comparamos el redimiento por tipo de vehiculo. Para entender correctamente el grafico los numeros corresponden a: * 1= camion. * 2= camion3/4. * 3= furgon.
Podemos ver claramente como se concentran los rendimientos para los distintos tipos de vehiculo:
A continuacion cargaremos librerias “dplyr” y “ggplot2” para desplegar el mismo grafico, pero con la instruccion “ggplot” En donde observamos que los rendimientos, segun el tipo de vehiculo son: Podemos ver claramente como se concentran los datos para:
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library("ggplot2")
ggplot(Datos1, aes(x=cod_tip_vehic, y=rendimiento)) + geom_point()+ggtitle("Rendimiento por tipo de vehiculo") + theme(plot.title = element_text(hjust=0.5,face="bold", color = "blue"))ANALISIS RENDIMIENTO CAMIONES:
Para poder hacer un analisis mas especifico, revisaremos por separado los datos por tipo de vehiculo. Estos son camiones (num 1), camiones 3/4 (num 2) y furgones (num 3).
Primero aplicamos un filtro a los datos, por el campo “tipo_vehiculo” y seleccionamos solo los camiones.
camiones=subset(Datos1,tipo_vehiculo=="camion") #crea nueva tabla camiones
library(plotly)
#hist(camiones$rendimiento)
hist(camiones$rendimiento, xlab="Kms x litro", main="Histograma de Rendimiento de Combustible \nsolo para Camiones", col=4)1) CAMIONES:
Para un analisis mas preciso del rendimiento de los vehuculo de tipo camiones, y de acuerdo a lo que se observa en este grafico, vemos que la mayor cantidad de datos, para el eje x está en el rango de 1 a 4. Por lo tanto aplicaremos otro filtro para los datos menores o iguales a 4.
Luego podemos observar en el gráfico como el consumo para este tipo de vehiculo está en el rango de 2 a 3,4 kms x litro aproximadamente. Dando cuenta que para este tipo de vehiculos pesados, los rendimientos de combustibles son de esa magnitud. Tambien acá agregamos mediana y media en el histograma.
CamionesFiltro=subset(camiones,rendimiento<=4) #aplica filtro para valores menores o iguales a 4
hist(CamionesFiltro$rendimiento, xlab="Kms x Litro", main="Rendimiento combustible Camiones \n(datos selecionados del 1 al 4)", col=4)
library(plotly)
# Gráfico de lineas verticales para la mediana y la media
abline(v=median(CamionesFiltro$rendimiento), col="red") #grafica mediana
abline(v=mean(CamionesFiltro$rendimiento), col="black") #grafica media2) CAMION 3/4:
A continuacion analizaremos el consumo para el tipo de vehiculo (2) que corresponde a camion 3/4, este es un tipo de camion intermedio, de menor tamaño que los camiones de la categoria anterior. Por lo tanto se esperaría un rendimiento mayor dado que son vehiculos mas livianos.
Procedemos a crear una nueva tabla con los datos filtrados para el “tipo_vehiculo” camion 3/4 y graficamos:
camiones34=subset(Datos1,cod_vehiculo=="CAMION 3/4") #crea nueva tabla camiones
#hist(camiones34$rendimiento) #histograma basico
hist(camiones34$rendimiento, xlab="Kms x Litro", main="Rendimiento combustible Camiones 3/4 \n(camiones tamaño mediano)", col=4)
# Gráfico de lineas verticales para la mediana y la media
abline(v=median(camiones34$rendimiento), col="red") #grafica mediana
abline(v=mean(camiones34$rendimiento), col="black") #grafica media3) FURGONES:
Por último, por tipo de vehiculo, aplicamos un filtro para tipo de vehiculo furgon, en donde vemos evidencia de un rendimiento distinto al de los camiones y acorde al de un vehiculo menor. En este gráfico podemos ver que el rendimiento se concentra en torno a 10 Kms x litros, es allí donde se concentran la mayor cantidad de datos. También agregamos en el grafico las medidas de tendencia central mediana y media.
furgones=subset(Datos1,tipo_vehiculo=="furgon")
#hist(furgones$rendimiento) #histograma basico
hist(furgones$rendimiento, xlab="Kms x Litro", main="Rendimiento combustible Furgones", col=4)
# Gráfico de lineas verticales para la mediana y la media
abline(v=median(furgones$rendimiento), col="red") #grafica mediana
abline(v=mean(furgones$rendimiento), col="black") #grafica mediaCARGAS DE COMBUSTIBLE EN SUCURSALES:
Otro analisis que podemos hacer con los datos que disponemos, es en que sucursales se concentran los movimientos de cargas de combustibles para los vehiculos, segun el codigo de la sucursal.
ANALISIS DE FRECUENCIA ABSOLUTA:
Como analisis adicional, con la variable de frecuebcia absoluta para el campo de “sucursal”, podemos ver en un grafico “barplot” donde se producen la mayoria de las cargas de combustible, para este caso podemos ver que en “Casa Matriz” se realizan la mayoria de las cargas de combustible.
frec_absol3 <- table(Datos1$nom_suc)
barplot(frec_absol3,xlab="Nombre Sucursales",main="Movimientos por Sucursal",border=F, las=2,cex.names = 0.45,horiz = FALSE)La frecuencia absoluta nos sirve para revisar y explicar algunas variables, desde donde podemos analizar y desplegar varios graficos que nos explican, de acuerdo a la frecuencia, que camiones han tenido mayor movimiento, que choferes han realizado mas cargas de combustibles en el set de datos y en que sucursales se han realizado mas cargas de combustible.
# codigo R
#Generacion de tablas de frecuencia absoluta para distintas variables y su analisis:
#Frecuencia Absoluta
#frec_absol <- table(Datos1$cod_vehiculo)
#frec_absol2 <- table(Datos1$nom_conductor)
#frec_absol3 <- table(Datos1$nom_suc)CAMIONES CON MAYOR MOVIMIENTO:
Utilizando la tabla que creamos para frecuencia absoluta, podemos ver en un grafico barplot con mejor detalle. Para este caso, los camiones con mayor movimiento o que mas veces realizaron cargas de combustible. Para visualizar los datos de mejor forma hemos ordenado de mayor a menor y luego desplegamos en grafico “barplot” de R
frec_absol <- table(Datos1$cod_vehiculo)
frec_absol <-sort(frec_absol , decreasing=TRUE) # Orden inverso
barplot(frec_absol,xlab="Codigo Camiones",main="Movimientos por Camiones",border=F, las=2,cex.names = 0.45,horiz = FALSE)MOVIMIENTOS POR CHOFER:
En un segundo grafico de frecuencia absoluta podemos ver un analisis similar con el dato de los choferes, en donde podemos observar, con los nombres de cada chofer una comparativa de quienes realizaron mayores y menores cargas de combustible.
Con los mismos datos obtenidos de la frecuencia absoluta para conductores, ordenamos de mayor a menor la tabla resultante y ademas filtramos los primeros 20 datos y graficamos con “barplot” de R.
En resumen, podemos observar que para los 4 meses observados, los conductores que realizaron mayores cargas de combustible, estan en el orden de 60 a 70 cargas de combustible.
frec_absol2 <- table(Datos1$nom_conductor)
frec_absol2 <-sort(frec_absol2 , decreasing=TRUE) # Orden inverso
frec_absol22 <- (head(frec_absol2,20)) #seleccionamos los primeros 20 datos
barplot(frec_absol22,xlab="nombre conductores",main="Movimientos por Conductores",border=F, las=2,cex.names = 0.45,horiz = FALSE)Otro dato que podemos revisar, a partir de la frecuencia absoluta aplicada a la fecha de la carga de combustible, podemos observar la distribución, en estos 4 meses de las cargas de combustible por cada dia, en donde se aprecia claramente el mayor cantidad de movimientos durante la semana (cada cinco dias lun-vie) y se aprecia un menor movimiento los 2 siguientes dias (sab-dom).
Ademas podemos observar claramente la disminucion de movimiento en el mes de septiembre, para las fechas de fiestas patrias.
frec_absol4 <- table(Datos1$fec_movim)
barplot(frec_absol4,xlab="Frec. absoluta",main="fechr_movim",border=F, las=2,cex.names = 0.45,horiz = FALSE)ANALISIS DE RENDIMIENTO POR MARCA DE CAMION:
A continuación haremos un analisis de los consumos promedio para las las tres marcas de camiones que aparecen en la muestra de datos, estas marcas son: FREIGHTLINER, MERCEDES BENZ y VOLVO.
Camiones marca FREIGHTLINER: Al set de datos “camiones” que ya hemos creado, le aplicaremos un filtro para el campo “marca_vehiculo” en donde seleccionaremos solo aquellos de marca FREIGHTLINER, este filtro lo crearemos en otro set de datos llamado “camionesFRL”, para luego mostrar un histograma del rendimiento de este tipo de camiones.
camionesFRL=subset(camiones, marca_vehiculo=="FREIGHTLINER") #crea nuevo set de datos filtrando solo la marca Freghliner
#hist(camionesFRL$rendimiento)
hist(camionesFRL$rendimiento, xlab="Kms x litro", main="Histograma de rendimiento camion \n por marca FREIGHTLINER", col=4)Como podemos observar en este histograma, los datos se concentran en valores inferiores a 5, por lo tanto seleccionaremos los datos menores o iguales a 4, para hacer un analisis mas preciso.
Creamos una nueva tabla con este nuevo filtro y la llamamos “CamionesFil_FREIGHTLINER” y graficamos:
CamionesFil_FREIGHTLINER=subset(camionesFRL,rendimiento<=4) #aplica filtro para el campo rendimiento menor o igual a 4
#genera nuevo histograma de los datos filtrados de 1 a 4
hist(CamionesFil_FREIGHTLINER$rendimiento, xlab="Kms x litro", main="Rendimiento camiones FREIGHTLINER \n(datos filtrados de 1 a 4)", col=4)
# Gráfico de lineas verticales para la mediana y la media
abline(v=median(CamionesFil_FREIGHTLINER$rendimiento), col="red") #grafica mediana
abline(v=mean(CamionesFil_FREIGHTLINER$rendimiento), col="black") #grafica medialuego para observar con mayor detalle los numeros entregados por este set de datos, generamos un grafico de densidad.
d2<-density(CamionesFil_FREIGHTLINER$rendimiento)
plot(d2)
# Gráfico de lineas verticales para la mediana y la media
abline(v=median(CamionesFil_FREIGHTLINER$rendimiento), col="red") #grafica mediana
abline(v=mean(CamionesFil_FREIGHTLINER$rendimiento), col="black") #grafica mediaCamiones marca MERCEDES BENZ: Al mismo set de datos “camiones” que tenemos, le aplicaremos un filtro para el campo “marca_vehiculo” en donde seleccionaremos solo aquellos de marca MERCEDES BENZ, este filtro lo crearemos en otro set de datos llamado “camionesMB”, para luego mostrar un histograma del rendimiento de este tipo de camiones.
camionesMB=subset(camiones, marca_vehiculo=="MERCEDES BENZ")
#hist(camionesMB$rendimiento)
hist(camionesMB$rendimiento, xlab="Kms x litro", main="Histograma de rendimiento camion \n por marca MERCEDES BENZ", col=4)Como podemos observar, nuevamente en el histograma, los datos se concentran en valores inferiores a 5, por lo tanto seleccionaremos los datos menores o iguales a 4, para hacer un analisis mas preciso de los datos y graficamos nuevamente con histograma.
#aplica filtro para el campo rendimiento menor o igual a 4
CamionesFil_MERCEDEZ_BENZ=subset(camionesMB,rendimiento<=4)
#genera nuevo histograma de los datos filtrados de 1 a 4
hist(CamionesFil_MERCEDEZ_BENZ$rendimiento, xlab="Kms x litro", main="Rendimiento camiones MERCEDEZ_BENZ \n(datos filtrados de 1 a 4)", col=4)
# Gráfico de lineas verticales para la mediana y la media
abline(v=median(CamionesFil_MERCEDEZ_BENZ$rendimiento), col="red") #grafica mediana
abline(v=mean(CamionesFil_MERCEDEZ_BENZ$rendimiento), col="black") #grafica mediaLuego para observar con mayor detalle los numeros entregados por este set de datos, generamos un grafico de densidad. El cual es consistente con los datos observados en el histograma.
d3<-density(CamionesFil_MERCEDEZ_BENZ$rendimiento)
plot(d3)
# Gráfico de lineas verticales para la mediana y la media
abline(v=median(CamionesFil_MERCEDEZ_BENZ$rendimiento), col="red") #grafica mediana
abline(v=mean(CamionesFil_MERCEDEZ_BENZ$rendimiento), col="black") #grafica mediaCamiones marca VOLVO al set de datos “camiones”, ahora aplicaremos el filtro para el campo “marca_vehiculo” en donde seleccionaremos solo aquellos de marca VOLVO, este filtro lo crearemos en otro set de datos llamado “camionesVLV”, para luego mostrar un histograma del rendimiento de este tipo de camiones.
camionesVLV=subset(camiones, marca_vehiculo=="VOLVO")
hist(camionesVLV$rendimiento, xlab="Kms x litro", main="Histograma de rendimiento camion \n por marca VOLVO", col=4)Como podemos observar, nuevamente en el histograma, los datos se concentran en valores inferiores a 5, por lo tanto seleccionaremos los datos menores o iguales a 4, para hacer un analisis mas preciso de los datos. Tambien incluimos mediana y media en el histograma resultante.
CamionesFil_VOLVO=subset(camionesVLV,rendimiento<=4)
hist(CamionesFil_VOLVO$rendimiento, xlab="Kms x litro", main="Rendimiento camiones VOLVO \n(datos filtrados de 1 a 4)", col=4)
# Gráfico de lineas verticales para la mediana y la media
abline(v=median(CamionesFil_VOLVO$rendimiento), col="red") #grafica mediana
abline(v=mean(CamionesFil_VOLVO$rendimiento), col="black") #grafica mediaLuego para observar con mayor detalle los numeros entregados por este set de datos, generamos un grafico de densidad.
d4<-density(CamionesFil_VOLVO$rendimiento)
plot(d4)
# Gráfico de lineas verticales para la mediana y la media
abline(v=median(CamionesFil_VOLVO$rendimiento), col="red") #grafica mediana
abline(v=mean(CamionesFil_VOLVO$rendimiento), col="black") #grafica mediaFinalmente para terminar este analisis por marca, revisamos los promedios de cada uno de los set de datos que filtramos por marca y poder comparar, para el campo “rendimiento” los promedios, para FREIGHTLINER, MERCEDES BENZ y VOLVO.
Promedio del rendimiento para la marca FREIGHTLINER:
## [1] 2.494935
Promedio del rendimiento para la marca MERCEDEZ BENZ:
## [1] 2.537145
Promedio del rendimiento para la marca VOLVO:
## [1] 2.831482
Como resultado de esta investigación, que apuntaba a analizar los rendimientos de combustible para esta empresa de transporte, y por los datos que disponemos para su analisis estadistico, hemos podido realizar y exponer varias comparaciones.
Por una parte, revisando los datos que disponemos y filtrando por tipo de vehiculo, hemos podido demostrar la coherencia de los rendimientos v/s el tipo de vehiculo que estudiamos. Revisamos acá un resumen de los 3 tipos de vehiculos y sus respectivos resultados estadisticos de rendimiento.
#muestra 3 histogramas por tipo de vehiculo
par(mfrow=c(1,3))
#hist 1
hist(CamionesFiltro$rendimiento, xlab="Kms x Litro", main="Rendimiento CAMIONES \n(datos selecionados del 1 al 4)", col=3)
library(plotly)
abline(v=median(CamionesFiltro$rendimiento), col="red") #grafica mediana
abline(v=mean(CamionesFiltro$rendimiento), col="black") #grafica media
#hist 2
Camiones34Filtro=subset(camiones34,rendimiento<=7)
hist(Camiones34Filtro$rendimiento, xlab="Kms x Litro", main="Rendimiento CAMIONES 3/4 \n(datos selec menor 7)", col=3)
abline(v=median(camiones34$rendimiento), col="red") #grafica mediana
abline(v=mean(camiones34$rendimiento), col="black") #grafica media
#hist 3
hist(furgones$rendimiento, xlab="Kms x Litro", main="Rendimiento FURGONES \ntodos los datos", col=3)
abline(v=median(furgones$rendimiento), col="red") #grafica mediana
abline(v=mean(furgones$rendimiento), col="black") #grafica mediaComo muestran las graficas, podemos corroborar que para camiones el rendimiento es el menor, entendiendo que se trata de los vehiculos mas pesados y que transportan carga, por lo que se explica el rendimiento promedio aprox de 2,5 kms x lt.
Como segunda variable tenemos los Camiones 3/4, que son vehiculos de tamaño intermedio, mas pequeños que un camion de carga y mas grande que un furgon, y su rendimiento promedio está entre 5 y 5,5 kms x litro.
Por ultimo, tenemos los Furgones, que son vehiculos mas pequeños y livianos y que claramente demuestran un rendimiento mayor a 10 kms x lt promedio.
A continuación y haciendo también un resumen de los datos analizados en este trabajo, juntamos los histogramas y revisamos los rendimientos de los camiones por su marca, asi podemos apreciar lo siguiente:
#muestra 3 histogramas por marcas de camiones
par(mfrow=c(1,3))
#hist 1
hist(CamionesFil_FREIGHTLINER$rendimiento, xlab="Kms x litro", main="Rendimiento FREIGHTLINER \n(datos filtrados de 1 a 4)", col=3)
abline(v=median(CamionesFil_FREIGHTLINER$rendimiento), col="yellow") #grafica mediana
abline(v=mean(CamionesFil_FREIGHTLINER$rendimiento), col="red") #grafica media
#hist 2
hist(CamionesFil_MERCEDEZ_BENZ$rendimiento, xlab="Kms x litro", main="Rendimiento MERCEDEZ_BENZ \n(datos filtrados de 1 a 4)", col=3)
abline(v=median(CamionesFil_MERCEDEZ_BENZ$rendimiento), col="yellow") #grafica mediana
abline(v=mean(CamionesFil_MERCEDEZ_BENZ$rendimiento), col="red") #grafica media
#hist 3
hist(CamionesFil_VOLVO$rendimiento, xlab="Kms x litro", main="Rendimiento VOLVO \n(datos filtrados de 1 a 4)", col=3)
abline(v=median(CamionesFil_VOLVO$rendimiento), col="yellow") #grafica mediana
abline(v=mean(CamionesFil_VOLVO$rendimiento), col="red") #grafica mediaSi revisamos los rendimientos promedios de estas 3 marcas, podemos apreciar primero, que los datos son bastantes homogeneos, varian de 1 a 4 la concentracion de los datos revisados y como se trata de un mismo tipo de vehiculo (camiones de carga todos), solo se aprecian algunas variaciones de rendimiento promedio, menor a 2,5 para Freightliner, mayor a 2,5 para MercedezBenz y cercano a 3 para Volvo.
Esta comparativa desde una mirada meramente estadistica, nos indica una clara diferencia para cada marca ademas hechas las validaciónes tecnicas, es efectivo y real que cada marca entregue esos rendimientos debido a las caracteristicas fisicas y tecnicas de cada marca.
Asi podemos explicar por ejemplo, el mayor consumo para Freightliner, dado que se trata de los veiculos de mayor tamaño y peso. Son los camiones que fisicamente estan hechos con una cabina mas grande que las otras marcas y por ende de mayor peso.
Bajo el mismo esquema de analisis, para la marca Mercedez Benz, son camiones de cabinas mas pequeños que Freightliner y por lo tanto de menor peso, esto explica que pueden dar un mayor rendimiento que la marca anterior.
Por ultimo para la marca Volvo, efectivamente se trata del tipo de camion mas pequeño que los anteriores, con una cabina mas pequeña y liviana que las dos marcas anteriores, es por ello que se explica un rendimiento algo mayor.
#muestra 3 histogramas por marcas de camiones
par(mfrow=c(1,3))
#1
plot(d2, main="FREIGHTLINER\n densidad")
abline(v=median(CamionesFil_FREIGHTLINER$rendimiento), col="yellow") #grafica mediana
abline(v=mean(CamionesFil_FREIGHTLINER$rendimiento), col="red") #grafica media
#2
plot(d3, main="MERCEDEZ BENZ\n densidad")
abline(v=median(CamionesFil_MERCEDEZ_BENZ$rendimiento), col="yellow") #grafica mediana
abline(v=mean(CamionesFil_MERCEDEZ_BENZ$rendimiento), col="red") #grafica media
#3
plot(d4, main="VOLVO\n densidad")
# Gráfico de lineas verticales para la mediana y la media
abline(v=median(CamionesFil_VOLVO$rendimiento), col="yellow") #grafica mediana
abline(v=mean(CamionesFil_VOLVO$rendimiento), col="red") #grafica mediaPor ultimo, podemos ver en este último gráfico de la densidad de los datos, para el mismo set de datos, que efectivamente son consistentes con los histogramas presentados anteriormente.
Los resultados obtenidos son bastante coherentes con la realidad, para cada uno de los analisis que realizamos, tanto de rendimiento como estadisticos para el set de datos que procesamos es coherente tanto estadisticamente como en la realidad.
Hechas algunas validaciones adicionales para enterder y explicar el porque de los resultados obtenidos de los rendimientos para los camiones por marca, por ejemplo, puedo decir que estoy conforme con la demostración estadisticas de los mas de 11 mil registros procesados, ya que se entiende y explican por si solos los graficos y sus resultados como se explica en la seccion anterior.
Podemos concluir a niveles generales, que una vez analizados y procesados correctamente el set de datos, teniendo el conocimiento de los datos que disponemos, como utilizarlos y como procesarlos con R Studio, tenemos un gran potencial de poder entregar informes, graficos, estadisticas que luego podemos validar en terreno con la realidad.
Ademas con el analisis estadistico de los datos individuales relacionados a cada vehiculo, chofer, dispensador entre otros, podriamos inferir y descubrir posibles fugas de combustible.
Por otra parte, si se hiciera un constante analisis estadistico de los consumos por vehiculos, por ejemplo, podriamos contar con un historial de consumo promedio de cada camion y descubrir posibles fallas por consumos o posibles fallas mecanicas de un vehiculo en particular.
Tambien se podrian hacer analisis de kilometraje por vehiculo o por chofer, con esto, podriamos distribuir de mejor forma la carga laboral para cada chofer o contar con un historial detallado del desgaste de cada camión por su kilometraje e incluso un control de las mantenciones (por los kms) de cada camion.
Como conclusión final, puedo indicar que las potencialidades de RStudio son muy amplias, con el correcto analisis de cualquier set de datos, podemos realizar estadisticas detalladas y analisis de practicamente cualquier tema donde contemos con un set de datos consistente.
Librerias utilizadas: * readxl : libreria para lectura e importacion de datos en archivo excel * plotly : libreria para histogramas y graficas de mayor detalle * dplyr y ggplot2 : libreria para graficas
Referencias de internet y youtube para revision y estudio de las funciones: http://rpubs.com/paraneda/rplot http://rpubs.com/amaurandi/ejemploTree : construccion de graficos con plotly https://www.youtube.com/watch?v=Y8GSdzwf7LQ&pbjreload=10 : construccion de histograma