Informe Técnicas Estadísticas en Análisis de Mercados

1 Trabajo Técnicas Estadísticas en Análisis de Mercados

1.1 Planteaminto del problema

En el siguiente informe estamos ante un caso práctico en el cual necesitamos analizar y predecir el precio de cualquier automóvil en función de distintas cacterísticas principales que se presentan. Para el caso, hemos supuesto que trabajamos para una gran compraventa de coches que opera en todo el territorio nacional español. Nos han pedido que para facilitar el trabajo a los tasadores y ahorrar una gran coste salarial debemos crear un algoritmo que dadas unas características sobre el coche, lo clasifique en dos grupos según si este se encuentra por debajo o por encima de la media (18337.6€). Para el algoritmo hemos creado una base de datos con 340 coches de la web “Coches.net” gracias a las técnicas de Web-Scraping, la cual contiene la siguiente información:

  • Cambio: Manual, Automático ; Variable Factor
  • Coche: Marcha de Coche (Audi, BMW, Seat, etc) ; Variable Factor
  • Modelo: Modelo de Coche (Qashqai, Q5, GLC, etc) ; Variable Factor
  • Seguridad: 1 (Seguridad máxima) 2 (Seguridad aceptable) 3(Seguridad mala); Variable Factor
  • Caballos: Caballos de Vapor del coche; Variable Numérica
  • Edad: Edad del Coche desde que se matriculó; Variable Numérica
  • Tipo_Fuel: A (Gasolina) B (Diésel) C (Eléctrico) D (Gas); Variable Factor
  • Kilometros: Kilometraje del automóvil en el momento de la venta; Variable Numérica
  • Cuerpo: Tipo de coche que estamos analizando (Suv, Hatchback, Coupe, etc); Variable Factor
  • Precio: Precio por el que se vende el automóvil; Variable Numérica

En función de todas estas varibales que son las originales, hemos configurado una base de datos “nueva” la cuál ofrece los mejores resultados para el análisis que vamos a efectuar. En esta base de datos utilizamos variables de las antes mencionadas, generamos nuevas variables con información de las originales y modificamos dos de ellas para hacer el análisis más cómodo.

  • Tipo_Fuel: 1 (Gasolina) 2 (Diésel) 3 (Eléctrico) 4 (Gas); Variable Factor - Transformada de original
  • Cambio: 1 (Automático), 2 (Manual); Variable Factor - Transformada de original
  • Lujo: 1 (Marcas de coche de Lujo que implican un precio mayor: Audi, BMW, Mercedes, Porsche, Cupra, Jeep y Jaguar) 0 (El resto); Variable Factor - Generada a través de Coche
  • Grupo_Precio: 0 (el precio es menor a la media) 1 (el precio es superior a la media); Variable Factor - Generada a través de Precio

Como hemos comentado, y tras realizar muchas pruebas para ver qué variables son más convenientes para elegir, hemos llegado a la conclusión de que utilizaremos únicamente las siguientes: Cambio, Seguridad, Caballos, Edad, Tipo_Fuel, Kilometros y Lujo. Todas estas variables serán variables “explicativas” para poder predecir Grupo_Precio

library(readr)
datos=read.csv2("Coches.csv",sep=";")
datos$Seguridad=as.factor(datos$Seguridad)
datos$Cambio=ifelse(datos$Cambio=="Manual",2,1)
datos$Cambio=as.factor(datos$Cambio)
datos$Cuerpo=as.factor(datos$Cuerpo)
datos$Tipo_Fuel=as.factor(datos$Tipo_Fuel)
datos$Seguridad=as.factor(datos$Seguridad)
datos$Tipo_Fuel=ifelse(datos$Tipo_Fuel=="A",1,ifelse(datos$Tipo_Fuel=="B",2
,ifelse(datos$Tipo_Fuel=="D",4,3)))
datos$Tipo_Fuel=as.factor(datos$Tipo_Fuel)


datos$Lujo=ifelse(datos$Coche=="Audi"|datos$Coche=="BMW"|
datos$Coche=="Mercedes-Benz"|datos$Coche=="Lexus"|datos$Coche=="Porsche"|
datos$Coche=="Cupra"|datos$Coche=="Jeep"|datos$Coche=="Jaguar",1,0)
datos$Lujo=as.factor(datos$Lujo)
datos2=datos[1:340,]
predecir=datos[341:nrow(datos),]
datos2$grupo_precio=ifelse(datos2$Precio<mean(datos2$Precio),0,1)
datos2$grupo_precio=as.factor(datos2$grupo_precio)
datos2=subset(datos2,select=c(Cambio,Seguridad,Caballos,Edad,Tipo_Fuel,
Kilometros,Lujo,grupo_precio))

1.2 Técnica de validación

En muchas ocasiones, si no utilizamos una técnica de validación, dejamos el análisis en manos del azar, pues existe la posibilidad de que aunque a la hora de comparar una técnica sea objetivamente mejor que la otra, esta obtenga peores resultados por el conjunto de datos obtenidos, o la aleatoriedad del proceso. Por ello, nos decidimos a utilizar la técnica de validación cruzada en 3 iteraciones con conjuntos aleatorios.

Para ello necesitamos saber inicialmente el número de datos que tenemos y partirlo en 3 partes iguales (no para seleccionar los grupos, sino para saber el tamaño). Una vez sabemos que cada parte ha de tener 113 datos, tomamos una muestra aleatoria de la base de datos con 113 individuos que van a hacer de test (un conjunto que vamos a probar y con el que vamos a comprobar resultados para probar el modelo), las 227 restantes serán el train (el conjunto que entrenará al test antes seleccionado).

Lo explicado arriba sirve para el primer conjunto, el segundo seleccionará el test con una muestra aleatoria de 113 individuos dentro del train (para que los conjuntos de test no se repitan). De nuevo el train serán las 227 restantes. Finalmente para la tercera muestra tendremos que coger el conjunto de test que aún no hemos utilizado y de nuevo el train las 227 restantes.

De esta forma hemos probado 3 conjuntos distintos, con tres errores distintos y los podemos unificar calculando la media del error de las 3 iteraciones para un análisis, garantizando de esta forma la certeza de los resultados y evitando la aleatoriedad o casualidad de los eventos.

### Validación cruzada 
library(MASS)


set.seed(3)
test1<-datos2[sample(nrow(datos2), 113), ]
training1<-unlist(row.names(test1))
train1<-datos2[!(row.names(datos2) %in% training1), ]

set.seed(3)
test2<-train1[sample(nrow(train1), 113), ]
training2<-unlist(row.names(test2))
train2<-datos2[!(row.names(datos2) %in% training2), ]

set.seed(3)
test3<-datos2[!(row.names(datos2) %in% training1 | row.names(datos2) %in% 
training2), ]
training3<-unlist(row.names(test3))
train3<-datos2[!(row.names(datos2) %in% training3), ]

1.3 Árbol de clasificación

Como se vió en el planteamiento inicial del problema, estamos trabajando para una gran compraventa de automóviles en España, la cuál opera en todo el territorio. En una empresa de este estilo, no todos los empleados tendrán conocimientos suficientes para saber cómo se está clasificando el automóvil para mandarle la información al tasador, por lo que nos hemos decidido a realizar un Árbol de Clasificación.

Lo que buscamos con el Árbol de Clasificación es hacer de un proceso estadístico algo completamente visual, fácil, rudimentario y sencillo para cualquier persona que entre en el sistema.

El Árbol de Clasificación es un método que busca dividir el conjunto de datos seleccionado en función de atributos que mejor separan las clases objetivo. Vista la base de datos original, el árbol buscará llegar a 0 si está clasificado por debajo de la media de precio o 1 si está por encima en función de las variables utilizadas.

Gracias a la validación cruzada, hemos probado el error de tres árboles distintos y hemos calculado la media como medida de confianza, obteniendo un acierto promedio de 0.8321948, es decir, que en el 83.22% de las veces que sigammos los recorridos del árbol de clasificación obtendremos una respuesta certera del precio del automóvil.

set.seed(3)
library(tree)
#a) Arbol de clasificación---
tree.Coches <- tree (grupo_precio~.,data = train1)
tree.pred1<-predict(tree.Coches,newdata=test1,type="class")
confusiona1=table(tree.pred1,test1$grupo_precio)
acierto=0
for (i in c(1:nrow(confusiona1))){
  acierto=acierto+confusiona1[i,i]
  tasa.acierto=acierto/sum(confusiona1)
  tasa.error=1-tasa.acierto
}
aciertoa1=tasa.acierto
errora1=tasa.error
set.seed(3)
tree.Coches <- tree (grupo_precio~.,data = train2)
tree.pred2<-predict(tree.Coches,newdata=test2,type="class")
confusiona2=table(tree.pred2,test2$grupo_precio)
acierto=0
for (i in c(1:nrow(confusiona2))){
  acierto=acierto+confusiona2[i,i]
  tasa.acierto=acierto/sum(confusiona2)
  tasa.error=1-tasa.acierto
}
aciertoa2=tasa.acierto
errora2=tasa.error
set.seed(3)
tree.Coches <- tree (grupo_precio~.,data = train3)
tree.pred3<-predict(tree.Coches,newdata=test3,type="class")
confusiona3=table(tree.pred3,test3$grupo_precio)
acierto=0
for (i in c(1:nrow(confusiona3))){
  acierto=acierto+confusiona3[i,i]
  tasa.acierto=acierto/sum(confusiona3)
  tasa.error=1-tasa.acierto
}
aciertoa3=tasa.acierto
errora3=tasa.error

cat("El método de Árbol de clasificación ofrece una media de acierto de",sum(aciertoa1,aciertoa2,aciertoa3)/3)
El método de Árbol de clasificación ofrece una media de acierto de 0.8321948
#---------- Ploteamos --------------------
tree.Coches <- tree (grupo_precio~.,data = datos2)
#b) plot----
plot(tree.Coches)
text(tree.Coches,pretty=0,cex=0.6)

En el gráfico se utilizan los atributos: Caballos, Edad, Kilómetros, Tipo_Fuel, Cambio y Lujo, para predecir la variable objetivo Tipo_Precio. Poniendo un ejemplo además, si tenemos un coche con menos de 125.5 Caballos y más de 4.26 años, estaremos ante un coche por debajo de la media.

1.4 Random forest

El segundo método que hemos utilizado para probar la predicción es Random Forest, un algoritmo de aprendizaje automático que combina múltiples árboles de clasifiación utilizando internamente conjuntos de entrenamiento distintos mediante bootstrapping. No debemos confundir esto con la técnica de validación que utilizamos, cada uno de los tres conjuntos de la técnica de validación, utiliza internamente bootstrapping en su algoritmo.

El principal objetivo de esta técnica es debido a su certeza, pues objetivamente funciona mejor que los árboles de clasificación, como hemos comentado son una mejora de los mismos, pues cada bosque es un conjunto de árboles. Además esta técnica es muy sofisticada y no es visualmente tan cómoda como el árbol, por lo que requiere ser tratada por estadísticos o matemáticos.

Una vez realizamos tres Bosques Aleatorios y estimamos el acierto medio, vemos que este es de 0.9087875, es decir, en las predicciones que realicemos con los árboles estaremos acertando en el 90.91% de las mismas.

Finalmente para bosques aleatorios somos capaces de identificar qué variables son más y menos relevantes para nuestro análisis. Si nos fijamos, al bosque le podemos introducir el número de variables que tenga en cuenta para el anális, esto lo podemos gestionar con ayuda de Varimplot(), de esta forma, si vemos que hay x variables menos relevantes seleccionamos un número menor de variables para el bosque para acelerar el proceso y no contar con aquellas variables que no aportan.En nuestro caso, lo general para lo común en los tres árboles es observar Tipo_Fuel y Seguridad como poco relevantes y Caballos y Edad como muy relevantes.

library(randomForest)
# conjunto 1
set.seed(3)
forest1<-randomForest(grupo_precio~.,data=train1,mtry=7, importance=TRUE)
forest.pred1<-predict(forest1,newdata=test1,type="class")
confusionb1=table(forest.pred1,test1$grupo_precio)
acierto=0
for (i in c(1:nrow(confusionb1))){
  acierto=acierto+confusionb1[i,i]
  tasa.acierto=acierto/sum(confusionb1)
  tasa.error=1-tasa.acierto
}
aciertob1=tasa.acierto
errorb1=tasa.error

set.seed(3)
forest2<-randomForest(grupo_precio~.,data=train2,mtry=7, importance=TRUE)
forest.pred2<-predict(forest2,newdata=test2,type="class")
confusionb2=table(forest.pred2,test2$grupo_precio)
acierto=0
for (i in c(1:nrow(confusionb2))){
  acierto=acierto+confusionb2[i,i]
  tasa.acierto=acierto/sum(confusionb2)
  tasa.error=1-tasa.acierto
}
aciertob2=tasa.acierto
errorb2=tasa.error

set.seed(3)
forest3<-randomForest(grupo_precio~.,data=train3,mtry=7, importance=TRUE)
forest.pred3<-predict(forest3,newdata=test3,type="class")
confusionb3=table(forest.pred3,test3$grupo_precio)
acierto=0
for (i in c(1:nrow(confusionb3))){
  acierto=acierto+confusionb3[i,i]
  tasa.acierto=acierto/sum(confusionb3)
  tasa.error=1-tasa.acierto
}
aciertob3=tasa.acierto
errorb3=tasa.error

cat("El método de Bosques Aleatorios tiene una media de acierto de",sum(aciertob1,aciertob2,aciertob3)/3)
El método de Bosques Aleatorios tiene una media de acierto de 0.9087875
varImpPlot(forest1)

varImpPlot(forest2)

varImpPlot(forest3)

1.5 Predicción método Árbol de Clasifiación y Random Forest

Para completar el informe, hemos generado una nueva base de datos donde hemos simulado las características de 12 automóviles que entran al sistema un día dado.Cabe destacar que en esta base de datos se incluye el precio del automóvil, esto no es realista porque si queremos tasar no nos van a dar el precio del automóvil, simplemente lo hacemos para demostrar cómo funciona el análisis. Para realizar las predicciones para Árbol de Clasificación y Random Forest debemos utilizar la base de datos al completo, el train y test era simplemente para probar el modelo, una vez sabemos cómo funcionan utilizamos el 100% de los datos para predecir los nuevos. De esta forma tenemos los siguientes resultados:

  • El método de Árbol de Clasificación se equivoca en 3 de 12 ocasiones, dos de ellas no tienen a penas relevancia, pues se equivoca con una diferencia de precio de tan solo hasta 600€. Es decir, sitúa por debajo de la media un automóvil de 18999€ y otro de 18500€. Sin embargo, si nos fijamos en el precio del Mercedes-Benz Cls, comete un grave error, pues este dice que está por encima de la media cuando realmente vale 12900€, creemos que esto puede deberse por la importancia que da a la marca.

  • El método de Random Forest sin embargo evita el error del Cls, por lo que es mucho más preciso y solamente cae en los dos antes comentados con una difrencia de precio realmente baja.

set.seed(3)
library(tree)
#a) Arbol de clasificación---
tree.Coches <- tree (grupo_precio~.,data = datos2)
predecir$prediccion_arbol<-predict(tree.Coches,newdata=predecir,type="class")

library(randomForest)
# conjunto 1
set.seed(3)
forest1<-randomForest(grupo_precio~.,data=datos2,mtry=7, importance=TRUE)
predecir$prediccion_forest<-predict(forest1,newdata=predecir,type="class")
knitr::kable(predecir)
Cambio Coche Modelo Seguridad Caballos Edad Tipo_Fuel Kilometros Cuerpo Precio Lujo prediccion_arbol prediccion_forest
341 1 Mercedes-Benz Clase GLC 1 204 7 2 198000 SUV 26500 1 1 1
342 2 Nissan Qashqai 2 150 13 2 152003 SUV 12500 0 0 0
343 2 BMW Serie 2 1 150 4 2 43000 Hatchback 26900 1 1 1
344 2 Volkswagen Passat 2 120 5 2 157000 Berlina 15500 0 0 0
345 2 Opel Crossland 2 81 5 1 25218 SUV 14995 0 0 0
346 2 Audi Q5 1 190 8 2 91000 SUV 23990 1 1 1
347 1 Volkswagen Touareg 2 204 11 2 240000 SUV 18999 0 0 0
348 1 Subaru Impreza 2 114 5 1 53000 Coupe 17900 0 0 0
349 1 Volkswagen Troc 2 150 3 1 32169 SUV 22810 0 1 1
350 1 Mercedes-Benz Cls 2 224 16 2 182000 Berllina 12900 1 1 0
351 1 Hyundai Kona 2 204 4 3 31500 SUV 26900 0 1 1
352 2 Mazda Mazda3 1 122 4 4 60000 Hatchback 18500 0 0 0

1.6 Conclusión

Como se ha ido comentado durante el informe, los dos métodos funcionan bastante bien y cada uno tiene un enfoque distinto. Mientra que el árbol de clasificación ofrece una gran comodidad y versatilidad para tomar decisiones en el momento sin tener conocimientos especializados, el método de Random Forest ofrece una mejor predicción con errores menos graves ajustando mucho más los precios que buscamos.

Además cabe destacar en las conclusiones el tamaño de la base de datos. Queremos predecir el precio de un coche en función de las variables antes comentadas, pero tenemos únicamente 340 datos para un sistema tan complejo. Como hemos visto, hemos tenido que realizar apaños “cambiando” la variable Coche y Modelo por Lujo. Por lo que creemos que con una base de datos realmente grande donde pudiéramos tomar las especificaciones mucho más al dedo con más individuos representativos de cada factor se podría realizar un análisis mucho más sofisticado siendo capaces de predecir con mucha más credibilidad y precisión.

---
title: "Informe Técnicas Estadísticas en Análisis de Mercados"
author: 
  -   Ernesto Moltó Quiles
  -   Rafael Antón Moya
output:
  rmdformats::readthedown:
    self_contained: yes
    thumbnails: yes
    lightbox: yes
    highlight: tango
    code_folding: "hide"
    code_download: true
    df_print: paged
    number_sections: true
     
    
---
```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE, warning=FALSE,message=F,comment=NA, fig.width=6, fig.align="center")
```

# Trabajo Técnicas Estadísticas en Análisis de Mercados

## Planteaminto del problema

En el siguiente informe estamos ante un caso práctico en el cual necesitamos analizar y predecir el precio de cualquier automóvil en función de distintas cacterísticas principales que se presentan. Para el caso, hemos supuesto que trabajamos para una gran compraventa de coches que opera en todo el territorio nacional español. Nos han pedido que para facilitar el trabajo a los tasadores y ahorrar una gran coste salarial debemos crear un algoritmo que dadas unas características sobre el coche, lo clasifique en dos grupos según si este se encuentra por debajo o por encima de la media (18337.6€). Para el algoritmo hemos creado una base de datos con 340 coches de la web "Coches.net" gracias a las técnicas de Web-Scraping, la cual contiene la siguiente información: 

-   **Cambio**: Manual, Automático ; Variable Factor
-   **Coche**: Marcha de Coche (Audi, BMW, Seat, etc) ; Variable Factor
-   **Modelo**: Modelo de Coche (Qashqai, Q5, GLC, etc) ; Variable Factor
-   **Seguridad**: 1 (Seguridad máxima) 2 (Seguridad aceptable) 3(Seguridad mala); Variable Factor
-   **Caballos**: Caballos de Vapor del coche; Variable Numérica
-   **Edad**: Edad del Coche desde que se matriculó; Variable Numérica
-   **Tipo_Fuel**: A (Gasolina) B (Diésel) C (Eléctrico) D (Gas); Variable Factor
-   **Kilometros**: Kilometraje del automóvil en el momento de la venta; Variable Numérica
-   **Cuerpo**: Tipo de coche que estamos analizando (Suv, Hatchback, Coupe, etc); Variable Factor
-   **Precio**: Precio por el que se vende el automóvil; Variable Numérica

En función de todas estas varibales que son las originales, hemos configurado una base de datos "nueva" la cuál ofrece los mejores resultados para el análisis que vamos a efectuar. En esta base de datos utilizamos variables de las antes mencionadas, generamos nuevas variables con información de las originales y modificamos dos de ellas para hacer el análisis más cómodo. 

-   **Tipo_Fuel**: 1 (Gasolina) 2 (Diésel) 3 (Eléctrico) 4 (Gas); Variable Factor - Transformada de original
-   **Cambio**: 1 (Automático), 2 (Manual); Variable Factor - Transformada de original
-   **Lujo**: 1  (Marcas de coche de Lujo que implican un precio mayor: Audi, BMW, Mercedes, Porsche, Cupra, Jeep y Jaguar) 0 (El resto); Variable Factor - Generada a través de Coche
-   **Grupo_Precio**: 0 (el precio es menor a la media) 1 (el precio es superior a la media); Variable Factor - Generada a través de Precio

Como hemos comentado, y tras realizar muchas pruebas para ver qué variables son más convenientes para elegir, hemos llegado a la conclusión de que utilizaremos únicamente las siguientes: Cambio, Seguridad, Caballos, Edad, Tipo_Fuel, Kilometros y Lujo. Todas estas variables serán variables "explicativas" para poder predecir **Grupo_Precio**

```{r}
library(readr)
datos=read.csv2("Coches.csv",sep=";")
datos$Seguridad=as.factor(datos$Seguridad)
datos$Cambio=ifelse(datos$Cambio=="Manual",2,1)
datos$Cambio=as.factor(datos$Cambio)
datos$Cuerpo=as.factor(datos$Cuerpo)
datos$Tipo_Fuel=as.factor(datos$Tipo_Fuel)
datos$Seguridad=as.factor(datos$Seguridad)
datos$Tipo_Fuel=ifelse(datos$Tipo_Fuel=="A",1,ifelse(datos$Tipo_Fuel=="B",2
,ifelse(datos$Tipo_Fuel=="D",4,3)))
datos$Tipo_Fuel=as.factor(datos$Tipo_Fuel)


datos$Lujo=ifelse(datos$Coche=="Audi"|datos$Coche=="BMW"|
datos$Coche=="Mercedes-Benz"|datos$Coche=="Lexus"|datos$Coche=="Porsche"|
datos$Coche=="Cupra"|datos$Coche=="Jeep"|datos$Coche=="Jaguar",1,0)
datos$Lujo=as.factor(datos$Lujo)
datos2=datos[1:340,]
predecir=datos[341:nrow(datos),]
datos2$grupo_precio=ifelse(datos2$Precio<mean(datos2$Precio),0,1)
datos2$grupo_precio=as.factor(datos2$grupo_precio)
datos2=subset(datos2,select=c(Cambio,Seguridad,Caballos,Edad,Tipo_Fuel,
Kilometros,Lujo,grupo_precio))
```

## Técnica de validación

En muchas ocasiones, si no utilizamos una técnica de validación, dejamos el análisis en manos del azar, pues existe la posibilidad de que aunque a la hora de comparar una técnica sea objetivamente mejor que la otra, esta obtenga peores resultados por el conjunto de datos obtenidos, o la aleatoriedad del proceso. Por ello, nos decidimos a utilizar la técnica de validación cruzada en 3 iteraciones con conjuntos aleatorios. 

Para ello necesitamos saber inicialmente el número de datos que tenemos y partirlo en 3 partes iguales (no para seleccionar los grupos, sino para saber el tamaño). Una vez sabemos que cada parte ha de tener 113 datos, tomamos una muestra aleatoria de la base de datos con 113 individuos que van a hacer de test (un conjunto que vamos a probar y con el que vamos a comprobar resultados para probar el modelo), las 227 restantes serán el train (el conjunto que entrenará al test antes seleccionado). 

Lo explicado arriba sirve para el primer conjunto, el segundo seleccionará el test con una muestra aleatoria de 113 individuos dentro del train (para que los conjuntos de test no se repitan). De nuevo el train serán las 227 restantes. Finalmente para la tercera muestra tendremos que coger el conjunto de test que aún no hemos utilizado y de nuevo el train las 227 restantes.

De esta forma hemos probado 3 conjuntos distintos, con tres errores distintos y los podemos unificar calculando la media del error de las 3 iteraciones para un análisis, garantizando de esta forma la certeza de los resultados y evitando la aleatoriedad o casualidad de los eventos. 

```{r}
### Validación cruzada 
library(MASS)


set.seed(3)
test1<-datos2[sample(nrow(datos2), 113), ]
training1<-unlist(row.names(test1))
train1<-datos2[!(row.names(datos2) %in% training1), ]

set.seed(3)
test2<-train1[sample(nrow(train1), 113), ]
training2<-unlist(row.names(test2))
train2<-datos2[!(row.names(datos2) %in% training2), ]

set.seed(3)
test3<-datos2[!(row.names(datos2) %in% training1 | row.names(datos2) %in% 
training2), ]
training3<-unlist(row.names(test3))
train3<-datos2[!(row.names(datos2) %in% training3), ]
```

## Árbol de clasificación

Como se vió en el planteamiento inicial del problema, estamos trabajando para una gran compraventa de automóviles en España, la cuál opera en todo el territorio. En una empresa de este estilo, no todos los empleados tendrán conocimientos suficientes para saber cómo se está clasificando el automóvil para mandarle la información al tasador, por lo que nos hemos decidido a realizar un Árbol de Clasificación. 

Lo que buscamos con el Árbol de Clasificación es hacer de un proceso estadístico algo completamente visual, fácil, rudimentario y sencillo para cualquier persona que entre en el sistema.

El Árbol de Clasificación es un método que busca dividir el conjunto de datos seleccionado en función de atributos que mejor separan las clases objetivo. Vista la base de datos original, el árbol buscará llegar a 0 si está clasificado por debajo de la media de precio o 1 si está por encima en función de las variables utilizadas.

Gracias a la validación cruzada, hemos probado el error de tres árboles distintos y hemos calculado la media como medida de confianza, obteniendo un acierto promedio de 0.8321948, es decir, que en el 83.22% de las veces que sigammos los recorridos del árbol de clasificación obtendremos una respuesta certera del precio del automóvil. 


```{r fig.height=10, fig.width=10}
set.seed(3)
library(tree)
#a) Arbol de clasificación---
tree.Coches <- tree (grupo_precio~.,data = train1)
tree.pred1<-predict(tree.Coches,newdata=test1,type="class")
confusiona1=table(tree.pred1,test1$grupo_precio)
acierto=0
for (i in c(1:nrow(confusiona1))){
  acierto=acierto+confusiona1[i,i]
  tasa.acierto=acierto/sum(confusiona1)
  tasa.error=1-tasa.acierto
}
aciertoa1=tasa.acierto
errora1=tasa.error
set.seed(3)
tree.Coches <- tree (grupo_precio~.,data = train2)
tree.pred2<-predict(tree.Coches,newdata=test2,type="class")
confusiona2=table(tree.pred2,test2$grupo_precio)
acierto=0
for (i in c(1:nrow(confusiona2))){
  acierto=acierto+confusiona2[i,i]
  tasa.acierto=acierto/sum(confusiona2)
  tasa.error=1-tasa.acierto
}
aciertoa2=tasa.acierto
errora2=tasa.error
set.seed(3)
tree.Coches <- tree (grupo_precio~.,data = train3)
tree.pred3<-predict(tree.Coches,newdata=test3,type="class")
confusiona3=table(tree.pred3,test3$grupo_precio)
acierto=0
for (i in c(1:nrow(confusiona3))){
  acierto=acierto+confusiona3[i,i]
  tasa.acierto=acierto/sum(confusiona3)
  tasa.error=1-tasa.acierto
}
aciertoa3=tasa.acierto
errora3=tasa.error

cat("El método de Árbol de clasificación ofrece una media de acierto de",sum(aciertoa1,aciertoa2,aciertoa3)/3)

#---------- Ploteamos --------------------
tree.Coches <- tree (grupo_precio~.,data = datos2)
#b) plot----
plot(tree.Coches)
text(tree.Coches,pretty=0,cex=0.6)

```

En el gráfico se utilizan los atributos: Caballos, Edad, Kilómetros, Tipo_Fuel, Cambio y Lujo,  para predecir la variable objetivo Tipo_Precio. Poniendo un ejemplo además, si tenemos un coche con menos de 125.5 Caballos y más de 4.26 años, estaremos ante un coche por debajo de la media. 

## Random forest

El segundo método que hemos utilizado para probar la predicción es Random Forest, un algoritmo de aprendizaje automático que combina múltiples árboles de clasifiación utilizando internamente conjuntos de entrenamiento distintos mediante bootstrapping. No debemos confundir esto con la técnica de validación que utilizamos, cada uno de los tres conjuntos de la técnica de validación, utiliza internamente bootstrapping en su algoritmo. 

El principal objetivo de esta técnica es debido a su certeza, pues objetivamente funciona mejor que los árboles de clasificación, como hemos comentado son una mejora de los mismos, pues cada bosque es un conjunto de árboles. Además esta técnica es muy sofisticada y no es visualmente tan cómoda como el árbol, por lo que requiere ser tratada por estadísticos o matemáticos. 

Una vez realizamos tres Bosques Aleatorios y estimamos el acierto medio, vemos que este es de 0.9087875, es decir, en las predicciones que realicemos con los árboles estaremos acertando en el 90.91% de las mismas. 

Finalmente para bosques aleatorios somos capaces de identificar qué variables son más y menos relevantes para nuestro análisis. Si nos fijamos, al bosque le podemos introducir el número de variables que tenga en cuenta para el anális, esto lo podemos gestionar con ayuda de Varimplot(), de esta forma, si vemos que hay x variables menos relevantes seleccionamos un número menor de variables para el bosque para acelerar el proceso y no contar con aquellas variables que no aportan.En nuestro caso, lo general para lo común en los tres árboles es observar Tipo_Fuel y Seguridad como poco relevantes y Caballos y Edad como muy relevantes. 

```{r}
library(randomForest)
# conjunto 1
set.seed(3)
forest1<-randomForest(grupo_precio~.,data=train1,mtry=7, importance=TRUE)
forest.pred1<-predict(forest1,newdata=test1,type="class")
confusionb1=table(forest.pred1,test1$grupo_precio)
acierto=0
for (i in c(1:nrow(confusionb1))){
  acierto=acierto+confusionb1[i,i]
  tasa.acierto=acierto/sum(confusionb1)
  tasa.error=1-tasa.acierto
}
aciertob1=tasa.acierto
errorb1=tasa.error

set.seed(3)
forest2<-randomForest(grupo_precio~.,data=train2,mtry=7, importance=TRUE)
forest.pred2<-predict(forest2,newdata=test2,type="class")
confusionb2=table(forest.pred2,test2$grupo_precio)
acierto=0
for (i in c(1:nrow(confusionb2))){
  acierto=acierto+confusionb2[i,i]
  tasa.acierto=acierto/sum(confusionb2)
  tasa.error=1-tasa.acierto
}
aciertob2=tasa.acierto
errorb2=tasa.error

set.seed(3)
forest3<-randomForest(grupo_precio~.,data=train3,mtry=7, importance=TRUE)
forest.pred3<-predict(forest3,newdata=test3,type="class")
confusionb3=table(forest.pred3,test3$grupo_precio)
acierto=0
for (i in c(1:nrow(confusionb3))){
  acierto=acierto+confusionb3[i,i]
  tasa.acierto=acierto/sum(confusionb3)
  tasa.error=1-tasa.acierto
}
aciertob3=tasa.acierto
errorb3=tasa.error

cat("El método de Bosques Aleatorios tiene una media de acierto de",sum(aciertob1,aciertob2,aciertob3)/3)
varImpPlot(forest1)
varImpPlot(forest2)
varImpPlot(forest3)


```

## Predicción método Árbol de Clasifiación y Random Forest

Para completar el informe, hemos generado una nueva base de datos donde hemos simulado las características de 12 automóviles que entran al sistema un día dado.Cabe destacar que en esta base de datos se incluye el precio del automóvil, esto no es realista porque si queremos tasar no nos van a dar el precio del automóvil, simplemente lo hacemos para demostrar cómo funciona el análisis. Para realizar las predicciones para Árbol de Clasificación y Random Forest debemos utilizar la base de datos al completo, el train y test era simplemente para probar el modelo, una vez sabemos cómo funcionan utilizamos el 100% de los datos para predecir los nuevos. De esta forma tenemos los siguientes resultados: 

-   El método de Árbol de Clasificación se equivoca en 3 de 12 ocasiones, dos de ellas no tienen a penas relevancia, pues se equivoca con una diferencia de precio de tan solo hasta 600€. Es decir, sitúa por debajo de la media un automóvil de 18999€ y otro de  18500€. Sin embargo, si nos fijamos en el precio del Mercedes-Benz Cls, comete un grave error, pues este dice que está por encima de la media cuando realmente vale 12900€, creemos que esto puede deberse por la importancia que da a la marca.

-   El método de Random Forest sin embargo evita el error del Cls, por lo que es mucho más preciso y solamente cae en los dos antes comentados con una difrencia de precio realmente baja. 

```{r, fig.align="left"}
set.seed(3)
library(tree)
#a) Arbol de clasificación---
tree.Coches <- tree (grupo_precio~.,data = datos2)
predecir$prediccion_arbol<-predict(tree.Coches,newdata=predecir,type="class")

library(randomForest)
# conjunto 1
set.seed(3)
forest1<-randomForest(grupo_precio~.,data=datos2,mtry=7, importance=TRUE)
predecir$prediccion_forest<-predict(forest1,newdata=predecir,type="class")
knitr::kable(predecir)
```

## Conclusión

Como se ha ido comentado durante el informe, los dos métodos funcionan bastante bien y cada uno tiene un enfoque distinto. Mientra que el árbol de clasificación ofrece una gran comodidad y versatilidad para tomar decisiones en el momento sin tener conocimientos especializados, el método de Random Forest ofrece una mejor predicción con errores menos graves ajustando mucho más los precios que buscamos. 

Además cabe destacar en las conclusiones el tamaño de la base de datos. Queremos predecir el precio de un coche en función de las variables antes comentadas, pero tenemos únicamente 340 datos para un sistema tan complejo. Como hemos visto, hemos tenido que realizar apaños "cambiando" la variable Coche y Modelo por Lujo. Por lo que creemos que con una base de datos realmente grande donde pudiéramos tomar las especificaciones mucho más al dedo con más individuos representativos de cada factor se podría realizar un análisis mucho más sofisticado siendo capaces de predecir con mucha más credibilidad y precisión. 











