Teoría

El Bosque Aleatorio es un algoritmo de aprendizaje automático que combina el resultado de múltiples árboles de decisión para llegar a un resultado óptimo.

Ejemplo 1. Melbourne

En esta base de datos tenemos los precios de más de 13,000 casas de la ciudad de Melbourne.

Instalar paquetes y llamar librerías

#install.packages("tidyverse")
library(tidyverse)
#install.packages("rpart")
library(rpart)
#install.packages("randomForest")
library(randomForest)
#install.packages("rpart.plot")
library(rpart.plot)
#install.packages("modelr") #Calcular errores
library(modelr)
#install.packages("caret")
library(caret)

Importar la base de datos

df <- read.csv("C:\\Users\\artur\\Downloads\\melbourne.csv")

Entender la base de datos

summary(df)

##     Suburb            Address              Rooms            Type          
##  Length:13580       Length:13580       Min.   : 1.000   Length:13580      
##  Class :character   Class :character   1st Qu.: 2.000   Class :character  
##  Mode  :character   Mode  :character   Median : 3.000   Mode  :character  
##                                        Mean   : 2.938                     
##                                        3rd Qu.: 3.000                     
##                                        Max.   :10.000                     
##                                                                           
##      Price            Method            SellerG              Date          
##  Min.   :  85000   Length:13580       Length:13580       Length:13580      
##  1st Qu.: 650000   Class :character   Class :character   Class :character  
##  Median : 903000   Mode  :character   Mode  :character   Mode  :character  
##  Mean   :1075684                                                           
##  3rd Qu.:1330000                                                           
##  Max.   :9000000                                                           
##                                                                            
##     Distance        Postcode       Bedroom2         Bathroom    
##  Min.   : 0.00   Min.   :3000   Min.   : 0.000   Min.   :0.000  
##  1st Qu.: 6.10   1st Qu.:3044   1st Qu.: 2.000   1st Qu.:1.000  
##  Median : 9.20   Median :3084   Median : 3.000   Median :1.000  
##  Mean   :10.14   Mean   :3105   Mean   : 2.915   Mean   :1.534  
##  3rd Qu.:13.00   3rd Qu.:3148   3rd Qu.: 3.000   3rd Qu.:2.000  
##  Max.   :48.10   Max.   :3977   Max.   :20.000   Max.   :8.000  
##                                                                 
##       Car           Landsize         BuildingArea     YearBuilt   
##  Min.   : 0.00   Min.   :     0.0   Min.   :    0   Min.   :1196  
##  1st Qu.: 1.00   1st Qu.:   177.0   1st Qu.:   93   1st Qu.:1940  
##  Median : 2.00   Median :   440.0   Median :  126   Median :1970  
##  Mean   : 1.61   Mean   :   558.4   Mean   :  152   Mean   :1965  
##  3rd Qu.: 2.00   3rd Qu.:   651.0   3rd Qu.:  174   3rd Qu.:1999  
##  Max.   :10.00   Max.   :433014.0   Max.   :44515   Max.   :2018  
##  NA's   :62                         NA's   :6450    NA's   :5375  
##  CouncilArea          Lattitude        Longtitude     Regionname       
##  Length:13580       Min.   :-38.18   Min.   :144.4   Length:13580      
##  Class :character   1st Qu.:-37.86   1st Qu.:144.9   Class :character  
##  Mode  :character   Median :-37.80   Median :145.0   Mode  :character  
##                     Mean   :-37.81   Mean   :145.0                     
##                     3rd Qu.:-37.76   3rd Qu.:145.1                     
##                     Max.   :-37.41   Max.   :145.5                     
##                                                                        
##  Propertycount  
##  Min.   :  249  
##  1st Qu.: 4380  
##  Median : 6555  
##  Mean   : 7454  
##  3rd Qu.:10331  
##  Max.   :21650  
##

str(df)

## 'data.frame':    13580 obs. of  21 variables:
##  $ Suburb       : chr  "Abbotsford" "Abbotsford" "Abbotsford" "Abbotsford" ...
##  $ Address      : chr  "85 Turner St" "25 Bloomburg St" "5 Charles St" "40 Federation La" ...
##  $ Rooms        : int  2 2 3 3 4 2 3 2 1 2 ...
##  $ Type         : chr  "h" "h" "h" "h" ...
##  $ Price        : num  1480000 1035000 1465000 850000 1600000 ...
##  $ Method       : chr  "S" "S" "SP" "PI" ...
##  $ SellerG      : chr  "Biggin" "Biggin" "Biggin" "Biggin" ...
##  $ Date         : chr  "3/12/2016" "4/02/2016" "4/03/2017" "4/03/2017" ...
##  $ Distance     : num  2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 ...
##  $ Postcode     : num  3067 3067 3067 3067 3067 ...
##  $ Bedroom2     : num  2 2 3 3 3 2 4 2 1 3 ...
##  $ Bathroom     : num  1 1 2 2 1 1 2 1 1 1 ...
##  $ Car          : num  1 0 0 1 2 0 0 2 1 2 ...
##  $ Landsize     : num  202 156 134 94 120 181 245 256 0 220 ...
##  $ BuildingArea : num  NA 79 150 NA 142 NA 210 107 NA 75 ...
##  $ YearBuilt    : num  NA 1900 1900 NA 2014 ...
##  $ CouncilArea  : chr  "Yarra" "Yarra" "Yarra" "Yarra" ...
##  $ Lattitude    : num  -37.8 -37.8 -37.8 -37.8 -37.8 ...
##  $ Longtitude   : num  145 145 145 145 145 ...
##  $ Regionname   : chr  "Northern Metropolitan" "Northern Metropolitan" "Northern Metropolitan" "Northern Metropolitan" ...
##  $ Propertycount: num  4019 4019 4019 4019 4019 ...

df <- na.omit(df)

Árbol de decisión

arbol <- rpart(Price~Rooms + Distance + Bedroom2 + Bathroom + YearBuilt + Car + Landsize + BuildingArea + Propertycount, data=df )
plot(arbol, uniform=TRUE)
text(arbol, cex=.4)

predict(arbol, head(df))

##       2       3       5       7       8      10 
## 1095996 1562641 1070605 2422140 1095996 1095996

head(df$Price)

## [1] 1035000 1465000 1600000 1876000 1636000 1097000

prueba_arbol <- head(df)

mae_arbol <- mae(arbol, prueba_arbol)

Bosque Aleatorio

set.seed(123)
renglones_entrenamiento <- createDataPartition(df$Price, p=0.8, list=FALSE)
entrenamiento <- df[renglones_entrenamiento, ]
prueba <- df[-renglones_entrenamiento, ]

rf <- randomForest(Price~Rooms + Distance + Bedroom2 + Bathroom + YearBuilt + Car + Landsize + BuildingArea + Propertycount, data=entrenamiento, ntree=500, mtry=3, importance=TRUE )

resultado_entrenamiento <- predict(rf, entrenamiento)
resultado_prueba <- predict(rf, prueba)

mae_rf <- mae(rf, prueba)

resultados <- tibble(Modelo=c("Árbol de Decisión", "Bosque Aleatorio"), MAE =c(mae_arbol, mae_rf))
resultados

## # A tibble: 2 × 2
##   Modelo                MAE
##   <chr>               <dbl>
## 1 Árbol de Decisión 295863.
## 2 Bosque Aleatorio  213043.

Ejercicio 1. Rendimiento Automotriz

Importar la base de datos

df2 <- mtcars

Entender la base de datos

summary(df2)

##       mpg             cyl             disp             hp       
##  Min.   :10.40   Min.   :4.000   Min.   : 71.1   Min.   : 52.0  
##  1st Qu.:15.43   1st Qu.:4.000   1st Qu.:120.8   1st Qu.: 96.5  
##  Median :19.20   Median :6.000   Median :196.3   Median :123.0  
##  Mean   :20.09   Mean   :6.188   Mean   :230.7   Mean   :146.7  
##  3rd Qu.:22.80   3rd Qu.:8.000   3rd Qu.:326.0   3rd Qu.:180.0  
##  Max.   :33.90   Max.   :8.000   Max.   :472.0   Max.   :335.0  
##       drat             wt             qsec             vs        
##  Min.   :2.760   Min.   :1.513   Min.   :14.50   Min.   :0.0000  
##  1st Qu.:3.080   1st Qu.:2.581   1st Qu.:16.89   1st Qu.:0.0000  
##  Median :3.695   Median :3.325   Median :17.71   Median :0.0000  
##  Mean   :3.597   Mean   :3.217   Mean   :17.85   Mean   :0.4375  
##  3rd Qu.:3.920   3rd Qu.:3.610   3rd Qu.:18.90   3rd Qu.:1.0000  
##  Max.   :4.930   Max.   :5.424   Max.   :22.90   Max.   :1.0000  
##        am              gear            carb      
##  Min.   :0.0000   Min.   :3.000   Min.   :1.000  
##  1st Qu.:0.0000   1st Qu.:3.000   1st Qu.:2.000  
##  Median :0.0000   Median :4.000   Median :2.000  
##  Mean   :0.4062   Mean   :3.688   Mean   :2.812  
##  3rd Qu.:1.0000   3rd Qu.:4.000   3rd Qu.:4.000  
##  Max.   :1.0000   Max.   :5.000   Max.   :8.000

str(df2)

## 'data.frame':    32 obs. of  11 variables:
##  $ mpg : num  21 21 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 ...
##  $ cyl : num  6 6 4 6 8 6 8 4 4 6 ...
##  $ disp: num  160 160 108 258 360 ...
##  $ hp  : num  110 110 93 110 175 105 245 62 95 123 ...
##  $ drat: num  3.9 3.9 3.85 3.08 3.15 2.76 3.21 3.69 3.92 3.92 ...
##  $ wt  : num  2.62 2.88 2.32 3.21 3.44 ...
##  $ qsec: num  16.5 17 18.6 19.4 17 ...
##  $ vs  : num  0 0 1 1 0 1 0 1 1 1 ...
##  $ am  : num  1 1 1 0 0 0 0 0 0 0 ...
##  $ gear: num  4 4 4 3 3 3 3 4 4 4 ...
##  $ carb: num  4 4 1 1 2 1 4 2 2 4 ...

df <- na.omit(df2)

Árbol de decisión

arbol2 <- rpart(mpg~cyl + disp + hp + drat + wt + qsec + gear+ carb, data=df2 )
plot(arbol2, uniform=TRUE)
text(arbol2, cex=.4)

predict(arbol2, head(df2))

##         Mazda RX4     Mazda RX4 Wag        Datsun 710    Hornet 4 Drive 
##          18.26429          18.26429          26.66364          18.26429 
## Hornet Sportabout           Valiant 
##          18.26429          18.26429

head(df$mpg)

## [1] 21.0 21.0 22.8 21.4 18.7 18.1

prueba_arbol2 <- head(df2)

mae_arbol2 <- mae(arbol2, prueba_arbol2)

Bosque Aleatorio

set.seed(123)
renglones_entrenamiento2 <- createDataPartition(df2$mpg, p=0.8, list=FALSE)
entrenamiento2 <- df2[renglones_entrenamiento2, ]
prueba2 <- df2[-renglones_entrenamiento2, ]

rf2 <- randomForest(mpg~cyl + disp + hp + drat + wt + qsec + gear+ carb, data=entrenamiento2, ntree=500, mtry=3, importance=TRUE )

resultado_entrenamiento2 <- predict(rf2, entrenamiento2)
resultado_prueba2 <- predict(rf2, prueba2)

mae_rf2 <- mae(rf2, prueba2)

resultados2 <- tibble(Modelo=c("Árbol de Decisión", "Bosque Aleatorio"), MAE =c(mae_arbol2, mae_rf2))
resultados2

## # A tibble: 2 × 2
##   Modelo              MAE
##   <chr>             <dbl>
## 1 Árbol de Decisión  2.18
## 2 Bosque Aleatorio   1.75

LS0tDQp0aXRsZTogIkJvc3F1ZXMgYWxlYXRvcmlvcyINCmF1dGhvcjogIkFydHVybyBEaXgiDQpkYXRlOiAiMjAyNS0wOC0yNSINCm91dHB1dDoNCiAgaHRtbF9kb2N1bWVudDoNCiAgICB0b2M6IFRSVUUNCiAgICB0b2NfZmxvYXQ6IFRSVUUNCiAgICBjb2RlX2Rvd25sb2FkOiBUUlVFDQogICAgdGhlbWU6IGpvdXJuYWwNCi0tLQ0KPGNlbnRlcj4NCiFbXShodHRwczovL2VuY3J5cHRlZC10Ym4wLmdzdGF0aWMuY29tL2ltYWdlcz9xPXRibjpBTmQ5R2NRMUNtWWExTlJFclV0NDBZRi1PLXZDaVJ3U3JfRkhrUHgxLWcmcykNCjwvY2VudGVyPg0KDQojIDxzcGFuIHN0eWxlPSJjb2xvcjpibGFjazsiPiBUZW9yw61hIDwvc3Bhbj4NCkVsICoqQm9zcXVlIEFsZWF0b3JpbyoqIGVzIHVuIGFsZ29yaXRtbyBkZSBhcHJlbmRpemFqZSBhdXRvbcOhdGljbyBxdWUgY29tYmluYSBlbCByZXN1bHRhZG8gZGUgbcO6bHRpcGxlcyDDoXJib2xlcyBkZSBkZWNpc2nDs24gcGFyYSBsbGVnYXIgYSB1biByZXN1bHRhZG8gw7NwdGltby4NCg0KDQojIDxzcGFuIHN0eWxlPSJjb2xvcjpibGFjazsiPiBFamVtcGxvIDEuIE1lbGJvdXJuZSA8L3NwYW4+DQpFbiBlc3RhIGJhc2UgZGUgZGF0b3MgdGVuZW1vcyBsb3MgcHJlY2lvcyBkZSBtw6FzIGRlIDEzLDAwMCBjYXNhcyBkZSBsYSBjaXVkYWQgZGUgTWVsYm91cm5lLiANCg0KIyMgPHNwYW4gc3R5bGU9ImNvbG9yOmJsYWNrOyI+IEluc3RhbGFyIHBhcXVldGVzIHkgbGxhbWFyIGxpYnJlcsOtYXMgPC9zcGFuPg0KDQpgYGB7ciBtZXNzYWdlPUZBTFNFLCB3YXJuaW5nPUZBTFNFfQ0KI2luc3RhbGwucGFja2FnZXMoInRpZHl2ZXJzZSIpDQpsaWJyYXJ5KHRpZHl2ZXJzZSkNCiNpbnN0YWxsLnBhY2thZ2VzKCJycGFydCIpDQpsaWJyYXJ5KHJwYXJ0KQ0KI2luc3RhbGwucGFja2FnZXMoInJhbmRvbUZvcmVzdCIpDQpsaWJyYXJ5KHJhbmRvbUZvcmVzdCkNCiNpbnN0YWxsLnBhY2thZ2VzKCJycGFydC5wbG90IikNCmxpYnJhcnkocnBhcnQucGxvdCkNCiNpbnN0YWxsLnBhY2thZ2VzKCJtb2RlbHIiKSAjQ2FsY3VsYXIgZXJyb3Jlcw0KbGlicmFyeShtb2RlbHIpDQojaW5zdGFsbC5wYWNrYWdlcygiY2FyZXQiKQ0KbGlicmFyeShjYXJldCkNCmBgYA0KDQojIyA8c3BhbiBzdHlsZT0iY29sb3I6YmxhY2s7Ij4gSW1wb3J0YXIgbGEgYmFzZSBkZSBkYXRvcyA8L3NwYW4+DQpgYGB7cn0NCmRmIDwtIHJlYWQuY3N2KCJDOlxcVXNlcnNcXGFydHVyXFxEb3dubG9hZHNcXG1lbGJvdXJuZS5jc3YiKQ0KYGBgDQoNCiMjIDxzcGFuIHN0eWxlPSJjb2xvcjpibGFjazsiPiBFbnRlbmRlciBsYSBiYXNlIGRlIGRhdG9zIDwvc3Bhbj4NCg0KYGBge3J9DQpzdW1tYXJ5KGRmKQ0Kc3RyKGRmKQ0KZGYgPC0gbmEub21pdChkZikNCmBgYA0KDQojIyA8c3BhbiBzdHlsZT0iY29sb3I6YmxhY2s7Ij4gw4FyYm9sIGRlIGRlY2lzacOzbiA8L3NwYW4+DQoNCmBgYHtyfQ0KYXJib2wgPC0gcnBhcnQoUHJpY2V+Um9vbXMgKyBEaXN0YW5jZSArIEJlZHJvb20yICsgQmF0aHJvb20gKyBZZWFyQnVpbHQgKyBDYXIgKyBMYW5kc2l6ZSArIEJ1aWxkaW5nQXJlYSArIFByb3BlcnR5Y291bnQsIGRhdGE9ZGYgKQ0KcGxvdChhcmJvbCwgdW5pZm9ybT1UUlVFKQ0KdGV4dChhcmJvbCwgY2V4PS40KQ0KDQpwcmVkaWN0KGFyYm9sLCBoZWFkKGRmKSkNCmhlYWQoZGYkUHJpY2UpDQoNCnBydWViYV9hcmJvbCA8LSBoZWFkKGRmKQ0KDQptYWVfYXJib2wgPC0gbWFlKGFyYm9sLCBwcnVlYmFfYXJib2wpDQpgYGANCiMjIDxzcGFuIHN0eWxlPSJjb2xvcjpibGFjazsiPiBCb3NxdWUgQWxlYXRvcmlvIDwvc3Bhbj4NCmBgYHtyfQ0Kc2V0LnNlZWQoMTIzKQ0KcmVuZ2xvbmVzX2VudHJlbmFtaWVudG8gPC0gY3JlYXRlRGF0YVBhcnRpdGlvbihkZiRQcmljZSwgcD0wLjgsIGxpc3Q9RkFMU0UpDQplbnRyZW5hbWllbnRvIDwtIGRmW3Jlbmdsb25lc19lbnRyZW5hbWllbnRvLCBdDQpwcnVlYmEgPC0gZGZbLXJlbmdsb25lc19lbnRyZW5hbWllbnRvLCBdDQoNCnJmIDwtIHJhbmRvbUZvcmVzdChQcmljZX5Sb29tcyArIERpc3RhbmNlICsgQmVkcm9vbTIgKyBCYXRocm9vbSArIFllYXJCdWlsdCArIENhciArIExhbmRzaXplICsgQnVpbGRpbmdBcmVhICsgUHJvcGVydHljb3VudCwgZGF0YT1lbnRyZW5hbWllbnRvLCBudHJlZT01MDAsIG10cnk9MywgaW1wb3J0YW5jZT1UUlVFICkNCg0KcmVzdWx0YWRvX2VudHJlbmFtaWVudG8gPC0gcHJlZGljdChyZiwgZW50cmVuYW1pZW50bykNCnJlc3VsdGFkb19wcnVlYmEgPC0gcHJlZGljdChyZiwgcHJ1ZWJhKQ0KDQptYWVfcmYgPC0gbWFlKHJmLCBwcnVlYmEpDQoNCnJlc3VsdGFkb3MgPC0gdGliYmxlKE1vZGVsbz1jKCLDgXJib2wgZGUgRGVjaXNpw7NuIiwgIkJvc3F1ZSBBbGVhdG9yaW8iKSwgTUFFID1jKG1hZV9hcmJvbCwgbWFlX3JmKSkNCnJlc3VsdGFkb3MNCg0KYGBgDQoNCg0KDQojIDxzcGFuIHN0eWxlPSJjb2xvcjpibGFjazsiPiBFamVyY2ljaW8gMS4gUmVuZGltaWVudG8gQXV0b21vdHJpeiA8L3NwYW4+DQoNCiMjIDxzcGFuIHN0eWxlPSJjb2xvcjpibGFjazsiPiBJbXBvcnRhciBsYSBiYXNlIGRlIGRhdG9zIDwvc3Bhbj4NCmBgYHtyfQ0KZGYyIDwtIG10Y2Fycw0KYGBgDQoNCiMjIDxzcGFuIHN0eWxlPSJjb2xvcjpibGFjazsiPiBFbnRlbmRlciBsYSBiYXNlIGRlIGRhdG9zIDwvc3Bhbj4NCg0KYGBge3J9DQpzdW1tYXJ5KGRmMikNCnN0cihkZjIpDQpkZiA8LSBuYS5vbWl0KGRmMikNCmBgYA0KIyMgPHNwYW4gc3R5bGU9ImNvbG9yOmJsYWNrOyI+IMOBcmJvbCBkZSBkZWNpc2nDs24gPC9zcGFuPg0KDQpgYGB7cn0NCmFyYm9sMiA8LSBycGFydChtcGd+Y3lsICsgZGlzcCArIGhwICsgZHJhdCArIHd0ICsgcXNlYyArIGdlYXIrIGNhcmIsIGRhdGE9ZGYyICkNCnBsb3QoYXJib2wyLCB1bmlmb3JtPVRSVUUpDQp0ZXh0KGFyYm9sMiwgY2V4PS40KQ0KDQpwcmVkaWN0KGFyYm9sMiwgaGVhZChkZjIpKQ0KaGVhZChkZiRtcGcpDQoNCnBydWViYV9hcmJvbDIgPC0gaGVhZChkZjIpDQoNCm1hZV9hcmJvbDIgPC0gbWFlKGFyYm9sMiwgcHJ1ZWJhX2FyYm9sMikNCmBgYA0KDQojIyA8c3BhbiBzdHlsZT0iY29sb3I6YmxhY2s7Ij4gQm9zcXVlIEFsZWF0b3JpbyA8L3NwYW4+DQpgYGB7cn0NCnNldC5zZWVkKDEyMykNCnJlbmdsb25lc19lbnRyZW5hbWllbnRvMiA8LSBjcmVhdGVEYXRhUGFydGl0aW9uKGRmMiRtcGcsIHA9MC44LCBsaXN0PUZBTFNFKQ0KZW50cmVuYW1pZW50bzIgPC0gZGYyW3Jlbmdsb25lc19lbnRyZW5hbWllbnRvMiwgXQ0KcHJ1ZWJhMiA8LSBkZjJbLXJlbmdsb25lc19lbnRyZW5hbWllbnRvMiwgXQ0KDQpyZjIgPC0gcmFuZG9tRm9yZXN0KG1wZ35jeWwgKyBkaXNwICsgaHAgKyBkcmF0ICsgd3QgKyBxc2VjICsgZ2VhcisgY2FyYiwgZGF0YT1lbnRyZW5hbWllbnRvMiwgbnRyZWU9NTAwLCBtdHJ5PTMsIGltcG9ydGFuY2U9VFJVRSApDQoNCnJlc3VsdGFkb19lbnRyZW5hbWllbnRvMiA8LSBwcmVkaWN0KHJmMiwgZW50cmVuYW1pZW50bzIpDQpyZXN1bHRhZG9fcHJ1ZWJhMiA8LSBwcmVkaWN0KHJmMiwgcHJ1ZWJhMikNCg0KbWFlX3JmMiA8LSBtYWUocmYyLCBwcnVlYmEyKQ0KDQpyZXN1bHRhZG9zMiA8LSB0aWJibGUoTW9kZWxvPWMoIsOBcmJvbCBkZSBEZWNpc2nDs24iLCAiQm9zcXVlIEFsZWF0b3JpbyIpLCBNQUUgPWMobWFlX2FyYm9sMiwgbWFlX3JmMikpDQpyZXN1bHRhZG9zMg0KDQpgYGA=

Bosques aleatorios

Arturo Dix

2025-08-25

Teoría

Ejemplo 1. Melbourne

Instalar paquetes y llamar librerías

Importar la base de datos

Entender la base de datos

Árbol de decisión

Bosque Aleatorio

Ejercicio 1. Rendimiento Automotriz

Importar la base de datos

Entender la base de datos

Árbol de decisión

Bosque Aleatorio