Este problema es una de las competencias juego de la plataforma Kaggle, en la cual busca predecir el precio de venta de una propiedad en dólares (SalePrice) teniendo un gran número de características (79) como su área, número de habitaciones, área del garaje, altura del sótano, etc.

Se evalúa el nivel de ajuste del modelo en base a la raíz del error cuadrático medio (RMSE).

Enlace competencia: https://www.kaggle.com/c/house-prices-advanced-regression-techniques/overview

la competencia brinda una base de entrenamiento y una base de prueba, en esta última se debe predecir el precio de venta de un conjunto de propiedades desconociendo su valor original.

Con la ayuda de R se crea una función para calcular el RMSE de las predicciones obtenidas.

A continuación se presentarán los dos mejores modelos de ambos estudiantes, ambos seleccionados por el puntaje alcanzado en la competencia.

1 Jaime Andrés Molina Correa - Mejor modelo (0.15649 de puntaje)

Se realizaron modelos de regresión lineal, bagging y Random Forest para predecir el predecir el precio de venta de una propiedad. El mejor modelo obtenido fue un baggin con 12 variables consideradas. El procedimiento para llegar al modelo se enseña a continuación.

paquetes utilizados:

A continuación se enseñan el número de datos faltantes (NA) en las variables del conjunto de entrenamiento. Las que no se muestran no tienen datos faltantes.

##       PoolQC  MiscFeature        Alley        Fence  FireplaceQu  LotFrontage 
##         1453         1406         1369         1179          690          259 
##   GarageType  GarageYrBlt GarageFinish   GarageQual   GarageCond BsmtExposure 
##           81           81           81           81           81           38 
## BsmtFinType2     BsmtQual     BsmtCond BsmtFinType1   MasVnrType   MasVnrArea 
##           38           37           37           37            8            8 
##   Electrical 
##            1

Se eliminan las variables con mayor número de datos faltantes, variable con más de 50 faltantes en el conjunto de entrenamiento se desprecia.

Posteriormente se eliminan las observaciones con datos faltantes ya que ahora se podrían perder pocas observaciones.

1.1 Modelo Random Forest para selección de variables.

Para entrenar un modelo con el método Random Forest se hace uso de la función randomForest del paquete randomForest.

Se procede a la creación del modelo con el número de árboles que utiliza por defecto la función (500). El número de variables que selecciona aleatoriamente en cada muestra bootstrap es calculado según el número de variables consideradas, para este número de variables se usan 22 en cada muestra.

## 
## Call:
##  randomForest(formula = SalePrice ~ ., data = train[, -1], importance = TRUE) 
##                Type of random forest: regression
##                      Number of trees: 500
## No. of variables tried at each split: 22
## 
##           Mean of squared residuals: 781781463
##                     % Var explained: 87.55

A continación se muestran cuales son las variables que aportan más al modelo según dos metricas diferentes.

1.2 Modelo Bagging.

En un principio se pensó en utilizar las 3 variables que son más informativas según el MSE, pero al no tener muy buenos resultados en el puntaje de la competencia, se decide utilizar las primeras 12. A continuación se crea el modelo.

## 
## Call:
##  randomForest(formula = SalePrice ~ GrLivArea + Neighborhood +      OverallQual + TotalBsmtSF + X1stFlrSF + X2ndFlrSF + GarageCars +      GarageArea + LotArea + BsmtFinSF1 + ExterQual + FullBath,      data = train, importance = TRUE, ntree = 500, mtry = 12) 
##                Type of random forest: regression
##                      Number of trees: 500
## No. of variables tried at each split: 12
## 
##           Mean of squared residuals: 847029853
##                     % Var explained: 86.51

1.3 Conjunto de prueba kaggle

Se seleccionan solo las variables usadas en el modelo final

número de datos faltantes en el conjunto de prueba.

##  TotalBsmtSF   GarageCars   GarageArea   BsmtFinSF1           Id    GrLivArea 
##            1            1            1            1            0            0 
## Neighborhood  OverallQual    X1stFlrSF    X2ndFlrSF      LotArea    ExterQual 
##            0            0            0            0            0            0 
##     FullBath 
##            0

Se puede observar que cuatro de las variables usadas en el modelo tienen un valor faltante, por lo que se deben reemplazar. Como son variables continuas se decide reemplazar el valor faltante con la mediana de la respectiva variable en el conjunto de entrenamiento

1.4 Predicción y creación de base de datos

Finalmente, con la ayuda de la función predict() se obtienen los valores ajustados para subir a la competencia.

Por último, se crea la base de datos.

2 Valentina Garcia Velasquez - Mejor modelo (0.13398 de puntaje)

Se lee nuevamente el conjunto de datos y entrenamiento

Se seleccionan únicamente las columnas numéricas y se reeemplazan los NA con el valor -99.

Se crea una matriz con las covariables y otra para la variable respuesta, re realiza el mismo procedimiento para el conjunto de prueba.

3 Evidencias

3.1 Ranking alcanzado

3.2 Mejor puntaje Valentina Garcia

3.3 Mejor puntaje Jaime Molina

