Actividad 2 - metodos estadisticos

Introduccion

El mercado inmobiliario en Cali ha experimentado una desaceleración significativa en lo que va del año, influenciado por las tensiones políticas y sociales que han afectado la actividad económica en la región. Sin embargo, el sector se mantiene en expectativa de una pronta reactivación, impulsada por el aumento en los créditos otorgados por las instituciones bancarias para la construcción comercial y residencial.

En este contexto, la agencia C&A, con sede en Cali, se ha destacado por su capacidad para adaptarse a las cambiantes condiciones del mercado y por ofrecer asesoría personalizada a sus clientes. Con un equipo de ocho agentes especializados, C&A se compromete a proporcionar soluciones efectivas y ajustadas a las necesidades específicas de cada cliente.

Este informe tiene como objetivo responder a la solicitud de la compañía internacional que busca adquirir dos propiedades en Cali para ubicar a dos de sus empleados y sus familias. Estas solicitud presenta características y requisitos específicos que requieren un análisis detallado del mercado inmobiliario actual.

Los datos

Para verificar el ajuste de los criterios solicitados por la compañía y su correspondencia con la oferta actual del mercado inmobiliarios de la ciudad se usaron de los datos disponibles en el conjunto “Vivienda”, que contiene información de más de ocho mil inmuebles ofertados en la ciudad de Cali.

Los datos fueron tratados debidamente para imputar los valores faltantes usando el algoritmo MICE.

## # A tibble: 6 × 13
##      id zona    piso  estrato preciom areaconst parqueaderos banios habitaciones
##   <dbl> <chr>   <chr>   <dbl>   <dbl>     <dbl>        <dbl>  <dbl>        <dbl>
## 1  1147 Zona O… <NA>        3     250        70            1      3            6
## 2  1169 Zona O… <NA>        3     320       120            1      2            3
## 3  1350 Zona O… <NA>        3     350       220            2      2            4
## 4  5992 Zona S… 02          4     400       280            3      5            3
## 5  1212 Zona N… 01          5     260        90            1      2            3
## 6  1724 Zona N… 01          5     240        87            1      3            3
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>

Descripcion de los casos

Caso 1: Vivienda 1 (Casa en el Norte)	Caso 2: Vivienda 2 (Apartamento en el Sur)
Área construida: 200 m²	Área construida: 300 m²
Parqueaderos: 1	Parqueaderos: 3
Baños: 2	Baños: 3
Habitaciones: 4	Habitaciones: 5
Estrato: 4 o 5	Estrato: 5 o 6
Crédito preaprobado: 350 millones de pesos	Crédito preaprobado: 850 millones de pesos

El informe a continuación presenta un análisis detallado de ambas solicitudes, considerando las condiciones actuales del mercado y utilizando técnicas de modelación para determinar la viabilidad de las adquisiciones y realizar recomendaciones fundamentadas en datos.

Caso 1

Para la evaluación del primer caso se usó una fracción del conjunto de datos de vivienda enfocándose en inmuebles con un perfil similar a la requerida por la empresa, una vivienda del tipo casa ubicada en la zona norte de la ciudad.

## # A tibble: 6 × 13
##      id zona     piso estrato preciom areaconst parqueaderos banios habitaciones
##   <dbl> <chr>   <dbl>   <dbl>   <dbl>     <dbl>        <dbl>  <dbl>        <dbl>
## 1  1209 Zona N…     2       5     320       150            2      4            6
## 2  1592 Zona N…     2       5     780       380            2      3            3
## 3  4057 Zona N…     2       6     750       445            6      7            6
## 4  4460 Zona N…     2       4     625       355            3      5            5
## 5  6081 Zona N…     2       5     750       237            2      6            6
## 6  7824 Zona N…     2       4     600       160            1      4            5
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>

Los inmuebles que cumplen con los requisitos propuestos son un total de 722, que fueron la base para generar un modelo predictivo que permita corroborar lo realista que es el precio que se está dispuesto a pagar por la propiedad con la oferta real. Los inmuebles se distribuyen en la ciudad de la siguiente manera:

La concentración de viviendas por supuesto se observa en la zona norte de la ciudad como es esperado y algunos registros escapan de esta zona geográfica al menos en el mapa, sin embargo, los barrios en los que están registrados los inmuebles si corresponden con la zona norte, lo cual deja entre ver que los registros dispersos son posiblemente un producto de la mala anotación de coordenadas.

A continuación, se presenta un resumen estadístico con las métricas mas relevantes para el conjunto de datos utilizado en la evaluación del primer caso.

variable	mean	median	sd	min	max	n	mode	count	unique
piso	1.99168975069252	2	0.807343324377982	1	7	722	NA	NA	NA
preciom	445.905817174515	390	268.364604892116	89	1940	722	NA	NA	NA
areaconst	264.850457063712	240	167.166832630432	30	1440	722	NA	NA	NA
parqueaderos	2.13434903047091	2	1.49801910072481	1	10	722	NA	NA	NA
banios	3.55540166204986	3	1.52386650242838	0	10	722	NA	NA	NA
habitaciones	4.50692520775623	4	1.82769014920462	0	10	722	NA	NA	NA
zona	NA	NA	NA	NA	NA	NA	Zona Norte	722	1
estrato	NA	NA	NA	NA	NA	NA	5	722	4
tipo	NA	NA	NA	NA	NA	NA	Casa	722	1

Relaciones entre las variables - Caso 1

Como preparación para el modelamiento es importante entender las relaciones que existen entre las variables, en este caso mediante gráficos de correlación. La variable de interés en este caso particular es el precio, el cual debemos ser capaces de predecir en base a otras variables como el área construida, el estrato, el número de habitaciones y baños, etc. La siguiente grafica presenta la correlación de las variables cuantitativas con la variable de respuesta (el precio) y permite identificar aquellas que puedan aportar el mayor poder predictivo.

Para un correcto modelamiento también es importante verificar las relaciones que existan entre las variables predictoras con el fin de evitar posibles problemas de multicolinealidad, o variables que son redundantes en el análisis. La siguiente grafica explica el nivel de correlación que existe entre las variables predictoras:

Se observa que la correlación más alta reportada es la existente entre el número de baño y habitaciones, denotando que entre mayor es el número de baños en una vivienda también lo es el número de habitaciones. Es posible que excluir alguna de las dos variables sea lo mejor para el modelo predictivo final en caso de presentarse problemas de multicolinealidad. En este caso particular la variable baños (banios) reporta correlaciones altas con múltiples variables como área construida y parqueaderos lo que la convierte en un foco de atención importante.

Modelo de regresión lineal múltiple

Para generar un modelo predictivo del precio de un inmueble con ciertas características se usaron los métodos de regresión lineal múltiples, con un modelo que obedece a la siguiente representación:

\[ \text{precio} = \beta_0 + \beta_1 \times \text{piso} + \beta_2 \times \text{estrato} + \beta_3 \times \text{areaconst} + \beta_4 \times \text{parqueaderos} + \beta_5 \times \text{banios} + \beta_6 \times \text{habitaciones} + \epsilon \] El modelo generado bajo estos criterios presenta los siguientes coeficientes:

## 
## Call:
## lm(formula = preciom ~ piso + estrato + areaconst + parqueaderos + 
##     banios + habitaciones, data = base)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -929.65  -76.48  -16.65   44.07 1093.12 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -225.46296   36.30698  -6.210 8.99e-10 ***
## piso           -4.62451    7.78662  -0.594 0.552764    
## estrato        82.43819    7.54494  10.926  < 2e-16 ***
## areaconst       0.81101    0.04341  18.683  < 2e-16 ***
## parqueaderos   14.96512    4.41899   3.387 0.000746 ***
## banios         21.88796    5.70948   3.834 0.000137 ***
## habitaciones    2.12974    4.11735   0.517 0.605134    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 158 on 715 degrees of freedom
## Multiple R-squared:  0.6563, Adjusted R-squared:  0.6535 
## F-statistic: 227.6 on 6 and 715 DF,  p-value: < 2.2e-16

Intercepto: El intercepto del modelo es -225.46. Esto representa el valor esperado de preciom cuando todas las variables predictoras son iguales a cero. Aunque no tiene una interpretación práctica directa en este contexto (ya que un valor de cero en algunas variables no es realista), su valor negativo sugiere que en ausencia de todas las variables predictoras, el modelo proyecta un valor negativo, lo cual refuerza la importancia de las variables en el modelo.
piso: El coeficiente de piso es -4.62, con un valor p de 0.552. Esto indica que, manteniendo todas las demás variables constantes, cada aumento de un piso se asocia con una disminución promedio de 4.62 unidades en el precio. Sin embargo, este coeficiente no es estadísticamente significativo, lo que sugiere que piso no tiene un impacto significativo en el precio en este modelo. Debido a que no tiene un aporte significativo y que el piso no es uno de los requerimiento del caso, se opta por eliminar la variable del modelo final
Estrato: El coeficiente de estrato es 82.44, con un valor p < 2e-16. Este coeficiente es estadísticamente significativo y sugiere que, en promedio, un aumento en el estrato se asocia con un incremento de 82.44 unidades en el precio.
areaconst: El coeficiente de areaconst es 0.81, con un valor p < 2e-16. Esto indica que, en promedio, por cada aumento de una unidad en el área construida, el precio aumenta en 0.81 unidades. Este coeficiente es también estadísticamente significativo.
Parqueaderos: El coeficiente de parqueaderos es 14.97, con un valor p de 0.000746. Esto sugiere que cada parqueadero adicional está asociado con un incremento promedio de 14.97 unidades en el precio, siendo estadísticamente significativo.
Baños/banios: El coeficiente de banios es 21.89, con un valor p de 0.000137. Indica que cada baño adicional aumenta el precio en promedio 21.89 unidades, y es estadísticamente significativo.
Habitaciones: El coeficiente de habitaciones es 2.13, con un valor p de 0.605. Este coeficiente no es estadísticamente significativo, sugiriendo que el número de habitaciones no tiene un impacto significativo en el precio en este modelo.
R2: R-cuadrado: El R-cuadrado del modelo es 0.6563, por lo cual el 65.63% de la variabilidad en preciom está explicada por las variables predictoras en el modelo actual. Es necesario verificar los supuestos del modelo y el comportamiento de los residuos para entender si este valor puede ser mejorado o no. Usualmente la transformación de variables puede mejorar sustancialmente el valor del R2 cuadrado puesto que permite controlar mejor la varianza o contrarrestar problemas de linealidad. Otras estrategias incluyen eliminar valores atípicos, cambiar las varaibles incluidas o escalarlas.

Los gráficos de diagnóstico indican que existen ciertos problemas que deben ser tratados para poder obtener resultados fiables. En la primera grafica (Residuals vs Fitted) se observa un efecto embudo con una dispersión creciente en los residuos, lo cual indica que el modelo no esta capturando en su totalidad las relaciones entre los datos. En la segunda grafica (Q-Q residuals) se observa que existen problemas de normalidad en los datos, sobre todos en valores de los extremos, lo cual puede comprometer las estimaciones y pruebas que se hagan a partir del modelo.

En la grafica (Scale-Location) podemos corroborar que el supuesto de homocedasticidad no se cumple puesto que se observa una tendencia creciente en los residuos. La ultima grafica (Residuals vs Leverage) aporta información sobre registros que podrían estar afectando negativamente el ajuste general del modelo por su carácter atipico.(Una exploración de la optimizacion del modelo puede ser consultada en anexos)

Predicciones

##        1        2 
## 325.5345 409.3525

Caso 1	Estrato 4	Estrato 5
Precio	325 millones	406 millones

El modelo propone un rango de precios entre los 325 a 406 millones considerando la diferencia que trae la selección de un estrato u otro. Este es el valor que debería de tener una casa con las características descritas en el caso 1 de acuerdo a la generalización realizada por el modelo de regresión múltiple. Una búsqueda con filtros acordes a los criterios sobre los datos de oferta inmobiliaria en Cali arroja un total de 7 viviendas con características similares a las buscadas. La principal diferencia se encuentra por supuesto en el precio y el área construida.

## # A tibble: 7 × 8
##    piso estrato preciom areaconst parqueaderos banios habitaciones tipo 
##   <dbl>   <dbl>   <dbl>     <dbl>        <dbl>  <dbl>        <dbl> <chr>
## 1     2       5     405      280             1      2            4 Casa 
## 2     1       5     900      850             1      2            4 Casa 
## 3     1       5     350      346             1      2            4 Casa 
## 4     2       4     275      120             1      2            4 Casa 
## 5     2       4     215      144.            1      2            4 Casa 
## 6     1       4     520      350             1      2            4 Casa 
## 7     2       4     550      265             1      2            4 Casa

Hay dos inmuebles que se encuentran por debajo del precio esperado, sin embargo, el área construida también está por debajo de los requerimientos. También hay dos viviendas que se encuentran dentro del rango de precios obtenido con el modelo, siendo la casa de 350 millones la opción excepcional en términos de la relación precio-área construida, muy superior a la vivienda de 405 millones. Las otras tres viviendas que cumplen con algunos de los criterios son mucho mas costosas y se escapan de los esperado por el modelo, indicando un precio posiblemente inflado. En conclusión, la casa de 350 millones es la mejor opción pues se ajusta perfectamente a lo requerido por la empresa e incluso otorga mejores condiciones en la variable de área construida.

Caso 2

Para la evaluación del segundo caso se usó una fracción del conjunto de datos de vivienda enfocándose en inmuebles con un perfil similar a la requerida por la empresa, una vivienda del tipo apartamento ubicada en la zona sur de la ciudad.

## # A tibble: 6 × 13
##      id zona     piso estrato preciom areaconst parqueaderos banios habitaciones
##   <dbl> <chr>   <dbl>   <dbl>   <dbl>     <dbl>        <dbl>  <dbl>        <dbl>
## 1  5098 Zona S…     5       4     290        96            1      2            3
## 2   698 Zona S…     2       3      78        40            1      1            2
## 3  8199 Zona S…     2       6     875       194            2      5            3
## 4  1241 Zona S…     4       3     135       117            1      2            3
## 5  5370 Zona S…     4       3     135        78            1      1            3
## 6  6975 Zona S…     6       4     220        75            1      2            3
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>

Los inmuebles que cumplen con los requisitos propuestos son un total de 2787, que fueron la base para generar un modelo predictivo que permita corroborar lo realista que es el precio que se está dispuesto a pagar por la propiedad con la oferta real. Los inmuebles se distribuyen en la ciudad de la siguiente manera:

La concentración de viviendas por supuesto se observa en la zona sur de la ciudad y similar a lo que pasaba en el caso, varios de los registros escapan de esta zona geográfica. En el caso de la zona sur, las fronteras definidas para esta zona parecen ser mucho más ambiguas y adicionalmente es muy grande, llegando a ocupar cerca del 50 de la zona urbana de toda la ciudad. La mala anotación de coordenadas nuevamente podría ser la explicación, con un aumento proporcional en los datos mal anotados acorde con el tamaño de la zona y el número de registros disponibles

A continuación, se presenta un resumen estadístico con las métricas más relevantes para el conjunto de datos utilizado en la evaluación del primer caso.

variable	mean	median	sd	min	max	n	mode	count	unique
piso	4.4556871187657	4	2.65234170054893	1	12	2787	NA	NA	NA
preciom	297.291711517761	245	191.550579464988	75	1750	2787	NA	NA	NA
areaconst	97.4702762827413	85	52.5666926380735	40	932	2787	NA	NA	NA
parqueaderos	1.36813778256189	1	0.640321010185148	1	10	2787	NA	NA	NA
banios	2.48833871546466	2	0.93438176240139	0	8	2787	NA	NA	NA
habitaciones	2.96555435952637	3	0.632538731726142	0	6	2787	NA	NA	NA
zona	NA	NA	NA	NA	NA	NA	Zona Sur	2787	1
estrato	NA	NA	NA	NA	NA	NA	4	2787	4
tipo	NA	NA	NA	NA	NA	NA	Apartamento	2787	1

Relaciones entre las variables - Caso 2

Para el caso número dos, la correlación entre las variables predictoras con la variable de respuesta aparentan ser mas fuertes, indicando un potencial mayor explicativo para este nuevo conjunto de viviendas compuesto por apartamentos del Sur.

Para este conjunto de datos se reportan niveles de correlación bastante altos en algunas variables, similares a las observadas en el caso 1 como la relación entre el numero de baños y habitaciones, también entre parqueaderos. El área construida muestra una correlación muy alta con los baños y parqueaderos, esta asociación es esperable pero debe ser tomada en cuenta en caso de que el modelo tenga problemas o se quieran eliminar redundancias.

Modelo de regresión lineal múltiple

Aplicando la experiencia del primer caso y que se observó una baja correlación entre la variable piso y el precio, no se incluirá en el planteamiento del modelo.

\[ \text{precio} = \beta_0 + \beta_1 \times \text{habitaciones} + \beta_2 \times \text{estrato} + \beta_3 \times \text{areaconst} + \beta_4 \times \text{parqueaderos} + \beta_5 \times \text{banios} + \epsilon \] El modelo generado bajo estos criterios presenta los siguientes coeficientes:

## 
## Call:
## lm(formula = preciom ~ estrato + areaconst + parqueaderos + banios + 
##     habitaciones, data = base)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1136.78   -37.84    -2.33    38.63   926.24 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -265.18773   12.89683 -20.562  < 2e-16 ***
## estrato        58.80725    2.67240  22.005  < 2e-16 ***
## areaconst       1.34356    0.04874  27.568  < 2e-16 ***
## parqueaderos   73.29854    3.67683  19.935  < 2e-16 ***
## banios         45.14045    2.98684  15.113  < 2e-16 ***
## habitaciones  -17.99549    3.32944  -5.405 7.03e-08 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 93.03 on 2781 degrees of freedom
## Multiple R-squared:  0.7645, Adjusted R-squared:  0.7641 
## F-statistic:  1806 on 5 and 2781 DF,  p-value: < 2.2e-16

Intercepto: El intercepto del modelo es -265.19. Esto representa el valor esperado de preciom cuando todas las variables predictoras son iguales a cero. Aunque no tiene una interpretación práctica directa en este contexto (ya que un valor de cero en algunas variables no es realista).
Estrato: El coeficiente de estrato es 58.81, con un valor p < 2e-16. Este coeficiente es estadísticamente significativo y sugiere que, en promedio, un aumento en el estrato se asocia con un incremento de 58.81 unidades en el precio.
Área Construida (areaconst): El coeficiente de areaconst es 1.34, con un valor p < 2e-16. Esto indica que, en promedio, por cada aumento de una unidad en el área construida, el precio aumenta en 1.34 unidades. Este coeficiente es también estadísticamente significativo.
Parqueaderos: El coeficiente de parqueaderos es 73.30, con un valor p < 2e-16. Esto sugiere que cada parqueadero adicional está asociado con un incremento promedio de 73.30 unidades en el precio, siendo estadísticamente significativo.
Baños (banios): El coeficiente de banios es 45.14, con un valor p < 2e-16. Indica que cada baño adicional aumenta el precio en promedio 45.14 unidades, y es estadísticamente significativo.
Habitaciones: El coeficiente de habitaciones es -17.99, con un valor p = 7.03e-08. Sorprendentemente, este coeficiente es negativo, lo que indica que cada habitación adicional se asocia con una disminución promedio de 17.99 unidades en el precio, manteniendo constantes las demás variables. Aunque este coeficiente es estadísticamente significativo, su valor negativo puede ser un indicador de problemas por parte del modelo para interpretarlo o colinealidad con otras variables ya que no tiene mucho sentido.
R-cuadrado: El R-cuadrado del modelo es 0.7645, por lo cual el 76.45% de la variabilidad en preciom está explicada por las variables predictoras en el modelo actual. Es necesario verificar los supuestos del modelo y el comportamiento de los residuos para entender si este valor puede ser mejorado o no.

En la primera gráfica (Residuals vs Fitted), se observa un patrón de efecto embudo, donde la dispersión de los residuos aumenta a medida que los valores ajustados se incrementan. Esto sugiere que el modelo no está capturando adecuadamente las relaciones entre las variables predictoras y la variable de respuesta. La gráfica de Q-Q Residuals revela problemas de normalidad en los residuos, especialmente en los valores extremos.

En la gráfica Scale-Location, se confirma que el supuesto de homocedasticidad no se cumple, ya que se observa una tendencia creciente en la varianza de los residuos estandarizados en función de los valores ajustados. Esta heterocedasticidad puede comprometer la precisión de los intervalos de confianza y los valores p de las estimaciones de los coeficientes.

Finalmente, la gráfica de Residuos vs Leverage nos permite identificar puntos que podrían estar afectando negativamente el ajuste general del modelo debido a su carácter atípico. Puntos como los numerados en la gráfica (2383, 1536, 2380) podrían ejercer una influencia significativa en el modelo, y es crucial investigarlos para determinar si deben ser tratados o eliminados.

Predicciones

##        1        2 
## 697.2563 756.0635

Caso 2	Estrato 5	Estrato 6
Precio	697 millones	756 millones

El modelo propone un rango de precios entre los 697 a 756 millones considerando la diferencia que trae la selección de un estrato u otro. Este es el valor que debería de tener una casa con las características descritas en el caso 2 de acuerdo a la generalización realizada por el modelo de regresión múltiple. Una búsqueda con filtros acordes a los criterios sobre los datos de oferta inmobiliaria en Cali arroja un total de 5 viviendas con características similares a las buscadas. La principal diferencia se encuentra en el precio y el área construida.

## # A tibble: 5 × 8
##    piso estrato preciom areaconst parqueaderos banios habitaciones tipo       
##   <dbl>   <dbl>   <dbl>     <dbl>        <dbl>  <dbl>        <dbl> <chr>      
## 1     5       5     730       573            3      8            5 Apartamento
## 2     1       5     670       300            3      5            6 Apartamento
## 3     8       6    1150       344            4      5            5 Apartamento
## 4     8       6    1150       464            4      6            5 Apartamento
## 5     7       6    1280       346            4      6            5 Apartamento

Una de las viviendas tiene un precio de 670 millones, situándose por debajo del rango de precios esperado. A pesar de ello, cumple con todos los requisitos e incluso supera el número de baños y habitaciones solicitados, lo que la convierte en la mejor opción en términos de precio y cumplimiento de criterios. El segundo inmueble, con un precio de 730 millones, se encuentra dentro del rango esperado y destaca por ofrecer casi el doble de área construida en comparación con la requerida. Esto se refleja en el número total de baños, lo que sugiere que cada una de las cinco habitaciones podría tener un baño propio, además de contar con baños adicionales para uso común.

Las otras viviendas disponibles no presentan una relación ideal entre los criterios y el precio, ya que superan los 1000 millones. La diferencia principal en términos de características es el estrato, siendo de nivel 6 para estas propiedades más caras, en contraste con el estrato 5 de las viviendas descritas anteriormente.

En conclusión, la vivienda con un precio de 670 millones es ideal para la empresa si busca satisfacer los criterios de sus trabajadores y ahorrar dinero. Sin embargo, la propiedad de 730 millones es una excelente opción que no excede el crédito preaprobado y ofrece una ventaja significativa en términos de mayor área construida y una excelente distribución de baños.

Anexos

Imputación

### Imputación base 1
#df=base1

#df_imputacion = df[, c('zona','piso','estrato','preciom', 'areaconst','parqueaderos', 'banios','habitaciones','tipo','barrio')]
#df_imputacion$zona <- as.factor(df_imputacion$zona)
#df_imputacion$zona <- as.numeric(df_imputacion$zona)
#df_imputacion$tipo <- as.factor(df_imputacion$tipo)
#df_imputacion$tipo <- as.numeric(df_imputacion$tipo)
#df_imputacion$barrio <- as.factor(df_imputacion$barrio)
#df_imputacion$barrio <- as.numeric(df_imputacion$barrio)
#df_imputacion$piso <- as.numeric(df_imputacion$piso)
#Modelo de imputación 
#Imputados <- mice(df_imputacion, method = 'pmm', m = 20, maxit = 50, seed = 500)
#df_imputacion <- complete(Imputados)

#base1$parqueaderos=df_imputacion$parqueaderos
#base1$piso=df_imputacion$piso


### Imputación base 2
#df=base2

#df_imputacion = df[, c('zona','piso','estrato','preciom', 'areaconst','parqueaderos', 'banios','habitaciones','tipo','barrio')]
#df_imputacion$zona <- as.factor(df_imputacion$zona)
#df_imputacion$zona <- as.numeric(df_imputacion$zona)
#df_imputacion$tipo <- as.factor(df_imputacion$tipo)
#df_imputacion$tipo <- as.numeric(df_imputacion$tipo)
#df_imputacion$barrio <- as.factor(df_imputacion$barrio)
#df_imputacion$barrio <- as.numeric(df_imputacion$barrio)
#df_imputacion$piso <- as.numeric(df_imputacion$piso)
#Modelo de imputación 
#Imputados <- mice(df_imputacion, method = 'pmm', m = 20, maxit = 50, seed = 500)
#df_imputacion <- complete(Imputados)

#base2$parqueaderos=df_imputacion$parqueaderos
#base2$piso=df_imputacion$piso

Optimizacion del modelo - Caso 1

Dentro de las formas de mejorar el modelo actual, la transformación de variables parece ser la mas acertada, en especial considerando que hay dos variables que tienen rangos bastante amplios con algunos valores muy alto, lo cual podría estar sesgando los datos. Las transformaciones también pueden ayudar a linealizar los datos, en especial las transformaciones de tipo logarítmica. Sin embargo, las transformaciones implican un cambio en la interpretación de los coeficientes y de las predicciones, estas últimas deben ser “des transformadas” si es que la variable transformada fue la variable dependiente.

\[ \log(\text{preciom})= \beta_0 + \beta_1 \times \text{habitaciones} + \beta_2 \times \text{estrato} + \beta_3 \times \log(\text{areaconst}) + \beta_4 \times \text{parqueaderos} + \beta_5 \times \text{banios} + \epsilon \] Para el siguiente modelo tratado con transformaciones logaritmicas, el comportamiento observado en los graficos de diagnostico mejora, al igual que el valor de ajuste y captura de varianza (R2 & R2 adjustado).

## 
## Call:
## lm(formula = log(preciom) ~ estrato + log(areaconst) + parqueaderos + 
##     banios + habitaciones, data = base)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.77686 -0.17843 -0.01577  0.15962  1.08963 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    2.255709   0.092394  24.414  < 2e-16 ***
## estrato        0.198009   0.012793  15.478  < 2e-16 ***
## log(areaconst) 0.479436   0.021692  22.102  < 2e-16 ***
## parqueaderos   0.023112   0.007533   3.068  0.00224 ** 
## banios         0.052312   0.009512   5.500  5.3e-08 ***
## habitaciones   0.006667   0.006996   0.953  0.34095    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.269 on 716 degrees of freedom
## Multiple R-squared:  0.7768, Adjusted R-squared:  0.7753 
## F-statistic: 498.4 on 5 and 716 DF,  p-value: < 2.2e-16

Optimizacion del modelo - Caso 2

Dentro de las formas de mejorar el modelo actual, la transformación de variables parece ser la mas acertada en este caso, acompañada tambien del manejo de los valores atipicos.

## 
## Call:
## lm(formula = log(preciom) ~ estrato + log(areaconst) + parqueaderos + 
##     banios + habitaciones, data = base)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.86935 -0.11635  0.00606  0.13304  0.78376 
## 
## Coefficients:
##                 Estimate Std. Error t value Pr(>|t|)    
## (Intercept)     1.343505   0.060473  22.216  < 2e-16 ***
## estrato         0.203271   0.005863  34.669  < 2e-16 ***
## log(areaconst)  0.694510   0.017772  39.079  < 2e-16 ***
## parqueaderos    0.100533   0.009051  11.108  < 2e-16 ***
## banios          0.057611   0.006649   8.665  < 2e-16 ***
## habitaciones   -0.044791   0.007302  -6.134 9.79e-10 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.1961 on 2777 degrees of freedom
## Multiple R-squared:  0.8532, Adjusted R-squared:  0.853 
## F-statistic:  3229 on 5 and 2777 DF,  p-value: < 2.2e-16

Actividad 2 - metodos estadisticos

Jeison Suescun Holguin

2024-08-30

Introduccion

Los datos

Descripcion de los casos

Caso 1

Relaciones entre las variables - Caso 1

Modelo de regresión lineal múltiple

Predicciones

Caso 2

Relaciones entre las variables - Caso 2

Modelo de regresión lineal múltiple

Predicciones

Anexos

Imputación

Optimizacion del modelo - Caso 1

Optimizacion del modelo - Caso 2