1 Análisis exploratorio de los datos

1.1 Análisis exploratorio univariado

1.1.1 Análisis exploratorio univariado para el precio de las viviendas

1.1.1.1 Explicación

Con el objetivo de estudiar el comportamiento de la variable precio de las viviendas, a continuación se presenta un histograma, un boxplot y algunas estadisticas relevantes de dicha variable.

1.1.1.2 Conclusión

Con base en los resultados obtenidos anteriormente y teniendo en cuenta los graficos realizados, se puede concluir que:

Simetria: Los resultados obtenidos muestran cierto grado de asimetria, ya que en el histograma se puede visualizar que al lado derecho de la media se presenta un patrón un tanto diferente al de la parte izquierda, adicionalmente en el boxplot, se observa un patrón que indique que la longitud de la caja es desigual en ambos lados de la mediana, y los bigotes son de longitudes diferentes, lo cual corrobora lo dicho anteriormente. Sin embargo dicho patrón si bien existe, no es tan pronunciado.
Sesgo: Los resultados obtenidos muestran cierto grado de sesgo hacia el lado izquierdo de la media, ya que en el histograma se visualiza un patrón que indica sesgo hacia la izquierda de la media, adicionalmente en el boxplot, se observa un patrón que indica que la longitud de la caja es desigual en ambos lados de la mediana, y que los bigotes son de longitudes diferentes, lo cual corrobora lo dicho anteriormente. Sin embargo dicho patrón si bien existe, no es tan pronunciado.
Variabilidad: Los resultados muestran poca variabilidad, ya que en el boxplot se aprecia que hay una gran concentración de los datos en la caja, y que la amplitud de la caja es pequeña, lo cual claramente son indicios de poca variabilidad. Sin embargo se visualizan otliers al lado derecho de la caja, lo cual podría llegar a sesgar los resultados que se obtengan al realizar estudios con la variable.

Adicional a lo anterior a continuación se presentan algunas estadisticas relevantes acerca de la variable en cuestión.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   207.4   230.7   238.8   243.7   251.5   309.7

1.1.2 Análisis exploratorio univariado para el área de las viviendas

1.1.2.1 Explicación

Con el objetivo de estudiar el comportamiento de la variable precio de las viviendas, a continuación se presenta un histograma, un boxplot y algunas estadisticas relevantes de dicha variable.

1.1.2.2 Conclusión

Con base en los resultados obtenidos anteriormente y teniendo en cuenta los graficos realizados, se puede concluir que:

Simetria: Los resultados obtenidos muestran asimetria, ya que en el histograma se puede visualizar que al lado derecho de la media se presenta un patrón un tanto diferente al de la parte izquierda, adicionalmente en el boxplot, se observa un patrón que indique que la longitud de la caja es desigual en ambos lados de la mediana, y los bigotes son de longitudes diferentes, lo cual corrobora lo dicho anteriormente.
Sesgo: Los resultados obtenidos muestran sesgo hacia el lado izquierdo de la media, ya que en el histograma se visualiza un patrón que indica sesgo hacia la izquierda de la media, adicionalmente en el boxplot, se observa un patrón que indica que la longitud de la caja es desigual en ambos lados de la mediana, y que los bigotes son de longitudes diferentes, lo cual corrobora lo dicho anteriormente.
Variabilidad: Los resultados muestran poca variabilidad, ya que en el boxplot se aprecia que hay una gran concentración de los datos en la caja, y que la amplitud de la caja es pequeña, lo cual claramente son indicios de poca variabilidad. Sin embargo se visualizan otliers al lado derecho de la caja, lo cual podría llegar a sesgar los resultados que se obtengan al realizar estudios con la variable.

Adicional a lo anterior a continuación se presentan algunas estadisticas relevantes acerca de la variable en cuestión.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   40.00   60.00   75.00   87.63   98.00  200.00

1.2 Análisis exploratorio bivariado

1.2.1 Explicación

Con el objetivo de estudiar el comportamiento de la variable precio y area de las viviendas en conjunto, a continuación se presenta un diagrama de dispersión y el valor del coeficiente de correlación de Pearson.

# Calcular la correlación entre el precio y el área construida
correlation <- cor(BD_DEPURADA$preciom, BD_DEPURADA$areaconst)
# Concatenar el texto con el resultado
resultado <- paste("Coeficiente de correlación = ", correlation)
# Imprimir el resultado
print(resultado)

## [1] "Coeficiente de correlación =  0.930980256989028"

1.2.1.1 Conclusión

Con base en los resultados obtenidos anteriormente y teniendo en cuenta el grafico realizado, se puede concluir que:

Existe una realción lineal directamente proporcional entre la variable precio y area de las viviendas, ya que en el diagrama de disperión se puede observar la existencia de un patrón que indica relación lineal creaciente entre las dos variables, adicionalmente el coeficiente de correlación de Pearson es muy cercano a 1 (0.93), corroborando aún más lo dicho anteriormente.

2 Ajuste de modelos de regresión

2.1 Ajuste del modelo de regresión lineal simple

2.1.1 Ecuación del modelo

El primer modelo que se ajustará para modelar el comportamiento del precio de la vivienda en función del area de la vivienda, es el modelo de regresión lineal simple, tal como se detalla a continuación:

$y = \beta_0 + \beta_1 x + \varepsilon$, con $\varepsilon \sim N(0, \sigma^2)$

Donde:

$y$ es la variable dependiente: Precio de la vivienda expresada en millones de COP
$x$ es la variable independiente: Área de la vivienda expresada en m2
$\beta_0$ es el intercepto (también conocido como el coeficiente de intercepción).
$\beta_1$ es la pendiente (también conocido como el coeficiente de regresión).
$\varepsilon$ es el término de error.

2.1.2 Supuestos del modelo

Los supuestos de los errores en el modelo de regresión lineal simple son:

Los errores tienen una media igual a cero ($E(\varepsilon) = 0$).
Los errores tienen una varianza constante ($Var(\varepsilon) = \sigma^2$).
Los errores son independientes e idénticamente distribuidos (i.i.d.).
Los errores están normalmente distribuidos ($\varepsilon \sim N(0, \sigma^2)$).

2.1.3 Ajuste del modelo

Una vez formulado el modelo, se procedio a ajustar dicho modelo tomando como base la base de datos suministrada mostrada previamente, a continuación se presentan los resultados obtenidos.

## 
## Call:
## lm(formula = preciom ~ areaconst, data = BD_SIN_DEPURAR)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -26.5997  -5.0198  -0.0056   4.6648  24.4010 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 1.998e+02  4.514e-01   442.7   <2e-16 ***
## areaconst   5.009e-01  4.758e-03   105.3   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 7.141 on 1704 degrees of freedom
## Multiple R-squared:  0.8667, Adjusted R-squared:  0.8666 
## F-statistic: 1.108e+04 on 1 and 1704 DF,  p-value: < 2.2e-16

2.1.3.1 Interpretación de β0 y β1

Intercepto $\beta_0$: Como se puede evidenciar en los resultados del ajuste del modelo, el valor estimado del intercepto es 199.8 millones de COP, dicho valor indica que cuando el área de la vivienda (𝑥) es igual a cero, el precio estimado de la vivienda es de 199.8 millones de COP. Sin embargo, en este contexto particular, es poco probable que el área de la vivienda sea cero, por lo que la interpretación más relevante del intercepto es como el precio estimado de la vivienda cuando el área es insignificante o cuando otras variables no incluidas en el modelo son cero.
Pendiente $\beta_1$: Como se puede evidenciar en los resultados del ajuste del modelo, el valor estimado de la pendiente es 0.5009, dicho valor indica que, en promedio, por cada metro cuadrado adicional en el área de la vivienda, el precio de la vivienda aumenta en 0.5009 millones de COP. En otras palabras, el precio de la vivienda aumenta en 0.5009 millones de COP por cada unidad de aumento en el área de la vivienda.

2.1.3.2 Interpretación de R2

Coeficiente de determinación $R^2$: Como se puede evidenciar en los resultados del ajuste del modelo, el coeficiente de determinación $R^2$ del modelo ajustado posee un valor de 0.8667 esto significa que aproximadamente el 86.67% de la variabilidad en el precio de la vivienda (𝑦) puede ser explicada por la variable independiente, que en este caso es el área de la vivienda expresada en metros cuadrados (𝑥).

2.1.3.3 Intervalo de confianza (95%) para el coeficiente β1

Planteamiento: El intervalo de confianza del 95% para el coeficiente $\beta_1$ se calcula como:

\[ \text{Intervalo de confianza} = \left[ \hat{\beta}_1 - t_{\alpha/2} \times SE(\hat{\beta}_1), \, \hat{\beta}_1 + t_{\alpha/2} \times SE(\hat{\beta}_1) \right] \]

Donde: \[\begin{align*} \hat{\beta}_1 & : \text{Estimado del coeficiente } \beta_1 \\ SE(\hat{\beta}_1) & : \text{Error estándar del estimado de } \beta_1 \\ t_{\alpha/2} & : \text{Valor crítico de Student para el nivel de significancia } \alpha/2 \end{align*}\]

A continuación se presentan los resultados del intervalo de confianza obtenido

## [1] "Intervalo de confianza del 95% para beta1:"

## areaconst areaconst 
## 0.4915592 0.5102243

Conclusión: Con base en lo anterior podemos concluir que:
El límite inferior del intervalo de confianza es aproximadamente 0.4916.
El límite superior del intervalo de confianza es aproximadamente 0.5102.

Esto significa que con un nivel de confianza del 95%, se espera que el verdadero valor del parametro esté dentro del rango 0.4916 y 0.5102. Es decir que con un 95% de confianza, el efecto estimado de la variable independiente sobre la variable dependiente se encuentra en ese intervalo.

2.1.3.4 Prueba de hipotesis para el coeficiente β1

Hipótesis: A continuación se presentan las hipótesis nula ($H_0$) y alternativa ($H_a$) para la prueba $t$ sobre el coeficiente $\beta_1$, con el objetivo de determinar si dicho parámetro es o no significativo:

\[ H_0: \beta_1 = 0 \] \[ H_a: \beta_1 \neq 0 \]

## [1] "Valor p de la prueba de hipótesis t para beta1:"

## [1] 0

Conclusión: Dado que el valor p de la prueba de hipótesis $t$ para $\beta_1$ es menor que 0.05, se rechaza la hipótesis nula con un nivel de confianza del 95%, y Por lo tanto, se tiene evidencia significativa para afirmar que el coeficiente $\beta_1$ no es igual a cero. Esto implica que la variable independiente $x$ tiene un efecto significativo sobre la variable dependiente $y$.

2.2 Predicción para x0 = 110 m2

2.2.1 Explicación

Con el objetivo de hacer uso del modelo descrito anteriormente, supongamos que queremos determinar el valor del precio de la vivienda cuando el área cuadrada toma un valor de $x_0$ = 110 m^2, para hallar dicho precio, se puede hacer uso del modelo descrito previamente reemplazando el valor de 𝑥 por el valor de $x_0$ y realizar los cálculos matemáticos correspondientes, tal como se muestra a continuación:

\[ \hat{y} = 199.8 + 0.5009 \times $x_0$ = 199.8 + 0.5009 \times (110) \approx 254.9 \text{ millones de COP} \]

A continuación se muestra el valor obtenido una vez efectuados los acalculos matematicos:

## (Intercept) 
##    254.9082

2.2.2 Conclusión

Con base en el calculo anterior se entiende que para una vivienda con un área de 110 m^2 se tendría un precio aproximadamente de 254,9 millones de COP.

2.3 Validación de supuestos

Con el objetivo de validar los supuestos previamente mostrados acerca de los errores, a continuación, se presentan diferentes gráficos y pruebas de hipótesis que permitirán definir si dichos supuestos se cumplen o no.

2.3.1 Validación de normalidad

2.3.1.1 Gráfico QQ-Plot

2.3.1.2 Prueba de hipótesis de Shapiro-Wilk:

Las hipótesis para la prueba de normalidad de Shapiro-Wilk son:

\[ H_0: \text{Los errores siguen una distribución normal.} \] \[ H_a: \text{Los errores no siguen una distribución normal.} \]

A continuación se presentan los resultados de la prueba:

## 
##  Shapiro-Wilk normality test
## 
## data:  residuos
## W = 0.99911, p-value = 0.5907

- Conclusión: Con base en los resultados obtenidos previamente se concluye que: con una confianza del 95% no se rechaza la hipótesis nula, ya que el valor del valor-p es mayor a 0.05, y por lo tanto los errores siguen una distribución normal. Dicha conclusión es corroborada por el grafico QQ-Plot, ya que como se puede observar, en dicho grafico está presente el patrón de línea recta que es señal de que los errores poseen una distribución normal.

2.3.2 Validación de homocedasticidad

2.3.2.1 Prueba de hipótesis de Breusch-Pagan:

Las hipótesis para la prueba de homocedasticidad de Breusch-Pagan son:

\[ H_0: \text{La varianza de los errores es constante (homocedasticidad).} \] \[ H_a: \text{La varianza de los errores no es constante (heterocedasticidad).} \]

A continuación se presentan los resultados de la prueba:

## 
##  studentized Breusch-Pagan test
## 
## data:  modelo_0
## BP = 0.089882, df = 1, p-value = 0.7643

- Conclusión: Con base en los resultados obtenidos previamente se concluye que: con una confianza del 95% no se rechaza la hipótesis nula, ya que el valor del valor-p es mayor a 0.05, y por lo tanto la varianza de los errores se considera constante (homocedasticidad).

2.3.3 Validación de no autocorrelación

2.3.3.1 Prueba de hipótesis de Durbin-Watson:

Las hipótesis para la prueba de no autocorrelación son:

\[ H_0: \text{No hay autocorrelación en los errores.} \] \[ H_a: \text{Hay autocorrelación en los errores.} \]

A continuación se presentan los resultados de la prueba:

## 
##  Durbin-Watson test
## 
## data:  modelo_0
## DW = 2.0651, p-value = 0.9092
## alternative hypothesis: true autocorrelation is greater than 0

- Conclusión: Con base en los resultados obtenidos previamente se concluye que: con una confianza del 95% no se rechaza la hipótesis nula, ya que el valor del valor-p es mayor a 0.05, y por lo tanto se considera que no se presenta autocorrelación en los errores.

2.3.4 Validación de linealidad

Con el objetivo de validar si la relación entre la variable dependiente y las variables independientes y el error es lineal, se construyó el gráfico de residuales VS valores ajustados, el cual se muestra a continuación.

- Conclusión: Tomando como base el gráfico anterior, se puede observar un patrón en forma de embudo que puede estar dando indicios de no linealidad, sin embargo, este patrón no está tan marcado, y puede deberse a múltiples razones una de estas la data medida, ya que se observa que se presenta una gran acumulación de datos en la parte izquierda del gráfico y no así en la parte derecha. Como dicho patrón no es tan marcado, se podría pensar en la presencia de linealidad, pero de igual manera es recomendable ahondar un poco más en si el patrón observado se debe a posibles sesgos de los datos o no, a través de otras herramientas estadísticas.

3 Transformaciones

Con el objetivo de encontrar mejoras en el modelo propuesto, se procedio a ajustar otros modelos, en principio se uso la transformación Box-Cox con el objetivo de encontrar el valor de λ óptimo, a continuación se presenta la ecuación del modelo:

y^{()} = \[\begin{cases} \frac{{y^{\lambda} - 1}}{{\lambda}} & \text{si } \lambda \neq 0 \\ \ln(y) & \text{si } \lambda = 0 \end{cases}\]

3.1 Aplicación de la transformación Box-Cox

Una vez aplicada la transformación Box-Cox, se encontrarón los siguientes resultados

3.2 Ajuste del nuevo modelo

Como se puede evidenciar en el gráfico anterior el valor de λ óptimo es de 0.87, con dicho valor se procedio a ajustar un nuevo modelo cuyos resultados se muestrán a continuación:

## 
## Call:
## lm(formula = respuesta_transformada ~ areaconst, data = BD_SIN_DEPURAR)
## 
## Residuals:
##       Min        1Q    Median        3Q       Max 
## -0.151330 -0.030521  0.007219  0.038862  0.063778 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 1.139e+02  2.967e-03   38403   <2e-16 ***
## areaconst   2.417e-01  3.128e-05    7728   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.04694 on 1704 degrees of freedom
## Multiple R-squared:      1,  Adjusted R-squared:      1 
## F-statistic: 5.972e+07 on 1 and 1704 DF,  p-value: < 2.2e-16

3.2.1 Validación de supuestos

Con el objetivo de validar si los supuestos acerca de los errores se cumplen o no, al igual que en el modelo anterior, se realizaron las validaciones correspondientes cuyas conclusiones se muestrán a continuación:

3.2.2 Validación de normalidad

## 
##  Shapiro-Wilk normality test
## 
## data:  residuos
## W = 0.93673, p-value < 2.2e-16

- Conclusión: Con base en los resultados obtenidos previamente se concluye que: con una confianza del 95% se rechaza la hipótesis nula, ya que el valor del valor-p es menor a 0.05, y por lo tanto los errores no siguen una distribución normal. Dicha conclusión es corroborada por el grafico QQ-Plot, ya que como se puede observar, en dicho grafico no está presente el patrón de línea recta que es señal de que los errores no poseen una distribución normal.

3.2.3 Validación de homoscedasticidad

## 
##  studentized Breusch-Pagan test
## 
## data:  modelo_1
## BP = 581.12, df = 1, p-value < 2.2e-16

- Conclusión: Con base en los resultados obtenidos previamente se concluye que: con una confianza del 95% se rechaza la hipótesis nula, ya que el valor del valor-p es menor a 0.05, y por lo tanto la varianza de los errores no se considera constante (heterocedasticidad).

3.2.4 Validación de no autocorrelación

## 
##  Durbin-Watson test
## 
## data:  modelo_1
## DW = 1.5746, p-value < 2.2e-16
## alternative hypothesis: true autocorrelation is greater than 0

- Conclusión: Con base en los resultados obtenidos previamente se concluye que: con una confianza del 95% se rechaza la hipótesis nula, ya que el valor del valor-p es menor a 0.05, y por lo tanto se considera que se presenta autocorrelación en los errores.

3.2.5 Validación de linealidad

- Conclusión: Tomando como base el gráfico anterior, se puede observar un patrón que claramente da evidencia de la no linealidad de las variables, por lo tanto se concluye que dicho supuesto no se cumple.

3.3 Comparación entre el modelo original y el transformado

Con el objetivo de encontrar otras posibles formas de mejorar el modelo, se ajustarón 2 modelos adicionales, los cuales se presentán y evaluan a continuación.

3.4 Ajuste modelo adicional # 1

La ecuación de dicho modelo es la siguiente:

\[ \sqrt{y} = \sqrt{\beta_0 + \beta_1 x} + \varepsilon_i \]

Los resultados de dicho modelo son los siguientes:

## 
## Call:
## lm(formula = (preciom^0.5) ~ areaconst, data = BD_SIN_DEPURAR)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.81967 -0.15691  0.00053  0.14990  0.77813 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 1.423e+01  1.450e-02   981.4   <2e-16 ***
## areaconst   1.563e-02  1.528e-04   102.3   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.2294 on 1704 degrees of freedom
## Multiple R-squared:  0.8599, Adjusted R-squared:  0.8598 
## F-statistic: 1.046e+04 on 1 and 1704 DF,  p-value: < 2.2e-16

3.4.1 Validación de supuestos

Con el objetivo de validar si los supuestos acerca de los errores se cumplen o no, al igual que en el modelo anterior, se realizaron las validaciones correspondientes cuyas conclusiones se muestrán a continuación:

3.4.2 Validación de normalidad

## 
##  Shapiro-Wilk normality test
## 
## data:  residuos
## W = 0.9993, p-value = 0.7942

- Conclusión: Con base en los resultados obtenidos previamente se concluye que: con una confianza del 95% no se rechaza la hipótesis nula, ya que el valor del valor-p es mayor a 0.05, y por lo tanto los errores siguen una distribución normal. Dicha conclusión es corroborada por el grafico QQ-Plot, ya que como se puede observar, en dicho grafico está presente el patrón de línea recta que es señal de que los errores poseen una distribución normal.

3.4.3 Validación de homoscedasticidad

## 
##  studentized Breusch-Pagan test
## 
## data:  modelo_2
## BP = 4.5044, df = 1, p-value = 0.03381

- Conclusión: Con base en los resultados obtenidos previamente se concluye que: con una confianza del 95% se rechaza la hipótesis nula, ya que el valor del valor-p es menor a 0.05, y por lo tanto la varianza de los errores no se considera constante (heterocedasticidad).

3.4.4 Validación de no autocorrelación

## 
##  Durbin-Watson test
## 
## data:  modelo_2
## DW = 2.0672, p-value = 0.9161
## alternative hypothesis: true autocorrelation is greater than 0

- Conclusión: Con base en los resultados obtenidos previamente se concluye que: con una confianza del 95% no se rechaza la hipótesis nula, ya que el valor del valor-p es mayor a 0.05, y por lo tanto se considera que no se presenta autocorrelación en los errores.

3.4.5 Validación de linealidad

- Conclusión: Tomando como base el gráfico anterior, se puede observar un patrón en forma de embudo que puede estar dando indicios de no linealidad, sin embargo, este patrón no está tan marcado, y puede deberse a múltiples razones una de estas la data medida, ya que se observa que se presenta una gran acumulación de datos en la parte izquierda del gráfico y no así en la parte derecha. Como dicho patrón no es tan marcado, se podría pensar en la presencia de linealidad, pero de igual manera es recomendable ahondar un poco más en si el patrón observado se debe a posibles sesgos de los datos o no, a través de otras herramientas estadísticas.

3.5 Ajuste modelo adicional # 2

La ecuación de dicho modelo es la siguiente:

\[ y^2 = (\beta_0 + \beta_1 x)^2 + \varepsilon_i \]

Los resultados de dicho modelo son los siguientes:

## 
## Call:
## lm(formula = (preciom^2) ~ areaconst, data = BD_SIN_DEPURAR)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -14041.5  -2458.0    -46.9   2191.2  12064.3 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 37140.951    222.422   167.0   <2e-16 ***
## areaconst     258.274      2.345   110.2   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3519 on 1704 degrees of freedom
## Multiple R-squared:  0.8769, Adjusted R-squared:  0.8768 
## F-statistic: 1.213e+04 on 1 and 1704 DF,  p-value: < 2.2e-16

3.5.1 Validación de supuestos

Con el objetivo de validar si los supuestos acerca de los errores se cumplen o no, al igual que en el modelo anterior, se realizaron las validaciones correspondientes cuyas conclusiones se muestrán a continuación:

3.5.2 Validación de normalidad

## 
##  Shapiro-Wilk normality test
## 
## data:  residuos
## W = 0.99822, p-value = 0.06388

- Conclusión: Con base en los resultados obtenidos previamente se concluye que: con una confianza del 95% no se rechaza la hipótesis nula, ya que el valor del valor-p es mayor a 0.05, y por lo tanto los errores siguen una distribución normal. Dicha conclusión es corroborada por el grafico QQ-Plot, ya que como se puede observar, en dicho grafico está presente el patrón de línea recta que es señal de que los errores poseen una distribución normal.

3.5.3 Validación de homoscedasticidad

## 
##  studentized Breusch-Pagan test
## 
## data:  modelo_3
## BP = 17.891, df = 1, p-value = 2.34e-05

- Conclusión: Con base en los resultados obtenidos previamente se concluye que: con una confianza del 95% se rechaza la hipótesis nula, ya que el valor del valor-p es menor a 0.05, y por lo tanto la varianza de los errores no se considera constante (heterocedasticidad).

3.5.4 Validación de no autocorrelación

## 
##  Durbin-Watson test
## 
## data:  modelo_3
## DW = 2.0516, p-value = 0.8548
## alternative hypothesis: true autocorrelation is greater than 0

- Conclusión: Con base en los resultados obtenidos previamente se concluye que: con una confianza del 95% no se rechaza la hipótesis nula, ya que el valor del valor-p es mayor a 0.05, y por lo tanto se considera que no se presenta autocorrelación en los errores.

3.5.5 Validación de linealidad

- Conclusión: Tomando como base el gráfico anterior, se puede observar un patrón en forma de embudo que puede estar dando indicios de no linealidad, sin embargo, este patrón no está tan marcado, y puede deberse a múltiples razones una de estas la data medida, ya que se observa que se presenta una gran acumulación de datos en la parte izquierda del gráfico y no así en la parte derecha. Como dicho patrón no es tan marcado, se podría pensar en la presencia de linealidad, pero de igual manera es recomendable ahondar un poco más en si el patrón observado se debe a posibles sesgos de los datos o no, a través de otras herramientas estadísticas.

4 Comparación entre modelos

4.1 Criterios elegidos para la selección del mejor modelo

Para la selección del mejor modelo se tuvieron en cuenta los criterios que se mencionan a continuación:

Interpretación del modelo: Este criterio se refiere a la facilidad de interpretación del modelo en caso tal de que alguna o todas las variables del modelo hayan requerido algún tipo de transformación matemática.
Ajuste del modelo: Este criterio se refiere al porcentaje de la variabilidad total en la variable dependiente (y), que es explicada por la variable independiente (x). Dicho criterio se evalúa teniendo en cuenta el valor de R^2, que es uno de los indicadores de ajuste de un modelo de regresión denominado coeficiente de determinación, y la forma de validarlo es teniendo en cuenta que tan cercano es dicho valor a 1, entre más cercano a 1 sea R^2 el ajuste del modelo es mejor.
Cumplimiento de los supuestos del modelo: Este criterio se refiere al cumplimiento de los supuestos mencionados previamente acerca de los errores ε_i, y se evalúa de acuerdo a los resultados de test estadísticos denominados pruebas de hipótesis y mediante la validación de gráficos que proporcionan los datos del modelo.

4.2 Modelo seleccionado

Una vez validados los criterios explicados previamente, el modelo ganador resulto ser el modelo de regresión lineal simple sin ningúna transformación, ya que como se puede visualizar a continuación, fue el modelo que cumplió con la mayoría de los criterios, y si bien no es el modelo que posee el mayor valor de R^2, la diferencia con los demás modelos no es tan grande.

Modelo	Interpretación	Ajuste	Supuestos
1	Es fácilmente interpretable	0.8667	Se cumplen 4 de los 4 criterios
2	No es fácilmente interpretable	1	No se cumple ningún criterio
3	Es medianamente interpretable	0.8599	Se cumplen 3 de los 4 criterios
4	Es medianamente interpretable	0.8769	Se cumplen 3 de los 4 criterios

Algo importante a mencionar es que es curioso el comportamiento del modelo 2, elcual fue ajustado aplicando la transformación Box-Cox, en ese caso se observa que el valor del R^2 es de 1 planteando asi un buen ajuste, sin embargo como se pudo observar, para dicho modelo ninguno de los supuestos se cumple.

4.3 Cumplimiento de los supuestos de los errores por parte del mejor modelo

El modelo escogido como el mejor modelo, cumple con todos los supuestos de los errores, sin embargo se recomienda ahondar un poco más en el supuesto de linealidad, ya que en la gráfica evaluada, se evidencia un indicio de patrón de embudo.

5 Conclusiones

Selección del modelo: Tras evaluar cuatro modelos de regresión, se concluyó que el modelo más apropiado para representar la relación entre el precio de la vivienda y el área construida es el modelo de regresión lineal simple sin ningúna transformación. Aunque no posee el mayor R^2, cumple con la mayoría de los criterios establecidos, incluyendo la facilidad de interpretación y el ajuste del modelo.
Interpretación de parámetros: Los parámetros estimados del mejor modelo, incluyendo el intercepto y la pendiente, proporcionan información valiosa sobre la relación entre el precio de la vivienda y el área construida. Por ejemplo, la pendiente indica cuánto aumenta el precio por cada unidad de aumento en el área.
Coeficiente de determinación (R^2): El R^2 del mejor modelo fue de 0.8667, lo que significa que aproximadamente el 86.67% de la variabilidad en el precio de la vivienda puede ser explicada por el área construida. Esto indica un buen ajuste del modelo a los datos observados.
Cumplimiento de supuestos: El mejor modelo cumple con los supuestos del modelo de regresión lineal, incluyendo la normalidad de los errores, la homogeneidad de la varianza y la no autocorrelación de los errores. Esto se evaluó mediante pruebas de hipótesis y gráficos de diagnóstico.
Transformación Box-Cox: El comportamiento del modelo 2, ajustado con la transformación Box-Cox, es curioso. A pesar de obtener un R^2 de 1, lo que sugiere un ajuste perfecto del modelo a los datos, ninguno de los supuestos de la regresión lineal se cumple. Esto plantea una discrepancia entre la medida de ajuste del modelo y la validez de los supuestos subyacentes. Esto podría sugerir que, aunque el modelo explica completamente la variabilidad en los datos, la transformación aplicada puede haber distorsionado la relación entre las variables, lo que invalida los supuestos de la regresión lineal. Por lo tanto, es importante tener en cuenta tanto la medida de ajuste como la validez de los supuestos al evaluar la calidad de un modelo de regresión.

6 Recomendaciones

Incorporación de variables adicionales relevantes: Se recomienda ampliar el conjunto de variables consideradas en futuros estudios para capturar una gama más amplia de factores que podrían influir en el precio de la vivienda. Por ejemplo, variables como la ubicación geográfica de la vivienda, características de la vivienda (número de habitaciones, baños, parqueaderos), tipo de vivienda, entre otros, pueden tener un impacto significativo en el precio de la vivienda. Al incluir estas variables adicionales en el análisis, se puede obtener un modelo más completo y preciso para explicar las variaciones en los precios de las viviendas.
Ampliación del tamaño de la muestra: Además de incorporar más variables relevantes, se recomienda también en la medida de lo posible aumentar el tamaño de la muestra en futuros estudios. Un tamaño de muestra más grande proporciona una mayor cantidad de datos, lo que puede mejorar la precisión de las estimaciones y aumentar la confiabilidad de los resultados. Con un tamaño de muestra más grande, se puede obtener una representación más completa y diversa de la población, lo que facilita la generalización de los resultados a una variedad de contextos y condiciones. Esto puede ayudar a reducir el riesgo de sesgo y mejorar la robustez de las conclusiones obtenidas del estudio.
Predicciones: Se recomienda precaución al realizar extrapolaciones (predicciones por fuera del rango de los datos observados) del ganador fuera del rango de datos observados en el estudio. Aunque el ganador ha demostrado ser adecuado para explicar la relación entre el precio de la vivienda y el área construida dentro del rango de datos disponibles, hacer extrapolaciones más allá de este rango puede llevar a resultados poco confiables y potencialmente engañosos.

Análisis del mercado inmobiliario en la empresa A&C

Autor: Obed Garcia Quiroz

18/02/2024 Contenido

1 Análisis exploratorio de los datos

1.1 Análisis exploratorio univariado

1.1.1 Análisis exploratorio univariado para el precio de las viviendas

1.1.1.1 Explicación

1.1.1.2 Conclusión

1.1.2 Análisis exploratorio univariado para el área de las viviendas

1.1.2.1 Explicación

1.1.2.2 Conclusión

1.2 Análisis exploratorio bivariado

1.2.1 Explicación

1.2.1.1 Conclusión

2 Ajuste de modelos de regresión

2.1 Ajuste del modelo de regresión lineal simple

2.1.1 Ecuación del modelo

2.1.2 Supuestos del modelo

2.1.3 Ajuste del modelo

2.1.3.1 Interpretación de β0 y β1

2.1.3.2 Interpretación de R2

2.1.3.3 Intervalo de confianza (95%) para el coeficiente β1

2.1.3.4 Prueba de hipotesis para el coeficiente β1

2.2 Predicción para x0 = 110 m2

2.2.1 Explicación

2.2.2 Conclusión

2.3 Validación de supuestos

2.3.1 Validación de normalidad

2.3.1.1 Gráfico QQ-Plot

2.3.1.2 Prueba de hipótesis de Shapiro-Wilk:

2.3.2 Validación de homocedasticidad

2.3.2.1 Prueba de hipótesis de Breusch-Pagan:

2.3.3 Validación de no autocorrelación

2.3.3.1 Prueba de hipótesis de Durbin-Watson:

2.3.4 Validación de linealidad

3 Transformaciones

3.1 Aplicación de la transformación Box-Cox

3.2 Ajuste del nuevo modelo

3.2.1 Validación de supuestos

3.2.2 Validación de normalidad

3.2.3 Validación de homoscedasticidad

3.2.4 Validación de no autocorrelación

3.2.5 Validación de linealidad

3.3 Comparación entre el modelo original y el transformado

3.4 Ajuste modelo adicional # 1

3.4.1 Validación de supuestos

3.4.2 Validación de normalidad

3.4.3 Validación de homoscedasticidad

3.4.4 Validación de no autocorrelación

3.4.5 Validación de linealidad

3.5 Ajuste modelo adicional # 2

3.5.1 Validación de supuestos

3.5.2 Validación de normalidad

3.5.3 Validación de homoscedasticidad

3.5.4 Validación de no autocorrelación

3.5.5 Validación de linealidad

4 Comparación entre modelos

4.1 Criterios elegidos para la selección del mejor modelo

4.2 Modelo seleccionado

4.3 Cumplimiento de los supuestos de los errores por parte del mejor modelo

5 Conclusiones

6 Recomendaciones

Autor:
Obed Garcia Quiroz

18/02/2024

Contenido