ACTIVIDAD 3

#PUNTO 1 Realice un análisis exploratorio de las variables precio de vivienda (millones de pesos COP) y área de la vivienda (metros cuadrados) - incluir gráficos e indicadores apropiados interpretados.

Descripción de las variables: Precio de vivienda y área de vivienda

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  207.4   230.7   238.8   243.7   251.5   309.7

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
   30.0    80.0   123.0   174.9   229.0  1745.0       3

1.2 Distribución de cada variable

1.2.1 Histograma del precio de la vivienda: Este gráfico, permite observar como la mayoría de los precios de las viviendas se concentran entre los 210 y 260 millones de pesos, con una leve concentración en torno a los 240 millones de pesos.

1.2.2 Histograma del área de la vivienda:

A partir de este gráfico, se puede observar como la mayor parte de las viviendas tiene un área que varía entre 40 y 120 metros cuadrados, siendo las viviendas de tamaño medio las más comunes.

1.3 Relación entre precio de vivienda y área La gráfica muestra una tendencia clara y directa entre el tamaño del área y el precio. Los puntos del diagrama están alineados de manera ascendente, lo que confirma la fuerte relación entre ambas variables.

1.4. Cálculo de la correlación entre las dos variables

[1] 0.9309803

Al calcular el coeficiente de correlación se obtiene un resultado de 0.93, lo que indica una relación directamente proporcional entre el área de la vivienda y su precio. Esto significa que a medida que el área de una vivienda aumenta, el precio también aumenta.

Conclusiones PUNTO 1: Relación precio-área: El análisis revela que el área de la vivienda es un determinante clave del precio en este conjunto de datos, con una correlación muy fuerte de 0.93. Este valor de correlación sugiere que las viviendas con mayor área tienden a tener precios considerablemente más altos. Es probable que este sea uno de los factores más influyentes en la determinación del precio de las viviendas.

Mercado homogéneo: Aunque hay cierta variabilidad en los precios y áreas, los datos parecen estar distribuidos de manera relativamente homogénea, con una gran cantidad de viviendas en rangos de precio y área bien definidos (entre 210 y 260 millones de pesos y entre 40 y 120 metros cuadrados).

Posibles implicaciones para el mercado:

Para quienes buscan comprar una vivienda, los datos sugieren que una mayor área generalmente significa un precio más alto, con una relación casi lineal entre ambas variables. Desde la perspectiva de desarrolladores o vendedores de viviendas, aumentar el área de la vivienda podría ser una estrategia efectiva para incrementar su valor de mercado, dado el fuerte vínculo entre estas dos variables.

#PUNTO 2 Realice un análisis exploratorio bivariado de datos, enfocado en la relación entre la variable respuesta (precio) en función de la variable predictora (área construida) - incluir gráficos e indicadores apropiados interpretados.

2.1. Ajuste del modelo de regresión lineal (Precio en función del Área)


Call:
lm(formula = preciom ~ areaconst, data = vivienda4)

Residuals:
     Min       1Q   Median       3Q      Max 
-26.5997  -5.0198  -0.0056   4.6648  24.4010 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 1.998e+02  4.514e-01   442.7   <2e-16 ***
areaconst   5.009e-01  4.758e-03   105.3   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 7.141 on 1704 degrees of freedom
Multiple R-squared:  0.8667,    Adjusted R-squared:  0.8666 
F-statistic: 1.108e+04 on 1 and 1704 DF,  p-value: < 2.2e-16

De los datos obtenidos y tabulados se puede observar que la ecuación de la regresión lineal es Precio=199.81 + 0.50 × Área Construida

Esto significa que:

El intercepto es 199.81: cuando el área construida es cero (hipotéticamente), el modelo predice que el precio base es de 199.81 millones de pesos.

La pendiente es 0.50: por cada metro cuadrado adicional de área construida, el precio de la vivienda se incrementa, en promedio, en 0.50 millones de pesos.

2.2 Gráfico diagrama de dispersión con la línea de regresión

El gráfico muestra un diagrama de dispersión entre el precio de la vivienda (en millones de pesos) y el área construida (en metros cuadrados).Se ha trazado una línea de regresión lineal, que representa la tendencia general de los datos. Esta línea sugiere una relación lineal positiva entre las dos variables: a medida que aumenta el área construida, el precio también tiende a aumentar.

2.3 Cálculo de la correlación entre las dos variables

[1] "La correlacion entre el area construida y el precio es: 0.930980256989028"

Conclusiones PUNTO 2:

El análisis exploratorio análisis bivariado realizado, permite entender la relación predictiva entre las dos variables de interés. Aquí se utilizó un modelo de regresión lineal para cuantificar cómo el área construida afecta directamente al precio, lo que nos permitió predecir el precio en función del área.

Dicho esto, se puede observar como, la relación entre el área construida y el precio es es directamente proporcional obteniendo una correlación entre el área construida y el precio de 0.93. Esto significa que, en este conjunto de datos, el área construida es un factor clave para explicar la variabilidad del precio de la vivienda.

Asimismo, el modelo de regresión lineal permite predecir el precio de una vivienda en función del tamaño. En este sentido, es posible observr que por cada metro cuadrado adicional de área construida, el precio aumenta en 0.50 millones de pesos.

La capacidad predictiva de este modelo es bastante alta, ya que el área explica una gran parte de la variabilidad en el precio. Sin embargo, hay factores adicionales como la ubicación, el estrato y las características de la vivienda que podrían complementar este análisis para mejorar la precisión de las predicciones.

#PUNTO 3 Estime el modelo de regresión lineal simple entre precio=f(area)+E. Interprete los coeficientes del modelo Beta0, Beta1 en caso de ser correcto.

3.1 Ajustar el modelo de regresión lineal

El modelo que se va a estimar sigue esta fórmula:

Precio=Beta0 + Beta1 × Area Construida + E

Donde:

Precio es la variable dependiente (respuesta). Area Construida es la variable independiente (predictora). Beta0 es el intercepto, que indica el valor estimado del precio cuando el área es cero. Beta1 es la pendiente, que nos dice cuánto cambia el precio por cada unidad adicional de área construida. E es el término de error.

3.2 Coeficientes del modelo (intercepto y pendiente)


Call:
lm(formula = preciom ~ areaconst, data = vivienda4)

Residuals:
     Min       1Q   Median       3Q      Max 
-26.5997  -5.0198  -0.0056   4.6648  24.4010 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 1.998e+02  4.514e-01   442.7   <2e-16 ***
areaconst   5.009e-01  4.758e-03   105.3   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 7.141 on 1704 degrees of freedom
Multiple R-squared:  0.8667,    Adjusted R-squared:  0.8666 
F-statistic: 1.108e+04 on 1 and 1704 DF,  p-value: < 2.2e-16

El modelo de regresión lineal entre el precio y el área construida ha sido ajustado con los siguientes coeficientes:

Precio=199.81+0.50× Area Construida + E

3.3 Cálculo de los coeficientes

[1] "Intercepto (Beta0): 199.810148196277"

[1] "Pendiente (Beta1): 0.500891742671184"

Intercepto (Beta0 =199.81):

El intercepto indica el precio estimado cuando el área construida es cero. En este caso, cuando el área de una vivienda es cero, el modelo predice un precio base de 199.81 millones de pesos.

Aunque en la práctica una vivienda no puede tener un área de cero, este valor sugiere que incluso sin área construida, podría haber un costo base asociado a otros factores como la ubicación o características fijas de la propiedad.

Pendiente (Beta1=0.50):

La pendiente indica el cambio en el precio por cada unidad adicional de área construida. En este caso, por cada metro cuadrado adicional de área construida, el precio de la vivienda aumenta en promedio 0.50 millones de pesos (500,000 COP).

Este coeficiente refleja el impacto directo que tiene el tamaño de la vivienda sobre el precio.

Conclusión PUNTO 3: El modelo sugiere una relación lineal positiva entre el área construida y el precio de la vivienda. El precio aumenta a razón de 0.50 millones de pesos por cada metro cuadrado adicional, lo que confirma que el área construida es un factor importante en la determinación del precio.

#PUNTO 4 Construir un intervalo de confianza (95%) para el coeficiente Beta1, interpretar y concluir si el coeficiente es igual a cero o no. Compare este resultado con una prueba de hipótesis t.

4.1 Ajustar el modelo de regresión lineal

4.2 Construcción del intervalo de confianza del 95% para beta1

                  2.5 %      97.5 %
(Intercept) 198.9248215 200.6954749
areaconst     0.4915592   0.5102243

Al construir el intervalo de condianza del 95% se puede observar que el valor verdadero de la pendiente está entre 0.4916 y 0.5102. Como este intervalo no incluye el valor cero, se puede concluir que el coeficiente Beta1 es significativamente diferente de cero.

4.3 Prueba t student para Beta1

               Estimate  Std. Error  t value Pr(>|t|)
(Intercept) 199.8101482 0.451384758 442.6604        0
areaconst     0.5008917 0.004758216 105.2688        0

Al realizar la prueba de hipótesis t para evaluar si β1=0 tiene como hipótesis nula H0 : β1 =0 se puede observar como el coeficiente β1 es positivo y significativamente diferente de cero. Esto significa que el área construida tiene un impacto positivo en el precio de la vivienda: a medida que aumenta el área, también lo hace el precio.

La prueba t también confirma que Beta1 no es igual a cero, lo que respalda la conclusión de que existe una relación significativa entre las dos variables.

#PUNTO 5 Calcule e interprete el indicador de bondad R2

5.1 Cálculo de R2

[1] 0.8667242

[1] "El valor de R^2 es: 0.866724238903357"

El valor de R2=0.87 lo que indica que el 87% de la variación en el precio de las viviendas puede explicarse por la variación en el área construida.

Esto sugiere que el modelo tiene un muy buen ajuste, ya que la mayoría de la variabilidad en el precio de las viviendas es explicada por el área construida. El área es un factor clave para predecir el precio en este conjunto de datos.

#PUNTO 6 ¿Cuál sería el precio promedio estimado para un apartamento de 110 metros cuadrados? Considera entonces con este resultado que un apartamento en la misma zona con 110 metros cuadrados en un precio de 200 millones sería una atractiva esta oferta? ¿Qué consideraciones adicionales se deben tener?.

6.1 Cálculo para la estimación del precio de un apartamento de 110 m2

[1] "El precio estimado para un apartamento de 110 metros cuadrados es: 254.91 millones de pesos"

En este caso se ha utilizado el módelo de regresión lineal ajustado que tiene la siguiente forma:

Precio = 199.81 + 0.50 × Area Construida

Utilizando este módelo para estimar el precio de un apartamento de 110 metros cuadrados se obtiene que el valor aproximado es de 254.91 millones de pesos.

6.2 Comparación con la oferta de 200 millones de pesos La oferta de 200 millones de pesos para un apartamento de 110 metros cuadrados es considerablemente más baja que el precio estimado por el modelo que como se mencionó es de254.91 millones). Esto sugiere que, en términos del área construida, sería una oferta muy atractiva para el comprador ya que está 54.91 millones de pesos por debajo del valor promedio que el modelo sugiere e iria en detrimento de los intereses del vendedor.

6.3 Consideraciones adicionales Aunque la oferta parece muy atractiva para el comprador en función del área construida, es importante tener en cuenta los siguientes factores:

6.3.1 Ubicación: El valor de las viviendas puede variar considerablemente según la ubicación dentro de una misma zona. Factores como la cercanía a servicios, transporte y seguridad también pueden influir en el precio.

6.3.2 Calidad de construcción: El estado de la construcción, la antigüedad del edificio, y las calidades de los materiales utilizados también son factores que pueden afectar el precio.

6.3.3 Otras Características: Las características internas del apartamento (número de habitaciones, baños, balcones, vistas, etc.) y las amenidades del edificio (piscina, gimnasio, seguridad) también pueden tener un impacto significativo en el precio.

6.3.4 Mercado inmobiliario local: Es importante considerar el estado del mercado inmobiliario en el momento de la compra. En un mercado en declive, los precios podrían estar bajando, mientras que en un mercado en auge, una oferta baja podría indicar un riesgo.

#PUNTO 7 Realice la validación de los supuestos del modelo por medio de gráficos apropiados, interpretarlos y sugerir posibles soluciones si se violan algunos de ellos. Utilice las pruebas de hipótesis para la validación de supuestos y compare los resultados con lo observado en los gráficos asociados.

7.1 Gráfico de residuos vs predicciones El gráfico de residuos vs predicciones muestra que los residuos se dispersan de manera relativamente aleatoria alrededor de cero, lo cual sugiere que el supuesto de linealidad se cumple, sin embargo, parece haber cierta variabilidad en la dispersión de los residuos a diferentes niveles de predicción, lo que podría indicar una ligera heterocedasticidad (aunque no es significativamente relevante).

7.2 Gráfico Q-Q Plot El gráfico Q-Q plot muestra que los puntos se alinean bien con la línea de referencia, lo que sugiere que los residuos siguen una distribución aproximadamente normal.

7.3 Histograma de los residuos El histograma de los residuos es simétrico y sugiere que los residuos están distribuidos de manera cercana a una distribución normal, lo que refuerza el resultado del Q-Q Plot.

7.4 Prueba de Durbin-Watson


    Durbin-Watson test

data:  modelo
DW = 2.0651, p-value = 0.9092
alternative hypothesis: true autocorrelation is greater than 0

El valor de la estadística de Durbin-Watson es 2.065, lo cual está muy cerca de 2, lo que indica que no hay autocorrelación significativa entre los errores, y por lo tanto, el supuesto de independencia de los errores se cumple.

7.5 Prueba de Shapiro-Wilk


    Shapiro-Wilk normality test

data:  residuals(modelo)
W = 0.99911, p-value = 0.5907

El valor p de la prueba de Shapiro-Wilk es 0.59, que es mucho mayor que el umbral de significancia típico de 0.05. Esto sugiere que no podemos rechazar la hipótesis nula de que los residuos siguen una distribución normal. Por lo tanto, se cumple el supuesto de normalidad de los errores.

#PUNTO 8 De ser necesario realice una transformación apropiada para mejorar el ajuste y supuestos del modelo.

8.1 Transformación Logarítmica al Precio de Vivienda


Call:
lm(formula = log_preciom ~ areaconst, data = vivienda4)

Residuals:
      Min        1Q    Median        3Q       Max 
-0.104875 -0.020101  0.000153  0.018895  0.099297 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 5.322e+00  1.872e-03 2843.12   <2e-16 ***
areaconst   1.954e-03  1.973e-05   99.01   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.02961 on 1704 degrees of freedom
Multiple R-squared:  0.8519,    Adjusted R-squared:  0.8518 
F-statistic:  9803 on 1 and 1704 DF,  p-value: < 2.2e-16

El resultado de aplicar la transformación logarítmica al precio de la vivienda generó un valor de R2 de 0.85, lo que indica que un 85% de la variabilidad en el precio de las viviendas se explica por el área construida en el modelo transformado. Aunque el ajuste sigue siendo alto, este valor es ligeramente menor que el obtenido sin la transformación, lo que sugiere que la transformación no mejoró significativamente el ajuste general del modelo.

8.2 Gráfico de residuos vs predicciones (Modelo transformado)

8.3 Q-Q Plot Los puntos del Q-Q plot se alinean de manera razonable con la línea de referencia, lo que sugiere que la normalidad de los residuos también ha mejorado ligeramente.

8.4 Prueba de Durbin-Watson (independencia de los errores)


    Durbin-Watson test

data:  modelo_log
DW = 2.0665, p-value = 0.9139
alternative hypothesis: true autocorrelation is greater than 0

El valor de la estadística de Durbin-Watson es 2.07, lo cual está muy cerca de 2, lo que indica que no hay autocorrelación significativa en los residuos. Por lo tanto, el supuesto de independencia de los errores se cumple.

8.5 Prueba de Shapiro-Wilk para la normalidad de los residuos


    Shapiro-Wilk normality test

data:  residuals(modelo_log)
W = 0.99935, p-value = 0.8503

El valor p de la prueba de Shapiro-Wilk es 0.85, que es mucho mayor que el umbral típico de 0.05. Esto sugiere que no podemos rechazar la hipótesis nula de que los residuos siguen una distribución normal. Por lo tanto, el supuesto de normalidad de los errores también se cumple en el modelo transformado.

#PUNTO 9 De ser necesario compare el ajuste y supuestos del modelo inicial y el transformado.

-Ajuste (R2):

El modelo inicial tiene un R2 ligeramente superior (0.87) en comparación con el modelo transformado (0.85), lo que sugiere un ajuste marginalmente mejor en el modelo sin transformar. Sin embargo, ambos modelos ofrecen un buen ajuste general.

-Heterocedasticidad:

El modelo transformado muestra una mejora en la homocedasticidad, ya que los residuos en el gráfico de residuos vs predicciones están más uniformemente dispersos, mientras que el modelo inicial presentaba signos claros de heterocedasticidad. Normalidad de los residuos:

El modelo transformado también mejora en términos de normalidad de los residuos, como se observa en el Q-Q plot y en el histograma de los residuos. El modelo inicial mostraba desviaciones mayores en los residuos en comparación con el transformado.

En conclusión, el modelo transformado mejora el cumplimiento de los supuestos de homocedasticidad y normalidad, lo que sugiere que es un modelo más adecuado en términos de supuestos estadísticos, aunque el ajuste general (R2) es ligeramente inferior al modelo inicial. Si se prioriza el cumplimiento de los supuestos estadísticos, el modelo transformado sería preferible. Sin embargo, si el objetivo es maximizar el ajuste, el modelo inicial puede ser una opción aceptable a pesar de la violación de algunos supuestos.

#PUNTO 10 Estime varios modelos y compare los resultados obtenidos. En el mejor de los modelos, ¿se cumplen los supuestos sobre los errores?

10.1 MODELOS A COMPARAR

10.1.1 MODELO LINEAL SIMPLE

[1] 0.8667242

El modelo lineal simple explica el 87% de la variabilidad en el precio de la vivienda basado únicamente en el área construida.

10.1.2 MODELO LOGARITMO (transformado)

[1] 0.8519165

El modelo transformado explica el 85% de la variabilidad en el logaritmo del precio. Aunque mejora los supuestos de los errores, tiene un ajuste ligeramente menor.

10.1.3 MODELO POLINOMIAL (Área + Área^2)

[1] 0.8667853

El modelo polinomial tiene un ajuste muy similar al del modelo lineal simple, explicando el 87% de la variabilidad en el precio. Este modelo introduce un término cuadrático para capturar posibles relaciones no lineales.

10.2 EVALUACIÓN DE LOS SUPUESTOS

10.2.1 GraficO residuos vs predicciones (modelo simple) El gráfico muestra indicios de heterocedasticidad, con residuos que se dispersan más a medida que aumentan las predicciones, lo que indica que la varianza de los residuos no es constante.

10.2.2 GraficO residuos vs predicciones (modelo transformado)

El modelo transformado mejora la homocedasticidad; los residuos están más uniformemente dispersos alrededor de cero, lo que indica una varianza más constante.

10.2.2 GraficO residuos vs predicciones (modelo polinomial)

Los residuos están más uniformemente distribuidos, lo que mejora ligeramente la homocedasticidad en comparación con el modelo lineal simple.

En conclusión, el modelo transformado (logaritmo) a pesar de tener un R2 ligeramente inferior, es el que mejor cumple los supuestos de los errores (varianza constante y normalidad). Esto lo convierte en el mejor modelo estadístico.

ACTIVIDAD 3

DIEGO FORERO

2024-10-12