Actividad_Regresion

1. Realice un análisis exploratorio de las variables precio de vivienda (millones de pesos COP) y area de la vivienda (metros cuadrados) - incluir graficos e indicadores apropiados interpretados.

El paso con el que iniciaremos la exploración de los datos es realizando un gráfica entre el área construída y el precio de la vivienda. Teniendo como resultado el siguiente gráfico:

Inicialmente no es muy claro establecer el tipo de comportamiento de los datos explorados, si bien se podría interpretar una tendencia lineal es posible que se pueda describir una tendencia logarítmica; sin embargo, se dasarrollará el ejercicio basándonos en un comportamiento lineal.

2. Realice un análisis exploratorio bivariado de datos enfocado en la relación entre la variable respuesta (y=precio) en función de la variable predictora (x=area) - incluir graficos e indicadores apropiados interpretado.

En este punto evaluaremos los datos empleando un modelo de regresión lineal simple, del cual se obtienen los siguientes gráficos:

Como podemos observar, el gráfico de error residual indica que parte de los datos están yéndose con el error no mostrando un comportamiento aleatorio, mientras que en el gráfico de normalidad observamos que los datos no se encuentran totalmente alineados sobre la línea de normalidad.

3. Estime el modelo de regresión lineal simple entre precio = f(area) +e. Interprete los coeficientes del modelo β0, β1 en caso de ser correcto.

A continuación se presenta el resumen de los indicadores para el modelo lineal:

## 
## Call:
## lm(formula = precio_millon ~ Area_contruida, data = datos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -51.673 -25.612  -6.085  24.875  67.650 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)      86.234     22.479   3.836 0.000796 ***
## Area_contruida    2.124      0.186  11.422 3.45e-11 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 33.05 on 24 degrees of freedom
## Multiple R-squared:  0.8446, Adjusted R-squared:  0.8381 
## F-statistic: 130.5 on 1 and 24 DF,  p-value: 3.45e-11

Para el modelo lineal obtenemos valores de β0 = 86.234, β1 = 2.124, con un 0.8446 de ajuste del modelo.

4. Construir un intervalo de confianza (95%) para el coeficiente β1, interpretar y concluir si el coeficiente es igual a cero o no. Compare este resultado con una prueba de hipotesis t.

Cálculo Intérvalos de Confianza
	2.5 %	97.5 %
(Intercept)	39.839830	132.627917
Area_contruida	1.740169	2.507772

Cálculo Intérvalo Inferior y Superior para ß1
Límite Inferior	Límite Superior
1.657555	2.590445

De acuerdo con los cálculos, obtenemos que el valor de t es igual a 2.50; a partir de este valor se calcularon los intervalos de confianza para β1 entre 1.657555 y 2.590445. Además el p-Value corresponde a 3.45e-11 ***; dicho esto, confirmaríamos la variable del área construida es significativa dentro del modelo.

5. Calcule e interprete el indicador de bondad y ajuste R2.

Como se detalló en el punto 3, el cálculo del indicador de bondad y ajuste arrojó un valor de 0.8446. Esto indica que el área construida representa el 84.5% del precio por millón de los inmueles detallados en la muestra objeto del presente estudio.

6. Cual seria el precio promedio estimado para un apartamento de 110 metros cuadrados? Considera entonces con este resultado que un apartemento en la misma zona con 110 metros cuadrados en un precio de 200 millones seria una buena oferta? Que consideraciones adicionales se deben tener?

Cálculo Predicción Apartamento de 110 mts2
Precio Promedio	Precio Más Bajo	Precio Más Alto
319.8706	306.3133	333.4279

De acuerdo a los datos arrojados por la predicción para un apartamento de 110mts2 el precio promedio sería de ~320MCOP. Es decir, un apartamento en la misma zona con la misma área en 200MCOP sería una buena oferta. Sin embargo se debe tener en cuenta el piso en el que se encuentra ubicado el apartamento, si cuenta o no con ascensor, si incluye parqueadero cubierto, entre otros.

7. Realice la validación de supuestos del modelo por medio de graficos apropiados, interpretarlos y sugerir posibles soluciones si se violan algunos de ellos.

De acuerdo a las gráficas, el primer punto a resaltar es que la muestra tomada para el estudio es muy pequeña, el histográma no presenta una forma normal y además se evidencia descontinuidad entre los datos de la muestra. Por otra parte, el gráfico de normalidad muestra cómo los datos se encuentran dispersos al rededor de la línea de normalidad. Se considera necesario ampliar el tamaño de la muestra e implementar transformaciones para mejorar el modelo.

8. De ser necesario realice una transformación apropiada para mejorar el ajuste y supuestos del modelo.

Si bien empleando un modelo lineal simple arrojo resultados aceptable, en este punto realizaremos las mismas gráficas pero en esta ocasión empleando un modelo doble logarítmico, del cual obtenemos las siguientes gráficas:

De acuerdo con las gráficas, el modelo doble logarítmico presenta el mismo comportamiento en relación a su salida con respecto al modelo lineal simple. Dicho esto, es necesario evaluar todos los indicadores que nos arroja cada modelo para una comparación más objetiva.

A continuación, se presenta el resumen de los indicadores para el modelo doble logarítmico::

## 
## Call:
## lm(formula = log(precio_millon) ~ log(Area_contruida), data = datos)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.13325 -0.07583 -0.01435  0.07501  0.16051 
## 
## Coefficients:
##                     Estimate Std. Error t value Pr(>|t|)    
## (Intercept)          1.96408    0.29228    6.72 5.97e-07 ***
## log(Area_contruida)  0.80928    0.06194   13.06 2.11e-12 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.08859 on 24 degrees of freedom
## Multiple R-squared:  0.8767, Adjusted R-squared:  0.8716 
## F-statistic: 170.7 on 1 and 24 DF,  p-value: 2.109e-12

Para el modelo doble logarítmico se obtuvieron valores de β0 = 1.96408, β1 = 0.80928, con un ajuste del modelo de 0.8767.

Ahora, evaluaremos los interválos de confianza para β1:

Cálculo Intérvalos de Confianza
	2.5 %	97.5 %
(Intercept)	1.3608381	2.5673230
log(Area_contruida)	0.6814351	0.9371257

Cálculo Intérvalo Inferior y Superior para ß1
Límite Inferior	Límite Superior
0.7512344	0.8673256

Ahora, con el modelo doble logarítmico procederemos a predecir el valor para un apartamento de 110mt2, obteniendo los siguientes resultados:.

Cálculo Predicción Apartamento de 110 mts2
Precio Promedio	Precio Más Bajo	Precio Más Alto
319.9252	308.6499	331.6124

Con estos resultados procedemos a generar los gráficos correspondientes:

De acuerdo con los resultados, el modelo que representa en mejor medida a los datos de la muestra es el modelo doble logarítmico; con esto se lograría un ajuste de ~3% con respecto al modelo lineal simple.

9. De ser necesario compare el ajuste y supuestos del modelo inicial y el transformado.

De acuerdo con los resultados obtenidos en el punto 4, el modelo que representaría en un 84.5% el comportamiento del precio de las viviendas con respecto al área construida tendría la siguiente formula:

y = 86.234 + 2.124(x)

Ahora, con los cálculos y ajustes en el modelo resaltados en el punto 8 se lograría un ajuste en el comportamiento de 87.8%, teniendo la siguiente formula:

y = Exp(1.96402 + 0.80928(Log(x)))

Actividad_Regresion

Adrian M Rodriguez Amaya

2022-04-28

1. Realice un análisis exploratorio de las variables precio de vivienda (millones de pesos COP) y area de la vivienda (metros cuadrados) - incluir graficos e indicadores apropiados interpretados.

El paso con el que iniciaremos la exploración de los datos es realizando un gráfica entre el área construída y el precio de la vivienda. Teniendo como resultado el siguiente gráfico:

Inicialmente no es muy claro establecer el tipo de comportamiento de los datos explorados, si bien se podría interpretar una tendencia lineal es posible que se pueda describir una tendencia logarítmica; sin embargo, se dasarrollará el ejercicio basándonos en un comportamiento lineal.

2. Realice un análisis exploratorio bivariado de datos enfocado en la relación entre la variable respuesta (y=precio) en función de la variable predictora (x=area) - incluir graficos e indicadores apropiados interpretado.

En este punto evaluaremos los datos empleando un modelo de regresión lineal simple, del cual se obtienen los siguientes gráficos:

Como podemos observar, el gráfico de error residual indica que parte de los datos están yéndose con el error no mostrando un comportamiento aleatorio, mientras que en el gráfico de normalidad observamos que los datos no se encuentran totalmente alineados sobre la línea de normalidad.

3. Estime el modelo de regresión lineal simple entre precio = f(area) +e. Interprete los coeficientes del modelo β0, β1 en caso de ser correcto.

A continuación se presenta el resumen de los indicadores para el modelo lineal:

Para el modelo lineal obtenemos valores de β0 = 86.234, β1 = 2.124, con un 0.8446 de ajuste del modelo.

4. Construir un intervalo de confianza (95%) para el coeficiente β1, interpretar y concluir si el coeficiente es igual a cero o no. Compare este resultado con una prueba de hipotesis t.

5. Calcule e interprete el indicador de bondad y ajuste R2.

Como se detalló en el punto 3, el cálculo del indicador de bondad y ajuste arrojó un valor de 0.8446. Esto indica que el área construida representa el 84.5% del precio por millón de los inmueles detallados en la muestra objeto del presente estudio.

6. Cual seria el precio promedio estimado para un apartamento de 110 metros cuadrados? Considera entonces con este resultado que un apartemento en la misma zona con 110 metros cuadrados en un precio de 200 millones seria una buena oferta? Que consideraciones adicionales se deben tener?

7. Realice la validación de supuestos del modelo por medio de graficos apropiados, interpretarlos y sugerir posibles soluciones si se violan algunos de ellos.

8. De ser necesario realice una transformación apropiada para mejorar el ajuste y supuestos del modelo.

Si bien empleando un modelo lineal simple arrojo resultados aceptable, en este punto realizaremos las mismas gráficas pero en esta ocasión empleando un modelo doble logarítmico, del cual obtenemos las siguientes gráficas:

De acuerdo con las gráficas, el modelo doble logarítmico presenta el mismo comportamiento en relación a su salida con respecto al modelo lineal simple. Dicho esto, es necesario evaluar todos los indicadores que nos arroja cada modelo para una comparación más objetiva.

A continuación, se presenta el resumen de los indicadores para el modelo doble logarítmico::

Para el modelo doble logarítmico se obtuvieron valores de β0 = 1.96408, β1 = 0.80928, con un ajuste del modelo de 0.8767.

Ahora, evaluaremos los interválos de confianza para β1:

Ahora, con el modelo doble logarítmico procederemos a predecir el valor para un apartamento de 110mt2, obteniendo los siguientes resultados:.

Con estos resultados procedemos a generar los gráficos correspondientes:

De acuerdo con los resultados, el modelo que representa en mejor medida a los datos de la muestra es el modelo doble logarítmico; con esto se lograría un ajuste de ~3% con respecto al modelo lineal simple.

9. De ser necesario compare el ajuste y supuestos del modelo inicial y el transformado.

De acuerdo con los resultados obtenidos en el punto 4, el modelo que representaría en un 84.5% el comportamiento del precio de las viviendas con respecto al área construida tendría la siguiente formula:

y = 86.234 + 2.124(x)

Ahora, con los cálculos y ajustes en el modelo resaltados en el punto 8 se lograría un ajuste en el comportamiento de 87.8%, teniendo la siguiente formula:

y = Exp(1.96402 + 0.80928(Log(x)))