a) Se carga la base de datos:
library(readxl)
datos <- read_excel("C:/Users/mjpenalozap/Downloads/datos_vivienda.xlsx")
View(datos)
names(datos)
## [1] "Area_construida" "precio_millon"
nrow(datos)
## [1] 26
Se puede observar que la base de datos cuenta con dos variables cuantitativas continuas llamadas Área Construida y Precio (En millones de COP), con un total de 26 observaciones.
b) Resumen numérico y gráfico para Área Construida
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 80.0 86.0 97.0 115.7 130.0 195.0
## [1] "Coeficiente_de_Variación"
## [1] 30.70779
Sus valores en (\(m^2\)) se encuentran en el intervalo de \(V_{min}=80\) a \(V_{max}=195\), con un promedio de \(\bar{x}=115.7\) y una variación del \(30.7\%\), los tres cuartiles corresponden a \(Q_1=86\), \(Q_2=97\) y \(Q_3=130\), los cuales se visualizan en el siguiente diagrama de caja (Boxplot):
El diagrama de caja y bigotes permite observar que la distribución de datos se encuentra orientada hacia la izquierda donde la caja (\(50\%\) de los datos centrales) se encuentra entre los valores \(Q_1=86\) y \(Q_3=130\), por lo que la mayor dispersión se haya por el bigote derecho.
Finalmente, se construye el histograma.
## [1] "Coeficiente de Asimetría"
## [1] 0.1018519
La forma del histograma y la curva de densidad sugiere que la distribución de datos tiene asimetría positiva, lo cual se concluye también en base al coeficiente de asimetría \(A_s=0,10>0\), finalmente, la línea azul corresponde al valor de la media aritmética \(\bar{x}=115.7\).
c) Resumen numérico y gráfico para Precio por Millón
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 240.0 251.2 305.0 332.1 395.0 480.0
## [1] "Coeficiente_de_Variación"
## [1] 24.73651
Sus valores en (\(millones\)) se encuentran en el intervalo de \(V_{min}=240\) a \(V_{max}=480\), con un promedio de \(\bar{x}=332.1\) y una variación del \(24.73\%\), los tres cuartiles corresponden a \(Q_1=251.2\), \(Q_2=305\) y \(Q_3=395\), los cuales se visualizan en el siguiente diagrama de caja (Boxplot):
El diagrama de caja y bigotes permite observar que la distribución de datos se encuentra orientada hacia la izquierda donde la caja (\(50\%\) de los datos centrales) se encuentra entre los valores \(Q_1=251.2\) y \(Q_3=395\), por lo que la mayor dispersión se haya por el bigote derecho.
Finalmente, se construye el histograma.
## [1] "Coeficiente de Asimetría"
## [1] 0.05601981
La forma del histograma y la curva de densidad sugiere que la distribución de datos tiene asimetría positiva, lo cual se concluye también en base al coeficiente de asimetría \(A_s=0,05>0\), finalmente, la línea azul corresponde al valor de la media aritmética \(\bar{x}=332.1\).
Debido a la forma que tiene la nube de puntos es razonable suponer que
las variables tienen una dependencia lineal, debido a que los puntos
muestran una tendencia a que un aumenta en la variable predictora (Área
Construida) coincide con un aumento de la variable de respuesta (Precio
de viviendas). También se puede observar una linea recta de tendencia
ascendente, por lo que se supone debe haber una correlación positiva
entre las variables.
Ahora se calcula la covarianza para determinar cómo se comporta una variable en función de lo que hace la otra, es decir, el grado de variación lineal conjunta:
cov(Area_construida, precio_millon)
## [1] 2683.271
Dado su valor positivo se espera una asociación directa lineal (positiva), es decir, a grandes valores de Área Construida se espera grandes valores del precio de las viviendas,análogamente se cumple para valores pequeños.
Finalmente, se calcula el coeficiente de correlación:
cor(Area_construida, precio_millon)
## [1] 0.9190295
Teniendo en cuenta que el resultado está muy cercano a 1 podemos suponer una relación directa significativa entre las variables.
Se construye el modelo:
##
## Call:
## lm(formula = precio_millon ~ Area_construida, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -51.673 -25.612 -6.085 24.875 67.650
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 86.234 22.479 3.836 0.000796 ***
## Area_construida 2.124 0.186 11.422 3.45e-11 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 33.05 on 24 degrees of freedom
## Multiple R-squared: 0.8446, Adjusted R-squared: 0.8381
## F-statistic: 130.5 on 1 and 24 DF, p-value: 3.45e-11
El modelo estimado de regresión lineal simple presenta la siguiente ecuación para la variable de respuesta (Precio de Viviendas: y) en función la variable predictora (Área Construida: x) \(y=ß_0+ß_1x\), reemplazando los coeficientes se obtiene: \(y=86.234+2.124x\).
El coeficiente \(ß_0=86.234\) indica el precio estimado de la vivienda en caso de no tener área construida.
El coeficiente \(ß_1=2.124\) corresponde al valor estimado de la pendiente de la línea recta que modela la relación entre las variables, significa que por cada aumento unitario (\(1m^2\)) en la variable predictora “Área Construida” hay un aumento de \(2.124\) (millones) en la variable de respuesta “Precio de la Vivienda”.
Para ambos coeficientes, el modelos estima que son significativos puesto que los p-valores respectivos son aproximadamente cero.
## 2.5 % 97.5 %
## Area_construida 1.74017 2.507771
Con un nivel de significancia del \(5\%\) se estima que por cada aumento de \(1 m^2\) en la variable Área Construida se espera un aumento en la variable dependiente Precio de Vivienda (millones) entre \(1.74\) y \(2.51\), con lo que se puede concluir que a un nivel de confianza de \(95\%\) el coeficiente \(ß_1\) es diferente de cero.
Ahora se realiza una prueba de hipótesis con \(H_0: ß_1=0\) y \(H_a: ß_1?0\), con igual nivel de significancia igual al intervalo de confianza, el modelo muestra que el p-valor \(3.45*10^{-11}\) está por debajo del \(5\%\), por lo que estadísticamente no se puede rechazar la hipótesis alternativa, concluyendo que a un nivel de confianza de \(95\%\) el coeficiente \(ß_1\) es diferente de cero.
Según el resumen anterior del modelo, se puede observar los siguientes valores para el coeficiente de determinación y el ajustado: \(R^2=0.8446\) y \(R^2(Ajustado)=0.8381\), esto quiere decir, que la bondad del ajuste de la recta de regresión explica el \(84.46\%\) de la variable Precio de Viviendas con respecto al Área Construida.
Se realiza una predicción para \(x=110 m^2\) de Área Construida:
## fit lwr upr
## 1 319.8706 306.3133 333.4279
El precio estimado para un Área Construida de \(110 m^2\) está estimado en \(319.87\) millones de COP, en un intervalo entre \(306.31\) y \(333.42\) millones con un nivel de confianza del \(95\%\).
Si existe un apartamento con un precio de \(200\) millones de COP sin duda es una oferta porque dicho valor se encuentra muy por debajo del valor inferior en el intervalo de confianza, sin embargo, es recomendable tener en cuenta otros factores que el modelo no tiene, por ejemplo, condiciones de la infraestructura, problemas legales, deudas prediales o de servicios públicos, problemas notariales, entre otros.
Primero se realiza el análisis gráfico:
Según el gráfico de Residuales vs Valores Ajustados, se observa un
patrón diferente a una aleatoriedad, por lo que puede existir una
transformación sobre la variable Área Construida que mejore los
indicadores del modelo.
El gráfico normal QQ muestra que los puntos están bien ajustado a la linea recta, por lo que la normalidad parece razonable.
Ahora se realiza una prueba de normalidad:
##
## Shapiro-Wilk normality test
##
## data: residuals(modelo)
## W = 0.95489, p-value = 0.3009
El resultado de la prueba indica que el p-valor es mayor al \(5\%\) de significancia por lo que no se puede rechazar la hipótesis alternativa y se concluye que los datos proviene de una distribución normal.
Se realiza un análisis de la variabilidad (ANOVA):
anova(modelo)
## Analysis of Variance Table
##
## Response: precio_millon
## Df Sum Sq Mean Sq F value Pr(>F)
## Area_construida 1 142480 142480 130.46 3.45e-11 ***
## Residuals 24 26212 1092
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Se evidencia que el p-valor está por debajo del nivel de significancia del \(5\%\) por lo que se concluye que el Área Construida si influye de manera significativa sobre el Precio de la Vivienda
Debido al gráfico de Residuales vs Valores ajustados, se proponen transformaciones para observar si el modelo se ajusta de mejor manera.
##
## Call:
## lm(formula = precio_millon ~ log(Area_construida), data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -45.837 -20.153 -1.878 20.145 55.145
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -948.53 89.09 -10.65 1.42e-10 ***
## log(Area_construida) 271.88 18.88 14.40 2.63e-13 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 27 on 24 degrees of freedom
## Multiple R-squared: 0.8963, Adjusted R-squared: 0.8919
## F-statistic: 207.4 on 1 and 24 DF, p-value: 2.63e-13
Se aplicó logaritmo natural sobre la variable Área Construida, en resumen, el nuevo modelo presenta un par de coeficientes con buenas estimaciones debido a los p-valores, también se tiene un coeficiente de determinación que indica un porcentaje de explicación del \(89\%\) de la variable Precio de Vivienda con respecto a Área Construida, el gráfico QQ sugiere que la distribución de datos proviene de una distribución normal, sin embargo, el gráfico de residuales indica que la varianza no es constante, mostrando un comportamiento de puntos no aleatorios.
##
## Call:
## lm(formula = log(precio_millon) ~ log(Area_construida), data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.13325 -0.07583 -0.01435 0.07501 0.16051
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.96408 0.29228 6.72 5.97e-07 ***
## log(Area_construida) 0.80928 0.06194 13.06 2.11e-12 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.08859 on 24 degrees of freedom
## Multiple R-squared: 0.8767, Adjusted R-squared: 0.8716
## F-statistic: 170.7 on 1 and 24 DF, p-value: 2.109e-12
##
## Call:
## lm(formula = log(precio_millon) ~ (Area_construida), data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.16503 -0.09255 -0.02221 0.08600 0.19822
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 5.048147 0.073371 68.80 < 2e-16 ***
## Area_construida 0.006288 0.000607 10.36 2.46e-10 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.1079 on 24 degrees of freedom
## Multiple R-squared: 0.8172, Adjusted R-squared: 0.8096
## F-statistic: 107.3 on 1 and 24 DF, p-value: 2.456e-10
De los modelos ajustado, el que presenta mejor coeficiente de determinación es el logarítmico, en todos los caso el gráfico QQ indica que los datos están ajustados y provienen de una distribución normal, pero el gráfico de residuales indica que la varianza no es constante.
Se compara el modelo inicial con el modelo ajustado #1. En ambos casos el gráfico QQ permite suponer que la distribución de datos sigue una distribución normal, pero el gráfico de residuales no indica aleatoriedad por lo que la varianza no es constante, la diferencia radica en el coeficiente de determinación \(r^2\) que pasó de \(0.8446\) a \(0.8963\), por lo que el porcentaje de explicación de la variable de respuesta aumentó en un \(5.17\%\).