Contexto: En los últimos años, el mercado inmobiliario se ha convertido en un tema de alto interés tanto para empresas constructoras como para entidades financieras y compradores particulares. Esto se debe a que el precio de las viviendas ha mostrado variaciones significativas influidas por factores económicos, demográficos y estructurales. En general, se observa que el valor de una casa no depende únicamente de su tamaño, sino de un conjunto de características físicas y de entorno que generan una relación directa con su precio final en el mercado.
La base de datos utilizada en este estudio, proveniente de Kaggle, llamada “House Prices: Advanced Regression Techniques”, reúne un amplio analisis de diversos factores como área habitable, número de habitaciones, calidad de construcción, antigüedad y tipo de materiales que permiten analizar cómo estos factores se relacionan estadísticamente con el precio de venta.
Ahora bien, ¿Por que el precio de las casas en esta ultima decada ha estado exclusivamente en alta? ¿Por que cada vez es mas dificil tener una casa propia? Durante la última década, los precios de las viviendas en diversos países han mostrado una tendencia general al alza, influenciada por el crecimiento poblacional, el aumento en los costos de materiales, la disponibilidad de terrenos y las condiciones del mercado financiero. Los precios de las casas han subido más rápido que los salarios. Antes, una familia podía ahorrar con un trabajo estable y acercarse a comprar una vivienda. Ahora, aunque trabajes más horas o tengas dos trabajos, el precio de una casa crece mucho más rápido que lo que crece tu sueldo, así que cada vez queda más lejos. Los materiales de construcción y la mano de obra están más caros. Cemento, acero, madera, todo ha subido. Eso hace que construir sea más costoso, y si construir es más costoso, vender también lo será. Existen muchos más factores aparte de los ya mencionados, pero con este contexto podemos darnos una idea general del tema que abarca la base de datos, en el siguiente analisis, se realizara un analisis de regresión lineal, para lograr profundizar en el tema ya mencionado de mejor manera.
Ecuación: y = a + bx,en donde
y = La variable dependiente
a = Intercepto
bx = Pendiente (x)
Es una tecnica estadistica que nos ayuda a predecir el valor de una variable con los valores de otra. Un análisis de regresión, dicho en palabras simples, es una forma de entender cómo se relacionan dos o más cosas entre sí.
Por ejemplo, si quieres saber por qué sube o baja el precio de las casas, no basta con decir “porque sí”. Con la regresión, lo que haces es mirar varios factores como el tamaño, el barrio, los años de antigüedad, si tiene garaje, etc. y ver qué tanto influye cada uno en el precio. Un análisis de regresión sirve para encontrar patrones y para predecir algo basándose en las características que lo afectan.
Paso 1: Analizar la asociación entre las variables de insumo
Paso 2: Preguntarse, ¿Nuestro modelo es valido?
Paso 3: Analizar, ¿Que tanto explica mi modelo?
Paso 4: Plantearse, ¿Cuales son los parametros?
Paso 5: Construir la ecuación y predecir
Vamos a analizar la corelación que tiene el precio de las casas con el area habitable de las mismas, el area habitable puede verse como los metros cuadrados por encima del nivel del suelo, esto involucra lugares como las salas, habitaciones, cocinas, dormitorios, etc, pero no involucra los espacios no habitables.
##
## Pearson's product-moment correlation
##
## data: train$GrLivArea and train$SalePrice
## t = 38.348, df = 1458, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.6821200 0.7332695
## sample estimates:
## cor
## 0.7086245
En donde cor = Correlación, La cual varia su tipo segun el valor obtenido.
Posibles tipos de correlación:
## Cor Tipo Fuerza
## 1 1.0 Directa Alta
## 2 0.6 Directa Media
## 3 0.3 Directa Baja
## 4 0.0 0 0
## 5 -0.3 Inversa Baja
## 6 -0.6 Inversa Media
## 7 -1.0 Inversa Alta
Primeramente, podemos analizar un cor = 0.70 aproximadamente, lo que indica una fuerte corelación entre las dos variables que estamos analizando.
Luego, vemos un P-value extremadamente bajo, lo que significa que la corelación es estadisticamente significativa.
El analisis realizado con el comando summary, nos sirve para obtener un resumen estadistico, en el cual se analizan resultados como un valor minimo, una mediana, un valor maximo, el primer cuartil, entre otros valores más.
##
## Call:
## lm(formula = train$SalePrice ~ train$GrLivArea)
##
## Residuals:
## Min 1Q Median 3Q Max
## -462999 -29800 -1124 21957 339832
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 18569.026 4480.755 4.144 3.61e-05 ***
## train$GrLivArea 107.130 2.794 38.348 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 56070 on 1458 degrees of freedom
## Multiple R-squared: 0.5021, Adjusted R-squared: 0.5018
## F-statistic: 1471 on 1 and 1458 DF, p-value: < 2.2e-16
El r^2 es de = 0.502 aproximadamente, El modelo explica el 50.2% de la variabilidad en el precio de venta.
el p-value indica que la relación es altamente significativa.
Este análisis muestra que el tamaño de la casa tiene una relación clara y significativa con su precio: mientras más grande es el área habitable, más alto tiende a ser el valor de venta.
## (Intercept) train$GrLivArea
## 18569.0259 107.1304
Con lo mostrado alli, se puede deducir la ecuación que en un inicio planteamos:
El primer valor, el que esta abajo de intercept es el considerado “a”, y el otro valor es el considerado “b”, es decir, la ecuación quedaria tal que
Con esa ecuación alli mostrada, podemos tratar de predecir
La gráfica muestra claramente que existe una relación positiva entre el área habitable de una casa y su precio: a medida que el tamaño aumenta, también lo hace el valor de venta. La línea roja del modelo de regresión y la ecuación indican que por cada unidad adicional de área, el precio sube en promedio unos 107 dólares, partiendo de una base de aproximadamente 18,569. Esto significa que podemos usar esa fórmula para estimar el precio de una casa según su tamaño, aunque hay variaciones individuales que el modelo no captura del todo. Es una herramienta útil para tener una idea general.
Vamos a analizar la correlación que tiene el precio de las casas con el año de construcción de las mismas. El año de construcción nos indica qué tan antigua o reciente es la propiedad, lo cual podría influir en su valor de mercado debido al desgaste de materiales, modernidad de diseño y actualizaciones realizadas a lo largo del tiempo.
##
## Pearson's product-moment correlation
##
## data: train$YearBuilt and train$SalePrice
## t = 23.424, df = 1458, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.4845947 0.5591987
## sample estimates:
## cor
## 0.5228973
Primeramente, podemos analizar un cor = 0.52 aproximadamente, lo que indica una correlación moderada-baja entre las dos variables que estamos analizando, mucho menor que la correlación obtenida en la primera hipótesis.
Luego, vemos un P-value extremadamente bajo, lo que significa que la correlación es estadisticamente significativa, aunque la fuerza de la relación no sea tan alta.
El analisis realizado con el comando summary, nos sirve para obtener un resumen estadistico, en el cual se analizan resultados como un valor minimo, una mediana, un valor maximo, el primer cuartil, entre otros valores más.
##
## Call:
## lm(formula = train$SalePrice ~ train$YearBuilt)
##
## Residuals:
## Min 1Q Median 3Q Max
## -144191 -40999 -15464 22685 542814
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -2.530e+06 1.158e+05 -21.86 <2e-16 ***
## train$YearBuilt 1.375e+03 5.872e+01 23.42 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 67740 on 1458 degrees of freedom
## Multiple R-squared: 0.2734, Adjusted R-squared: 0.2729
## F-statistic: 548.7 on 1 and 1458 DF, p-value: < 2.2e-16
El r^2 es de = 0.27 aproximadamente, El modelo explica solo el 27% de la variabilidad en el precio de venta.
el p-value indica que la relación es altamente significativa.
Este análisis muestra que aunque el año de construcción tiene una relación estadísticamente significativa con el precio, esta relación es considerablemente más débil que la observada con el área habitable. Esto sugiere que otros factores como ubicación, tamaño, calidad de construcción y renovaciones pueden tener mayor peso en la determinación del precio final.
## (Intercept) train$YearBuilt
## -2530308.246 1375.373
Con lo mostrado alli, se puede deducir la ecuación que en un inicio planteamos:
El primer valor, el que esta abajo de intercept es el considerado “a”, y el otro valor es el considerado “b”, es decir, la ecuación quedaria tal que
Con esa ecuación alli mostrada, podemos tratar de predecir
La gráfica muestra que existe una relación positiva pero débil entre el año de construcción de una casa y su precio. A diferencia de la primera hipótesis, aquí vemos mucha más dispersión de los puntos alrededor de la línea de regresión, lo que indica que el año de construcción por sí solo no es un predictor tan confiable del precio. La línea azul del modelo indica que por cada año más reciente, el precio aumenta en promedio unos 1375 dólares. Sin embargo, la alta dispersión de los datos nos dice que hay casas antiguas con precios muy altos y casas nuevas con precios más bajos, lo que confirma que otros factores juegan un rol fundamental en la determinación del precio de venta.