En este ejemplo, utilizaremos la base de datos “Datos_Vivienda”, la cual proporciona información acerca de apartamentos en la ciudad de Cali. La base incluye detalles sobre la ubicación geográfica, el número de piso, el estrato, el precio (expresado en millones de pesos), el área construida, la cantidad de parqueaderos, el número de baños, entre otros atributos relevantes.

Se realizó un análisis de regresión lineal simple utilizando los datos de las variables y_v (precio en millones de pesos) y x_v (área construida).

Intercepto (157.47636): Este valor refleja el precio estimado de una vivienda cuando el área construida es cero.es el valor del lote .

Coeficiente para “x_v” (1.58018): Este coeficiente indica cuánto cambia el precio estimado de una vivienda por cada unidad adicional de área construida. En este caso, un aumento de una unidad en el área construida se asocia con un aumento de 1.58018 millones de pesos en el precio estimado de la vivienda. En otras palabras, por cada metro cuadrado adicional de área construida, se espera un incremento promedio de 1.58018 millones de pesos en el precio de la vivienda.

y_v=BD2$precio_millon
x_v=BD2$Area_contruida

MO_v1 <- lm(y_v~x_v)
summary(MO_v1)
## 
## Call:
## lm(formula = y_v ~ x_v)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -2659.88  -120.78   -47.55    67.27  1330.10 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 157.47636    4.13640   38.07   <2e-16 ***
## x_v           1.58018    0.01831   86.30   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 238.7 on 8317 degrees of freedom
##   (3 observations deleted due to missingness)
## Multiple R-squared:  0.4725, Adjusted R-squared:  0.4724 
## F-statistic:  7448 on 1 and 8317 DF,  p-value: < 2.2e-16

Este análisis de regresión lineal se emplea para explorar la relación entre la variable dependiente “y_v” (precio) y la variable independiente “x_v2” (Zona), que denota la ubicación geográfica de las viviendas. El objetivo principal es determinar de qué manera la ubicación afecta al precio de las viviendas.

Los coeficientes del modelo reflejan la influencia de cada categoría de zona en el precio de las viviendas en comparación con la categoría de referencia, que es el “Intercept” (Intersección) que representa una zona no especificada. Los resultados se desglosan de la siguiente manera:

“Intercepto”: El precio estimado de una vivienda en la categoría de referencia, es decir, en la zona Centro, asciende a 309.69 millones de pesos. “x_v2 Zona Norte”: En comparación con la zona Centro, se observa un incremento promedio de 35.91 millones de pesos en el precio de los apartamentos en la “Zona Norte”. Sin embargo, el valor p (0.210) indica que esta diferencia carece de significancia estadística. “x_v2 Zona Oeste”: En contraste con la zona Centro, los apartamentos en la “Zona Oeste” registran un aumento promedio de 367.89 millones de pesos en su precio, y este incremento tiene un impacto positivo altamente significativo en el precio de las viviendas, como lo demuestra un valor p muy próximo a cero (< 2e-16). “x_v2 Zona Oriente”: En comparación con la zona Centro, los apartamentos en la “Zona Oriente” tienen un precio promedio inferior en 81.16 millones de pesos, lo que implica un efecto negativo significativo en el precio de las viviendas, respaldado por un valor p de 0.012. “x_v2 Zona Sur”: En comparación con la zona Centro, los apartamentos en la “Zona Sur” reflejan un aumento promedio de 116.81 millones de pesos en su precio, y este aumento tiene un efecto positivo altamente significativo en el precio de las viviendas, como lo demuestra un valor p muy próximo a cero (< 2.2e-16).

x_v2=BD2$Zona


MO_v2 <- lm(y_v~x_v2)
summary(MO_v2)
## 
## Call:
## lm(formula = y_v ~ x_v2)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -592.58 -200.61  -85.61   93.48 1594.39 
## 
## Coefficients:
##                  Estimate Std. Error t value Pr(>|t|)    
## (Intercept)        309.69      27.78  11.149  < 2e-16 ***
## x_v2Zona Norte      35.91      28.66   1.253    0.210    
## x_v2Zona Oeste     367.89      29.18  12.608  < 2e-16 ***
## x_v2Zona Oriente   -81.16      32.31  -2.512    0.012 *  
## x_v2Zona Sur       116.82      28.14   4.152 3.33e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 309.3 on 8314 degrees of freedom
##   (3 observations deleted due to missingness)
## Multiple R-squared:  0.1147, Adjusted R-squared:  0.1143 
## F-statistic: 269.3 on 4 and 8314 DF,  p-value: < 2.2e-16
table(BD2$Zona)
## 
##  Zona Centro   Zona Norte   Zona Oeste Zona Oriente     Zona Sur 
##          124         1920         1198          351         4726

Este análisis de regresión lineal se aplica para investigar la relación entre la variable dependiente “y_v” (precio) y la variable independiente “x_v3” (Zona2), que representa la ubicación geográfica de las viviendas. El objetivo es entender cómo la ubicación influye en el precio de las viviendas.

Los coeficientes reflejan el impacto de cada categoría de zona en el precio de las viviendas en comparación con la categoría de referencia, que ahora es “Zona Sur”. Los resultados son los siguientes:

“Intercept” (Intersección): El precio estimado de una vivienda en la nueva categoría de referencia, es decir, “Zona Sur”, se sitúa en 426.518 millones de pesos. “x_v3 Zona Norte”: En comparación con “Zona Sur”, los apartamentos en “Zona Norte” tienen un precio promedio aproximadamente 80.9 millones de pesos menor. “x_v3 Zona Oeste”: En comparación con “Zona Sur”, los apartamentos en “Zona Oeste” tienen un precio promedio aproximadamente 251.1 millones de pesos mayor, y este aumento tiene un impacto positivo altamente significativo en el precio de las viviendas, como se evidencia por un valor p muy cercano a cero. “x_v3 Zona Oriente”: En comparación con “Zona Sur”, los apartamentos en “Zona Oriente” tienen un precio promedio aproximadamente 197.988 millones de pesos menor, y este decremento tiene un efecto negativo significativo en el precio de las viviendas, respaldado por su significancia estadística. “x_v3 Zona Centro”: En comparación con “Zona Sur”, los apartamentos en “Zona Centro” tienen un precio promedio aproximadamente 116.81 millones de pesos menor, lo que implica un efecto negativo en el precio de las viviendas, y este efecto es significativo, como lo demuestra un valor p muy cercano a cero. El coeficiente de determinación (R-cuadrado) indica la proporción de la variabilidad en el precio que se puede explicar mediante el modelo. En este caso, el modelo explica aproximadamente el 58% de la variabilidad en los precios de las viviendas.

BD2$zona2=factor(BD2$Zona, levels = c("Zona Sur","Zona Centro","Zona Norte","Zona Oeste","Zona Oriente"))

x_v3 <- BD2$zona2

MO_v3 <- lm(y_v~x_v3)
summary(MO_v3)
## 
## Call:
## lm(formula = y_v ~ x_v3)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -592.58 -200.61  -85.61   93.48 1594.39 
## 
## Coefficients:
##                  Estimate Std. Error t value Pr(>|t|)    
## (Intercept)       426.518      4.499  94.795  < 2e-16 ***
## x_v3Zona Centro  -116.825     28.139  -4.152 3.33e-05 ***
## x_v3Zona Norte    -80.910      8.371  -9.665  < 2e-16 ***
## x_v3Zona Oeste    251.062     10.005  25.093  < 2e-16 ***
## x_v3Zona Oriente -197.988     17.112 -11.570  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 309.3 on 8314 degrees of freedom
##   (3 observations deleted due to missingness)
## Multiple R-squared:  0.1147, Adjusted R-squared:  0.1143 
## F-statistic: 269.3 on 4 and 8314 DF,  p-value: < 2.2e-16

En este análisis de regresión lineal, se examina considera la interacción entre x_v3 y la variable x_v, lo que implica que la influencia de x_v3 en y_v puede variar según los niveles de x_v.

El “Intercepto” (Intercepto) en el modelo tiene un valor de 153.06019. Este valor representa el valor esperado de y_v cuando todas las demás variables predictoras son cero. En otras palabras, es el punto de partida o el valor base de y_v cuando no se consideran los efectos de las diferentes zonas geográficas específicas.

Luego, tenemos cinco coeficientes correspondientes a las categorías de x_v3: “Zona Sur,” “Zona Centro,” “Zona Norte,” “Zona Oeste” y “Zona Oriente.” Cada uno de estos coeficientes mide el cambio esperado en la variable de respuesta, y_v, en comparación con una categoría de referencia (probablemente “Zona Norte” u otra categoría excluida).

El coeficiente para “Zona Sur” es 1.60997. Esto indica que, en promedio, se espera que y_v sea 1.60997 unidades más alta en la “Zona Sur” en comparación con la categoría de referencia, manteniendo constantes todas las otras variables.

El coeficiente para “Zona Centro” es 0.82955. Esto sugiere que, en promedio, y_v es 0.82955 unidades más alta en la “Zona Centro” en comparación con la categoría de referencia.

El coeficiente para “Zona Norte” es 1.22910, lo que significa que se espera que y_v sea 1.22910 unidades más alta en la “Zona Norte” en comparación con la categoría de referencia.

El coeficiente para “Zona Oeste” es 2.51865, lo que indica que, en promedio, y_v es 2.51865 unidades más alta en la “Zona Oeste” en comparación con la categoría de referencia.

Finalmente, el coeficiente para “Zona Oriente” es 0.36841, lo que sugiere que se espera que y_v sea 0.36841 unidades más alta en la “Zona Oriente” en comparación con la categoría de referencia.

MO_v4 <- lm(y_v~x_v3:x_v)
summary(MO_v4)
## 
## Call:
## lm(formula = y_v ~ x_v3:x_v)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1975.44  -100.02   -36.59    59.20  1231.75 
## 
## Coefficients:
##                       Estimate Std. Error t value Pr(>|t|)    
## (Intercept)          153.06019    3.66977  41.708  < 2e-16 ***
## x_v3Zona Sur:x_v       1.60997    0.01817  88.597  < 2e-16 ***
## x_v3Zona Centro:x_v    0.82955    0.08644   9.597  < 2e-16 ***
## x_v3Zona Norte:x_v     1.22910    0.02630  46.736  < 2e-16 ***
## x_v3Zona Oeste:x_v     2.51865    0.02963  85.009  < 2e-16 ***
## x_v3Zona Oriente:x_v   0.36841    0.04686   7.862 4.26e-15 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 211.4 on 8313 degrees of freedom
##   (3 observations deleted due to missingness)
## Multiple R-squared:  0.5865, Adjusted R-squared:  0.5862 
## F-statistic:  2358 on 5 and 8313 DF,  p-value: < 2.2e-16