Actividad 6

En esta actividad se utilizará una base de datos proporcionada por una inmobiliaria, que contiene información sobre el costo de venta de diferentes inmuebles y su respectiva superficie. A partir de estas dos variables cuantitativas, se llevará a cabo un análisis de correlación para determinar la relación existente entre ellas. Posteriormente, se procederá a ajustar un modelo de regresión para estudiar cómo el costo varía en función de la superficie del inmueble.

A continuación se presentan los gráficos de dispersión y correlación lineal para las dos variables mencionadas:

Tras realizar el análisis de correlación, se observa que el coeficiente de correlación lineal se encuentra en el rango de 0.5 a 1, lo cual indica una relación fuerte y positiva entre las variables analizadas.

Con base en esta información, se procede a realizar el ajuste de un modelo de regresión lineal utilizando las dos variables cuantitativas. El objetivo es establecer una ecuación que permita predecir el valor del costo del inmueble en función de su superficie. El modelo de regresión lineal proporcionará una estimación de cómo el costo varía en relación con la superficie, teniendo en cuenta la relación identificada en el análisis de correlación.

Ajuste del modelo

Primero que todo se le asignan nombres más practicos a las variables:

y<-BD_Inmuebles$`Precio venta`
x<-BD_Inmuebles$Superficie

A continuación se procede al cálculo de los coeficientes del modelo lineal. Es importante recordar que un modelo lineal se representa mediante la ecuación Y = ax + b. El modelo utilizado en este caso específico proporcionará los valores de los coeficientes a y b, que representan la pendiente y el intercepto en el eje Y, respectivamente. Estos coeficientes permitirán establecer la relación lineal entre las variables involucradas en el análisis.

modelo<-lm(y~x) 
coefficients(modelo)

## (Intercept)           x 
##   0.7494576   1.4180566

Ahora,con los coeficientes calculados, se tiene que la ecuación del modelo lineal es:

Y=1.4180566*X+0.7494576

A copntinuación se procede a la verificación del modelo.

Verificación del modelo

Primero que todo se muestra el resumen del modelo calculado:

summary(modelo)

## 
## Call:
## lm(formula = y ~ x)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -170.304  -43.295    2.419   41.872  172.130 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  0.74946    3.85345   0.194    0.846    
## x            1.41806    0.02072  68.439   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 63.85 on 1688 degrees of freedom
## Multiple R-squared:  0.7351, Adjusted R-squared:  0.7349 
## F-statistic:  4684 on 1 and 1688 DF,  p-value: < 2.2e-16

En este resumen se pueden encontrar las esatdisticas descriptivas de lso residuales, las estimaciones y los datos para evaluar la validad del modelo obtenido, como el Sigma estimado, los gardos de libertad, el R cuadrado y el R cuadrado ajustado.

Estas medidas proporcionan información importante sobre la calidad del modelo y su capacidad para explicar la variabilidad en los datos. Analizar estas estadísticas nos permitirá evaluar la precisión y la adecuación del modelo lineal obtenido.

Al observar que el valor R cuadrado de 0.7351, se peude concluir que aproximadamente el 73% de la variabilidad de los precios de venta ha sido capturada por el modelo. Esto indica que el modelo lineal utilizado tiene una capacidad razonable para explicar y predecir los precios de venta de los inmuebles en estudio. Es importante tener en cuenta que el 27% restante de la variabilidad podría deberse a otros factores o variables que no se han tenido en cuenta en el modelo.

Al considerar la incorporación de nuevas variables que puedan contribuir a explicar los precios de venta, es importante tener en cuenta que R cuadrado puede aumentar. Sin embargo, es crucial evaluar si las variables adicionales realmente aportan información relevante al modelo. En casos donde se agregan variables que no aportan significativamente al modelo, el valor de R cuadrado puede incrementarse artificialmente.

Es por ello que se utiliza el R cuadrado ajustado, el cual tiene en cuenta el número de variables y los grados de libertad del modelo. El R cuadrado ajustado crece solo si la variable añadida al modelo contribuye de manera sustancial a la explicación de los precios de venta.

Como se puede observar, el valor p proporcionado por el resumen del modelo es de 2.2e-16, lo cual indica que se rechaza la hipótesis nula que establece la ausencia de una relación lineal entre las variables. Por lo tanto, se acepta la hipótesis alternativa, la cual afirma la existencia de una relación lineal entre las variables.

Para continuar con la verificación se procede al cálculo de los intervalos de confianza para Beta_0 y Beta_1:

confint.lm(modelo,level=0.95)

##                 2.5 %   97.5 %
## (Intercept) -6.808586 8.307501
## x            1.377417 1.458696

Como se puede obersar, con un 95% de confianza de confianza, Beta_0 y Beta_1, se encuentran entre [-6.808586, 8.307501] y [1.377417, 1.458696] respectivamente.

Que el intervalo de confianza de Beta_0 tenga signos opuestos es un caso de preocupación ya que este intervalo incluye el 0, lo cual le quita credibilidad al modelo construido. Entonces, se debe quitar Beta_0 del modelo estimado.

El nuevo modelo para las varibales mencionadas es:

Y=1.4180566*X

Ahora, se va a realizar un análisis gráfico del comportamiento del modelo:

par(mfrow=c(2,2))
plot(modelo)

Se analiza cada supuesto:

Supuesto 1: Error = 0.

Como se puede observar en la gráfica de “Residuals vs Fitted”, la linea no sigue ninguna tendencia lo cual indica que el supuesto se cumple.

Supuesto 2: Varianza constante.

En el gráfico de “Scale-Location” se puede observar que los datos representados parecen seguir una tendencia lineal. Esto sugiere que la varianza de los residuos no es constante para todo el rango de observación, lo que implica que el supuesto 2 de homocedasticidad no se cumple completamente. Esto puede indicar la presencia de factores no considerados que influyen en la variabilidad de los datos.

Supuesto 4: Normalidad.

Como se puede observar en el gráfico “Normal Q-Q”, los datos siguen una tendencia lineal, la mayoria de los puntos estan sobre la linea de tendencia. El supuesto de normalidad si se cumple.

Conclusión

Aunque el segundo supuesto no se cumpliera, se puede dar uso del modelo, sin emabrgo se debe tener en cuenta que la interpretación y la precisión de los resultados pueden verse afectadas.