El avalúo rapido de las viviendas ubicadas en Erie, Pennsylvania.
En esta parte del proyecto mostraremos algunas gráficas que nos ayudaran a mostrar la relación que existe entre ellos y la distribución que tienen. Antes de empezar a analizar los datos mostraremos con que variables contamos.
Columna | Nombre |
---|---|
1 | Precio de venta |
2 | Impuesto Local |
3 | Edad de la casa |
Estas variables \(precio\), \(impuesto\) y \(edad\) presentan la siguiente estructura donde colocamos el mínimo y máximo valor además de incluir sus cuantiles correspondientes.
Parametros | Precio de venta | Impuesto | Edad |
---|---|---|---|
Minimo | 25.90 | 3.891 | 3.00 |
1st Qu. | 29.90 | 5.057 | 30.00 |
Mediana | 33.70 | 5.974 | 40.00 |
Media | 34.61 | 6.405 | 37.46 |
3rd Qu. | 38.15 | 7.873 | 48.50 |
Maximo | 45.80 | 9.142 | 62.00 |
Como primer gráfico mostraremos los histogramas correspondientes a las columnas de la base de datos que se nos fue proporcionada acompañada de sus respectivos boxplot.
Para observar mejor el boxplot y la densidad de los datos los haremos por separado, la tabla presente nos da el promedio y su varianza de los datos con los que contamos estos valores serán añadidos a sus respectivos diagramas para tener una referencia visual de los mismos.
Variable | Media | Varianza |
---|---|---|
Precio de la casa | 34.612500 | 36.045489 |
Impuesto Local | 6.404917 | 2.502745 |
Edad de la casa | 37.458333 | 197.128623 |
Podemos notar que la variable de impuesto local presentan una varianza pequeña a comparación de la varianza presente en la edad de la casa, por lo que es una buena variable al tener poca dispersión aunque no signifique que la varianza sea la mejor medida de riesgo. Este hecho lo podemos visualizar mejor en los diagramas de densidad que se presentan, pues la línea roja muestra la media de los datos.
Para tener una idea mejor de la relación de la variables presentadas haremos diagramas de dispersión con la finalidad de observar si tienen alguna “tendencia lineal” y calcularemos su correlación.
A Partir del gráfico anterior podemos notar que la relación entre precio de venta de la casa e impuestos locales siguen una relación lineal positiva pues los datos presentan un patrón de crecimiento, a medida de que los impuestos aumentan también lo hace el precio de la casa.En contraste con la edad de la casa que presenta una relación lineal de manera decreciente y dicha relación presenta un bajo coeficiente de correlación lineal.
Como apoyo gráfico pintaremos la correlación correspondiente a su valor con el fin de ver que variables es candidato a explicar mejor la valuación de la casa.
Como hemos visto a lo largo de los diagramas anteriores tenemos la sospecha de que el impuesto local explica la valuación de la casa, por lo que si nos remitimos sólo a considerar esa variable tenemos el planteamiento del siguiente modelo:
\[ Precio_{venta} = \beta_0 + \beta_1 \cdot Impuesto_{local} \] Si lo escribimos formalmente tendríamos el siguiente modelo de regresión lineal:
\[ Y = \beta_0 + \beta_1 \cdot x \] Donde los elementos que componen a lo anteriormente planteado tiene la siguiente descripción.
Elementos | Descripción |
---|---|
\(Y\) | Variable de Respuesta |
\(\beta_0\) | El intercepto |
\(\beta_1\) | La pendiente del modelo |
\(x\) | Variable explicativa |
En este caso la introducción de los parámetros \(\beta_0\), \(\beta_1\) ha sido arbitraria y aun no hemos hecho el análisis pertinente para saber si figuran en el modelo \((\)\(\beta_0\neq0\)\()\) o el modelo planteado no es adecuado \((\)\(\beta_1 = 0\)\()\)
Idealmente, la línea de regresión debe estar lo más cerca posible de todos los puntos de datos observados. El suavizado se establece en un nivel de confianza de 0.95 (por defecto).
Para poder identificar si el modelo debería tener intercepto o no hacemos una prueba de hipótesis al 95% de veracidad i.e queremos comprobar que \(\beta_0 \neq 0\) con un intervalo de confianza del 95%
## [1] "Rechazamos H_0"
## [1] "Usar Modelo con Intercepto"
Por lo que estadísticamente el modelo debe tener a \(\beta_0 \neq 0\), aun no la estimamos, pero esta prueba indica que debemos considerarla como parte del modelo de regresión lineal simple.
Ahora consideraremos si existe una relación lineal entre la variable de respuesta y la variable independiente con una prueba de hipótesis. Esto quiere decir que $_1 0 $
## [1] "Rechazamos H_0, beta 1 no es cero "
Por lo que notamos que estadísticamente si existe una relación lineal entre el impuesto local y el precio de venta de la casa, el modelo anteriormente planteado si tomaría en cuenta los parámetros \(\beta_0\) y \(\beta_1\).
Además si consideramos intervalos de confianza para la estimación \(\beta_0\) obtenemos lo siguiente:
## [1] "El intervalo de confianza para beta 0"
## ( 11.5564795648098 , 15.0838789995226 )
Lo que muestra que está muy lejos de llegar a ser 0 en el modelo propuesto.
Ahora considerando el intervalo de confianza correspondiente \(\beta_1\) obtenemos lo siguiente.
## [1] "El intervalo de confianza para beta 1"
## ( 3.05671791705286 , 3.59202454938583 )
Lo cual notamos es que ambos parámetros son necesarios en el modelo propuesto. A Partir de este punto realizaremos el cálculo de los elementos necesarios para la regresión los cuales describiremos.
##
## Call:
## lm(formula = precio_de_venta_de_la_casa ~ impuestos, data = Data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.8343 -2.3157 -0.3669 1.9787 6.3168
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 13.3202 2.5717 5.179 3.42e-05 ***
## impuestos 3.3244 0.3903 8.518 2.05e-08 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.961 on 22 degrees of freedom
## Multiple R-squared: 0.7673, Adjusted R-squared: 0.7568
## F-statistic: 72.56 on 1 and 22 DF, p-value: 2.051e-08
Observando por partes la información que se calculó:
Residuals : Los residuos muestran si los valores de respuesta pronosticados están cerca o no de los valores de respuesta que predice el modelo. Arrojando el valor mínimo(-3.8343), el máximo(6.3168 ) y una tabla de cuantiles, que como podemos observar son casi simétricos con respecto a la media de los residuales.
Coefficient : La primera fila indica el valor del intercepto y la segunda indica la pendiente del modelo para este caso tenemos que puntualmente: \[ \beta_0 = 13.3202\] \[ \beta_1 = 3.3244 \]
Residual Standard error : El error estándar residual es la cantidad promedio que la respuesta se desvía de la línea de regresión (debido a la presencia del término de error), por lo que puede ser una medida de bondad de ajuste para este caso tenemos que : \[ Standard_{error} = 2.961 \]
Resulta que el error porcentual de la predicción es solo de aproximadamente 22.22%
El alto valor de R-cuadrado no necesariamente indica si un modelo de regresión proporciona un ajuste adecuado a los datos. Un buen modelo podría mostrar un valor R cuadrado bajo, mientras que, por otro lado, un modelo sesgado podría tener un valor R cuadrado alto.
Para este caso significa que la variable explicatica impuesto explica el 76.73% la variabilidad en el precio de venta de la casa o en su defecto si tomamos en cuenta la penalizacion, 75.68% de la variabilidad en precio de venta de las casas es descrito por la variable de explicativa propuesta.
El valor de la varianza residual de la muestra es lo que se denomina cuadrados medios residuales (RMS) en la tabla anova, que se mostrará adelante. Y la varianza residual (total) es el equivalente a las sumas de cuadrados (RSS).
## Analysis of Variance Table
##
## Response: precio_de_venta_de_la_casa
## Df Sum Sq Mean Sq F value Pr(>F)
## impuestos 1 636.16 636.16 72.556 2.051e-08 ***
## Residuals 22 192.89 8.77
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Como vemos, los números coinciden perfectamente.
Daremos prioridad a los supuestos en el siguiente orden.
Las gráficas de “diagnóstico” se utilizan para evaluar los supuestos del modelo y comprender si hay observaciones que pueden tener una gran influencia en el análisis. Como consecuencia, el objetivo es tomar las medidas adecuadas para mejorar el ajuste del modelo.
Primero gráficamente revisaremos si la hipótesis de normalidad se cumple, utilizando residuos estandarizados.
Esta gráfica nos puede llegar a dar una idea de si los residuales tienen distribución normal, por lo al tener una cantidad de datos pequeña, la gráfica puede no proporcionar la comprobación visual adecuada, sin embargo la mayoría de los datos comparados con los cuantiles teóricos de la normal están cerca por lo que sugiere que el supuesto de normalidad se está cumpliendo.
Procedemos a validar la normalidad de manera formal planteando la prueba de la siguiente manera, indexando los datos con los que contamos de la siguiente manera solo por formalidad \(\{\) \(X_i\) \(\}^{24}_{i=1}\):
\[Anderson-Darling\] \[ H_0 :\{ X_i \}^{24}_{i=1} \backsim N(\cdot) \] \[ H_a :\{ X_i \}^{24}_{i=1} \not\sim N(\cdot) \]
##
## Anderson-Darling normality test
##
## data: residuos
## A = 0.41477, p-value = 0.3092
Es decir esta prueba nos está indicando que no se está rechazando que la distribución de los datos tengan una distribución normal. Lo que indica que el primer supuesto se está cumpliendo, como nos lo sugería la primera gráfica donde se comparaban los cuantiles de una normal con los de los residuos.
La siguiente gráfica muestra si existen valores atípicos en el modelo de regresión lineal, trazamos líneas horizontales en -2 y 2 ya que en el intervalo \([\) \(\mu\) - \(2\) \(\sigma\) , \(\mu\)+ \(2\) \(\sigma\) \(]\) se encuentra, aproximadamente, el 95,44% de la distribución y por construcción de nuestros residuos estos tienen distribución \(N\) \((\) \(0\),\(1\) \()\)
Adicionalmente se añade el diagrama Cook’s distance que es una estimación comúnmente utilizada de la influencia de un punto de datos cuando se realiza un análisis de regresión de mínimos cuadrados. La distancia de Cook mide el efecto de eliminar una observación dada. Se considera que los puntos con una gran distancia de Cook merecen un examen más detallado en el análisis.
Las distancias superiores a 1 sugieren la presencia de un posible valor atípico, por lo que podemos estar seguros que nuestros datos no presentan algún dato atípico pues ninguna supera esa cota.
La siguiente prueba nos ayuda a garantizar el supuesto de varianza constante, usando la prueba de Breusch Pagan, este método consiste en analizar si la varianza estimada de los residuales de una regresión depende directamente de los valores obtenidos de las variables independientes, uno de los supuestos de esta prueba es que los errores deben comportarse con normalidad. Dicha prueba tiene el siguiente planteamiento: \[ Breusch-Pagan \]
\[ H_0 : \sigma^{2}_j = \sigma^{2} \] \[vs\] \[ H_a : \sigma^{2}_j \neq \sigma^{2} \]
##
## studentized Breusch-Pagan test
##
## data: regresion
## BP = 0.010882, df = 1, p-value = 0.9169
Lo que nos indica que no se rechaza que la varianza sea constante, pues el p-value es mayor \(\alpha\) (significancia) , por lo que podemos decir que el modelo cumple el supuesto dos.
Para el tercer supuesto usaremos la prueba de Durbin-Watson que nos ayudará a ver si la covarianza de los errores es nula, por lo que podemos plantear la prueba de la siguiente manera: \[ Durbin-Watson \]
\[ H_0 : \rho_{j,i}= 0 \] \[ vs \] \[ H_0 : \rho_{j,i} > 0 \]
##
## Durbin-Watson test
##
## data: regresion
## DW = 2.0779, p-value = 0.5264
## alternative hypothesis: true autocorrelation is greater than 0
cómo pues el p-value es mayor \(\alpha\) (significancia) interpretamos que no se rechaza que los errores tengan covarianza nula, por lo que el tercer supuesto se cumple.
Para el supuesto de linealidad tenemos lo siguiente:
Podemos observar una relación lineal entre los impuestos locales y el precio de venta.
exclusión de la variable edad de la casa
Para terminar esta seccion damos los siguientes comentarios:
la variable de la edad de la casa , además de no tener una buena buena correlación con la variable de respuesta, falla en la cantidad de variabilidad que explica en el modelo y no cumple el supuesto de covarianza nula, por lo que no es candidata a ser considerada en ese análisis.
##
## Call:
## lm(formula = Data$precio_de_venta_de_la_casa ~ Data$edad_de_la_casa)
##
## Residuals:
## Min 1Q Median 3Q Max
## -7.939 -4.448 -1.168 4.408 12.025
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 40.99582 3.33628 12.288 2.52e-11 ***
## Data$edad_de_la_casa -0.17041 0.08362 -2.038 0.0537 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 5.63 on 22 degrees of freedom
## Multiple R-squared: 0.1588, Adjusted R-squared: 0.1206
## F-statistic: 4.154 on 1 and 22 DF, p-value: 0.05375
##
## Durbin-Watson test
##
## data: regresion2
## DW = 1.0913, p-value = 0.006894
## alternative hypothesis: true autocorrelation is greater than 0
Parametro | Valor |
---|---|
\(\rho\) | -0.3985177 |
\(R^{2}\) | 0.1588 |
\(p-value\) | 0.006894 |
Las explicaciones de las estimaciones puntuales se hicieron en el punto 4 resumiendo la información presentada tenemos lo siguiente:
Estimacion de \(\beta_0\) y \(\beta_1\) puntualmente
Parametro | Valor |
---|---|
\(\beta_0\) | 13.320179 |
\(\beta_1\) | 3.324371 |
Estimacion de \(\beta_0\) y \(\beta_1\) por intervalo
Considerando un nivel de significancia del 95%
Parametro | Valor |
---|---|
\(\beta_0\) | \((\) 11.5564795648098 \(,\) 15.0838789995226 \()\) |
\(\beta_1\) | \((\) 3.05671791705286 \(,\) 3.59202454938583 \()\) |
Si comparamos el precio de venta real y el precio de venta dado por el modelo obtenemos lo siguiente:
Impuesto local | Valor Real | Valor Predecido |
---|---|---|
4.9176 | 25.9 | 29.66811 |
5.05 | 30.0 | 30.10825 |
6.6969 | 41.9 | 35.58316 |
8.3607 | 38.9 | 41.11425 |
9.0384 | 43.9 | 43.36718 |
Ahora predeiciendo algunos valores :
Impuesto local | Valor Predecido |
---|---|
10 | 46.56389 |
11 | 49.88826 |
12 | 53.21263 |
El modelo propuesto es bueno para predecir el precio de venta de las casas en Erie, ya que como lo notamos cumple con los supuestos de una regresión lineal simple, además de que lo que se paga por vivir en esa zona (Impuesto local ) está fuertemente correlacionado con la valuación de venta de la casa, se excluyó la variable de la edad porque no proporciona buenas estimaciones para el fin pedido, además de tener una baja correlación con la variable de respuesta.
Al considerar los impuestos locales como la variable independiente podemos notar que tiene una varianza baja, lo que se traduce como una medida de riesgo relativamente buena para la valuación, pues en condiciones de mercado normal, la variación de los impuestos llega a ser poca, es decir si el modelo se aplica en condiciones de mercado actuales donde no se presenten especulaciones de crisis financiera, esta regresión no errara.
por lo tanto sugiero usar el siguiente modelo como evaluación rápida de la casa en venta.
\[ Precio_{venta} = 13.320179 + 3.324371 \cdot Impuesto_{local} \]
Es posible mejorar el modelo si se añadieran más variables, pero con las condiciones que se nos pidió resulta que el modelo es bueno para el objetivo pedido.