Este trabajo se centra en aplicar la metodología de la econometría para explicar el precio de las viviendas en función de la superficie construida: se especifica el modelo, se estima el modelo y se verifican y validan las hipóteis subyacentes.
La nube de datos con la que se trabaja representa la superficie de la vivienda en el eje \(x\) y al precio de dicha vivienda en el eje \(y\).
Se trabaja un modelo lineal para estimar el valor de la vivienda conforme decrece o crece el tamaño de esta, así como el cambio marginal en el precio (costo marginal) debido al incremento en una unidad en la superficie de la vivienda. Así mismo, se concluye esta parte sobre el análisis de la vivienda analisando las observacions atípicas e influyentes y como se puede estructurar un mejor modelo.
Se plantea un modelo para expresar la pendiente, es decir, el cambio promedio en el precio debido al aumento en una unidad en la superficie de una vivienda. Así, la forma del modelo toma a la superficie de la vivienda como una variable explicativa para el precio, como se expresa en la Ecuación (1).
\[\begin{equation} \begin{aligned} Y = f(X) + u_i, \end{aligned} \tag{1} \end{equation}\]donde,
\(Y\) representa el precio para cada vivienda \(i\).
\(X\) representa la superficie para cada vivienda \(i\).
\(u_i\) es la variable estocástica o variable de los residuales (errores)
La función de regresión muestral para este modelo es
\[\begin{equation} \begin{aligned} \widehat{Y}_i = \widehat{\beta}_1 + \widehat{\beta}_2 X_i + \widehat{u}_i, \end{aligned} \tag{2} \end{equation}\]Los parámetros del modelo son \(\beta_1\) y \(\beta_2\) donde:
\(\beta_1\) es la ordenada al origen o intercepto.
\(\beta_2\) es la pendiente del modelo (recta).
Para el modelo lineal, la estimación de cada parámetro por la metodología de Mínimos Cuadrados Ordianrios (MMCO) se obtiene como en las Ecuaciones (3) y (4).
\[\begin{equation} \begin{aligned} \widehat{\beta}_1 = \overline{Y} - \widehat{\beta}_2 \overline{X}; \end{aligned} \tag{3} \end{equation}\] \[\begin{equation} \begin{aligned} \widehat{\beta}_2 = \frac{SC_{xy}}{SC_x}, \end{aligned} \tag{4} \end{equation}\]donde:
\(SC_{xy} = \sum_{i=1}^n Y_iX_i - \frac{(\sum_{i=1}^n Y_i)(\sum_{i=1}^n X_i)}{n}\).
\(SC_x = \sum_{i=1}^n X_i^2 - \frac{(\sum_{i=1}^n X_i)^2}{n}\).
En promedio, conforme \(X\) incrementa \(Y\) incrementa y la pendiente o el cambio marginal en el precio (CMP) por un cambio en una unidad de superficie cumple \(CMP= 2,379.72\), lo que significa una contribución positiva al cambio en precio conforme un incremento en superficie. La Tabla 1 muestra la información resumen de la estimación por MMCO.
| term | estimate | std.error | statistic | p.value |
|---|---|---|---|---|
| (Intercept) | 242538.891 | 141763.724 | 1.710867 | 0.0935620 |
| X | 2379.718 | 1011.763 | 2.352052 | 0.0228201 |
El modelo o recta de mejor ajuste sería:
\[\begin{equation} \begin{aligned} 242,538.89 + 2,379.72 X_i = Y_i. \end{aligned} \tag{5} \end{equation}\]Este modelo básico se extiende con la agregación de la variable que indica si hay que reformar o no la vivienda en función de su tamaño y su precio para poder dar un análisis más confiable de la progresión de las viviendas. Así mismo se puede incrementar el tamaño de muestra para asemejar lo más posible la información empírica con la teoría. Con distintas propuestas de conjuntos de variables se generan escenarios para poder seleccionar al mejor modelo.
Se observa de la Ecuación (5) que la estimación de los parámetros tiene loss signos adecuados puesto que la intuición indica que a mayor superficie mayor será el precio.
Interpretación de los coeficientes estimados del modelo
\(\widehat{\beta}_1 = E(Y_i | X_i = 0) = 242,538.89\) representa el valor promedio de la vivienda en el supuesto teórico de que no se tuviera superficie. Esto tiene mejore interpretación si se considera como el valor promedio de la vivienda conforme sus tamaño disminuye, o como el valor de una vivienda más chica que los tamaños considerados en este estudio. Este valor se encuentra en un rango alto, pues hay viviendas dentro del estudio con “mayor” superficie al valor del precio autónomo.
\(\widehat{\beta}_2= \frac{\Delta Y_i}{\Delta X_i}\) representa que un aumento unitario en la varibale explicaiva conlleva a un aumento de \(\widehat{\beta}_2\) unidades en la variable endógena. La pendiente mide el efecto de un aumento marginal en la variable explicativa sobre el valor esperado de \(Y_i\).
Del modelo (5), se encuentra por ejemplo que \(\widehat{Y}_1 = 242,538.89 + 2,379.72(55)\). Así \(X_1= 55\), \(\widehat{Y}_1= 373,423.5\). Para encontrar la varianza del modelo se toma la suma de estos residuales al cuadrado como lo muestra la Ecuación (6).
\[\begin{equation} \begin{aligned} s^2=\widehat{\sigma}_u^2 &= \frac{SCR}{n-k} \\ &= \frac{\sum_{i=1}^n\widehat{u}_i^2}{n-k} \\ &= \frac{\sum_{i=1}^n(Y_i-\widehat{Y}_i)_i^2}{n-k}, \end{aligned} \tag{6} \end{equation}\]A mayor varianza, mayor heterogeneidad en las datos/modelo, por lo que suelen transformar las variables explicativas. Así con una varianza pequeña la desviación estándar es pequeña tal como los errores, por lo que el modelo no falla.
Para evaluar la desviación estándar de las estimaciones se toman las fórmulas en las Ecuaciones (7) y (8).
La precisión de la estimación de los coeficientes aumenta con el número de observaciones (n) y con la disminución de la desviación estándar del regresor, y disminuye cuando decrece el error típico del modelo. Los valores obtenidos se corroboran con los valores del error estándar en la Tabla 1.
\[\begin{equation} \begin{aligned} s_{\widehat{\beta}_1} = \sqrt{\frac{ s^2\sum_{i=1}^n X_i^2}{n\sum_{i=1}^n (X_i - \overline{X})^2}}=141,763.724 , \end{aligned} \tag{7} \end{equation}\] \[\begin{equation} \begin{aligned} s_{\widehat{\beta}_2} = \sqrt{\frac{ s^2}{\sum_{i=1}^n (X_i - \overline{X})^2}}=1,011.763 . \end{aligned} \tag{8} \end{equation}\]Las bandas de confianza para los parámetros se muestran al \(95\%\) en la Tabla 2.
| 2.5 % | 97.5 % | |
|---|---|---|
| (Intercept) | -42496.1796 | 527573.962 |
| X | 345.4333 | 4414.004 |
Por lo tanto, si el modelo cumpliera con todas las hipótesis, podemos afirmar con un nivel de confianza del \(95\%\) que ante un aumento de la superficie en una unidad el precio aumenta de entre \(345.43\) a \(4,414.04\) unidades monetarias.
La importancia de la precisión del modelo recae en su aplicación para la toma de decisiones. A mayor error (desv. est.) menor presición del modelo.
Prueba de hipótesis relativa a \(\beta_2\) (la pendiente del modelo).
Planteamiento de las hipótesis. Se toma como hipóteisis nula, \(H_0: \beta_2=0\), donde \(X\) no es relevante para explicar \(Y\) vs la alternatica, \(H_1=\beta_2 \neq 0\), donde \(X\) si resulta relevante para explicar \(Y\).
Obtener la estadística de prueba \(t_{Cal}=T_{Cal}=\frac{\widehat{\beta}_2-0}{\widehat{\sigma}_{\beta_2}}=\frac{2379.718 }{1011.763}=2.352051\).
Obtener los grados de libertad y determinar la regla de decisión. \(\text{g. de l.} =n-k= 50-2=48\).
La \(H_0\) se rechaza si \(T_{Cal} > T_{Teo}\) o \(-T_{Cal} < -T_{Teo}\). Esto implica que \(2.352051 > -t_{.05/2,48} = 2.010635\), donde \(t_{.05/2,998} = 2.010635\) es el cuantil al \(97.5\%\) para una prueba \(t\) de dos colas con \(50-2=48\) g. de l. Por lo que \(X\) es relevante para explicar \(Y\) y se rechaza \(H_0\) al nivel de significancia del \(5\%\). La superficie explica con un nivel de confiabilidad del \(95\%\) el precio de las viviendas. Dado que la estadística de pruebva resultó ser más grande al valor crítico, rechazamos la hipótesis nula a un nivel de significancia del \(5\%\). En otras palabras, se puede decir que la superficie es relevante para explicar el comportamiento o variación en el precio de la vivienda.
Sin embargo el parámetro del intercepto no es significativo al \(95\%\), ya que cuenta con un p valor de\(0.093\) y su intervalo de confianza contiene al \(0\).
La baja significancia puede corregirse a través del análisis de las observaciones atípicas. Así se propone ir arreglando el modelo considerando estas observaciones y modificarlas o removerlas del estudio.
Análisis de Residuales
Con la pendiente del modelo significativa, se conduce un análisis más profundo de residuales. La motivación principal de este análisis no tiene tanto peso en la interpretación si no en la fundamentación en las hipótesis sobre los residuales que dan soporte al modelo y a predicciones mpas confiables.
Las propiedades básicas del modelo son:
Los residuales se definen como \(u_i = y_i - \widehat{y_i}\), donde \(y_i\) es la i-esima observación y \(\widehat{y}_i\) es la correspondiente observación ajustada por el modelo.
La importancia de los residuales recae en su contribución para calcular la varianza del modelo de la Ecuación (5).
También se tratan las observaciones aberrantes o atípicas y las observaciones influyentes. De la nube de puntos se cuenta con una observación atípica con un precio exorbitante y un tamaño pequeño de la vivienda. Sin embargo esta observación no tiene mucho sentido y seguramente se deba a un error, por lo que se puede eliminar del estudio.
El supuesto de normalidad es el más importante. Es la base de la modelación, por lo que si no se cumple las estimaciones se vuelven más alejadas de la realidad.
La forma funcional del modelo es una regresión simple. Además se considera la regresión simple \(Y = f(X)\).
Primero se observa la dispersión de residuales contra la superficie de la vivienda.
Las observaciones atípicas se muestran como puntos altos lejanos a la nube de puntos principal. Las pruebas estandarizadas proveen de criterios para tratar estas observaciones aberrantes.
La prueba de residuos estandarizados considera la estadística \(D_i = \frac{\widehat{u}_i}{\sqrt{\widehat{\sigma}_{\widehat{u}^2}}}\) y con región crítica \(|D_i|> 3\) para considerar el dato como aberrante. La prueba de residuos studentizados considera la estadística \(s_i=\frac{\widehat{u}_i}{s\sqrt{1-h_{ii}}}\) y región crítica \(|s_i|>\sqrt{n-1}\).
| n | Y | X | rr |
|---|---|---|---|
| 2 | 3095220 | 59 | 6.4856589 |
| 44 | 1110000 | 200 | 0.9362052 |
| 50 | 1051000 | 250 | 0.5106013 |
| 45 | 961620 | 230 | 0.4106825 |
| 37 | 751265 | 160 | 0.3060075 |
| 35 | 715204 | 150 | 0.2766820 |
| n | Y | X | rr |
|---|---|---|---|
| 33 | 390660 | 150 | -0.4993749 |
| 48 | 588992 | 240 | -0.5372582 |
| 7 | 155000 | 65 | -0.5792033 |
| 19 | 216364 | 92 | -0.5861101 |
| 11 | 150253 | 75 | -0.6474588 |
| 25 | 186314 | 100 | -0.7034898 |
De acuerdo a los criterios de residuos estandarizados y residuos studentizados, se puede decir que los datos más atípicos o aberrantes de la relación y repecto a la variable \(X\).
La prueba de residuos externamente estudentizados considera \(\frac{\widehat{u}_i}{s(i)\sqrt{1-h_{ii}}}\), con \(s(i)=\frac{(n-2)s²-\widehat{u}_i^2/(1-h_{ii})}{n-3}\) y clasificando la observación atípica con \(|t_i|>2\). Bajo esta prueba se detectan \(38\) observaciones atípicas.
| n | Y | X | rs |
|---|---|---|---|
| 2 | 3095220 | 59 | 6.6448380 |
| 44 | 1110000 | 200 | 0.9609826 |
| 50 | 1051000 | 250 | 0.5406488 |
| 45 | 961620 | 230 | 0.4285594 |
| 37 | 751265 | 160 | 0.3101036 |
| 35 | 715204 | 150 | 0.2799206 |
| n | Y | X | rext |
|---|---|---|---|
| 2 | 3095220 | 59 | 23.2285176 |
| 44 | 1110000 | 200 | 0.9602014 |
| 50 | 1051000 | 250 | 0.5366238 |
| 45 | 961620 | 230 | 0.4248854 |
| 37 | 751265 | 160 | 0.3071642 |
| 35 | 715204 | 150 | 0.2772157 |
| n | Y | X | rext |
|---|---|---|---|
| 33 | 390660 | 150 | -0.5012642 |
| 48 | 588992 | 240 | -0.5604845 |
| 7 | 155000 | 65 | -0.5879458 |
| 19 | 216364 | 92 | -0.5902336 |
| 11 | 150253 | 75 | -0.6555201 |
| 25 | 186314 | 100 | -0.7085193 |
Para evaluar la normalidad en la distribución de residuales, se observa del gráfico de probabilidad que los datos ajustan muy bien excepto en las observaciones atípicas de la cola derecha.
Al observar la distribución, el histograma muestra normalidad con una media alrededor del \(0\) y las observaciones atípicas sobre la cola derecha. Del diagrama de caja la distribución normal también se muestra con media \(0\) y con dos observaciones atípicas como precios fuera del rango intercuartil.
Otras gráficas de residuales
Se ilustra el efecto que tiene una observación aberrante al ingresarse con un cero demás en su valor. En general el modelo es bueno pues la relación es lineal entre las variables y puede ayudar a predecir el precioo en función de la superficie, sólamente, queda tratar con las observaciones atípicas, que incluyen la cifra de prueba (vivienda \(2\)), así como viviendas que exceden el \(\$1,000,000.00\) (viviendas \(45\) y \(50\)) y las viendas por debajo del precio autónomo y con superficies pequeñas (vivienda \(25\)), o en su defecto dar una mayor explicación de su comportamiento fuera de lo común.
| n | Y | X |
|---|---|---|
| 2 | 3095220 | 59 |
| 25 | 186314 | 100 |
| 45 | 961620 | 230 |
| 50 | 1051000 | 250 |