Sea \((x_i,y_i)\), \(i=1,...,n\) un conjunto de parejas de observaciones. Considere las regresiones, \(y\) sobre \(x\) y \(x\) sobre \(y\). Demuestre que:
Sabemos que \(\hat{\beta_1}^{y}=\frac{S_{xy}}{S_x}\) y \(\hat{\beta_1}^{x}=\frac{S_{xy}}{S_y}\) donde \(S_{xy}=\sum_{i=i}^{n}(x_i-\bar{x})(y_i-\bar{y})\), \(S_{x}=\sum_{i=i}^{n}(x_i-\bar{x})^2\) y \(S_{y}=\sum_{i=i}^{n}(y_i-\bar{y})^2\), notemos que \(S_x\geq0\) y \(S_x\geq0\) \(\implies\) el signo de \(\hat{\beta_1}^{y} y \hat{\beta_1}^{x}\) es el signo de \(S_{xy}\). Así se concluye que tienen el mismo signo. \(\Box\)
Primero se sustituye en el estimador de beta uno para la regresión \(y \sim x\): \(\hat{\beta_1}^{y}=\frac{\sum_{i=i}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=i}^{n}(x_i-\bar{x})^2}=\frac{\sum_{i=i}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^{n} (x_i-\hat{x_i})^2+\sum_{i=1}^{n}(\hat{x_i}-\bar{x})^2}=\frac{\sum_{i=i}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^{n}(\hat{x_i}-\bar{x})^2}\)
Por otra parte, sabemos que: \(\bar{y}=\hat{\beta_0}^y+\hat{\beta_1}^{y}\bar{x}\) y \(\bar{x}=\hat{\beta_0}^x+\hat{\beta_1}^{x}\bar{y}\)
\(\implies\) \(\sum_{i=1}^{n}(\hat{x_i}-\bar{x})^2=\sum_{i=1}^{n}(\hat{\beta_0}^x+\hat{\beta_1}^{x}\hat{y_i}-\hat{\beta_0}^x+\hat{\beta_1}^{x}\bar{y})^2=(\hat{\beta_1}^{x})^2\sum_{i=1}^{n}(\hat{y_i}-\bar{y})^2\)
\(\implies\) \(\hat{\beta_1}^{y}=\frac{\sum_{i=i}^{n}(x_i-\bar{x})(y_i-\bar{y})}{(\hat{\beta_1}^{x})^2\sum_{i=1}^{n}(\hat{y_i}-\bar{y})^2}=\frac{\sum_{i=i}^{n}(x_i-\bar{x})(y_i-\bar{y})}{(\hat{\beta_1}^{x})^2\sum_{i=1}^{n}(y_i-\bar{y})^2}=\frac{\hat{\beta_1}^{x}}{(\hat{\beta_1}^{x})^2}=\frac{1}{\hat{\beta_1}^{x}}\)
\(\implies\) \(\hat{\beta_0}^x=\bar{x}-\hat{\beta_1}^x\bar{y}=\bar{x}-\frac{\bar{y}}{\hat{\beta_1}^y}=\frac{\hat{\beta_1}^y\bar{x}-\bar{y}}{\hat{\beta_1}^y}=\frac{-\hat{\beta_0}^y}{\hat{\beta_1}^y}\)
Análogamente se tiene \(\hat{\beta_0}^y=\frac{-\hat{\beta_0}^x}{\hat{\beta_1}^x}\) y por hipótesis \(\sum_{i=1}^{n} (y_i-\hat{y_i})^2=0=\sum_{i=1}^{n} (x_i-\hat{x_i})^2\)
\(\iff\) \(\forall i \in [i,...,n] [x_i=\hat{x_i},\,y_i=\hat{y_i}]\)
\(\iff\) \(\hat{y_i}=\hat{\beta_0}^y+\hat{\beta_1}^yx_i=\hat{\beta_0}^y+\hat{\beta_1}^y\hat{x_i}=\frac{-\hat{\beta_0}^x}{\hat{\beta_1}^x}+\frac{\hat{x_i}}{\hat{\beta_1}^x}\)
\(\iff\) \(\hat{\beta_1}^xy_i=-\hat{\beta_0}^x+\hat{x_i}\)
\(\iff\) \(\hat{x_i}=\hat{\beta_0}^x+\hat{\beta_1}^xy_i\) \(\iff\) son las mismas rectas. \(\Box\)
Primero voy a probar la desigualdad de la proporción de las pendientes. Primero recordemos que:
\(\hat{\beta_1}^y=\frac{\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^{n}(y_i-\bar{y})^2}=\frac{S_{xy}}{S_{yy}}\) y \(\hat{\beta_1}^x=\frac{\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^{n}(x_i-\bar{x})^2}=\frac{S_{xy}}{S_{xx}}\)
\(\implies\) \(\frac{\hat{\beta_1}^y}{\hat{\beta_1}^x}=\frac{\frac{S_{xy}}{S_{yy}}}{\frac{S_{xy}}{S_{xx}}}=\frac{S_{xx}}{S_{yy}}<1\), ya que la pendiente de la regresión de \(x\) es mayor a la de \(y\), \(\implies\) \(0\leq(\frac{\hat{\beta_1}^y}{\hat{\beta_1}^x})^2<1\)
Luego, queremos ver qué relación hay entre las rectas de regresión cuando estas no son las mismas, por la afirmación 2. se tiene que
\(\sum_{i=1}^{n} (y_i-\hat{y_i})^2\neq0\neq\sum_{i=1}^{n} (x_i-\hat{x_i})^2\)
\(\implies\) \(\hat{\beta_1}^{y}\neq\frac{1}{\hat{\beta_1}^{x}}\). Además se tienen las siguientes igualdades, la primera es el coeficiente de Pearson \(r=\frac{S_{xy}}{\sqrt{S_xS_y}}\), \(\hat{\beta_1}^y=\frac{S_{xy}}{S_{yy}}\) y \(\hat{\beta_1}^x=\frac{S_{xy}}{S_{xx}}\) \(\implies\) \(r^2=\frac{S_{xy}^2}{S_xS_y}=\hat{\beta_1}^x\hat{\beta_1}^y\). Sabemos además que \(0\leq r^2<1\) Notemos que la desigualdad es menor estricta que uno ya que si no se tendrían las mismas rectas.
Por lo tanto \(\hat{\beta_1}^y\hat{\beta_1}^x<1\) \(\implies\) \(\hat{\beta_1}^y<\frac{1}{\hat{\beta_1}^x}\) \(\Box\)
La razón por la que ocurre esto es por la manera en que se está midiendo la distancia entre las observaciones y los valores estimados.
Considere el modelo de regresión múltiple con \(p=2\) regresores \(y=\beta_0+\beta_1x_1+\beta_2x_2+\varepsilon\)
La prueba F de significancia del modelo puede ser significativa o no; y ninguna, alguna o todas las pruebas t para los coeficientes \(\beta_i\) pueden ser significativas. Las seis combinaciones pueden ocurrir.
Primero calcularé la prueba F. Recordemos algunas cosas:
Se tiene el modelo \(y_i=\beta_0+\beta_1x_1+\beta_2x_2+\varepsilon\). La prueba F se planea contrarrestar la prueba \(H_0:\beta_1=\beta_2=0\) vs \(H_1:\beta_i\neq 0\).
Primero, sabemos que \(\frac{\sum_{i=1}^{n}(\hat{y_i}-\bar{y})^2}{\sigma^2} \sim \chi_{2-1}\) y \(\frac{\sum_{i=1}^{n}(y_i-\hat{y_i})^2}{\sigma^2} \sim \chi_{n-2}\)
\(\implies\) \(\frac{\frac{\sum_{i=1}^{n}(\hat{y_i}-\bar{y})^2}{(2-1)\sigma^2}}{\frac{\sum_{i=1}^{n}(y_i-\hat{y_i})^2}{(n-2)\sigma^2}}=\frac{n-2}{2-1}[\frac{\sum_{i=1}^{n}(\hat{y_i}-\bar{y})^2}{\sum_{i=1}^{n}(y_i-\hat{y_i})^2}]=f \sim \mathcal{F}_{(2-1,n-2)}\)
Por otra parte sabemos que \(\hat{y_i}=\hat{\beta_0}+\hat{\beta_1}x_{i1}+\hat{\beta_2}x_{i2}\) y \(\bar{y}=\hat{\beta_0}+\hat{\beta_1}\bar{x_1}+\hat{\beta_2}\bar{x_2}\)
\(\implies\) \(f=\frac{n-2}{(2-1)\sum_{i=1}^{n}(y_i-\hat{y_i})^2}\sum_{i=1}^{n}(\hat{\beta_0}+\hat{\beta_1}x_{i1}+\hat{\beta_2}x_{i2}-\hat{\beta_0}+\hat{\beta_1}\bar{x_1}+\hat{\beta_2}\bar{x_2})^2\)
\(\implies\) \(f=\frac{n-2}{(2-1)\sum_{i=1}^{n}(y_i-\hat{y_i})^2}\sum_{i=1}^{n}(\hat{\beta_1}(x_{i1}-\bar{x_1})+\hat{\beta_2}(x_{i2}-\bar{x_2}))^2\)
\(\implies\) \(f=\frac{n-2}{(2-1)\sum_{i=1}^{n}(y_i-\hat{y_i})^2}(\hat{\beta_1}^2(\sum_{i=1}^{n}(x_{i1}-\bar{x_1})^2)+\hat{\beta_1}\hat{\beta_2}\sum_{i=1}^{n}(x_{i1}-\bar{x_1})(x_{i2}-\bar{x_2})+\hat{\beta_2}^2(\sum_{i=1}^{n}(x_{i2}-\bar{x_2})^2)) \leq \mathcal{f_{1-\alpha}}\)
Donde \(\mathcal{f_{1-\alpha}}\) es el cuantíl al \(1-\alpha\) de la distribución F. Lo cual nos da una regla de rechazo para realizar la prueba F.
En el primer caso, se tiene que individualmente las variables no explican el modelo, sin embargo ya todas juntas sí lo hacen; en el segundo caso podría ocurrir debido a que haya un erros en las variables, un error de colinealidad.
scatterplot Matrix
## mpg cylinders displacement horsepower weight
## mpg 1.0000000 -0.7762599 -0.8044430 0.4228227 -0.8317389
## cylinders -0.7762599 1.0000000 0.9509199 -0.5466585 0.8970169
## displacement -0.8044430 0.9509199 1.0000000 -0.4820705 0.9331044
## horsepower 0.4228227 -0.5466585 -0.4820705 1.0000000 -0.4821507
## weight -0.8317389 0.8970169 0.9331044 -0.4821507 1.0000000
## acceleration 0.4222974 -0.5040606 -0.5441618 0.2662877 -0.4195023
## year 0.5814695 -0.3467172 -0.3698041 0.1274167 -0.3079004
## origin 0.5636979 -0.5649716 -0.6106643 0.2973734 -0.5812652
## acceleration year origin
## mpg 0.4222974 0.5814695 0.5636979
## cylinders -0.5040606 -0.3467172 -0.5649716
## displacement -0.5441618 -0.3698041 -0.6106643
## horsepower 0.2662877 0.1274167 0.2973734
## weight -0.4195023 -0.3079004 -0.5812652
## acceleration 1.0000000 0.2829009 0.2100836
## year 0.2829009 1.0000000 0.1843141
## origin 0.2100836 0.1843141 1.0000000
##
## Call:
## lm(formula = mpg ~ cylinders + displacement + horsepower + weight +
## acceleration + year + origin, data = auto)
##
## Residuals:
## Min 1Q Median 3Q Max
## -9.629 -2.034 -0.046 1.801 13.010
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -2.128e+01 4.259e+00 -4.998 8.78e-07 ***
## cylinders -2.927e-01 3.382e-01 -0.865 0.3874
## displacement 1.603e-02 7.284e-03 2.201 0.0283 *
## horsepower 7.942e-03 6.809e-03 1.166 0.2442
## weight -6.870e-03 5.799e-04 -11.846 < 2e-16 ***
## acceleration 1.539e-01 7.750e-02 1.986 0.0477 *
## year 7.734e-01 4.939e-02 15.661 < 2e-16 ***
## origin 1.346e+00 2.691e-01 5.004 8.52e-07 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.331 on 389 degrees of freedom
## Multiple R-squared: 0.822, Adjusted R-squared: 0.8188
## F-statistic: 256.7 on 7 and 389 DF, p-value: < 2.2e-16
Notemos que el p-value de la prueba F es \(<2.2e-16\) por lo que se concluye que sí hay relación entre las variables predictoras y la variable respuesta. Ademásr de que \(R=.82\), lo que significa que las variables sí están explicando a la variable respuesta.
Podemos decir que todas las variables, menos las variables horsepower y cylinders, son estadísticamente significativas.
Sugiere que el consumo de galones por millas incrementa según los años.
Plot
En el plot de residuals se observa que hay un patrón en los datos, pero este es muy pequeño, sin embargo el gráfico Q-Q nos indica que el modelo ajusta bien. Además se ve que solo hay pocos outliers. Por último, el leverage plot nos dice que solo hay una observación influyente fuera de rango, pero no está demasiado lejos, por lo que no debería de afectar al modelo
5.Use los símbolos * y : para ajustar modelos de regresión lineal con efectos de interacción. ¿Algunas de estas interacciones parecen ser estadísticamente significativas?
Podemos notar que las interacciones cylinders con year y cylinders con weight son estadísticamente significativasVariable de respuesta:
Sales = ventas
Variables Explicativas:
Price = Precio que la compañía cobra por los asientos de automóvil en cada sitio
Urban = Variable categórica que indica si la tienda está en una comunidad urbana o rural
US = Variable categórica, nos indica si la tienda está dentro o fuera de Estados Unidos de América.
## Sales CompPrice Income Advertising
## Min. : 0.000 Min. : 77 Min. : 21.00 Min. : 0.000
## 1st Qu.: 5.390 1st Qu.:115 1st Qu.: 42.75 1st Qu.: 0.000
## Median : 7.490 Median :125 Median : 69.00 Median : 5.000
## Mean : 7.496 Mean :125 Mean : 68.66 Mean : 6.635
## 3rd Qu.: 9.320 3rd Qu.:135 3rd Qu.: 91.00 3rd Qu.:12.000
## Max. :16.270 Max. :175 Max. :120.00 Max. :29.000
## Population Price ShelveLoc Age
## Min. : 10.0 Min. : 24.0 Bad : 96 Min. :25.00
## 1st Qu.:139.0 1st Qu.:100.0 Good : 85 1st Qu.:39.75
## Median :272.0 Median :117.0 Medium:219 Median :54.50
## Mean :264.8 Mean :115.8 Mean :53.32
## 3rd Qu.:398.5 3rd Qu.:131.0 3rd Qu.:66.00
## Max. :509.0 Max. :191.0 Max. :80.00
## Education Urban US
## Min. :10.0 No :118 No :142
## 1st Qu.:12.0 Yes:282 Yes:258
## Median :14.0
## Mean :13.9
## 3rd Qu.:16.0
## Max. :18.0
La mediana de las ventas se ubica en 7.490, mientras que la media es de 7.496, además la mayor parte de las tiendas se ubican en una zona urbana y dentro de Estados Unidos de América.
En promedio vemos que las ventas en una comunidad rural y un urbana son casi iguales. Por lo que veremos que esta variable “Urban” no será significativa en nuestro modelo.
El precio presenta una tendencia lineal negativa con las ventas, esto quiere decir que por nuestras ventas aumentan cuando los precios disminuyen.
EJERCICIOS:
a) Ajustar un modelo de regresión múltiple para predecir las ventas usando el precio, urbanidad y US
m1 <- lm(Sales~Price + Urban + US, data=Carseats)
b) Dar un interpretación de cada coeficiente del modelo B0 = 13.04347 es el promedio esperado de ventas cuando la localización de las tiendas es urbana y están dentro de Estados Unidos de América y no hay incrementos en los demas factores.
B1 = -0.05446 nos dice que por cada unidad que se incrementa el precio, las ventas bajan considerando que la tienda se encuentra en una comunidad urbana y dentro de US.
La diferencia en promedio de que la tienda se localice en una comunidad rural o urbana dentro de Estados Unidos de América es B2 = -0.02192 , manteniendo los demás factores constantes.
B3 = 1.20057 es la diferencia en promedio de que la tienda se localice dentro o fuera de Estados Unidos de América, considerando una comunidad urbana y manteniendo los demás factores constantes.
c) Escribir el modelo en forma de ecuación \(Ysales\) = 13.04347 - 0.05446\(Xprice\) - 0.02192 \(1[urban=yes]\) + 1.20057\(1[us=yes]\)
d) ¿Para cuál de los predictores podemos rechazar la hipótesis nula Ho: Bj=0?Nuevamente notamos que “Urban” no es significativa para nuestro modelo.Por lo que podemos decir que no la comunidad en que está ubicada la tienda no es relevante para las ventas.
e) Con base en la respuesta de la pregunta anterior, ajusta un modelo más pequeño que sólo use los predictores para los cuales hay evidencia de asociación con la variable de respuesta.
Podemos notar que el modelo no cambio tanto, sin embargo veamos el anova, drop1 y AIC, BIC.Ambas variables son sgnificativas bajo pruebas individuales para el modelo
Compareos los dos modelos bajo una prueba ji-cuadrada:Pruebas AIC, BIC:
## [1] 1865.312
## [1] 1885.269
## [1] 1863.319
## [1] 1885.269
El AIC del modelo 2 es menor que el del modeo 1, por lo que vemos, el modelo 2 es mejor.
f) ¿Qué tan bueno es el ajuste de los modelos a los datos?
##
## Call:
## lm(formula = Sales ~ Price + Urban + US, data = Carseats)
##
## Residuals:
## Min 1Q Median 3Q Max
## -6.9206 -1.6220 -0.0564 1.5786 7.0581
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 13.043469 0.651012 20.036 < 2e-16 ***
## Price -0.054459 0.005242 -10.389 < 2e-16 ***
## UrbanYes -0.021916 0.271650 -0.081 0.936
## USYes 1.200573 0.259042 4.635 4.86e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.472 on 396 degrees of freedom
## Multiple R-squared: 0.2393, Adjusted R-squared: 0.2335
## F-statistic: 41.52 on 3 and 396 DF, p-value: < 2.2e-16
##
## Call:
## lm(formula = Sales ~ Price + US)
##
## Residuals:
## Min 1Q Median 3Q Max
## -6.9269 -1.6286 -0.0574 1.5766 7.0515
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 13.03079 0.63098 20.652 < 2e-16 ***
## Price -0.05448 0.00523 -10.416 < 2e-16 ***
## USYes 1.19964 0.25846 4.641 4.71e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.469 on 397 degrees of freedom
## Multiple R-squared: 0.2393, Adjusted R-squared: 0.2354
## F-statistic: 62.43 on 2 and 397 DF, p-value: < 2.2e-16
R^2 ajustada para el segundo modelo es 23.54% mientras que para el primer modelo es 23.35% , sin embargo es baja comparada al 100%. Esto nos dice que el modelo sí mejoró al ajutar el segundo modelo pero no lo suficiente, esto pasa por la cantidad de variables que tenemos (2)
g) Usando el modelo e), obetener IC 95%
## 2.5 % 97.5 %
## (Intercept) 11.76359670 14.32334118
## Price -0.06476419 -0.04415351
## UrbanYes -0.55597316 0.51214085
## USYes 0.69130419 1.70984121
Notamos que cuando la variable “Urban” con categoría de referencia = Urbana, el cero está contenido en el IC 95% por lo que estadísticamente es cero. Es decir, no juega un papel significativo en nuestro modelo.
## 2.5 % 97.5 %
## (Intercept) 11.79032020 14.27126531
## Price -0.06475984 -0.04419543
## USYes 0.69151957 1.70776632
En este modelo, las dos variables explicativas sí son significativas para nuestro modelo pues en los IC 95% no contienen al cero.
h) ¿Hay evidencia de observaciones atípicas o de alto apalancamiento?
El apalancamiento no es alto por lo que no presenta mayor problema en nuestro modelo, además en la gráfica Q-Qnorm, podemos notar que nuestros datos se están ajustando mejor en este segundo modelo; los valores ajustados vs los residuales mantienen una dispersión en torno al cero y tenemos sólo tres datos atípicos.
Datos:
Variable de respuesta:
crim = Un vector numérico del crimen per cápita.
Variables explicativas:
zn = un vector numérico de proporciones de tierra residencial zonificada para lotes de más de 25000 pies cuadrados por ciudad (constante para todas las zonas de Boston)
indus = un vector numérico de proporciones de acres de negocios no minoristas por ciudad (constante para todas las zonas de Boston)
chas = un factor con los niveles 1 si el tramo bordea el río Charles; 0 de lo contrario
nox = un vector numérico de concentración de óxidos nítricos (partes por 10 millones) por ciudad
rm = Un vector numérico de números promedio de habitaciones por vivienda.
age = un vector numérico de proporciones de unidades ocupadas por el propietario construidas antes de 1940
dis = un vector numérico de distancias ponderadas a cinco centros de empleo de Boston
rad = un vector numérico de un índice de accesibilidad a las autopistas radiales por ciudad (constante para todas las zonas de Boston)
tax = una tasa de impuesto a la propiedad de valor completo por vector numérico por USD 10,000 por ciudad (constante para todas las zonas de Boston)
ptratio = un vector numérico de proporciones alumno / maestro por ciudad (constante para todas las zonas de Boston)
black = un vector numérico de 1000*(Bk - 0.63)^2donde Bk es la proporción de negros
lstat = un vector numérico de valores porcentuales de población de estado más bajo
medv = un vector numérico de valores medianos de viviendas ocupadas por sus propietarios en USD 1000
## crim zn indus chas
## Min. : 0.00632 Min. : 0.00 Min. : 0.46 Min. :0.00000
## 1st Qu.: 0.08204 1st Qu.: 0.00 1st Qu.: 5.19 1st Qu.:0.00000
## Median : 0.25651 Median : 0.00 Median : 9.69 Median :0.00000
## Mean : 3.61352 Mean : 11.36 Mean :11.14 Mean :0.06917
## 3rd Qu.: 3.67708 3rd Qu.: 12.50 3rd Qu.:18.10 3rd Qu.:0.00000
## Max. :88.97620 Max. :100.00 Max. :27.74 Max. :1.00000
## nox rm age dis
## Min. :0.3850 Min. :3.561 Min. : 2.90 Min. : 1.130
## 1st Qu.:0.4490 1st Qu.:5.886 1st Qu.: 45.02 1st Qu.: 2.100
## Median :0.5380 Median :6.208 Median : 77.50 Median : 3.207
## Mean :0.5547 Mean :6.285 Mean : 68.57 Mean : 3.795
## 3rd Qu.:0.6240 3rd Qu.:6.623 3rd Qu.: 94.08 3rd Qu.: 5.188
## Max. :0.8710 Max. :8.780 Max. :100.00 Max. :12.127
## rad tax ptratio black
## Min. : 1.000 Min. :187.0 Min. :12.60 Min. : 0.32
## 1st Qu.: 4.000 1st Qu.:279.0 1st Qu.:17.40 1st Qu.:375.38
## Median : 5.000 Median :330.0 Median :19.05 Median :391.44
## Mean : 9.549 Mean :408.2 Mean :18.46 Mean :356.67
## 3rd Qu.:24.000 3rd Qu.:666.0 3rd Qu.:20.20 3rd Qu.:396.23
## Max. :24.000 Max. :711.0 Max. :22.00 Max. :396.90
## lstat medv
## Min. : 1.73 Min. : 5.00
## 1st Qu.: 6.95 1st Qu.:17.02
## Median :11.36 Median :21.20
## Mean :12.65 Mean :22.53
## 3rd Qu.:16.95 3rd Qu.:25.00
## Max. :37.97 Max. :50.00
El crimen pér cápita en promedio es de 3. 6145 y la mediana es de 0.25651.
a) Para cada predictor ajustar un modelo RLS para predecir la respuesta. Describir los resultados.¿En cuál de los modelos hay asociación estadística significante entre los predictores y la respuesta? Hacer algunas gráficas para sustentar tus respuestas
La única variable no significativa para el modelo es “chas”, es decir, no afecta a la tasa de crimen si se bordea por el rio Charles o no
Para la variable “chas” vemos que en la gráfica Q-Q norm no hay una relación lineal, además, si la comparamos ocon la gráfica de valores ajustados vs residuales de una variasble significativa que es “black”, podemos notar que en esta última sí se tiene dispersión de los datos mientras que en “chas” no hay tanta dispersión.
b) Ajustar un modelo RLM para predecir la respuesta usando todos los predictores. Describir los resultados. ¿Para cuál de los predictores podemos rechazar la hipótesis nula Ho: Bj=0?
##
## Call:
## lm(formula = crim ~ zn + indus + chas + nox + rm + age + dis +
## rad + tax + ptratio + black + lstat + medv, data = Boston)
##
## Coefficients:
## (Intercept) zn indus chas nox
## 17.033228 0.044855 -0.063855 -0.749134 -10.313535
## rm age dis rad tax
## 0.430131 0.001452 -0.987176 0.588209 -0.003780
## ptratio black lstat medv
## -0.271081 -0.007538 0.126211 -0.198887
Utilizamos todos los predictores para nuestro modelo RLM. Ahora con anova obtuvimos que las variables “rm”, tax" y “ptratio” no son significantes para nuestro modelo RLM (nivel de significa = 0.05), es decir, en promedio las habitaciones por vivienda, la tasa de impuesto a la propiedad y las proporcioes de profesor/alumno no afectan el crimen pér cápita.
Sin embargo, “chas” sí es significativa mediante pruebas secuenciales. (nivel de significancia = 0.05), pero no mediante pruebas individuales.
Realizando pruebas individuales, obtenemos que las únicas variables significativas son: zn, dis, rad, black, medv, a un nivel de significancia de 0.05%
c) ¿Cómo se comparan los resultados de (a) con los resultados de (b)? Crear una gráfica que muestre los coeficientes de regresión univariados de (a) en el eje x, y los coeficientes de regresión múltiple de (b) en el eje y. Es decir, cada predictor se muestra como un punto único en la recta. Su coeficiente en un modelo de regresión lineal simple se muestra en el eje x, y su estimación de coeficiente en el modelo de regresión lineal múltiple se muestra en el eje y.
Tanto en el inciso a) como en el b) se obtuvo que las variable “chas” no es significativa para nuestro modelo, las variables significativas finales son: zn, dis, rad, black y medv, a un nivel de significancia de 0.05%
Es decir, en promedio las proporciones de tierra residencial zonificada para lotes de más de 25000 pies cuadrados por ciudad, las distancias ponderadas a cinco centros de empleo de Boston, la accesibilidad a las autopistas por ciudad, la proporción de negros y los valores medianos de viviendas ocupadas por sus propietarios en USD 1000, son aquellas variables que presentan una relación lineal con el crimen pér cápita.
** d) ¿Hay evidencia de asociación no lineal entre cualquiera de los predictores y la respuesta? Para responder a esta pregunta, para cada predictor X, ajuste un modelo de la forma Y = B0 + B1X + B2X^2 + B3*X^3 + e**
Sí se están presentando asociaciones no lineales, las variables que las presentan son aquellas que no fueron signifircativas en nuestro modelo de RLM. Además las variables “zn” y “dis”, llegan a estar cerca de presentar una relación no lineal.