Ejercicio 1

Sea \((x_i,y_i)\), \(i=1,...,n\) un conjunto de parejas de observaciones. Considere las regresiones, \(y\) sobre \(x\) y \(x\) sobre \(y\). Demuestre que:

  1. Las rectas de regresión tienen pendiente del mismo signo.

Demostración.

Sabemos que \(\hat{\beta_1}^{y}=\frac{S_{xy}}{S_x}\) y \(\hat{\beta_1}^{x}=\frac{S_{xy}}{S_y}\) donde \(S_{xy}=\sum_{i=i}^{n}(x_i-\bar{x})(y_i-\bar{y})\), \(S_{x}=\sum_{i=i}^{n}(x_i-\bar{x})^2\) y \(S_{y}=\sum_{i=i}^{n}(y_i-\bar{y})^2\), notemos que \(S_x\geq0\) y \(S_x\geq0\) \(\implies\) el signo de \(\hat{\beta_1}^{y} y \hat{\beta_1}^{x}\) es el signo de \(S_{xy}\). Así se concluye que tienen el mismo signo. \(\Box\)

  1. Resultan en la misma recta de regresión si y sólo si \(RSS=0\) para ambas.

Demostración:

Primero se sustituye en el estimador de beta uno para la regresión \(y \sim x\): \(\hat{\beta_1}^{y}=\frac{\sum_{i=i}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=i}^{n}(x_i-\bar{x})^2}=\frac{\sum_{i=i}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^{n} (x_i-\hat{x_i})^2+\sum_{i=1}^{n}(\hat{x_i}-\bar{x})^2}=\frac{\sum_{i=i}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^{n}(\hat{x_i}-\bar{x})^2}\)

Por otra parte, sabemos que: \(\bar{y}=\hat{\beta_0}^y+\hat{\beta_1}^{y}\bar{x}\) y \(\bar{x}=\hat{\beta_0}^x+\hat{\beta_1}^{x}\bar{y}\)

\(\implies\) \(\sum_{i=1}^{n}(\hat{x_i}-\bar{x})^2=\sum_{i=1}^{n}(\hat{\beta_0}^x+\hat{\beta_1}^{x}\hat{y_i}-\hat{\beta_0}^x+\hat{\beta_1}^{x}\bar{y})^2=(\hat{\beta_1}^{x})^2\sum_{i=1}^{n}(\hat{y_i}-\bar{y})^2\)

\(\implies\) \(\hat{\beta_1}^{y}=\frac{\sum_{i=i}^{n}(x_i-\bar{x})(y_i-\bar{y})}{(\hat{\beta_1}^{x})^2\sum_{i=1}^{n}(\hat{y_i}-\bar{y})^2}=\frac{\sum_{i=i}^{n}(x_i-\bar{x})(y_i-\bar{y})}{(\hat{\beta_1}^{x})^2\sum_{i=1}^{n}(y_i-\bar{y})^2}=\frac{\hat{\beta_1}^{x}}{(\hat{\beta_1}^{x})^2}=\frac{1}{\hat{\beta_1}^{x}}\)

\(\implies\) \(\hat{\beta_0}^x=\bar{x}-\hat{\beta_1}^x\bar{y}=\bar{x}-\frac{\bar{y}}{\hat{\beta_1}^y}=\frac{\hat{\beta_1}^y\bar{x}-\bar{y}}{\hat{\beta_1}^y}=\frac{-\hat{\beta_0}^y}{\hat{\beta_1}^y}\)

Análogamente se tiene \(\hat{\beta_0}^y=\frac{-\hat{\beta_0}^x}{\hat{\beta_1}^x}\) y por hipótesis \(\sum_{i=1}^{n} (y_i-\hat{y_i})^2=0=\sum_{i=1}^{n} (x_i-\hat{x_i})^2\)

\(\iff\) \(\forall i \in [i,...,n] [x_i=\hat{x_i},\,y_i=\hat{y_i}]\)

\(\iff\) \(\hat{y_i}=\hat{\beta_0}^y+\hat{\beta_1}^yx_i=\hat{\beta_0}^y+\hat{\beta_1}^y\hat{x_i}=\frac{-\hat{\beta_0}^x}{\hat{\beta_1}^x}+\frac{\hat{x_i}}{\hat{\beta_1}^x}\)

\(\iff\) \(\hat{\beta_1}^xy_i=-\hat{\beta_0}^x+\hat{x_i}\)

\(\iff\) \(\hat{x_i}=\hat{\beta_0}^x+\hat{\beta_1}^xy_i\) \(\iff\) son las mismas rectas. \(\Box\)

  1. La pendiente de la recta de regresión de \(x\) sobre \(y\) es en todos los otros casos mayor (en valor absoluto) que la pendiente de la recta de regresión de \(y\) sobre \(x\), y la proporción de las pendientes es \(0 \leq r<1\)

Demostración.

Primero voy a probar la desigualdad de la proporción de las pendientes. Primero recordemos que:

\(\hat{\beta_1}^y=\frac{\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^{n}(y_i-\bar{y})^2}=\frac{S_{xy}}{S_{yy}}\) y \(\hat{\beta_1}^x=\frac{\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^{n}(x_i-\bar{x})^2}=\frac{S_{xy}}{S_{xx}}\)

\(\implies\) \(\frac{\hat{\beta_1}^y}{\hat{\beta_1}^x}=\frac{\frac{S_{xy}}{S_{yy}}}{\frac{S_{xy}}{S_{xx}}}=\frac{S_{xx}}{S_{yy}}<1\), ya que la pendiente de la regresión de \(x\) es mayor a la de \(y\), \(\implies\) \(0\leq(\frac{\hat{\beta_1}^y}{\hat{\beta_1}^x})^2<1\)

Luego, queremos ver qué relación hay entre las rectas de regresión cuando estas no son las mismas, por la afirmación 2. se tiene que

\(\sum_{i=1}^{n} (y_i-\hat{y_i})^2\neq0\neq\sum_{i=1}^{n} (x_i-\hat{x_i})^2\)

\(\implies\) \(\hat{\beta_1}^{y}\neq\frac{1}{\hat{\beta_1}^{x}}\). Además se tienen las siguientes igualdades, la primera es el coeficiente de Pearson \(r=\frac{S_{xy}}{\sqrt{S_xS_y}}\), \(\hat{\beta_1}^y=\frac{S_{xy}}{S_{yy}}\) y \(\hat{\beta_1}^x=\frac{S_{xy}}{S_{xx}}\) \(\implies\) \(r^2=\frac{S_{xy}^2}{S_xS_y}=\hat{\beta_1}^x\hat{\beta_1}^y\). Sabemos además que \(0\leq r^2<1\) Notemos que la desigualdad es menor estricta que uno ya que si no se tendrían las mismas rectas.

Por lo tanto \(\hat{\beta_1}^y\hat{\beta_1}^x<1\) \(\implies\) \(\hat{\beta_1}^y<\frac{1}{\hat{\beta_1}^x}\) \(\Box\)

  1. Explique cómo es posible que suceda 3, cuando en ambos casos \(\hat{\beta}\) es un estimador insesgado de \(\beta\).

Solución.

La razón por la que ocurre esto es por la manera en que se está midiendo la distancia entre las observaciones y los valores estimados. Regresión de x sobre y Regresión de y sobre x

Ejercicio 2

Considere el modelo de regresión múltiple con \(p=2\) regresores \(y=\beta_0+\beta_1x_1+\beta_2x_2+\varepsilon\)

La prueba F de significancia del modelo puede ser significativa o no; y ninguna, alguna o todas las pruebas t para los coeficientes \(\beta_i\) pueden ser significativas. Las seis combinaciones pueden ocurrir.

  1. Calcule las pruebas F y t explícitamente.

Primero calcularé la prueba F. Recordemos algunas cosas:

Se tiene el modelo \(y_i=\beta_0+\beta_1x_1+\beta_2x_2+\varepsilon\). La prueba F se planea contrarrestar la prueba \(H_0:\beta_1=\beta_2=0\) vs \(H_1:\beta_i\neq 0\).

Primero, sabemos que \(\frac{\sum_{i=1}^{n}(\hat{y_i}-\bar{y})^2}{\sigma^2} \sim \chi_{2-1}\) y \(\frac{\sum_{i=1}^{n}(y_i-\hat{y_i})^2}{\sigma^2} \sim \chi_{n-2}\)

\(\implies\) \(\frac{\frac{\sum_{i=1}^{n}(\hat{y_i}-\bar{y})^2}{(2-1)\sigma^2}}{\frac{\sum_{i=1}^{n}(y_i-\hat{y_i})^2}{(n-2)\sigma^2}}=\frac{n-2}{2-1}[\frac{\sum_{i=1}^{n}(\hat{y_i}-\bar{y})^2}{\sum_{i=1}^{n}(y_i-\hat{y_i})^2}]=f \sim \mathcal{F}_{(2-1,n-2)}\)

Por otra parte sabemos que \(\hat{y_i}=\hat{\beta_0}+\hat{\beta_1}x_{i1}+\hat{\beta_2}x_{i2}\) y \(\bar{y}=\hat{\beta_0}+\hat{\beta_1}\bar{x_1}+\hat{\beta_2}\bar{x_2}\)

\(\implies\) \(f=\frac{n-2}{(2-1)\sum_{i=1}^{n}(y_i-\hat{y_i})^2}\sum_{i=1}^{n}(\hat{\beta_0}+\hat{\beta_1}x_{i1}+\hat{\beta_2}x_{i2}-\hat{\beta_0}+\hat{\beta_1}\bar{x_1}+\hat{\beta_2}\bar{x_2})^2\)

\(\implies\) \(f=\frac{n-2}{(2-1)\sum_{i=1}^{n}(y_i-\hat{y_i})^2}\sum_{i=1}^{n}(\hat{\beta_1}(x_{i1}-\bar{x_1})+\hat{\beta_2}(x_{i2}-\bar{x_2}))^2\)

\(\implies\) \(f=\frac{n-2}{(2-1)\sum_{i=1}^{n}(y_i-\hat{y_i})^2}(\hat{\beta_1}^2(\sum_{i=1}^{n}(x_{i1}-\bar{x_1})^2)+\hat{\beta_1}\hat{\beta_2}\sum_{i=1}^{n}(x_{i1}-\bar{x_1})(x_{i2}-\bar{x_2})+\hat{\beta_2}^2(\sum_{i=1}^{n}(x_{i2}-\bar{x_2})^2)) \leq \mathcal{f_{1-\alpha}}\)

Donde \(\mathcal{f_{1-\alpha}}\) es el cuantíl al \(1-\alpha\) de la distribución F. Lo cual nos da una regla de rechazo para realizar la prueba F.

  1. Explique las implicaciones práacticas de obtener como resultado la prueba F significativa, pero ninguna prueba t significativa; y de obtener significancia en todas las pruebas t, pero no significancia global del modelo.

En el primer caso, se tiene que individualmente las variables no explican el modelo, sin embargo ya todas juntas sí lo hacen; en el segundo caso podría ocurrir debido a que haya un erros en las variables, un error de colinealidad.

Ejercicio 3

  1. Produzca una matriz de dispersión con todas las variables
scatterplot Matrix

scatterplot Matrix

  1. Obtenga la matriz de correlaciones entre las variables usando la función cor(), excluya la variable name.
##                     mpg  cylinders displacement horsepower     weight
## mpg           1.0000000 -0.7762599   -0.8044430  0.4228227 -0.8317389
## cylinders    -0.7762599  1.0000000    0.9509199 -0.5466585  0.8970169
## displacement -0.8044430  0.9509199    1.0000000 -0.4820705  0.9331044
## horsepower    0.4228227 -0.5466585   -0.4820705  1.0000000 -0.4821507
## weight       -0.8317389  0.8970169    0.9331044 -0.4821507  1.0000000
## acceleration  0.4222974 -0.5040606   -0.5441618  0.2662877 -0.4195023
## year          0.5814695 -0.3467172   -0.3698041  0.1274167 -0.3079004
## origin        0.5636979 -0.5649716   -0.6106643  0.2973734 -0.5812652
##              acceleration       year     origin
## mpg             0.4222974  0.5814695  0.5636979
## cylinders      -0.5040606 -0.3467172 -0.5649716
## displacement   -0.5441618 -0.3698041 -0.6106643
## horsepower      0.2662877  0.1274167  0.2973734
## weight         -0.4195023 -0.3079004 -0.5812652
## acceleration    1.0000000  0.2829009  0.2100836
## year            0.2829009  1.0000000  0.1843141
## origin          0.2100836  0.1843141  1.0000000
  1. Use la función lm() para realizar una regresión lineal múltiple con mpg como variable respuesta y todas las demás, sin tomar en cuenta la variable name, como variables predictoras. Además use la función summary() para imprimir los resultados y comente. Por ejemplo:
## 
## Call:
## lm(formula = mpg ~ cylinders + displacement + horsepower + weight + 
##     acceleration + year + origin, data = auto)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -9.629 -2.034 -0.046  1.801 13.010 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -2.128e+01  4.259e+00  -4.998 8.78e-07 ***
## cylinders    -2.927e-01  3.382e-01  -0.865   0.3874    
## displacement  1.603e-02  7.284e-03   2.201   0.0283 *  
## horsepower    7.942e-03  6.809e-03   1.166   0.2442    
## weight       -6.870e-03  5.799e-04 -11.846  < 2e-16 ***
## acceleration  1.539e-01  7.750e-02   1.986   0.0477 *  
## year          7.734e-01  4.939e-02  15.661  < 2e-16 ***
## origin        1.346e+00  2.691e-01   5.004 8.52e-07 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.331 on 389 degrees of freedom
## Multiple R-squared:  0.822,  Adjusted R-squared:  0.8188 
## F-statistic: 256.7 on 7 and 389 DF,  p-value: < 2.2e-16

Notemos que el p-value de la prueba F es \(<2.2e-16\) por lo que se concluye que sí hay relación entre las variables predictoras y la variable respuesta. Ademásr de que \(R=.82\), lo que significa que las variables sí están explicando a la variable respuesta.

Podemos decir que todas las variables, menos las variables horsepower y cylinders, son estadísticamente significativas.

Sugiere que el consumo de galones por millas incrementa según los años.

  1. Use la función plot() para producit gráficos de diagnóstico del ajuste de regresión lineal. Comente cualquier problema que se vea en el ajuste. ¿Los gráficos de residuales sugieren outliers grandes e inusuales? ¿El leverage plot identifica observaciones con gran e inusual apalancamiento?
Plot

Plot

En el plot de residuals se observa que hay un patrón en los datos, pero este es muy pequeño, sin embargo el gráfico Q-Q nos indica que el modelo ajusta bien. Además se ve que solo hay pocos outliers. Por último, el leverage plot nos dice que solo hay una observación influyente fuera de rango, pero no está demasiado lejos, por lo que no debería de afectar al modelo

5.Use los símbolos * y : para ajustar modelos de regresión lineal con efectos de interacción. ¿Algunas de estas interacciones parecen ser estadísticamente significativas?

Podemos notar que las interacciones cylinders con year y cylinders con weight son estadísticamente significativas

Ejercicio 4

ANÁLISIS EXPLORATORIO DE LOS DATOS

Variable de respuesta:

Sales = ventas

Variables Explicativas:

Price = Precio que la compañía cobra por los asientos de automóvil en cada sitio

Urban = Variable categórica que indica si la tienda está en una comunidad urbana o rural

US = Variable categórica, nos indica si la tienda está dentro o fuera de Estados Unidos de América.

##      Sales          CompPrice       Income        Advertising    
##  Min.   : 0.000   Min.   : 77   Min.   : 21.00   Min.   : 0.000  
##  1st Qu.: 5.390   1st Qu.:115   1st Qu.: 42.75   1st Qu.: 0.000  
##  Median : 7.490   Median :125   Median : 69.00   Median : 5.000  
##  Mean   : 7.496   Mean   :125   Mean   : 68.66   Mean   : 6.635  
##  3rd Qu.: 9.320   3rd Qu.:135   3rd Qu.: 91.00   3rd Qu.:12.000  
##  Max.   :16.270   Max.   :175   Max.   :120.00   Max.   :29.000  
##    Population        Price        ShelveLoc        Age       
##  Min.   : 10.0   Min.   : 24.0   Bad   : 96   Min.   :25.00  
##  1st Qu.:139.0   1st Qu.:100.0   Good  : 85   1st Qu.:39.75  
##  Median :272.0   Median :117.0   Medium:219   Median :54.50  
##  Mean   :264.8   Mean   :115.8                Mean   :53.32  
##  3rd Qu.:398.5   3rd Qu.:131.0                3rd Qu.:66.00  
##  Max.   :509.0   Max.   :191.0                Max.   :80.00  
##    Education    Urban       US     
##  Min.   :10.0   No :118   No :142  
##  1st Qu.:12.0   Yes:282   Yes:258  
##  Median :14.0                      
##  Mean   :13.9                      
##  3rd Qu.:16.0                      
##  Max.   :18.0

La mediana de las ventas se ubica en 7.490, mientras que la media es de 7.496, además la mayor parte de las tiendas se ubican en una zona urbana y dentro de Estados Unidos de América.

  • En promedio vemos que las ventas en una comunidad rural y un urbana son casi iguales. Por lo que veremos que esta variable “Urban” no será significativa en nuestro modelo.

  • El precio presenta una tendencia lineal negativa con las ventas, esto quiere decir que por nuestras ventas aumentan cuando los precios disminuyen.

EJERCICIOS:

a) Ajustar un modelo de regresión múltiple para predecir las ventas usando el precio, urbanidad y US

m1 <- lm(Sales~Price + Urban + US, data=Carseats)

b) Dar un interpretación de cada coeficiente del modelo B0 = 13.04347 es el promedio esperado de ventas cuando la localización de las tiendas es urbana y están dentro de Estados Unidos de América y no hay incrementos en los demas factores.

B1 = -0.05446 nos dice que por cada unidad que se incrementa el precio, las ventas bajan considerando que la tienda se encuentra en una comunidad urbana y dentro de US.

La diferencia en promedio de que la tienda se localice en una comunidad rural o urbana dentro de Estados Unidos de América es B2 = -0.02192 , manteniendo los demás factores constantes.

B3 = 1.20057 es la diferencia en promedio de que la tienda se localice dentro o fuera de Estados Unidos de América, considerando una comunidad urbana y manteniendo los demás factores constantes.

c) Escribir el modelo en forma de ecuación \(Ysales\) = 13.04347 - 0.05446\(Xprice\) - 0.02192 \(1[urban=yes]\) + 1.20057\(1[us=yes]\)

d) ¿Para cuál de los predictores podemos rechazar la hipótesis nula Ho: Bj=0?
En la anova podemos ver que la variable “Urban” no es significativa para nuestro modelo. Utilizamos drop1 para las pruebas individuales:

Nuevamente notamos que “Urban” no es significativa para nuestro modelo.Por lo que podemos decir que no la comunidad en que está ubicada la tienda no es relevante para las ventas.

e) Con base en la respuesta de la pregunta anterior, ajusta un modelo más pequeño que sólo use los predictores para los cuales hay evidencia de asociación con la variable de respuesta.

Podemos notar que el modelo no cambio tanto, sin embargo veamos el anova, drop1 y AIC, BIC.
Ambas varibles son significativas bajo pruebas secuenciales para el modelo

Ambas variables son sgnificativas bajo pruebas individuales para el modelo

Compareos los dos modelos bajo una prueba ji-cuadrada:

Pruebas AIC, BIC:

## [1] 1865.312
## [1] 1885.269
## [1] 1863.319
## [1] 1885.269

El AIC del modelo 2 es menor que el del modeo 1, por lo que vemos, el modelo 2 es mejor.

f) ¿Qué tan bueno es el ajuste de los modelos a los datos?

## 
## Call:
## lm(formula = Sales ~ Price + Urban + US, data = Carseats)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -6.9206 -1.6220 -0.0564  1.5786  7.0581 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 13.043469   0.651012  20.036  < 2e-16 ***
## Price       -0.054459   0.005242 -10.389  < 2e-16 ***
## UrbanYes    -0.021916   0.271650  -0.081    0.936    
## USYes        1.200573   0.259042   4.635 4.86e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.472 on 396 degrees of freedom
## Multiple R-squared:  0.2393, Adjusted R-squared:  0.2335 
## F-statistic: 41.52 on 3 and 396 DF,  p-value: < 2.2e-16
## 
## Call:
## lm(formula = Sales ~ Price + US)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -6.9269 -1.6286 -0.0574  1.5766  7.0515 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 13.03079    0.63098  20.652  < 2e-16 ***
## Price       -0.05448    0.00523 -10.416  < 2e-16 ***
## USYes        1.19964    0.25846   4.641 4.71e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.469 on 397 degrees of freedom
## Multiple R-squared:  0.2393, Adjusted R-squared:  0.2354 
## F-statistic: 62.43 on 2 and 397 DF,  p-value: < 2.2e-16

R^2 ajustada para el segundo modelo es 23.54% mientras que para el primer modelo es 23.35% , sin embargo es baja comparada al 100%. Esto nos dice que el modelo sí mejoró al ajutar el segundo modelo pero no lo suficiente, esto pasa por la cantidad de variables que tenemos (2)

g) Usando el modelo e), obetener IC 95%

##                   2.5 %      97.5 %
## (Intercept) 11.76359670 14.32334118
## Price       -0.06476419 -0.04415351
## UrbanYes    -0.55597316  0.51214085
## USYes        0.69130419  1.70984121

Notamos que cuando la variable “Urban” con categoría de referencia = Urbana, el cero está contenido en el IC 95% por lo que estadísticamente es cero. Es decir, no juega un papel significativo en nuestro modelo.

##                   2.5 %      97.5 %
## (Intercept) 11.79032020 14.27126531
## Price       -0.06475984 -0.04419543
## USYes        0.69151957  1.70776632

En este modelo, las dos variables explicativas sí son significativas para nuestro modelo pues en los IC 95% no contienen al cero.

h) ¿Hay evidencia de observaciones atípicas o de alto apalancamiento?

El apalancamiento no es alto por lo que no presenta mayor problema en nuestro modelo, además en la gráfica Q-Qnorm, podemos notar que nuestros datos se están ajustando mejor en este segundo modelo; los valores ajustados vs los residuales mantienen una dispersión en torno al cero y tenemos sólo tres datos atípicos.

Ejercicio 5

Datos:

Variable de respuesta:

crim = Un vector numérico del crimen per cápita.

Variables explicativas:

zn = un vector numérico de proporciones de tierra residencial zonificada para lotes de más de 25000 pies cuadrados por ciudad (constante para todas las zonas de Boston)

indus = un vector numérico de proporciones de acres de negocios no minoristas por ciudad (constante para todas las zonas de Boston)

chas = un factor con los niveles 1 si el tramo bordea el río Charles; 0 de lo contrario

nox = un vector numérico de concentración de óxidos nítricos (partes por 10 millones) por ciudad

rm = Un vector numérico de números promedio de habitaciones por vivienda.

age = un vector numérico de proporciones de unidades ocupadas por el propietario construidas antes de 1940

dis = un vector numérico de distancias ponderadas a cinco centros de empleo de Boston

rad = un vector numérico de un índice de accesibilidad a las autopistas radiales por ciudad (constante para todas las zonas de Boston)

tax = una tasa de impuesto a la propiedad de valor completo por vector numérico por USD 10,000 por ciudad (constante para todas las zonas de Boston)

ptratio = un vector numérico de proporciones alumno / maestro por ciudad (constante para todas las zonas de Boston)

black = un vector numérico de 1000*(Bk - 0.63)^2donde Bk es la proporción de negros

lstat = un vector numérico de valores porcentuales de población de estado más bajo

medv = un vector numérico de valores medianos de viviendas ocupadas por sus propietarios en USD 1000

##       crim                zn             indus            chas        
##  Min.   : 0.00632   Min.   :  0.00   Min.   : 0.46   Min.   :0.00000  
##  1st Qu.: 0.08204   1st Qu.:  0.00   1st Qu.: 5.19   1st Qu.:0.00000  
##  Median : 0.25651   Median :  0.00   Median : 9.69   Median :0.00000  
##  Mean   : 3.61352   Mean   : 11.36   Mean   :11.14   Mean   :0.06917  
##  3rd Qu.: 3.67708   3rd Qu.: 12.50   3rd Qu.:18.10   3rd Qu.:0.00000  
##  Max.   :88.97620   Max.   :100.00   Max.   :27.74   Max.   :1.00000  
##       nox               rm             age              dis        
##  Min.   :0.3850   Min.   :3.561   Min.   :  2.90   Min.   : 1.130  
##  1st Qu.:0.4490   1st Qu.:5.886   1st Qu.: 45.02   1st Qu.: 2.100  
##  Median :0.5380   Median :6.208   Median : 77.50   Median : 3.207  
##  Mean   :0.5547   Mean   :6.285   Mean   : 68.57   Mean   : 3.795  
##  3rd Qu.:0.6240   3rd Qu.:6.623   3rd Qu.: 94.08   3rd Qu.: 5.188  
##  Max.   :0.8710   Max.   :8.780   Max.   :100.00   Max.   :12.127  
##       rad              tax           ptratio          black       
##  Min.   : 1.000   Min.   :187.0   Min.   :12.60   Min.   :  0.32  
##  1st Qu.: 4.000   1st Qu.:279.0   1st Qu.:17.40   1st Qu.:375.38  
##  Median : 5.000   Median :330.0   Median :19.05   Median :391.44  
##  Mean   : 9.549   Mean   :408.2   Mean   :18.46   Mean   :356.67  
##  3rd Qu.:24.000   3rd Qu.:666.0   3rd Qu.:20.20   3rd Qu.:396.23  
##  Max.   :24.000   Max.   :711.0   Max.   :22.00   Max.   :396.90  
##      lstat            medv      
##  Min.   : 1.73   Min.   : 5.00  
##  1st Qu.: 6.95   1st Qu.:17.02  
##  Median :11.36   Median :21.20  
##  Mean   :12.65   Mean   :22.53  
##  3rd Qu.:16.95   3rd Qu.:25.00  
##  Max.   :37.97   Max.   :50.00

El crimen pér cápita en promedio es de 3. 6145 y la mediana es de 0.25651.

a) Para cada predictor ajustar un modelo RLS para predecir la respuesta. Describir los resultados.¿En cuál de los modelos hay asociación estadística significante entre los predictores y la respuesta? Hacer algunas gráficas para sustentar tus respuestas

La única variable no significativa para el modelo es “chas”, es decir, no afecta a la tasa de crimen si se bordea por el rio Charles o no

Para la variable “chas” vemos que en la gráfica Q-Q norm no hay una relación lineal, además, si la comparamos ocon la gráfica de valores ajustados vs residuales de una variasble significativa que es “black”, podemos notar que en esta última sí se tiene dispersión de los datos mientras que en “chas” no hay tanta dispersión.

b) Ajustar un modelo RLM para predecir la respuesta usando todos los predictores. Describir los resultados. ¿Para cuál de los predictores podemos rechazar la hipótesis nula Ho: Bj=0?

## 
## Call:
## lm(formula = crim ~ zn + indus + chas + nox + rm + age + dis + 
##     rad + tax + ptratio + black + lstat + medv, data = Boston)
## 
## Coefficients:
## (Intercept)           zn        indus         chas          nox  
##   17.033228     0.044855    -0.063855    -0.749134   -10.313535  
##          rm          age          dis          rad          tax  
##    0.430131     0.001452    -0.987176     0.588209    -0.003780  
##     ptratio        black        lstat         medv  
##   -0.271081    -0.007538     0.126211    -0.198887

Utilizamos todos los predictores para nuestro modelo RLM. Ahora con anova obtuvimos que las variables “rm”, tax" y “ptratio” no son significantes para nuestro modelo RLM (nivel de significa = 0.05), es decir, en promedio las habitaciones por vivienda, la tasa de impuesto a la propiedad y las proporcioes de profesor/alumno no afectan el crimen pér cápita.

Sin embargo, “chas” sí es significativa mediante pruebas secuenciales. (nivel de significancia = 0.05), pero no mediante pruebas individuales.

Realizando pruebas individuales, obtenemos que las únicas variables significativas son: zn, dis, rad, black, medv, a un nivel de significancia de 0.05%

c) ¿Cómo se comparan los resultados de (a) con los resultados de (b)? Crear una gráfica que muestre los coeficientes de regresión univariados de (a) en el eje x, y los coeficientes de regresión múltiple de (b) en el eje y. Es decir, cada predictor se muestra como un punto único en la recta. Su coeficiente en un modelo de regresión lineal simple se muestra en el eje x, y su estimación de coeficiente en el modelo de regresión lineal múltiple se muestra en el eje y.

Tanto en el inciso a) como en el b) se obtuvo que las variable “chas” no es significativa para nuestro modelo, las variables significativas finales son: zn, dis, rad, black y medv, a un nivel de significancia de 0.05%

Es decir, en promedio las proporciones de tierra residencial zonificada para lotes de más de 25000 pies cuadrados por ciudad, las distancias ponderadas a cinco centros de empleo de Boston, la accesibilidad a las autopistas por ciudad, la proporción de negros y los valores medianos de viviendas ocupadas por sus propietarios en USD 1000, son aquellas variables que presentan una relación lineal con el crimen pér cápita.

** d) ¿Hay evidencia de asociación no lineal entre cualquiera de los predictores y la respuesta? Para responder a esta pregunta, para cada predictor X, ajuste un modelo de la forma Y = B0 + B1X + B2X^2 + B3*X^3 + e**

Sí se están presentando asociaciones no lineales, las variables que las presentan son aquellas que no fueron signifircativas en nuestro modelo de RLM. Además las variables “zn” y “dis”, llegan a estar cerca de presentar una relación no lineal.