Estadística II Tarea III

Ejercicios y Problemas Modelos de Regresión Lineal Simple

Lea cuidadosamente y responde las siguientes ejercicios:

Ejercicio 4

Demuestra que el modelo de regresión lineal con intercepto el estimador de:

\[\hat{\sigma}^2=\frac{\sum_{i=1}^n\left(Y_i-\hat{Y_i}\right)^2}{n-2}\] es insesgado para \(\sigma^2\)

\(\underline{\text{Solución:}}\)

Ocupando que \(\text{SCE}=\sum_{i=1}^n\left(Y_i-\hat{Y}_i\right)^2=S_{YY}-\frac{S_{XY}^2}{S_{XX}}=S_{YY}-\hat{\beta_1}^2S_{XX}\), tendremos que:

\[\begin{equation}\label{Eq1} \begin{aligned} \mathbb{E}\left[\hat{\beta_1}^2S_{XX}\right]&=\left(\text{Var}\left(\hat{\beta_1}\right)+\mathbb{E}\left[\hat{\beta_1}\right]^2\right)S_{XX}\\&=\left(\frac{\sigma^2}{S_{XX}}+\beta_1^2\right)S_{XX}=\sigma^2+\beta_1^2S_{XX} \end{aligned} \end{equation}\]

Por otro, lado ocupando que:

\[\begin{equation}\label{Eq2} \begin{aligned} Y_i-\bar{Y}=&\beta_1(X_i-\bar{X})+(\epsilon_i-\bar{\epsilon}) \\ \implies& S_{YY}=\beta_1^2S_{XX}+2\beta_1\sum_{i=1}^n(X_i-\bar{X})(\epsilon_i-\bar{\epsilon})+\sum_{i=1}^n(\epsilon_i-\bar{\epsilon})^2\\ \implies&\mathbb{E}[S_{YY}]=\beta_1^2S_{XX}+\mathbb{E}\left[\sum_{i=1}^n(\epsilon_i-\bar{\epsilon})^2\right]\\ &=\beta_1^2S_{XX}+(n-1)\sigma^2 \end{aligned} \end{equation}\]

Por lo que, si restamos () de () tendremos que:

\[ \mathbb{E}[\text{SCE}]=(n-2)\sigma^2. \]

\(_\blacksquare\)

Ejericico 5

Demostrar que en el Modelo de Regresión Lineal se cumple la igualdad:

\[R^2=r^2,\] donde \(R^2\) es el coeficiente de correlación y \(r\) es el coeficiente de correlación de Pearson.

\(\underline{\text{Solución:}}\)

Empezamos desarrollando la siguiente expresión:

\[\begin{equation}\label{Eq3} \begin{aligned} \rho_{XY}^2&=\left[\frac{\text{Cov}(X,Y)}{\sqrt{\text{Var}(X)\text{Var}(Y)}}\right]^2=\frac{\text{Cov}(X,Y)^2}{\text{Var}(X)\text{Var}(Y)}\\ &=\frac{n^2\left[\sum_{i=1}^n\left(X_i-\bar{X}\right)\left(Y_i-\bar{Y}\right)\right]^2}{n^2\sum_{i=1}^n\left(X_i-\bar{X}\right)^2\sum_{i=1}^n\left(Y_i-\bar{Y}\right)^2}\\ &=\frac{\left[\sum_{i=1}^n\left(X_i-\bar{X}\right)\left(Y_i-\bar{Y}\right)\right]^2}{\sum_{i=1}^n\left(X_i-\bar{X}\right)^2\sum_{i=1}^n\left(Y_i-\bar{Y}\right)^2} \end{aligned} \end{equation}\]

Por otro lado:

\[\begin{equation}\label{Eq4} \begin{aligned} R^2&=\frac{\sum_{i=1}^n\left(\hat{Y}_i-\bar{Y}\right)^2}{\sum_{i=1}^n\left(Y_i-\bar{Y}\right)^2}=\frac{\sum_{i=1}^n\left(\hat{\beta}_0+\hat{\beta}_1X_i+-\bar{Y}\right)^2}{\sum_{i=1}^n\left(Y_i-\bar{Y}\right)^2}\\ &=\frac{\sum_{i=1}^n\left(\bar{Y}-\hat{\beta}_1\bar{X}+\hat{\beta}_1X_i+-\bar{Y}\right)^2}{\sum_{i=1}^n\left(Y_i-\bar{Y}\right)^2}\\ &=\hat{\beta}_1^2\frac{\sum_{i=1}^n\left(X_i-\bar{X}\right)^2}{\sum_{i=1}^n\left(Y_i-\bar{Y}\right)^2}=\left[\frac{\sum_{i=1}^n(X_i-\bar{X})(Y_i-\bar{Y})}{\sum_{i=1}^n(X_i-\bar{X})^2}\right]^2\frac{\sum_{i=1}^n\left(X_i-\bar{X}\right)^2}{\sum_{i=1}^n\left(Y_i-\bar{Y}\right)^2}\\ &=\frac{\left[\sum_{i=1}^n(X_i-\bar{X})(Y_i-\bar{Y})\right]^2}{\sum_{i=1}^n\left(X_i-\bar{X}\right)^2\sum_{i=1}^n\left(Y_i-\bar{Y}\right)^2} \end{aligned} \end{equation}\]

Ocupando () y () tenemos que \(R^2=\rho_{XY}^2\).

\(_\blacksquare\)

Ejercicio 6

Demuestre que:

a). \(\left(Y_i-\hat{Y}_i\right)=\left(Y_i-\bar{Y}\right)-\hat{\beta}_1\left(X_i-\bar{X}\right)\)

\(\underline{\text{Solución:}}\)

Vamos a desarrollar la expresión:

\[ \begin{aligned} \left(Y_i-\hat{Y}_i\right)&=\left(Y_i-\bar{Y}+\bar{Y}-\hat{Y}_i\right)=\left(Y_i-\bar{Y}\right) +\left(\bar{Y}-\hat{Y}_i\right)\\ &=\left(Y_i-\bar{Y}\right)+\left(\bar{Y}-(\hat{\beta}_0+\hat{\beta}_1X_i)\right)\\ &=\left(Y_i-\bar{Y}\right)-\hat{\beta}_1X_i+\left(\bar{Y}-\hat{\beta}_0\right)\\ &=\left(Y_i-\bar{Y}\right)-\hat{\beta}_1X_i+\hat{\beta}_1\bar{X}\\ &=\left(Y_i-\bar{Y}\right)-\hat{\beta}_1\left(X_i-\bar{X}\right). \end{aligned} \]

\(_\blacksquare\)

b). \(\left(\hat{Y}_i-\bar{Y}\right)=\hat{\beta}_1\left(X_i-\bar{X}\right)\)

\(\underline{\text{Solución:}}\)

Vamos a desarrollar la expresión:

\[ \begin{aligned} \left(\hat{Y}_i-\bar{Y}\right)&=-\left(\bar{Y}-(\hat{\beta}_0+\hat{\beta}_1X_i)\right)\\ &=\hat{\beta}_1X_i-\left(\bar{Y}-\hat{\beta}_0\right)\\ &=\hat{\beta}_1X_i-\hat{\beta}_1\bar{X}\\ &=\hat{\beta}_1\left(X_i-\bar{X}\right) \end{aligned}. \]

\(_\blacksquare\)

c). \(\text{SCR}=\hat{\beta}_1 S_{XY}\)

\(\text{SCR}=\hat{\beta}_1 S_{XY}\)

\(\underline{\text{Solución:}}\)

\[ \begin{aligned} \text{SCR}&=\sum_{i=1}^{n}\left(\hat{Y}_i-\bar{Y}\right)^2=\sum_{i=1}^{n}\hat{\beta}_1^2\left(X_i-\bar{X}\right)^2\\ &=\hat{\beta}_1^2\sum_{i=1}^{n}\left(X_i-\bar{X}\right)^2=\hat{\beta}_1^2S_{XX}\\ &=\hat{\beta}_1\frac{S_{XY}}{S_{XX}}S_{XX}=\hat{\beta}_1 S_{XY}. \end{aligned} \] \(_\blacksquare\)

Ejercicio 7

Se ajusta un modelo de regresión lineal simple a una muestra aleatoria, obteniedo los siguientes resultados de la tabla ANOVA:

Fuente Variación Grados de Libertad SC CM F
Regresión 1 \(k_1\) 20.11 \(k_2\)
Error \(k_3\) 92.62 \(k_4\) -
Total 20 112.7 - -

Además se calculó que \(S_{XX}=770\), resuelva:

a). Completa los valores faltantes de \(k_i,~i\in\{1,2,3,4\}\).

\(\underline{\text{Solución:}}\)

  • \(k_3\)

\[ k_3=N-2=(20+1)-2~\big|~N-1=20~\therefore k_3=19. \]

  • \(k_1\)

\[ k_1=\text{SCR}=\hat{\beta}_1 S_{XY}=\text{SCT}-\text{SCE}=112.7-92.62=20.08. \]

  • \(k_4\)

\[ k_4=\text{CME}=\frac{\text{SCE}}{N-2}=\frac{92.62}{k_3}=\frac{92.62}{19}=4.874737. \]

  • \(k_2\)

\[ k_2=F=\frac{\text{CMR}}{\text{CME}}=\frac{20.11}{4.874737}=4.125351. \] Por ende, (reduciendo dígitos):

Fuente Variación Grados de Libertad SC CM F
Regresión 1 20.08 20.11 4.125
Error 19 92.62 4.874 -
Total 20 112.7 - -

\(_\blacksquare\)

b). ¿Cuántas observaciones hubo en el ajuste?

\(\underline{\text{Solución:}}\)

\[k_3=N-2=19\implies N=21.\]

\(_\blacksquare\)

c). Da la estimación de \(|\beta_1|\)

\(\underline{\text{Solución:}}\)

\[ \begin{aligned} \hat{\beta_1}&=\frac{S_{XY}}{S_{XX}}=\frac{\text{SCR}}{S_{XY}}\implies\frac{S_{XY}}{770}=\frac{20.08}{S_{XY}}\implies |S_{XY}|=\sqrt{770*20.08}=124.3447\\ \therefore \bigg|\hat{\beta_1}\bigg|&=\frac{124.3447}{770}=0.1614866. \end{aligned} \]

\(_\blacksquare\)

d). ¿Con la información obtenida hay evidencia suficiente para suponer que \(\beta_1=0\)? con \(\alpha=0.05\).

\(\underline{\text{Solución:}}\)

Dado que \(N-2=19\) entonces el cualtil con el que realizaremos la prueba de hipótesis es \(F_{(1,19)}^{0.975}=5.921631>4.125351=F_c\), por lo que no rechazamos la hipósesis nula del ANOVA (es decir, que no rechazamos \(\beta_1=0\)) con un nivel de confianza del \(0.95\).

\(_\blacksquare\)

e). Estima puntualmente y por intervalo a \(\sigma^2\)

\(\underline{\text{Solución:}}\)

\[ \begin{aligned} \hat{\sigma^2}=&\text{CME}=\frac{1}{N-2}\sum_{i=1}^N\left(Y_i-\hat{Y_i}\right)^2=4.874737\\ \implies& \sigma^2\in\left(\frac{(N-2)\text{CME}}{\chi^2_{\left(1-\frac{\alpha}{2},n-2\right)}},\frac{(N-2)\text{CME}}{\chi^2_{\left(\frac{\alpha}{2},n-2\right)}}\right),\\ &\sigma^2\in (2.819283,10.39913) \end{aligned} \]

\(_\blacksquare\)

f). Calcula el coeficiente de determinación y la correlación de Pearson

\(\underline{\text{Solución:}}\)

\[ \begin{aligned} R^2&=1-\frac{\text{SCE}}{\text{SCT}}=1-\frac{92.62}{112.7}=0.1781721.\\ |\rho_{XY}|&=\sqrt{R^2}=0.4221044. \end{aligned} \]

\(_\blacksquare\)

Ejercicio 9

De la base precargada, “state.x77”, la cual contiene 50 renglones correspondientes a estados de la Unión Americana, con 8 columnas que hacen referencia a:

  • Population: Es la población estimada del estado correspondiente al primero de julio de 1975.

  • Income: Indice per capita en 1974.

  • Illiteracy: Porcentaje de alfabetizaci´on del estado correspondiente en 1974.

  • Life Exp: Esperanza de vida en años de los habitantes del estado correspondiente en 1969-71.

  • Muder: Tasa de homicidios y asesinatos del estado correspondiente por cada 100,000 habitantes.

-HS Grad: Porcentaje de universitarios del estado correspondiente en 1970.

  • Frost: El promedio de días con bajas temperaturas de 1931 a 1960 del estado correspondiente.

  • Area: Area del estado en millas cuadradas.

Se desea analizar la relación lineal que existe entre el porcentaje de alfabetización y el porcentaje de universitarios por estado, es decir, se ajustará el comportamiento de la tasa de alfabetizaci´on, la cual se denotará con la variable \(Y\), mediante la variable relacionada al porcentaje de universitarios, la cual se denominará \(X\). Con ello realiza:

a). La estimación de \(\beta_0,\beta_1 ~\text{y}~\sigma^2.\)

\(\underline{\text{Solución:}}\)

Empezaremos construyendo el modelo en R:

DATA<-state.x77
colnames(DATA)<-c("Population","Income","Illiteracy","Life Exp","Murder","HS_Grad","Frost","Area")
DATA<-data.frame(DATA)
modelo<-lm(Illiteracy~HS_Grad,DATA)

Y por medio de la función ‘sumary()’ visualizaremos las estimaciones de todo los parámetros del modelo, dado que el modelo que acabamos de construir es lineal entre ambas variables atomáticamente se minimizan las sumas de cuadrados de los errores, por lo que estas estimaciones son los de MC y (gracias a Gauss_Markov) de MV:

summary(modelo)
## 
## Call:
## lm(formula = Illiteracy ~ HS_Grad, data = DATA)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -0.6605 -0.3064 -0.1225  0.1815  1.1660 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  3.80389    0.44093   8.627 2.53e-11 ***
## HS_Grad     -0.04960    0.00821  -6.041 2.17e-07 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.4642 on 48 degrees of freedom
## Multiple R-squared:  0.4319, Adjusted R-squared:  0.4201 
## F-statistic: 36.49 on 1 and 48 DF,  p-value: 2.172e-07

Como puede observarse, tenemos que \(\hat{\beta}_0=3.80389,~\hat{\beta}_0=-0.04960,~\hat{\sigma}=\text{RSE}=0.46418\)

\(_\blacksquare\)

b). Muestra cuáles son los valores ajustados, es decir, \(\hat{Y}.\)

\(\underline{\text{Solución:}}\)

Los valores ajustados, (ó las predicciones sobre el ‘training set’ de la tasa de alfabetización de cada estado, i.e. \(\hat{Y}\)) son:

modelo$fitted.values
##        Alabama         Alaska        Arizona       Arkansas     California 
##      1.7556170      0.4959056      0.9224221      1.8250500      0.6992448 
##       Colorado    Connecticut       Delaware        Florida        Georgia 
##      0.6347714      1.0265714      1.0960044      1.1951942      1.7903335 
##         Hawaii          Idaho       Illinois        Indiana           Iowa 
##      0.7339613      0.8529891      1.1951942      1.1803157      0.8777866 
##         Kansas       Kentucky      Louisiana          Maine       Maryland 
##      0.8331512      1.8944829      1.7109816      1.0910449      1.2100727 
##  Massachusetts       Michigan      Minnesota    Mississippi       Missouri 
##      0.9025841      1.1852752      0.9472195      1.7704955      1.3836550 
##        Montana       Nebraska         Nevada  New Hampshire     New Jersey 
##      0.8678676      0.8629081      0.5702980      0.9472195      1.2001537 
##     New Mexico       New York North Carolina   North Dakota           Ohio 
##      1.0662474      1.1902347      1.8944829      1.3092626      1.1654373 
##       Oklahoma         Oregon   Pennsylvania   Rhode Island South Carolina 
##      1.2447892      0.8281917      1.3142221      1.5026829      1.9291993 
##   South Dakota      Tennessee          Texas           Utah        Vermont 
##      1.1604778      1.7308196      1.4530879      0.4661486      0.9720170 
##       Virginia     Washington  West Virginia      Wisconsin        Wyoming 
##      1.4332499      0.6546094      1.7407386      1.1009638      0.6843664

\(_\blacksquare\)

c). Muestra que la suma de residuales es 0, i.e. \(\sum_{i=1}^{n}e_i=0.\)

\(\underline{\text{Solución:}}\)

Debido a la presición finita de la máquina (es decir, las limitaciones en el espacio de memoria), el resultado de la suma de los residuos será aproximadamente cero, mas no exactamente cero:

sum(modelo$residuals)
## [1] -9.436896e-16

Por ende, podemos concluir que para este modelo \(\sum_{i=1}^n(e_i)=0\), (tal y como se demostró en clase).

\(_\blacksquare\)

d). Calcula las varianzas de los estimadores de \(\beta_0,\beta_1.\)

\(\underline{\text{Solución:}}\)

Nuevamente, ocuparemos la función ‘summary()’ para visualizar la información del modelo, en este caso, la varianza de los estimadores:

summary(modelo)
## 
## Call:
## lm(formula = Illiteracy ~ HS_Grad, data = DATA)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -0.6605 -0.3064 -0.1225  0.1815  1.1660 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  3.80389    0.44093   8.627 2.53e-11 ***
## HS_Grad     -0.04960    0.00821  -6.041 2.17e-07 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.4642 on 48 degrees of freedom
## Multiple R-squared:  0.4319, Adjusted R-squared:  0.4201 
## F-statistic: 36.49 on 1 and 48 DF,  p-value: 2.172e-07

Por lo que, la varianza del estimador de la pendiente del modelo es de \(\text{Var}\left(\hat{\beta_1}\right)=0.00821\) la varianza del estimador de la ordenanda al origen del modelo es de \(\text{Var}\left(\hat{\beta_0}\right)=0.44093\).

\(_\blacksquare\)

e). Con los resultados obtenidos muestra que con los datos recabados se cumple:

e1).

\[\sum_{i=1}^n(X_i-\bar{X})^2=\sum_{i=1}^n(X_i-\bar{X})X_i=\sum_{i=1}^n(X_i^2)-n\bar{X}^2.\]

\(\underline{\text{Solución:}}\)

Var<-var(DATA$HS_Grad)
N<-nrow(DATA)
S_1<-sum((DATA$HS_Grad-mean(DATA$HS_Grad))*DATA$HS_Grad)
S_2<-sum(DATA$HS_Grad^2)-N*(mean(DATA$HS_Grad)^2)
paste('N = ',N)
## [1] "N =  50"
paste('S_1 = ',S_1)
## [1] "S_1 =  3196.65680000001"
paste('S_2 = ',S_2)
## [1] "S_2 =  3196.65680000003"

Por lo tanto:

\[ \begin{aligned} &\sum_{i=1}^n(X_i-\bar{X})^2=(n-1)\text{Var}(X)=(50-1)\cdot 65.23789=3196.657=\\ &\sum_{i=1}^n(X_i-\bar{X})X_i=S_1=3196.657=\\ &\sum_{i=1}^n(X_i)^2-n\cdot(\bar{X})^2=S_2=3196.657. \end{aligned} \]

\(_\blacksquare\)

e2).

\[\sum_{i=1}^n(X_i-\bar{X})(Y_i-\bar{Y})=\sum_{i=1}^n(X_i-\bar{X})Y_i=\sum_{i=1}^n(Y_i-\bar{Y})X_i=\sum_{i=1}^n(X_iY_i)-n\bar{X}\bar{Y}.\]

\(\underline{\text{Solución:}}\)

S_21<-sum((DATA$Illiteracy-mean(DATA$Illiteracy))*(DATA$HS_Grad-mean(DATA$HS_Grad)))
S_22<-sum(DATA$Illiteracy*(DATA$HS_Grad-mean(DATA$HS_Grad)))
S_23<-sum(DATA$HS_Grad*(DATA$Illiteracy-mean(DATA$Illiteracy)))
S_24<-sum(DATA$HS_Grad*DATA$Illiteracy)-N*mean(DATA$HS_Grad)*mean(DATA$Illiteracy)
paste('S_21 = ',S_21)
## [1] "S_21 =  -158.538"
paste('S_22 = ',S_22)
## [1] "S_22 =  -158.538"
paste('S_23 = ',S_23)
## [1] "S_23 =  -158.538"
paste('S_24 = ',S_24)
## [1] "S_24 =  -158.537999999999"

Por lo tanto:

\[ \begin{aligned} &\sum_{i=1}^n(X_i-\bar{X})(Y_i-\bar{Y})=-158.538=\\ &\sum_{i=1}^n(X_i-\bar{X})Y_i=-158.538=\\ &\sum_{i=1}^n(Y_i-\bar{Y})X_i= -158.538=\\ &\sum_{i=1}^n(X_iY_i)-n\bar{X}\bar{Y}= -158.538. \end{aligned} \]

\(_\blacksquare\)

e3).

\[\sum_{i=1}^nX_ie_i=0.\]

\(\underline{\text{Solución:}}\)

S_31<-sum(DATA$HS_Grad*modelo$residuals)
paste('S_31 = ',S_31)
## [1] "S_31 =  -5.7065463465733e-14"

Por lo tanto:

\[\sum_{i=1}^nX_ie_i=0.\]

\(_\blacksquare\)

e4).

\[\sum_{i=1}^nY_ie_i=\sum_{i=1}e_i^2.\]

\(\underline{\text{Solución:}}\)

S_41<-sum(DATA$Illiteracy*modelo$residuals)
S_42<-sum(modelo$residuals^2)
paste('S_41 = ',S_41)
## [1] "S_41 =  10.3423175112198"
paste('S_42 = ',S_42)
## [1] "S_42 =  10.3423175112198"

Por lo tanto:

\[ \begin{aligned} &\sum_{i=1}^nY_ie_i=10.3423175112198=\\ &\sum_{i=1}e_i^2=10.3423175112198.\\ \end{aligned} \]

\(_\blacksquare\)

f). Calcula los intervalos de confianza para \(\beta_0,\beta_1 ~\text{y}~\sigma^2.\)

\(\underline{\text{Solución:}}\)

Ocuparemos la función ‘confint()’ para evidenciar los intervalos de confianza de los estimadores, (excepto para \(\sigma^2\), para ésta ocuparemos la fórmula analítica):

k<-1
alpha <- 0.05
sigma<-sigma(modelo)
n<-50
lower <- (n-(k+1))*sigma^2/qchisq(alpha/2, df = n-(k+1), lower.tail = FALSE)
upper <- (n-(k+1))*sigma^2/qchisq(1-alpha/2, df = n-(k+1), lower.tail = FALSE)

confint.sigma <- round(sqrt(c(lower, upper)), 4)
names(confint.sigma) <- c("lower", "upper")
  • \(\sigma^2\)
confint.sigma
##  lower  upper 
## 0.3871 0.5799
  • \(\beta_0\)
confint(modelo)[1,]
##    2.5 %   97.5 % 
## 2.917343 4.690433
  • \(\beta_1\)
confint(modelo)[2,]
##       2.5 %      97.5 % 
## -0.06610214 -0.03308774

\(_\blacksquare\)

g). Realiza las siguientes pruebas de hipótesis con un nivel de significancia \(\alpha=0.05\)

\[ \begin{aligned} \beta_0=0~~~~&\text{vs.}~~~~\beta_0\ne0\\ &\text{y}\\ \beta_1=0~~~~&\text{vs.}~~~~\beta_1\ne0 \end{aligned} \]

\(\underline{\text{Solución:}}\)

summary(modelo)
## 
## Call:
## lm(formula = Illiteracy ~ HS_Grad, data = DATA)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -0.6605 -0.3064 -0.1225  0.1815  1.1660 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  3.80389    0.44093   8.627 2.53e-11 ***
## HS_Grad     -0.04960    0.00821  -6.041 2.17e-07 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.4642 on 48 degrees of freedom
## Multiple R-squared:  0.4319, Adjusted R-squared:  0.4201 
## F-statistic: 36.49 on 1 and 48 DF,  p-value: 2.172e-07

Por lo que, para las pruebas de hipótesis individuales de la significancia de los coeficientes con \(\alpha=0.05\) tendremos que el estadístico \(t_o\) para \(\beta_0\) es de \(8.627\) con un p-value de \(2.53e-11\), mientras que el estadístico \(t_1\) para \(\beta_1\) es de \(-6.041\) con un p-value de \(2.17e-07\), quiere decir que rechazamos por completo la hipótesis de anular los coeficientes de la regresión lineal.

\(_\blacksquare\)

h). Construye la tabla ANOVA y muestra el p-value ¿Cómo se interpretaría este resultado?.

\(\underline{\text{Solución:}}\)

Ocuparemos la función ‘anova()’ para completar este inciso:

anova(modelo)
## Analysis of Variance Table
## 
## Response: Illiteracy
##           Df  Sum Sq Mean Sq F value    Pr(>F)    
## HS_Grad    1  7.8627  7.8627  36.492 2.172e-07 ***
## Residuals 48 10.3423  0.2155                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Esta es la prueba global de significancia del modelo, es decir, en caso de no rechazar la hipótesis nula entonces se concluye que con un nivel de significancia \(\alpha=0.05\) no existe un modelo de regresión lineal que ajuste a los datos NO TRIVIAL. Dado que el p-value es de \(2.172e-07\) entonces rechazamos la hipótesis nula de modelo trivial. Por lo tanto sí existe un modelo de regresión lineal no trivial que ajusta los datos.

\(_\blacksquare\)

i). Calcular el coeficiente de \(R^2\) a partir de las sumas del inciso anterior.

\(\underline{\text{Solución:}}\)

Rsq<-(7.8627)/(7.8627+10.3423)
paste('R^2 = ', Rsq)
## [1] "R^2 =  0.43189783026641"

\[ R^2=\frac{\text{SCR}}{\text{SCE}+\text{SCR}}=\frac{\text{SCR}}{\text{SCT}}=0.43189783026641. \]

\(_\blacksquare\)

j). Estimar el porcentaje de alfabetización cuando la tasa de graduados universitarios sea del 80 \((x^* = 80)\).

\(\underline{\text{Solución:}}\)

Ocuparemos la función ‘predict()’ con el ‘modelo’ y con los nuevos datos ‘new’:

new<-data.frame(HS_Grad=80.0)
y0<-predict(modelo,new)
paste('Y_0 estimado = ', y0)
## [1] "Y_0 estimado =  -0.163707108001084"

\(_\blacksquare\)

k). Construir un intervalo de confianza para la estimación anterior. Reportar el error estándar estimado y los cuantiles utilizados.

\(\underline{\text{Solución:}}\)

\[ Y_0\in\left(\hat{Y_0}-t_{(n-2)}^{\left(1-\frac{\alpha}{2}\right)}\sqrt{\text{CME}\left(1+\frac{1}{n}+\frac{(X_0-\bar{X})^2}{\sum_{i=1}^{n}(X_i-\bar{X})^2}\right)},\hat{Y_0}+t_{(n-2)}^{\left(1-\frac{\alpha}{2}\right)}\sqrt{\text{CME}\left(1+\frac{1}{n}+\frac{(X_0-\bar{X})^2}{\sum_{i=1}^{n}(X_i-\bar{X})^2}\right)}\right) \] Por lo que:

t<-qt(1-(0.05)/2,48)
CME<-10.3423/(50-2)
N<-50
A<-(80.0-mean(DATA$HS_Grad))^2
B<-sum((DATA$HS_Grad-mean(DATA$HS_Grad))^2)
I<-y0-t*sqrt(CME*(1+(1/50)+A/B))
D<-y0+t*sqrt(CME*(1+(1/50)+A/B))
paste('CME = ',CME)
## [1] "CME =  0.215464583333333"
paste('t = ', t)
## [1] "t =  2.01063475762423"
paste('Izquierda = ',I)
## [1] "Izquierda =  -1.20559318248205"
paste('Derecha = ',D)
## [1] "Derecha =  0.87817896647988"

Por lo tanto:

\[ Y_0\in\left(-1.205593,0.878179\right) \]

\(_\blacksquare\)

Ayrton Pablo Almada Jiménez

8/12/2020