Considere las siguientes 12 observaciones de las variables \(x\) e \(y\) : \[\begin{array}{|c|cccccccccccc|} \hline x & 9 & 12 & 12 & 15 & 18 & 18 & 21 & 21 & 27 & 30 & 30 & 33 \\ \hline y & 11 & 12 & 23 & 30 & 29 & 52 & 41 & 65 & 60 & 72 & 84 & 93 \\ \hline \end{array} \]
¿Por qué no es determinística la relación entre x e y?
¿El gráfico de dispersión sugiere que el modelo de regresión lineal simple describirá la relación entre las dos variables?
Determine la ecuación de la recta de mínimos cuadrados.
¿Qué proporción de la variación de y observada puede explicarse por la relación aproximadamente lineal entre las dos variables.
Estime con una confianza de 95% el verdadero valor de la ordenada al origen de la recta de regresión.
Sumas en x:
x <- c(9, 12, 12, 15, 18, 18, 21, 21, 27, 30, 30, 33)
y <- c(11, 12, 23, 30, 29, 52, 41, 65, 60, 72, 84, 93)
sum(x)
[1] 246
sum(x^2)
[1] 5742
\[ \sum x = 246 \qquad \sum x^2 = 5742 \] Sumas en y:
sum(y)
[1] 572
sum(y^2)
[1] 35634
\[ \sum y = 572 \qquad \sum y^2= 35634\] Suma en \(xy\)
sum(x*y)
[1] 14022
\[ \sum xy = 14022 \]
Porque \(x_2 = x_3 = 12\) pero \(y_2 \neq y_3\)
plot(x,y)
Si.
n <- length(x)
n
[1] 12
SCx <- sum(x^2) - n * mean(x)^2
SCx
[1] 699
SCy <- sum(y^2) - n * mean(y)^2
SCy
[1] 8368.667
SPxy <- sum(x*y) - n * mean(x) * mean(y)
SPxy
[1] 2296
\[ n=12 \qquad SCx = 699 \qquad SCy = 8368,667 \qquad SPxy = 2296 \] Calculamos \(b_1\) y \(b_0\) \[ b_1 = \frac{SPxy}{SCx} \qquad b_0 = \overline{y} - b_1 \overline{x} \]
b1 <- SPxy / SCx
b0 <- mean(y) - b1 * mean(x)
b1
[1] 3.284692
b0
[1] -19.66953
\[ y = b_0 + b_1 x \] \[ y = -19,66953 + 3,284692 x \] d) ¿Qué proporción de la variación de \(y\) observada puede explicarse por la relación aproximadamente lineal entre las dos variables? \[ R^2 = \frac{b_1^2 SCx}{SCy} \]
R2 <- b1^2 * SCx / SCy
R2
[1] 0.9011775
\[ R^2 = 0,90 \quad \Rightarrow 90\% \] d) Estime con una confianza de 95% el verdadero valor de la ordenada al origen de la recta de regresión. \[ \varepsilon = 1 - 0,95 = 0,05 \quad \Rightarrow \; 1 - \varepsilon/2 = 0,975 \qquad gl=10 \] Calculamos una t-Student 0,975 con gl=10
ts <- qt(0.975, df = 10)
ts
[1] 2.228139
\[ S_e^2 = \frac{SCy - b_1^2 SCx}{n-2} \]
Se2 <- (SCy - b1^2 * SCx)/(n-2)
Se2
[1] 82.70129
\[ \hat{V}(b_0) = S_e^2 \left( \frac{1}{n} + \frac{\overline{x}^2}{SCx} \right) \]
Vb0 <- Se2 * (1/n + (mean(x)^2) / SCx)
Vb0
[1] 56.61311
\[ b_0 \pm t_{(n-2)} \cdot \sqrt{\hat{V}(b_0)} \]
Li <- b0 - ts * sqrt(Vb0)
Ls <- b0 + ts * sqrt(Vb0)
I <- c(Li, Ls)
I
[1] -36.434420 -2.904636
\[ \beta_0 \in [-36.434420 ; -2.904636] \]
plot(x,y)
regresion <- lm(y~x)
abline(regresion)
grid()
summary(regresion)
Call:
lm(formula = y ~ x)
Residuals:
Min 1Q Median 3Q Max
-10.4549 -7.8873 0.7532 4.4882 15.6910
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -19.669 7.524 -2.614 0.0259 *
x 3.285 0.344 9.549 2.42e-06 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 9.094 on 10 degrees of freedom
Multiple R-squared: 0.9012, Adjusted R-squared: 0.8913
F-statistic: 91.19 on 1 and 10 DF, p-value: 2.421e-06