Punkt 1 - Wstępna ocena danych

Wyznczenie podstawowych wskaźników

Standardowe wskaźniki zmiennych:

zmienna min q1 mean med q3 max var od.s Shapiro.W Shapiro.p
x 0.11 3.02 5.02 5.24 6.87 9.77 6.705 2.589 0.971 0.0262
y 0.23 7.33 11.14 11.41 14.97 21.01 28.813 5.368 0.976 0.0625

Skonstruowanie histogramów i boxplotów

Punkt 2 - Wykres rozproszenia zmiennych

Bardzo wysoki współczynnik korelacji świadczy o tym, że wykorzystanie modelu regresji liniowej jest jak najbardziej zasadne. Ponadto kształt wstępnie dopasowanej gładkiej krzywej na wykresie informuje nas o tym, że pomiędzy zmienną x, a y istnieje liniowa zależność.

Punkt 3 - Wyznaczenie estymatorów współczynników regresji \(\hat{\beta_0}\) oraz \(\hat{\beta_1}\)

Współczynnik \(\hat{\beta_0}\) wynosi 0.88, a \(\hat{\beta_1}\) wynosi 2.043

Punkt 4 - Wyznaczenie wartości estymatora kwadratu standardowego błędu resztkowego \(\sigma^2\)

Wartość estymatora kwadratu standardowego błędu resztkowego wynosi:

\(\hat{\sigma}^2\) = 0.849

Punkt 5 - Weryfikacja zależności pomiędzy zmienną objaśniającą x, a zmienną objaśnianą y

Weryfikujemy hipotezę \(H_0:\beta_1=0\) przy poziomie istotności \(\alpha=0,05\). p-wartość dla testu t wynosi 4.819610^{-77}, co pozwala nam na bezpieczne odrzucenie hipotezy zerowej i przyjęcie hipotezy alternatywnej \(H_1:\beta_1\neq0\), co z kolei prowadzi do wniosku, że rozpatrywany w tym przypadku model regresji liniowej jest jak najbardziej uzasadniony.

Punkt 6 - Konstrukcja przedziału ufności współczynnika \(\beta_1\)

Na poziomie istotności 0,99, przedział ufności współczynnika \(\beta_1\) mieści się w zakresie od 1.949 do 2.136.

Punkt 7 - Wyznaczenie wartości prognozowanych \(\hat{Y}\)

Prognozowana wartość \(\hat{Y}(1)\) wynosi 2.922 w przedziale od 2.474 do 3.371 przy poziomie ufności równym 0.99.

Punkt 8 - Korelacja rezyduów z wartościami \(x_i\) oraz \(\hat y_i\)

Po przeprowadzeniu stosownych obliczeń można dojść do wniosku, że współczynnik korelacji próbkowej zarówno dla próby \((\hat y_1, e_1),...,(\hat y_n, e_n)\), jak i \((x_1, e_1),...,(x_n, e_n)\) powinien wynosić 0, a wykres rozproszenia powinien być zbiorem punktów jednakowo rozmieszczonych wokół osi odciętej.

Punkt 9 - Wykresy rezyduów

Histogram rezyduów

Wykres kwantylowy rezyduów

Wykres rozproszenia dla próby \((\hat y_1, e_1),...,(\hat y_n, e_n)\)

Wykres rozproszenia dla próby \((x_1, e_1),...,(x_n, e_n)\)

Na podstawie powyższych wykresów oraz wartości współczynników korelacji próbkowej można stwierdzić, że oba założenia modelu regresji liniowej są poprawnie spełnione.

Punkt 10 - analiza zmodyfikowanych danych

Współczynnik \(\hat{\beta_0}\) wynosi 0.281, a \(\hat{\beta_1}\) wynosi 2.428

W przypadku modelu, który powstał na podstawie oryginalnych danych wartość współczynnika \(\hat{\beta_0}\) wynosiła 0.88, a \(\hat{\beta_1}\) - 2.428. Natomiast dla modelu ze zmienioną wartością y wartość współczynnika \(\hat{\beta_0}\) wynosi 0.281, a wartość współczynnika \(\hat{\beta_1}\) wynosi 2.428. Są to zdecydowanie różne wartości. Wartość \(\hat{\beta_0}\) zmalała, a \(\hat{\beta_1}\) wzrosła, czego należało się spodziewać, przy takiej zmianie wartości y punktu 100.

Aby stwierdzić, czy dana obserwacja jest odstająca, należy wyznaczyć studentyzowaną wartość resztkową. Przyjmuje się, że obserwacje odstające to takie, których wartości bezwzględnych studentyzowanych reszt przekraczają 2. W naszym przypadku studentyzowana wartość reszty \(e_{100}\) wynosi 143.2. Tak więc zdecydowanie należy uznać tą wartość jako wartość odstającą.

Wykrycie obserwacji wpływowych umożliwia pomiar odległości Cooka. Najlepiej przedstawić to na odpowiednim wykresie

Jak widać, odległość Cooka dla obserwacji o indeksie 100 jest większa od 0,5, a to oznacza, że jest to obserwacja wpływowa.

Punkt 11 - Analiza regresji danych losowanych

Wykres rozproszenia dla próby \((x_1, y_1),...,(x_n, y_n)\)

Jak widać na powyższym wykresie, chmura punktów ma prawie idealny charakter liniowy, o czym zapewnia nas również współczynnik korelacji Pearsona, który jest prawie równy 1.

Wyznaczenie estymatorów najmniejszych kwadratów \((\hat \beta_0, \hat \beta_1)\)

Observations 100
Dependent variable y
Type OLS linear regression
F(1,98) 452877.8578
0.9998
Adj. R² 0.9998
Est. 0.1% 100% t val. p
(Intercept) 0.9992 0.9934 1.0051 580.7466 0.0000
x 2.0005 1.9904 2.0105 672.9620 0.0000
Standard errors: OLS

Analizując powyższą tabelę, należy stwierdzić, że wartości estymatorów \((\hat \beta_0, \hat \beta_1)\) są równe (w przedziale ufności 0.999) parametrom \((\beta_0, \beta_1)\).

Powtórzenie obliczeń dla \(\sigma = 0.5\) i \(\sigma = 1\)

Observations 100
Dependent variable y
Type OLS linear regression
F(1,98) 698.1911
0.8769
Adj. R² 0.8757
Est. 0.5% 99.5% t val. p
(Intercept) 0.8536 0.7262 0.9810 17.5981 0.0000
x 2.2144 1.9942 2.4345 26.4233 0.0000
Standard errors: OLS
Observations 100
Dependent variable y
Type OLS linear regression
F(1,98) 36.6941
0.2724
Adj. R² 0.2650
Est. 0.5% 99.5% t val. p
(Intercept) 0.9646 0.4241 1.5051 4.6884 0.0000
x 2.1533 1.2195 3.0870 6.0576 0.0000
Standard errors: OLS

W przypadku obu estymatorów przedziały ufności przy dwukrotnym zwiększeniu wariancji zwiększyły się czterokrotnie. Tymczasem współczynnik \(R^2\) zmalał trzykrotnie. Warto także zauważyć, że kryterium informacyjne Akaikego (AIC) wzrosło prawie pięćdziesiąt razy.