Wprowadzenie

Analizowane dane pochodzą z ankiet przeprowadzonych wśród uczniów ośmiu szkół z Województwa Opolskiego. Badanie zostało przeprowadzone w okresie luty - kwiecień 2018 roku. Łącznie 387 respondentów, z trzech kategorii szkół. Przydział do kategorii A, B lub C jest związany z pozycją szkoły w skali trzyletniej EWD w okresie 2015 - 2017.

Forma prezentacji wyników

Wyniki zmiennych ciągłych

Podstawową zmienną badaną w tej analizie jest wynik egzaminu maturalnego z matematyki na poziomie podstawowym (egzamin obowiązkowy od 2010 roku). Zmienną tą nazwiemy Matura. Jest to wartość liczbowa w zakresie od 0 do 50 z progiem zdawalności na poziomie 15. Osiągane wyniki grupowane według różnych kategorii będą prezentowane w postaci rozbudowanego wykresu a także w formie tabelarycznej, zawierającej szereg pomocnych statystyk.

Wykres jest kompilacją kilku znanych wykresów i, pomimo swojej prostoty i elegancji, zawiera bardzo dużą ilość informacji.

Pierwszą składową wykresu jest tradycyjny wykres pudełkowy (ang. box-plot) z którego można odczytać wartości takie jak:

  • zakres danych (\(max-min\)),
  • wartości odstające,
  • kwartyl dolny (\(Q_1\)),
  • mediana (\(Q_2\)),
  • kwartyl górny (\(Q_3\)).

Wartości odstające na wykresach pudełkowych wyznaczane są przy użyciu tzw. ogrodzeń Tykeya (ang. Tukey’s fences). Wartości odstające definiuje się jako dowolną obserwację poza zakresem:

\[[Q_1-k(Q_3-Q_1),Q_3+k(Q_3-Q_1)]\]

gdzie:

  • \(Q_1\) - kwartyl dolny,
  • \(Q_3\) - kwantyl górny,
  • \(k\) - pewna nieujemna stała

John Tukey zaproponował ten test, gdzie \(k=1,5\) oznacza „wartość odstającą”, oraz \(k=3\) wskazuje dane „dalekie”1. W niniejszej analizie wartości ogrodzeń Tukeya dla danych odstających zostały wyliczone i prezentowane są w tabeli zawierającej statystyki rozszerzone pod następującymi akronimami:

  • LTF - dolne ogrodzenie Tukeya (ang. Lower Tukey Fence)
  • UTF - górne ogrodzenie Tukeya (ang. Upper Tukey Fence)

Odstępy między różnymi częściami ramki wykresu box-plot wskazują na stopień dyspersji (rozproszenia) danych oraz ich skośność która jest miarą asymetrii rozkładu. Box-plot oprócz samych punktów, pozwala wizualnie oszacować szereg statystyk, między innymi rozstęp międzykwartylowy (\(IQR\) - różnica pomiędzy kwartylem górnym i dolnym), wyznaczany według wzoru \(IQR=Q_3-Q_1\), trimean (TM - trimean Tukeya) który jest miarą rozkładu prawdopodobieństwa określoną jako średnia ważona z podwojonej mediany i dwóch kwantyli, wyznaczany według poniższego wzoru:

\[\mbox{TM}=\frac{Q_1+2Q_2+Q_3}{4}\]

gdzie:

  • \(Q_1\) - kwartyl dolny,
  • \(Q_2\) - mediana,
  • \(Q_3\) - kwartyl górny.

Wartości rozstępu międzykwartylowego \(IQR\) oraz trimeanu Tukeya \(TM\) są prezentowane w tabelach podstawowych statystyk.

W tym miejscu należy od razu zaznaczyć, iż do obliczeń kwartyli korzystano z funkcji quantile która oferuje aż dziewięć różnych metod obliczania tej statystyki. W niniejszej analizie korzystano z metody zalecanej przez Hyndmana i Fana (1996)2.

Na wykres pudełkowy został następnie nałożony wykres wiolinowy zwany również wykresem skrzypcowym. Jest to połączenie wykresu gęstości z jego lustrzanym odbiciem. Wykres ten pozwala w bardzo prosty sposób zorientować się w rozkładzie badanej zmiennej oraz dokonać wstępnej oceny zgodności z rozkładem normalnym.

Na koniec na wykres nałożono jeszcze wykres rozproszenia w postaci “drżących punktów”. Przedstawia on wszystkie wyniki w formie pojedynczych punktów dodając niewielką liczbę losowych zmian do położenia każdego punktu tak aby poszczególne punkty nie pokrywały się wzajemnie. Te losowe zmiany są dodawane zarówno w osi x jak i y. Może to powodować, iż w niektórych przypadkach pojedyncze punkty znajdą się poza wykresem gęstości. Dodatkowo, w celu polepszenia czytelności kształt punktów odstających (o ile występowały) będzie odmienny od kształtu punktów nieodstających.

Wykres zawiera również poziomą linię oznaczającą próg zdawalności z informacją jaki odsetek uczniów przekroczył zadany próg.

Poniżej znajduje się wykres przedstawiający wyniki maturalne wszystkich badanych uczniów z ośmiu szkół.

Podstawowe statystyki wszystkich wyników maturalnych w ośmiu szkołach

n Min Q1 Średnia Mediana TM Q3 Max IQR
387 6 26 35.4 37 36.5 46 50 20

Rozszerzone statystyki wszystkich wyników maturalnych w ośmiu szkołach

n Kurtoza Skośność Odch.st. LTF UTF Shapiro.W Shapiro.p Shapiro
387 -0.919 -0.499 12.1 -4 76 0.918 1.22e-13 FALSE

Pod wykresem zaprezentowano wyniki statystyk w formie dwóch tabel. Poza oczywistymi wartościami, oraz omówionej wcześniej metodzie wyznaczania kwartyli, dodano do analizy kilka parametrów. Jednym z nich jest kurtoza. Kurtoza jest miarą spłaszczenia rozkładu. W niniejszej analizie przyjęto aktualnie obowiązującą metodę obliczania kurtozy zdefiniowanej według poniższego wzoru:

\[{\mbox{Kurt}}=\frac{\mu_4}{\sigma^4}-3\]

gdzie:

Dość często, szczególnie w starszych pracach, można się spotkać ze wzorem na kurtozę, w którym nie odejmuje się od ułamka liczby 3. Nowa definicja kurtozy ma jednak następujące zalety:

  • kurtoza rozkładu normalnego wynosi 0
  • jeśli \(Y\) jest sumą \(n\) niezależnych zmiennych losowych, każdej o rozkładzie identycznym z rozkładem zmiennej losowej \(X\), zachodzi własność: \({\mbox{Kurt}}[Y]={\mbox{Kurt}}[X]/n\).

Ponadto, w tabeli statystyk rozszerzonych znajdują się także wyniki testu Shapiro-Wilka. Test ten jest standardowym testem wykorzystywanym do testowania normalności danych i będzie on stosowany konsekwentnie w całej tej analizie. W tabeli podano wartość statystyki \(W\) (Shapiro.W) oraz prawdopodobieństwo testowe (tzw. p-wartość) \(p\) (Shapiro.p) porównywanego do założonego poziomu istotności \(\alpha\) który w całej tej analizie przyjęto na poziomie \(0.05\).

Hipotezy zerowa i alternatywna w tym teście są następujące:

  • \(H_0{:}\) Próba pochodzi z populacji o rozkładzie normalnym
  • \(H_1{:}\) Próba nie pochodzi z populacji o rozkładzie normalnym.

W celu szybkiej oceny wyniku testu dodano jeszcze kolumnę Shapiro w której zamieszczono wynik porównania wartości \(p\) pochodzącego z testu Shapiro-Wilka z założonym poziomem istotności. Wartość TRUE oznacza, że zmienne są normalnie dystrybuowane wartość FALSE wymaga odrzucenia hipotezy zerowej i przyjęcia hipotezy alternatywnej, mówiącej, że badana zmienna nie jest normalnie dystrybuowana.

Na wykresach, w ich górnej części, zamieszczano informację o wyniku badania zmiennej testem Shapiro-Wilka podając p-wartość. Dodatkowo, jeżeli była ona większa od założonego poziomu istotności, fakt ten, dla szybkiej identyfikacji, zaznaczano symbolem gwiazdki "*".

Porównywanie wyników dla zmiennych ciągłych

Kiedy na jednym wykresie umieszczono wyniki grupowane według jakiejś kategorii, w każdym przypadku wyznaczano odpowiednie statystyki porównujące rozkłady w poszczególnych grupach. Niestety już na wstępie analizy okazało się, że bardzo często dane nie są normalnie dystrybuowane. Ta cecha utrzymywała się praktycznie w każdej podgrupie (kategoria szkoły, szkoła a nawet klasa). Nie można więc było stosować parametrycznego testu t-Studenta. Dlatego też wszelkie porównania wykonano testem Wilcoxona. Test t-Studenta sprawdza hipotezę zerową o równości średnich arytmetycznych. Z kolei test Wilcoxona weryfikuje równość median i bazuje na różnicach pomiędzy wartościami cech z porównywanych zbiorów. Test ten, jako test nieparametryczny w przeciwieństwie do testu t-Studenta nie posiada założeń dotyczących rozkładu próby.

Na wykresie przedstawiano odpowiednie schematy porównań wraz z p-wartością pochodzącą z testu Wilcoxona. Wartość ta była oczywiście porównywana z założonym poziomem istotności. Hipotezę zerową o braku różnic pomiędzy medianami odrzucano w przypadku wystąpienia wartości \(p\) mniejszego od założonego poziom istotności.

Poniżej znajduje się wykres prezentujący wyniki maturalne według kategorii szkoły.

Podstawowe statystyki wyników maturalnych uczniów według kategorii szkół

Kat. n Min Q1 Średnia Mediana TM Q3 Max IQR
A 84 6 14.0 23.15 22 21.81 29.2 50 15.2
B 185 11 28.0 36.45 38 37.50 46.0 50 18.0
C 118 17 37.2 42.47 46 44.56 49.0 50 11.8

Rozszerzone statystyki wyników maturalnych uczniów według kategorii szkół

Kat. Kurtoza Skośność Odch.st. LTF UTF Shapiro.W Shapiro.p Shapiro
A -0.366 0.602 11.069 -8.9 52.1 0.951 2.77e-03 FALSE
B -1.019 -0.393 10.412 1.0 73.0 0.932 1.33e-07 FALSE
C 0.514 -1.195 8.321 19.6 66.6 0.831 2.53e-10 FALSE

Porównanie wyników testem Wilcoxona

Kat.1 Kat.2 W p test
A B 3067.5 1.78e-15 FALSE
B C 7007.5 1.42e-07 FALSE
A C 980.5 2.46e-22 FALSE

Poza omówionymi już wcześniej tabelami statystyk, w przypadku grupowania danych, opracowywano także tabelę zawierającą wyniki porównania testem Wilcoxona. Tabela ta zwiera, poza nazwami porównywanych kategorii, wartość statystyki \(W\) testu Wilcoxona, p-wartość (\(p\)) tegoż testu oraz wynik porównania wartości prawdopodobieństwa testowego z założonym poziomem istotności, gdzie wartość TRUE oznacza równość median a FALE sytuację alternatywną. W ten sposób można w bardzo łatwy i szybki sposób zorientować się w jakim przypadku występują istotne różnice pomiędzy medianami, a gdzie tych różnic nie można, na założonym poziomie istotności, stwierdzić.

Wykorzystanie metody regresji

Analiza regresji jest jedną z najczęściej stosowanym metod statystycznych w badaniach naukowych. My również posłużymy się tą sprawdzoną metodą. Pozwoli nam ona na znalezienie statystycznie istotnych czynników wpływających na wynik maturalny. Dane zebrane przy pomocy ankiety dostarczają nam prawie siedemdziesiąt różnych zmiennych które stopniowo będziemy wprowadzać do budowanych przez nas modeli regresji. Przy czym nasze zainteresowanie skierujemy głównie na odnajdywanie predyktorów które maja istotny wpływ na naszą zmienną objaśniana jaką jest Matura.

Model regresji

Model którym będziemy się zajmować dany jest następującym wzorem:

\[ \begin{array}{c} Y|X~F(\theta),\\ \mbox{E}(Y|X)=f(X,\beta), \end{array} \]

gdzie \(Y\) oznacza zmienną objaśnianą (w naszym przypadku jest nią zmienna Matura), a \(X=(X_1,...,X_k)\) to wektor zmiennych objaśniających (predyktorów) które będą naszymi zmiennymi pochodzącymi z ankiety. Używając modelu regresji dokonamy estymacji współczynników regresji \(\beta\) danego modelu.

Model regresji liniowej

W model regresji liniowej zakłada, że istnieje liniowa relacja pomiędzy zmienną objaśnianą \(Y\) a wektorem predyktorów \(\boldsymbol{X}_i\) i dana jest równaniem:

\[ \mbox{E}(Y|X)=\beta_0+\beta_1X_1+...+\beta_nX_n+\varepsilon_i = \boldsymbol{X}^T\boldsymbol{\beta}+\varepsilon_i,\qquad i=1,...,n, \]

gdzie: \(\varepsilon_i\) jest składnikiem losowego błędu o rozkładzie \(N(0,\sigma^2)\).

Poszukując współczynników \(\boldsymbol{\beta}\) najczęściej stosuje się klasyczną metodę najmniejszych kwadratów i jej pochodne.

Model regresji liniowej stosuje się pod warunkiem spełnienia następujących założeń:

  • istnieje liniowa zależność pomiędzy zmienną objaśnianą \(Y\) a zmiennymi objaśniającymi \(X_i\),
  • liczba obserwacji jest większa lub równa liczbie parametrów wyprowadzonych z analizy regresji,
  • zmienna losowa \(\varepsilon_i\) pochodzi z rozkładu \(N(0,\sigma^2)\) i jest homoskedastyczna,
  • wariancja zmiennej losowej \(\varepsilon_i\) jest taka sama dla wszystkich obserwacji - homoskedastyczność,
  • nie występuje autokorelacja reszt, składnika losowego,
  • predyktory nie są wzajemnie współliniowe,
  • analiza regresji nie powinna być ekstrapolowana.

Ponadto model liniowy może być stosowany jedynie dla zmiennej \(Y\), która jest zmienną ilościową i jest normalnie dystrybuowana.

Uogólniony model liniowy

W przypadku kiedy zmienna objaśniana nie pochodzi z rozkładu normalnego, lub jest zmienną jakościowa albo binarną zastosowanie ma uogólniony model regresji liniowej (ang. GLM). W modelu tym następuje powiązanie modelu liniowego ze zmienną objaśnianą za pomącą funkcji łączącej (ang. link). Wartość oczekiwana zmiennej objaśnianej dan jest wzorem:

\[ \mbox{E}(\boldsymbol{Y})=\boldsymbol{\mu}=g^{-1}(\boldsymbol{X\beta}) \]

gdzie \(E(\boldsymbol{Y})\) oznacza wartość oczekiwaną zmiennej \(\boldsymbol{Y}\), \(g\) jest funkcją łączącą, a \(\boldsymbol{X\beta}\) jest predyktorem liniowym.

Natomiast nieznane parametry \(\boldsymbol{\beta}\) są najczęściej estymowane przy użyciu metody największej wiarygodności.

Model GLM składa się z trzech elementów:

  • Wykładniczej rodziny rozkładów prawdopodobieństwa,
  • predyktora liniowego \(\eta=\boldsymbol{X\beta}\),
  • Funkcji łączącej takiej, że \(E(\boldsymbol{Y}|\boldsymbol{X})=\mu=g^{-1}(\eta)\)

Wykładniczą rodziną rozkładów prawdopodobieństwa nazywamy rodzinę której każdy należący do niej rozkład ma postać:

\[ f_Y(y|\theta,\tau)=\exp\left(\frac{y\theta-b(\theta)}{a(\tau)}+c(y, \tau)\right), \]

gdzie \(\theta\) jest parametrem kanonicznym, a \(\tau\) to parametr dyspersji.

Wśród przykładów należących do rodziny wykładniczej można wymienić między innymi rozkład normalny, rozkład Poissona oraz rozkład dwumianowy Bernoulliego. Ostatni z wymienionych rozkładów uzyskujemy dla:

\[ \left\{ \begin{array}{cl} \theta & = \ln\left(\frac{\mu}{1-\mu}\right),\\ \tau & \equiv 1,\\ a(\tau) & =1,\\ b(\theta) & = n\ln\left(1+\exp(\theta)\right),\\ c(y, \tau) & = \ln{n \choose y}. \end{array} \right. \] Wówczas

\[ f_Y(y|\theta,\tau)=\exp\left(y\ln(\mu)+(n-y)\ln(1-\mu)+\ln{n \choose y}\right)={n \choose y}\mu^y(1-\mu)^{n-y}. \]

Funkcja łącząca \(g(\mu)\) opisuje związek pomiędzy wartością oczekiwaną zmiennej objaśnianej \(\mbox{E}(Y)=\mu\) a predyktorem liniowym \(\eta\) i w przypadku rozkładu dwumianowego z prawdopodobieństwem sukcesu \(p\) musi być ona monotoniczna i spełniać warunek \(0\le g^{-1}(\mu) \le 1\). Najczęściej wybiera się tutaj jedną z następujących funkcji:

  • logit: \(g(\mu)=\ln\left(\frac{\mu}{1-\mu}\right)\),
  • probit: \(g(\mu)=\Phi^{-1}(\mu)\), gdzie \(\Phi\) jest dystrybuantą rozkładu \(N(0,1)\),
  • complementary log-log: \(g(\mu)=\ln(-\ln(1-\mu)).\)

W niniejszej analizie będziemy konstruować modele gdzie funkcją łączącą będzie logit.

Regresja logistyczna

Ogólna postać regresji logistycznej przedstawia się następująco:

\[ \begin{array}{c} Y \sim B(1,p),\\ p=\mbox{E}(\boldsymbol Y|\boldsymbol X) = \frac{e^{\boldsymbol\beta \boldsymbol X}}{1+e^{\boldsymbol \beta \boldsymbol X}} \end{array} \]

gdzie \(Y \sim B(1,p)\) jest rozkładem Bernoulliego z prawdopodobieństwem sukcesu \(p\). Zakładamy tutaj wybór logitu jako funkcji łączącej. Umożliwi to interpretację wyników regresji logistycznej w terminie szansy \(o\) która jest funkcją prawdopodobieństwa i która jest określona jako stosunek prawdopodobieństwa sukcesu do prawdopodobieństwa porażki. Można wtedy zapisać:

\[ o=\frac{p}{1-p} = e^{\beta_0}e^{\beta_ix_i}. \] Istnieje też odwrotne przekształcenie

\[ p=\frac{o}{1-o} \] Prawdopodobieństwo zdarzenia przyjmuje oczywiście wartości z zakresu \((0,1)\) a co za tym idzie szansa będzie przyjmowała wartości z zakresu \((0,\infty)\) a jej logarytm z zakresu \((-\infty,\infty)\). Dzięki temu, do oszacowania logarytmu szansy można stosować metody regresji nie ograniczone do przedziału \([0,1]\).

Na tym sposobie wyrażenia prawdopodobieństwa opiera się regresja logistyczna i w modelu z jednym predyktorem szansa wynosi:

\[ \frac{P(X)}{1-P(X)}=e^{\beta_0+\beta_1 X}, \] a co za tym idzie jej logarytm dany jest równaniem:

\[ \ln\left(\frac{P(X)}{1-P(X)}\right)=\beta_0+\beta_1 X \]

Logarytm szansy jest więc liniowo zależny od zmiennej \(X\). W celu ułatwienia interpretacji współczynników regresji \(\beta\) warto przejść z logarytmu do samej szansy przedstawiając wartość \(e^{\beta_1}\) którą możemy interpretować jako relatywną zmianę możliwości wystąpienia zdarzenia pod wpływem czynnika opisanego przez zmienną \(X\). Wyróżniamy tutaj trzy możliwości:

  • \(e^{\beta_1}>1\) - czynnik opisywany przez zmienną \(X\) ma stymulujący wpływ na wystąpienie badanego zjawiska,
  • \(e^{\beta_1}<1\) - czynnik opisywany przez zmienną \(X\) ma działanie ograniczające,
  • \(e^{\beta_1}=1\) - czynnik nie ma wpływu na opisywane zdarzenie.

Założenia regresji logistycznej

Wśród założeń regresji logistycznej brak jest wielu założeń występujących w przypadku klasycznych modeli regresji liniowej. Po pierwsze nie wymaga ona liniowego związku pomiędzy zmienną objaśnianą a zmienną objaśniającą. Po drugie predyktory nie muszą być normalne wieloczynnikowo. Także rezydua nie musza być normalnie wieloczynnikowo dystrybuowane. Po trzecie nie jest wymagana homoskedastyczność rezyduów. Na koniec regresja logistyczna może sobie poradzić z predyktorami porządkowymi i nominalnymi, niekoniecznie pochodzącymi z systemu metrycznego. Konieczne jest jednak spełnienie kilku innych założeń wśród których należy wymienić:

  • musi istnieć liniowa zależność pomiędzy predyktorami a logarytmem szansy,
  • zmienna objaśniana musi być binarna,
  • zmienna objaśniana musi być odpowiednio zakodowana tak aby prawdopodobieństwo sukcesu oznaczało wartość 1,
  • model powinien być poprawnie dopasowany (ani nadmierne dopasowanie, ani niedopasowanie nie powinno mieć miejsca), bez pominięcia jakiejkolwiek zmiennej mającej wpływ na zmienną objaśnianą, oraz zawierać każdą taką zmienną,
  • każda obserwacja powinna być niezależna,
  • predyktory nie mogą posiadać silnej współliniowości,
  • próbki powinny charakteryzować się dużym rozmiarem (min 10 przypadków na każdy oszacowany parametr).

Funkcja wiarygodności dla regresji logistycznej

Dla regresji logistycznej zmienna objaśniana \(Y\) jest binarna i dla pojedynczej obserwacji \(i\) zachodzi:

\[ Y_i|X_i =\left \{ \begin{array}{cl} 1 & \textrm{z prawdopodobieństwem } p(X_i) \\ 0 & \textrm{z prawdopodobieństwem } 1-p(X_i). \end{array} \right. \] Stąd

\[ L(X_i,\beta)=P(Y_i=1|X_i)^{Y_i}\cdot P(Y_i=0|X_i)^{1-Y_i}=p(X_i)^{Y_i}[1-p(X_i)]^{1-Y_i}, \]

gdzie wektor estymatorów parametrów \(\beta\) jest uwikłany w funkcji \(p\).

Funkcja wiarygodności (ang. likelihood) dla \(n\) obserwacji jest produktem funkcji wiarygodności dla pojedynczych obserwacji:

\[ L(X_1,...,X_n,\beta)=\prod_{i=1}^{n}p(X_i)^{Y_i}[1-p(X_i)]^{1-Y_i}. \]

Aby ułatwić obliczenia najczęściej funkcję wiarygodności zastępuje się jej logarytmem o następującej postaci:

\[ \ln L(X_1,...,X_n,\beta)=\sum_{i=1}^n(Y_i\ln p(X_i))+(1-Y_i)\ln (1-p(X_i)). \]

Funkcję wiarygodności wykorzystuje się do estymacji parametrów \(\beta\) metodą największej wiarygodności oraz do testowania hipotez statystycznych.

Testowanie hipotez w modelu regresji logistycznej

Testowanie hipotez o istotności statystycznej zmiennych polega na porównaniu wartości zmiennej objaśnianej \(Y\) z estymowanymi wartościami \(\hat{Y}\) dostarczonymi przez dwa modele. Jeden zawierający interesujący nas predyktor i drugi pozbawiony tego predyktora.

Testowanie istotności zmiennej objaśnianej korzysta ze statystyki dewiancji (ang. deviance) D:

\[ D=-2\ln \left[ \frac{\textrm{wartość funkcji wiarygodnosci estymowanego modelu}}{\textrm{wartość funkcji wiarygodności modelu pełnego}} \right] \] gdzie model pełny (ang. saturated model) to model o liczbie parametrów równej liczbie obserwacji.

Pomnożony prze \(-2\) logarytm ilorazu wiarygodności ma znany rozkład, tak więc nadaje się do testowania hipotez statystycznych. Oparte na nim testy, to testy ilorazu wiarygodności. Jako, że w modelu regresji logistycznej wartość funkcji wiarygodności dla modelu pełnego wynosi 1 stąd:

\[ D=-2\ln (\textrm{wartość funkcji wiarygodnosci estymowanego modelu}). \] Ocena istotności zmiennej objaśnianej przeprowadzana jest na podstawie statystyki \(G\). Mierzy ona zmianę dewiancji która następuje w wyniku dodania do modelu predyktora którego istotność badamy. Po oznaczeniu tej zmiennej przez \(X_t\) możemy zapisać:

\[ G=-2\ln \left[{\frac{L(\textrm{model bez miennej }X_t)}{L(\textrm{model ze mienną }X_t)} }\right] \]

Dla dostatecznie dużej liczby obserwacji \(n\) i przy założeniu hipotezy zerowej o nieistotności zmiennej \(X_t\) \((\beta_t=0)\), statystyka \(G\) ma rozkładach \(\chi^2\) z jednym stopniem swobody dla modelu z jedną zmienną objaśniającą, oraz z \(k\) stopniami swobody w przypadku modeli w których występuje \(k\) predyktorów.

Te dwie statystyki mają swoje odpowiedniki w modelach regresji liniowej. Dewiancja \(D\) odpowiada sumie kwadratów rezyduów, natomiast statystyka \(G\) odpowiada statystyce \(F\).

Oprócz ilorazu wiarygodności należy także wymienić dwa alternatywne testy istotności predyktorów. Pierwszy z nich to test Walda który otrzymujemy według poniższego wzoru:

\[ W = \frac{\hat{\beta_t}}{SE(\hat{\beta_t})} \]

Przy założeniu hipotezy zerowej \(\beta_t=0\) statystyka W ma asymptotycznie rozkład \(N(0,1)\).

Drugi z testów to tzw. Score test. Opiera się on na statystykach otrzymanych z pochodnych logarytmu funkcji wiarygodności:

\[ U(\beta)=\frac{\partial\ln(L(\beta|x))}{\partial\beta} \]

Statystyka testowa dla hipotezy zerowej \(\beta_t=0\) ma asymptotycznie rozkład \(\chi^2(1)\).

Wyznaczanie przedziałów ufności

Przedziały ufności dla estymowanych współczynników regresji logistycznej konstruuje się na podstawie statystyki Walda. Korzystając z faktu, że ta statystyka ma asymptotycznie rozkład normalny

\[ W = \frac{\hat{\beta_t}}{SE(\hat{\beta_t})}\sim N(0,1) \]

krańce przedziału ufności na poziomie istotności \(1-\alpha\) dla estymowanego parametry \(\beta\) wynoszą:

\[ \hat\beta \pm z_{1-\alpha/2}SE(\hat\beta) \] gdzie \(z_{1-\alpha/2}\) jest kwantylem rozkładu \(N(0,1)\) rzędu \(1-\alpha/2\).

Prezentacja wyników regresji logistycznej

Sprawdzanie współliniowości zmiennych

Jednym z założeń regresji logistycznej jest brak silnej współliniowości zmiennych. W celu szybkiej, wizualnej oceny, czy taka współliniowość nie występuje wyznaczano macierz korelacji prezentowaną w formie mapy cieplnej, przy czym poszukiwano takich par zmiennych dla których wartość bezwzględna współczynnika korelacji mieściła by się w zakresie \((0.8, 1]\).

Na wykresie tym prezentowane są współczynniki korelacji pomiędzy każdą parą zmiennych objaśniających. Nie posługiwano się tu jednak współczynnikiem korelacji Pearsona, ale używano współczynnika korelacji rang Spearmana. Jest to współczynnik zaproponowany przez Charlesa Spearmana który zauważył, że w wielu przypadkach nie da się zastosować klasycznego współczynnika korelacji Pearsona ze względu na nadmiar obserwacji odstających. Ma on tą przewagę nad klasycznym współczynnikiem, że pokazuje dowolną monotoniczną zależność także nieliniową.

Ponieważ wartość współczynnika korelacja Spearmana zależy wyłącznie od uporządkowania zaobserwowanych wartości, współczynnik ten może być stosowany do zmiennych, które można uporządkować rosnąco. Klasyczny współczynnik korelacji nie ma sensownej interpretacji dla zmiennych na skali porządkowej, ponieważ uzależniony jest od różnic pomiędzy wartościami zmiennych a te dla cech porządkowych nie są określone.

Krokowe wybieranie zmiennych

W niniejszej analizie stosowano krokową metodę wyboru statystycznie istotnych predyktorów. Jest to proces w którym odpowiednie zmienne zostają iteracyjnie dodawane lub też zostają usunięte z modelu na podstawie odpowiedniego wskaźnika dopasowania modelu. W naszym przypadku wskaźnikiem tym było kryterium informacyjne Akaikego (AIC – od ang. Akaike Information Criterion).

Jego wartość dan jest wzorem:

\[ AIC=-2\sum_j\ln(\hat\pi_j)+2q, \]

gdzie:

\(\hat\pi_j\) - to estymowane prawdopodobieństwo uzyskania takiej właśnie wartości obserwacji \(j\) jaka była na prawdę uzyskana,

\(q\) - to liczba parametrów modelu.

Kryterium to zostało zaproponowane przez Hirotugu Akaikego. Pozwala ono na wybór modelu który nie jest przeuczony. Będzie tak dla modelu dla którego wartość AIC jest najmniejsza.

Metoda krokowego wyboru zmiennych może być zrealizowana na trzy odmienne sposoby:

  • stopniowe dołączanie zmiennych do modelu,
  • stopniowe eliminowanie zmiennych z modelu,
  • dodawanie i usuwanie zmiennych w razie potrzeby.

W niniejszej analizie stosowano trzeci z wymienionych sposobów.

Prezentacja wartości współczynników regresji

Wyniki zastosowania modelu regresji logistycznej będą prezentowane na specjalnie przygotowanym wykresie. Przykładowy wykres zamieszczono poniżej.

Wykres ten na osi pionowej wlicza wszystkie predyktory uwzględnione w modelu a na osi poziomej przedstawia estymowane wartości współczynników regresji \(\beta_i\), przy czym w celu lepszej interpretacji tych współczynników przedstawiono ich wartości wykładnicze \(e^{\beta_i}\). Pozwala to na bardzo prostą interpretację tych wartości jako odpowiedni iloczyn szansy. Z kolei w wielkości punktów zakodowano wartość prawdopodobieństwa testowego dla testu Walda, gdzie hipoteza zerowa mówi o braku istotności statystycznej danego predyktora (\(\beta_i=0\)). Dla każdego współczynnika wyznaczono także odpowiednie przedziały ufności na poziomie istotności \(1-\alpha\) które zostały zaznaczone na wykresie w postaci poziomych linii wychodzących od każdego punktu prezentującego wartość współczynnika regresji. Przy czym należy dodać, że przedziały te zostały uwidocznione wyłącznie dla tych współczynników dla których p-wartość była mniejsza od założonego przez nas poziomu istotności. Wykres zawiera także pionową, niebieską linię oddzielająca predyktory o stymulującej wartości współczynnika regresji od zmiennych z ograniczającymi wartościami tych współczynników.

Na wykresie tym w zależności od potrzeb będą najczęściej prezentowane wyniki od dwóch do kilku różnych modeli (rozróżnianych kolorem). Taki sposób prezentacji pozwoli na łatwe i szybkie, wizualne porównanie różnych modeli.

Dodatkowo na każdym z wykresów umieszczano tabelkę z odpowiednimi wartościami kryteriów AIC oraz BIC dla każdego z modeli.

Ocena jakości modeli

Jednym ze sposobów oceny jakości modeli predykcyjnych jest tzw. Macierz Konfuzji (ang. confusion matrix). Pozwala ona na ocenę jakości odpowiedzi modelu regresji logistycznej. Każdy taki model będzie zarówno prawidłowo przewidywać sukces lub porażkę ale także będzie w tym zakresie popełniał błędy. Ogólną ideą jest policzenia jak często prawdziwe wystąpienia są klasyfikowane jako fałszywe. Aby to wykonać dane muszą zostać podzielone na zestaw treningowy oraz zestaw testowy. Często w tym przypadku przyjmuje się podział w stosunku \(0.8\) do \(0.2\), choć są to wartości umowne. Następnie, używając zestawu treningowego konstruujemy model, po czym dokonujemy porównania odpowiedzi tak skontrowanego modelu z rzeczywistymi wynikami pochodzącymi z zestawu testowego.

Mamy więc cztery możliwe przypadki:

  • model prawidłowo prognozuje sukces \(TP\) (ang. true positive),
  • model prawidłowo prognozuje porażkę \(TN\) (ang. true negative),
  • model błędnie prognozuje sukces \(FP\) (ang. false positive),
  • model błędnie prognozuje porażkę \(FN\) (ang. false negative).

Te cztery wartości można zebrać w Macierzy Konfuzji przedstawionej na poniższej ilustracji.

Każdy wiersz tej macierzy reprezentuje rzeczywistą wartość, podczas gdy każda kolumna reprezentuje wartość przewidywaną.

Opierając się na tych wartościach można wyliczyć cztery wskaźniki jakościowe. Pierwszym z nich jest dokładność \(Accu\) (ang. accuracy) która dana jest wzorem:

\[ Accu=\frac{TP+TN}{TP+TN+FP+FN}. \] Kolejnym wskaźnikiem jest precyzja \(Prec\) (ang. precision). Wyraża ona dokładność prognozy pozytywnej i dana jest wzorem:

\[ Prec=\frac{TP}{TP+FP}. \] Z kolei wycofanie \(Rec\) (ang. recall) to stosunek pozytywnych instancji które są poprawnie klasyfikowane.

\[ Rec=\frac{TP}{TP+FN}. \] Niemożliwe jest uzyskanie zarówno wysokiej precyzji jak i wysokiego poziomu wycofania. Jeżeli bowiem zwiększymy precyzję, sukces będzie lepiej przewidywany ale stracimy wiele przypadków błędnie zaklasyfikowanych jako porażka. Są jednak przypadki kiedy preferowana będzie większa precyzja niż wycofanie.

Utwórzmy więc jeszcze jeden wskaźnik \(F_1\) zawierający w sobie zarówno precyzję jak i wycofanie który będzie średnią harmoniczną tych dwóch wskaźników i który dany będzie wzorem:

\[ F_1=2*\frac{Prec*Rec}{Prec+Rec} \] Wskaźnik ten będzie przypisywał większą wagę niższym wartościom.

W niniejszej analizie każdy z konstruowanych modeli był poddawany takiej właśnie analizie jakościowej, przy czym podział na zestawy treningowe i testowe był wielokrotnie powtarzany za każdym razem z innym, losowo dokonanym podziałem. Wartości uzyskiwanych wskaźników zaprezentowane są na przejrzystym wykresie z zaznaczeniem median dla każdego ze wskaźników jakościowych.

Wizualizacja prawdopodobieństwa sukcesu

Ostatnim z opracowanych sposobów prezentacji wyników jest wykres prawdopodobieństwa sukcesu w funkcji logarytmu szansy. Wykres ten prezentuje odpowiedź skonstruowanych modeli regresji logistycznej dla wszystkich lub tylko dla wybranych części danych pochodzących z badanej próby. Na wykresie tym umieszczono w formie drżących punktów wszystkie przypadki dla których model błędnie przewidział wynik.

Po tym wstępie teoretycznym możemy przejść do właściwej analizy danych.

Analiza wyników maturalnych

Wyniki maturalne we wszystkich szkołach

Omówmy teraz wyniki maturalne osiągnięte przez uczniów w badanych szkołach. Dla lepszej przejrzystości przywołajmy jeszcze raz prezentowany wcześniej wykres wraz ze statystykami. Analizując te dane warto na początku zwrócić uwagę na brak zgodności z rozkładem normalnym. Obserwując wykres gęstości można zauważyć dwa wyraźne lokalne maksima. Jest to z pewnością spowodowane tym, iż ta zmienna jest sumą pochodzącą z różnych populacji (różne szkoły, różne klasy itp.). Próba wyjaśnienia przyczyny takiego kształtu wykresu gęstości zostanie omówiona w dalszej części analizy.

Wyniki nie posiadają wartości odstających, choć występuje tu skrośność na poziomie -0.5 co uwidacznia także niewielka różnica pomiędzy średnią a medianą, czy trimean-em. Wobec braku zgodności z rozkładem normalnym, za wartość centralną należy przyjąć wartość mediany. 93% z wszystkich 387 przystępujących do matury uczniów przekroczyło próg zdawalności (15 pkt, 30%).

Podstawowe statystyki wszystkich wyników maturalnych w ośmiu badanych szkołach

n Min Q1 Średnia Mediana TM Q3 Max IQR
387 6 26 35.4 37 36.5 46 50 20

Rozszerzone statystyki wszystkich wyników maturalnych w ośmiu szkołach

n Kurtoza Skośność Odch.st. LTF UTF Shapiro.W Shapiro.p Shapiro
387 -0.919 -0.499 12.1 -4 76 0.918 1.22e-13 FALSE

Wyniki maturalne według kategorii szkół

Jak już wspomniano w Wprowadzeniu badane szkoły zostały podzielone na trzy kategorie. Każda ze szkół otrzymała jedną z kategorii A, B, lub C. Kategorie te zostały ustalone na postawie wyników osiąganych przez te szkoły pochodzących z analizy trzyletniej EWD.

Podstawowe statystyki wyników maturalnych uczniów według kategorii szkół

Kat. n Min Q1 Średnia Mediana TM Q3 Max IQR
A 84 6 14.0 23.15 22 21.81 29.2 50 15.2
B 185 11 28.0 36.45 38 37.50 46.0 50 18.0
C 118 17 37.2 42.47 46 44.56 49.0 50 11.8

Rozszerzone statystyki wyników maturalnych uczniów według kategorii szkół

Kat. Kurtoza Skośność Odch.st. LTF UTF Shapiro.W Shapiro.p Shapiro
A -0.366 0.602 11.069 -8.9 52.1 0.951 2.77e-03 FALSE
B -1.019 -0.393 10.412 1.0 73.0 0.932 1.33e-07 FALSE
C 0.514 -1.195 8.321 19.6 66.6 0.831 2.53e-10 FALSE

Porównanie wyników testem Wilcoxona

Kat.1 Kat.2 W p test
A B 3067.5 1.78e-15 FALSE
B C 7007.5 1.42e-07 FALSE
A C 980.5 2.46e-22 FALSE

Po pierwsze należy zauważyć, że w żadnej z kategorii nadal nie można uznać tych wyników za normalnie dystrybuowane. Najbliższy rozkładowi normalnemu jest rozkład danych z kategorii A. Jednak i tu zmuszeni jesteśmy odrzucić hipotezę zerową, przy założonym przez nas poziomie istotności. Zastanawiać może jednak kształt rozkładów. W każdym bowiem przypadku można wskazać dość wyraźne, dwa lokalne maksima. Oczywiście nadal może to być spowodowane nałożeniem się wyników z różnych populacji (w tym przypadku poszczególnych szkół w danej kategorii). Zbadamy to w dalszej części analizy. Teraz warto zwrócić uwagę na dość znaczne przesunięcie zakresu międzykwartylowego pomiędzy kategoriami A oraz B. Można stwierdzić, że kwartyl górny kategorii A jest bardzo bliski kwartylowi dolnemu z kategorii B. Każda kategoria ma także znacznie zróżnicowane wartości centralne. To powoduje, że w żadnym przypadku nie można uznać identyczności rozkładu, o czym świadczą wyniki testów Wilcoxona. To są zdecydowanie różne grupy. W przypadku kategorii C można także zauważyć wystąpienie kilku wartości odstających.

Wyniki maturalne w poszczególnych szkołach

Wyniki maturalne szkół z kategorii A

Chcąc wyjaśnić przyczynę braku normalności rozkładu badanej zmiennej, przeprowadzono kolejne analizy, tym razem kategoryzując dane według poszczególnych szkół. Aby jednak zachować czytelność prezentowanych wyników dane zastały przefiltrowane osobno dla każdej z kategorii szkół. Poniżej przedstawiono wyniki dla szkół z kategorii A.

Podstawowe statystyki wyników maturalnych uczniów szkół kategorii A

Kod n Min Q1 Średnia Mediana TM Q3 Max IQR
KIE 22 6 8.5 12.68 12.0 11.62 14 26 5.5
OKR 38 12 20.0 26.82 25.5 25.50 31 49 11.0
ZAW 24 8 17.5 26.96 28.0 27.62 37 50 19.5

Rozszerzone statystyki wyników maturalnych uczniów szkół kategorii A

Kod Kurtoza Skośność Odch.st. LTF UTF Shapiro.W Shapiro.p Shapiro
KIE 1.341 1.299 5.158 0.2 22.2 0.826 1.31e-03 FALSE
OKR -0.006 0.771 8.892 3.5 47.5 0.939 0.038 FALSE
ZAW -1.037 0.289 12.185 -11.8 66.2 0.958 0.397 TRUE

Porównanie wyników testem Wilcoxona

Kod1 Kod2 W p test
KIE OKR 52 1.97e-08 FALSE
OKR ZAW 465 0.902 TRUE
KIE ZAW 72 2.38e-05 FALSE

Test Shapiro-Wilka wskazuje, że tylko w przypadku szkoły o kodzie ZAW możemy uznać, że uzyskane wyniki są normalnie dystrybuowane, chociaż charakteryzują się dość niską kurtozą. Natomiast test Wilcoxona wskazuje na zbieżność rozkładów pomiędzy szkołami o kodach OKR oraz ZAW. W szkole KIE wystąpiły dwa wyniki odstające. W szkole OKR wystąpił jeden taki wynik. Poza szkołą ZAW można w wykresach gęstości dopatrzeć się znów dwóch lokalnych maksimów. Co prawda w szkole KIE są one położone dość blisko siebie (po odrzuceniu wartości odstających). W szkole OKR natomiast te lokalne maksima są przesunięte o wartość znacznie przekraczającą IQR. Jest więc oczywistym, że zauważone maksima w rozkładzie ogólnych wyników dla kategorii A powstały wprost z nałożenia tych trzech rozkładów.

Wyniki maturalne szkół z kategorii B

Podstawowe statystyki wyników maturalnych uczniów szkół kategorii B

Kod n Min Q1 Średnia Mediana TM Q3 Max IQR
OGL 60 12 27 34.15 34.5 34.56 42.2 49 15.2
OLS 78 11 25 35.42 36.0 36.19 47.8 50 22.8
KKO 47 23 37 41.09 44.0 43.00 47.0 50 10.0

Rozszerzone statystyki wyników maturalnych uczniów szkół kategorii B

Kod Kurtoza Skośność Odch.st. LTF UTF Shapiro.W Shapiro.p Shapiro
OGL -0.935 -0.192 9.593 4.1 65.1 0.963 0.068 TRUE
OLS -1.381 -0.193 11.757 -9.1 81.9 0.907 3.13e-05 FALSE
KKO -0.364 -0.835 7.318 22.0 62.0 0.900 7.47e-04 FALSE

Porównanie wyników testem Wilcoxona

Kod1 Kod2 W p test
OGL OLS 2134.5 0.378 TRUE
OLS KKO 1424.0 0.037 FALSE
OGL KKO 805.0 1.46e-04 FALSE

Podobnie jak w poprzednich przypadkach tak i teraz, analizując gęstość rozkładu dla każdej ze szkół można się dopatrzeć dwóch lokalnych maksimów. Szczególnie wyraźnie widoczne jest to w przypadku szkoły o kodzie OLS. Warto także zauważyć, że zarówno w przypadku szkoły OGL jak i OLS dolne maksima występują w okolicy dolnego kwartylu, a wyniki charakteryzuje dość znaczna dyspersja oraz niska kurtoza. Ta zbieżność wyników, a dodatkowo nieznaczne różnice pomiędzy medianami, spowodowała iż test Wilcoxona wskazał, iż wyniki osiągnięte w tych dwóch szkołach mają taki sam rozkład. W przypadku szkoły KKO dyspersja jest już znacznie mniejsza jednak wyniki te obarczone są znaczną skośnością. Drugie maksimum wystąpiło nieco poniżej dolnego kwartylu i w porównaniu do maksimum górnego ma znacznie mniejszą amplitudę. Niemniej jednak również tutaj ono występuje.

W przypadku tych szkół nie wystąpiły dane odstające. Za normalnie dystrybuowane można uznać jedynie dane dla szkoły OGL.

Wyniki maturalne szkół z kategorii C

Podstawowe statystyki wyników maturalnych uczniów szkół kategorii C

Kod n Min Q1 Średnia Mediana TM Q3 Max IQR
OP2 67 17 38 42.27 45 44.25 49 50 11
OP3 51 21 36 42.75 46 44.25 49 50 13

Rozszerzone statystyki wyników maturalnych uczniów szkół kategorii C

Kod Kurtoza Skośność Odch.st. LTF UTF Shapiro.W Shapiro.p Shapiro
OP2 0.863 -1.309 8.647 21.5 65.5 0.823 1.64e-07 FALSE
OP3 -0.459 -0.939 7.949 16.5 68.5 0.824 2.8e-06 FALSE

Porównanie wyników testem Wilcoxona

Kod1 Kod2 W p test
OP2 OP3 1650.5 0.754 TRUE

Wśród szkół kategorii C w żadnym przypadku nie możemy uznać wyników za normalnie dystrybuowane. Na uwagę zasługuje szczególnie kształt rozkładu wyników w szkole OP3. Tu dwa maksima są wyjątkowo wyraźne. Wyniki obu szkół charakteryzuje dość znaczna skośność. W przypadku szkoły OP2 można także dopatrzeć się kilku odstających wyników. Jednak pomimo tej skośności mediany są bardzo zbliżone a wartość trimeanu oraz górnego kwartylu dokładnie takie same, co przyczyniło się do zaklasyfikowania tych rozkładów (testem Wilcoxona) jako tożsamych.

Wyniki maturalne w poszczególnych klasach

Wykonajmy więc szybkie porównanie wyników w poszczególnych klasach. Ze względu na niewielką liczebność pominiemy analizę statystyk, a skupimy się wyłącznie na kształcie wykresów gęstości, doszukując się występowania zauważonych wcześniej dwóch maksimów. Aby jednak nie stracić na czytelności, na jednym wykresie przedstawiano dane dla maksymalnie czterech klas. Pominięto także te klasy dla których występowały bardzo małe ilości (poniżej 10) badanych uczniów.

Podstawowe statystyki wyników maturalnych uczniów klas szkół kategorii A

Klasa n Min Q1 Średnia Mediana TM Q3 Max IQR
KIE A 22 6 8.5 12.68 12 11.62 14 26 5.5
OKR A 13 12 19.0 22.77 22 22.25 26 35 7.0
OKR B 25 16 23.0 28.92 27 27.25 32 49 9.0
ZAW A 24 8 17.5 26.96 28 27.62 37 50 19.5

Rozszerzone statystyki wyników maturalnych uczniów klas szkół kategorii A

Klasa Kurtoza Skośność Odch.st. LTF UTF Shapiro.W Shapiro.p Shapiro
KIE A 1.341 1.299 5.158 0.2 22.2 0.826 1.31e-03 FALSE
OKR A -0.950 0.264 6.496 8.5 36.5 0.969 0.882 TRUE
OKR B -0.595 0.647 9.345 9.5 45.5 0.929 0.082 TRUE
ZAW A -1.037 0.289 12.185 -11.8 66.2 0.958 0.397 TRUE

Porównanie wyników testem Wilcoxona

Klasa1 Klasa2 W p test
KIE A OKR A 29.5 1.06e-04 FALSE
OKR A OKR B 98.0 0.049 FALSE
OKR B ZAW A 335.0 0.49 TRUE
KIE A OKR B 22.5 7.26e-08 FALSE
OKR A ZAW A 130.0 0.416 TRUE
KIE A ZAW A 72.0 2.38e-05 FALSE

Podstawowe statystyki wyników maturalnych uczniów klas szkoły KKO

Klasa n Min Q1 Średnia Mediana TM Q3 Max IQR
KKO B 19 23 31 38.42 41 39.75 46 50 15
KKO A 28 31 40 42.89 44 43.75 47 50 7

Rozszerzone statystyki wyników maturalnych uczniów klas szkoły KKO

Klasa Kurtoza Skośność Odch.st. LTF UTF Shapiro.W Shapiro.p Shapiro
KKO B -1.483 -0.292 9.112 8.5 68.5 0.914 0.088 TRUE
KKO A -0.414 -0.760 5.245 29.5 57.5 0.914 0.025 FALSE

Porównanie wyników testem Wilcoxona

Klasa1 Klasa2 W p test
KKO B KKO A 202.5 0.171 TRUE

Podstawowe statystyki wyników maturalnych uczniów klas szkoły OGL

Klasa n Min Q1 Średnia Mediana TM Q3 Max IQR
OGL C 16 12 23.2 28.06 28.0 27.81 32.0 41 8.8
OGL B 16 19 27.5 32.81 34.5 33.44 37.2 47 9.8
OGL A 20 25 41.5 42.65 45.0 44.44 46.2 49 4.8

Rozszerzone statystyki wyników maturalnych uczniów klas szkoły OGL

Klasa Kurtoza Skośność Odch.st. LTF UTF Shapiro.W Shapiro.p Shapiro
OGL C -0.791 -0.166 7.810 10.1 45.1 0.982 0.978 TRUE
OGL B -0.874 -0.093 8.207 12.9 51.9 0.955 0.572 TRUE
OGL A 0.860 -1.325 6.467 34.4 53.4 0.827 2.23e-03 FALSE

Porównanie wyników testem Wilcoxona

Klasa1 Klasa2 W p test
OGL C OGL B 89.5 0.152 TRUE
OGL B OGL A 55.5 8.93e-04 FALSE
OGL C OGL A 24.5 1.66e-05 FALSE

Podstawowe statystyki wyników maturalnych uczniów klas szkoły OLS

Klasa n Min Q1 Średnia Mediana TM Q3 Max IQR
OLS D 19 11 22.0 30.84 29 29.88 39.5 50 17.5
OLS C 19 18 25.0 33.79 31 33.00 45.0 50 20.0
OLS B 19 17 30.5 37.63 38 38.75 48.5 50 18.0
OLS A 21 14 32.0 39.05 42 41.25 49.0 50 17.0

Rozszerzone statystyki wyników maturalnych uczniów klas szkoły OLS

Klasa Kurtoza Skośność Odch.st. LTF UTF Shapiro.W Shapiro.p Shapiro
OLS D -1.199 0.385 12.659 -4.2 65.8 0.877 0.019 FALSE
OLS C -1.700 0.173 11.038 -5.0 75.0 0.886 0.028 FALSE
OLS B -1.234 -0.511 11.246 3.5 75.5 0.880 0.021 FALSE
OLS A -0.876 -0.718 11.115 6.5 74.5 0.866 8.08e-03 FALSE

Porównanie wyników testem Wilcoxona

Klasa1 Klasa2 W p test
OLS D OLS C 164.0 0.639 TRUE
OLS C OLS B 148.0 0.349 TRUE
OLS B OLS A 181.5 0.634 TRUE
OLS D OLS B 127.5 0.124 TRUE
OLS C OLS A 141.0 0.115 TRUE
OLS D OLS A 134.5 0.08 TRUE

Podstawowe statystyki wyników maturalnych uczniów klas A, B, D OP2

Klasa n Min Q1 Średnia Mediana TM Q3 Max IQR
OP2 H 13 17 24.0 29.31 27.0 28.75 37 41 13.0
OP2 D 12 41 43.8 45.50 44.5 45.44 49 49 5.2
OP2 E 23 33 45.5 46.61 48.0 47.62 49 50 3.5
OP2 A 12 37 46.2 47.25 49.0 48.56 50 50 3.8

Rozszerzone statystyki wyników maturalnych uczniów klas A, B, D OP2

Klasa Kurtoza Skośność Odch.st. LTF UTF Shapiro.W Shapiro.p Shapiro
OP2 H -1.527 -0.060 8.350 4.5 56.5 0.935 0.4 TRUE
OP2 D -1.693 0.048 2.970 35.9 56.9 0.876 0.077 TRUE
OP2 E 4.377 -1.913 3.811 40.2 54.2 0.778 1.75e-04 FALSE
OP2 A 0.668 -1.335 4.048 40.6 55.6 0.743 2.27e-03 FALSE

Porównanie wyników testem Wilcoxona

Klasa1 Klasa2 W p test
OP2 H OP2 D 0.5 2.65e-05 FALSE
OP2 D OP2 E 95.5 0.14 TRUE
OP2 E OP2 A 110.0 0.33 TRUE
OP2 H OP2 E 5.0 1.94e-06 FALSE
OP2 D OP2 A 41.5 0.079 TRUE
OP2 H OP2 A 3.5 5e-05 FALSE

Podstawowe statystyki wyników maturalnych uczniów klas szkoły OP3

Klasa n Min Q1 Średnia Mediana TM Q3 Max IQR
OP3 E 13 28 32 38.77 39 38.75 45 49 13
OP3 A 17 21 32 39.88 44 42.25 49 50 17
OP3 D 21 35 47 47.52 49 48.50 49 50 2

Rozszerzone statystyki wyników maturalnych uczniów klas szkoły OP3

Klasa Kurtoza Skośność Odch.st. LTF UTF Shapiro.W Shapiro.p Shapiro
OP3 E -1.744 -0.085 7.328 12.5 64.5 0.915 0.213 TRUE
OP3 A -1.377 -0.397 9.545 6.5 74.5 0.885 0.038 FALSE
OP3 D 5.854 -2.373 3.415 44.0 52.0 0.679 1.54e-05 FALSE

Porównanie wyników testem Wilcoxona

Klasa1 Klasa2 W p test
OP3 E OP3 A 94.5 0.515 TRUE
OP3 A OP3 D 102.0 0.024 FALSE
OP3 E OP3 D 30.5 1.66e-04 FALSE

Analizując powyższe kilka wykresów nie można się pozbyć wrażenia, iż w przypadku większości klas wykres gęstości powstał w wyniku nałożeniu się dwóch rozkładów normalnych. Szczególnie wyraźnie jest to widoczne w klasach takich szkół jak KKO oraz OLS. Czasami wartości centralne tych rozkładów są przesunięte, czasami nachodzą na siebie. Zgodność z rozkładem normalnym stwierdzono jedynie w 9 klasach, przy jedenastu dla których tej zgodności nie można było potwierdzić. Oczywiście należy brać pod uwagę niewielkie liczności tych grup.

Co może być powodem uzyskiwania takich wyników? W naszym odczuciu należało by założyć, że każda klasa składa się z uczniów zdolnych i przeciętnych. Wyniki uzyskiwane przez te dwie populacje mają różne wartości centralne choć powinny być zgodne z rozkładem normalnym. Tak więc sumarycznie osiągamy zawsze połączenie dwóch rozkładów normalnych. Oczywiście to tylko hipoteza wymagająca dokładniejszego zbadania odpowiednimi narzędziami statystycznymi. Możliwość rozdzielenia tych obserwacji na te dwie wspomniane wyżej kategorie wydaje się bardzo obiecująca. To jednak z pewnością jest temat na koleją pracę i w tym opracowaniu zostanie pominięte.

Analiza wyników testu diagnostycznego

Kilka miesięcy przed maturą w każdej z badanych szkół przeprowadzono test diagnostyczny umiejętności uczniów. Porównajmy zatem wyniki testu z wynikami matur.

Respondenci mieli do rozwiązania 15 zadań, które swoją treścią były zawarte w obowiązującej podstawie programowej z matematyki. Nie były to jednak zadania typowe, znane choćby z arkuszy maturalnych z lat 2010 - 2017. Każde zadanie otwarte wymagało oryginalnego podejścia i nieszablonowego rozwiązania. Zadania były rozwiązywane w warunkach zupełnie innych, niż podczas egzaminu maturalnego. Przeprowadzający badania starali się zachować uczciwe warunki dla każdego z uczniów.

W teście diagnostycznym uczeń mógł otrzymać maksymalnie 22 punkty przy progu sukcesu wynoszącym 8 punktów. Aby umożliwić bezpośrednie porównanie tych wyników z wynikami matur, wyniki testu zostały odpowiednio przeskalowane do zakresu 0-50. Oczywiście również próg musiał zostać przeskalowany co spowodowało, że nieznacznie różni się on od progu maturalnego i wynosi 15.9. Będzie to uwzględnione na wszystkich wykresach na których przedstawiono wyniki matur wraz z wynikami testu diagnostycznego.

Wyniki testu diagnostycznego w badanych szkołach

Podstawowe statystyki wszystkich wyników testu diagnostycznego w ośmiu szkołach

n Min Q1 Średnia Mediana TM Q3 Max IQR
394 2.3 18.2 28.29 29.5 28.95 38.6 50 20.4

Rozszerzone statystyki wszystkich wyników testu diagnostycznego w ośmiu szkołach

n Kurtoza Skośność Odch.st. LTF UTF Shapiro.W Shapiro.p Shapiro
394 -1.16 -0.112 12.6 -12.4 69.2 0.957 2.35e-09 FALSE

Porównajmy to od razu z wynikami maturalnymi. Najlepiej przestawić to na jednym wykresie.

Wystarczy jeden rzut oka na powyższy wykres, aby uzmysłowić sobie dość znaczne różnice pomiędzy tymi dwiema zmiennymi. Jedyną cechą wspólną jest to, że zarówno w jednym jak i w drugim przypadku, dane te nie są normalnie dystrybuowane. Poza tym są to zdecydowanie różne wyniki. Szczególnie widoczne staje się to podczas porównania wykresów gęstości. W przypadku matur na wykresie gęstości można zauważyć dwa, bardzo wyraźne lokalne maksima - jedno w okolicy dolnego kwartylu a drugie w okolicy górnego kwartylu. W przypadku wyników testu można dopatrzeć się trzech lokalnych maksimów. Jedno tuż poniżej progu zdawalności, drugie maksimum jest już nieco wyżej a trzecie wystąpiło bardzo blisko miejsca gdzie wykres wyników maturalnych ma lokalne minimum. Oczywiście widać tu również różnicę w medianach. Mediana wyników maturalnych jest bardzo bliska wartości trzeciego kwartylu wyników testu. Wyniki testu charakteryzują się także prawie pięciokrotnie niższą skośnością co potwierdza także tyko nieznaczna różnica pomiędzy medianą, średnią i trimeanem tych wyników. Warto także zauważyć, że pierwszy kwartyl uplasował się tylko nieznacznie ponad progiem zdawalności, czego nie można powiedzieć w odniesieniu do wyników maturalnych, gdzie pierwszy kwartyl jest od progu zdawalności znacznie oddalony. Różna jest także ilość uczniów zaliczających sukces. W przypadku testu jest to tyko 79,4%. W przypadku matury aż 93% uczniów zaliczyło sukces (zdało egzamin).

Wyniki testu diagnostycznego w poszczególnych kategoriach szkół

Sprawdźmy zatem, jak wyniki testu diagnostycznego rozkładały się pomiędzy poszczególnymi kategoriami szkół.

Podstawowe statystyki wyników testu diagnostycznego uczniów według kategorii szkół

Kat. n Min Q1 Średnia Mediana TM Q3 Max IQR
A 87 2.3 11.4 18.31 15.9 17.05 25.0 45.5 13.6
B 189 2.3 20.5 28.58 29.5 29.52 38.6 50.0 18.1
C 118 6.8 27.3 35.17 38.6 36.92 43.2 50.0 15.9

Rozszerzone statystyki wyników testu diagnostycznego uczniów według kategorii szkół

Kat. Kurtoza Skośność Odch.st. LTF UTF Shapiro.W Shapiro.p Shapiro
A -0.597 0.591 9.986 -9.0 45.4 0.939 5e-04 FALSE
B -1.045 -0.151 11.745 -6.7 65.8 0.964 9.44e-05 FALSE
C -0.601 -0.661 10.967 3.4 67.1 0.924 4.96e-06 FALSE

Porównanie wyników testem Wilcoxona

Kat.1 Kat.2 W p test
A B 4170.0 4.49e-11 FALSE
B C 7460.5 1.03e-06 FALSE
A C 1423.5 8.85e-19 FALSE

To, co najbardziej może zaskakiwać to prawie lustrzane odbicie wykresów gęstości w kategoriach A oraz C. Ma to też odzwierciedlenie w wartościach skośności, które różnią się w praktycznie tylko znakiem. W dalszym ciągu żadnych z wyników nie można uznać za normalnie dystrybuowane. Ponadto test Wilcoxona, na założonym poziomie istotności utwierdza nas w przekonaniu, że są to trzy różne wyniki. Nie sposób jednak oprzeć się wrażeniu, iż w każdym z tych przypadków znów mamy do czynienia z wyraźnymi dwoma lokalnymi maksimami.

Zestawmy teraz te wyniki z wynikami maturalnymi.

Dopiero po zestawieniu tych dwóch wyników na jednym wykresie możemy sobie uzmysłowić, zarówno występujące tu różnice jak i cechy wspólne. Po pierwsze, w każdej kategorii mediany wyników testu zawsze są niższe od median wyników maturalnych i w każdym przypadku są one bliskie wartości dolnych kwartyli wyników maturalnych. Po drugie, warto zwrócić uwagę, na poziom mediany wyników maturalnych w odniesieniu do górnych kwartyli wyników testu. W przypadku kategorii A mediana matur znajduje się poniżej trzeciego kwartylu testu. Dla kategorii B mediana zrównała się z trzecim kwartylem, a w przypadku kategorii C mediana jest już powyżej trzeciego kwartylu wyników testu. Można tu doszukiwać się wzrastającej, wraz z kategorią szkoły, mobilizacji uczniów w ostatnim okresie dzielącym czas testu diagnostycznego od czasu pisania matur.

Przyglądając się jednak uważnie wykresom gęstości można zauważyć dość duże podobieństwo pomiędzy kształtami. Co prawda wyniki testu mają nieco większą dyspersję (szczególnie w kategoriach B i C), jednak kształtem bardzo przypominają wyniki maturalne. Z pewnością świadczy to o tym, że są to dwa różne wyniki osiągnięte przez tą samą populację.

Dokonajmy więc jeszcze jednego porównania pomiędzy wynikami szkół w poszczególnych kategoriach.

Wyniki testu diagnostycznego w szkołach dla poszczególnych kategorii

Wyniki testu diagnostycznego w szkołach kategorii A

Podstawowe statystyki wyników testu diagnostycznego uczniów szkół kategorii A

Kod n Min Q1 Średnia Mediana TM Q3 Max IQR
KIE 22 2.3 4.5 8.77 9.1 8.53 11.4 18.2 6.9
OKR 40 9.1 13.6 22.39 20.5 21.60 31.8 45.5 18.2
ZAW 25 9.1 13.6 20.18 18.2 18.75 25.0 40.9 11.4

Rozszerzone statystyki wyników testu diagnostycznego uczniów szkół kategorii A

Kod Kurtoza Skośność Odch.st. LTF UTF Shapiro.W Shapiro.p Shapiro
KIE -0.856 0.469 4.293 -5.9 21.8 0.932 0.135 TRUE
OKR -1.027 0.350 9.300 -13.7 59.1 0.916 5.84e-03 FALSE
ZAW -0.647 0.681 9.265 -3.5 42.1 0.911 0.032 FALSE

Porównanie wyników testem Wilcoxona

Kod1 Kod2 W p test
KIE OKR 70.5 4.84e-08 FALSE
OKR ZAW 567.5 0.364 TRUE
KIE ZAW 62.0 5.19e-06 FALSE

Jak widać na powyższym wykresie tendencja zauważona już wcześniej nadal występuje. Mediany w każdym z trzech szkół są w przypadku wyników z testu niższe niż mediany matur i są bardzo bliskie wartości dolnych kwartyli.

Wyniki testu diagnostycznego w szkołach kategorii B

Podstawowe statystyki wyników testu diagnostycznego uczniów szkół kategorii B

Kod n Min Q1 Średnia Mediana TM Q3 Max IQR
OGL 63 2.3 15.9 25.43 25.0 25.29 35.2 47.7 19.4
OLS 78 2.3 15.9 27.33 27.3 27.27 38.6 50.0 22.7
KKO 48 18.2 26.7 34.75 36.4 35.25 41.5 47.7 14.7

Rozszerzone statystyki wyników testu diagnostycznego uczniów szkół kategorii B

Kod Kurtoza Skośność Odch.st. LTF UTF Shapiro.W Shapiro.p Shapiro
OGL -0.982 0.057 11.169 -13.1 64.3 0.973 0.175 TRUE
OLS -1.256 -0.015 12.455 -18.2 72.7 0.953 6.31e-03 FALSE
KKO -1.152 -0.248 8.847 4.6 63.6 0.926 4.9e-03 FALSE

Porównanie wyników testem Wilcoxona

Kod1 Kod2 W p test
OGL OLS 2249.5 0.39 TRUE
OLS KKO 1224.0 1.12e-03 FALSE
OGL KKO 808.5 2.72e-05 FALSE

Ponownie, wszystkie wyniki median testu są niższe od median wyników matur. Jeżeli mieli byśmy wskazać na jakąkolwiek zbieżność, to zarówno w przypadku wyników testu jak i w przypadku wyników z matur test Wilcoxona wskazał na brak istotnych różnic pomiędzy szkołami o kodach OGL oraz OLS.

Warto także zwrócić uwagę na ponowne pojawienie się dwóch, wyraźnych maksimów na każdym wykresie gęstości podobnie jak to zauważyliśmy w przypadku wyników maturalnych oraz na znaczną zbieżność rozkładów testu i matur przy zachowaniu większej dyspersji dla testu.

Wyniki testu diagnostycznego w szkołach kategorii C

Podstawowe statystyki wyników testu diagnostycznego uczniów szkół kategorii C

Kod n Min Q1 Średnia Mediana TM Q3 Max IQR
OP2 67 6.8 26.1 33.68 38.6 36.64 43.2 47.7 17.1
OP3 51 13.6 28.4 37.12 40.9 38.92 45.5 50.0 17.1

Rozszerzone statystyki wyników testu diagnostycznego uczniów szkół kategorii C

Kod Kurtoza Skośność Odch.st. LTF UTF Shapiro.W Shapiro.p Shapiro
OP2 -0.670 -0.708 11.241 0.6 68.8 0.907 1.08e-04 FALSE
OP3 -0.971 -0.527 10.383 2.7 71.2 0.908 7.6e-04 FALSE

Porównanie wyników testem Wilcoxona

Kod1 Kod2 W p test
OP2 OP3 1366.5 0.063 TRUE

Sytuacja w szkołach kategorii C, jest bardzo zbliżona do poprzednich kategorii. Tak samo występuje tu zauważalnie większa dyspersja wyników testu przy podobnych relacjach pomiędzy medianami a kwartylami. Podobnie też jak wcześniej można dostrzec znaczne podobieństwo w kształcie rozkładów wyników. Warto też zauważyć, ze w obu tych szkołach próg maturalny przekroczyło 100% uczniów, czego nie można powiedzieć w przypadku testu diagnostycznego.

Podsumowanie porównania wyników maturalnych z wynikami testu diagnostycznego

Jak mogliśmy zauważyć, w każdym przypadku mediana testu diagnostycznego była niższa od mediany wyniku maturalnego, często utrzymując się blisko dolnego kwartylu wyników maturalnych. Tak samo mediana wyników matur utrzymywała się bardzo blisko trzeciego kwartylu wyników testu. Może to wskazywać na dwie możliwe przyczyny. Albo test diagnostyczny był trudniejszy od matury, za czym dodatkowo może przemawiać też większa dyspersja tych wyników, albo też w ostatnich dniach przed maturą wszyscy uczniowie znacznie podciągnęli swoje umiejętności.

Korelacja pomiędzy wynikami testu diagnostycznego a wynikami matur

Sprawdźmy zatem czy pomiędzy wynikami matur a wynikami testu diagnostycznego istnieje korelacja, oraz czy można znaleźć funkcję która opisywała by wzajemną zależność pomiędzy nimi. W tym celu wykonajmy najpierw wykres rozproszenia dla tych dwóch zmiennych, wraz z wstępnie dopasowaną gładką krzywą, pomocną w oszacowaniu rodzaj tej funkcji. Aby jednak poszczególne punkty wzajemnie się na siebie nie nakładały, nałóżmy na ich pozycję niewielkie, losowe “drżenie” o wielkości ok. 2 punktów.

Jak widać na powyższym wykresie te dwie zmienne są dość dobrze skorelowane. Świadczy o tym wartość, zamieszczonego na wykresie współczynnika korelacji Pearsona wynosząca w tym przypadku \(0.76\). Kształt gładkiej krzywej dopasowanej do tych zmiennych informuje nas o tym, że możemy próbować opisywać ich wzajemną zależność zarówno funkcją liniową jak również może tu dobrze pasować wielomian drugiego rzędu. Dokonajmy więc stosownych obliczeń wykorzystując w tym celu model regresji liniowej.

Na wykresie zamieszczono estymowane równania funkcji regresji wraz z współczynnikiem determinacji \(R^2\) (dla którego 1 oznacza idealne dopasowanie modelu) oraz wartością kryterium informacyjnego Akaikego \(AIC\) (gdzie mniejsza wartość oznacza lepsze dopasowanie). Porównując te wartości dla formuły liniowej z wartościami dla formuły wielomianowej możemy zauważyć tylko bardzo minimalną przewagę formuły wielomianowej. Sprawdźmy jednak czy modele te spełniają założenia regresji liniowej. Do tego celu wykorzystajmy kilka wykresów diagnostycznych.

Analizując wykresy rezyduów w funkcji wartości dopasowanych możemy stwierdzić, że w obu przypadkach mamy dobrą liniowość modelu, przy czym jest ona nieco lepsza dla modelu z formułą wielomianową. Niestety reszty nie wykazują homoskedastyczności co widać na wykresach skali-lokalizacji, przedstawiających pierwiastek standaryzowanych reszt w funkcji wartości dopasowanych modelu. Przypomnijmy, że homoskedastyczność oznacza stałą wariancję rezyduów. Dla zmiennych homoskedastycznych kształt krzywej przedstawiający wartość średnią znormalizowanych reszt powinien być w przybliżeniu poziomą linią, a rozpiętość punktów wokół niej nie powinna się zmieniać wraz ze zmianą wartości dopasowanej odpowiedzi. Jak widać w obu powyższych przypadkach warunek ten jest wyraźnie nie spełniony. Będzie jednak bardzo trudno naprawić ten model w taki sposób aby wykazywał się on homoskedastycznością. Jest to spowodowane między innymi występowaniem granicznych wartości możliwych do uzyskania punktów w każdym z testów. Z pewnością usunięcie obserwacji odstających (o bezwzględnych wartościach standaryzowanych reszt większych od 2) poprawiło by nieco spełnienie tego kryterium. Tu jednak nie będziemy tego robić.

Z kolei analiza wykresów dystansów Cooka uwidacznia brak wpływowych obserwacji, czyli obserwacji o długości Cooka większej od \(0.5\), co jest dobrym objawem.

Przekładając te wyniki na umiejętności uczniów można wyciągnąć dość oczywisty wniosek, że uczniowie którzy dobrze radzili sobie z testem diagnostycznym, dobrze poradzili sobie również na maturze (zmniejszająca się wariancja rezyduów przy końcu skali). Podobnie w przypadku uczniów słabych, słaby wynik testu przekłada się na słaby wynik matury. Natomiast dość duża wariancja rezyduów w zakresie od 24 do 40 punktów można z pewnością tłumaczyć znacznym zróżnicowaniem zakresu pytań pomiędzy testem diagnostycznym a maturą w korelacji ze zróżnicowaniem zakresu wiedzy badanych uczniów. Jeżeli bowiem rezyduóm ma dodatnią, wysoką wartość to oznacza, że dany uczeń miał niski poziom wiedzy w zakresie i w czasie pisania testu, natomiast podczas pisania matury i w zakresie wymaganym przez zadania maturalne jego poziom wiedzy był wysoki. Odwrotnie, w przypadku kiedy reszta ma dużą, ujemną wartość oznacza to, że uczeń wykazał się sporą wiedzą do napisania testu diagnostycznego jednak zabrakło mu jej w trakcie pisania egzaminu maturalnego.

Zobaczmy jednak jak zmienią się te wyniki w poszczególnych kategoriach szkół. Najpierw więc wykonajmy odpowiedni wykres rozproszenia.

Wykres rozproszenia uwidacznia nam dość dobrą liniową zależność w szkołach kategorii B, nieco gorszą w szkołach kategorii C oraz najsłabszą w przypadku kategorii A, gdzie być może dobrym dopasowaniem był by wielomian trzeciego stopnia. Mimo wszystko spróbujemy na początek skonstruować modele wyłącznie z formułą liniową.

Jak widać wprowadzenie wielomianu 3 rzędu wpłynęło najbardziej na krzywą regresji dla kategorii A. Choć zmiana ta nie wpłynęła jakoś znacząco na wartości współczynników \(R^2\) oraz \(AIC\). Tak samo bardzo niewielka poprawa (jeżeli brać pod uwagę tylko wartości \(R^2\) oraz \(AIC\)) wyniosła w przypadku kategorii C. Tymczasem zastosowanie wielomianu praktycznie niczego nie zmieniło w przypadku kategorii B gdzie krzywa regresji wygląda bardzo podobnie jak dla formuły liniowej. Także i w tym przypadku nie można zauważyć jakiejś znaczącej zmiany współczynników jakościowych. Uwaga, ze względu na różne liczności w poszczególnych kategoriach szkoły nie można porównywać wartości \(AIC\) pomiędzy nimi bo będzie to prowadzić do błędnych wniosków.

Zróbmy jednak szybki przegląd rezyduów dla tych modeli.

Niestety, podzielenie danych według kategorii szkół nie usunęło heteroskedastyczności rezyduów. Warto jednak zauważyć, że największy zakres rezyduów występuje w przypadku kategorii A.

Na koniec więc spróbujmy wyznaczyć stosowne modele dla każdej ze szkół z osobna. Sposób postępowania będzie podobny jak wyżej. Zacznijmy więc od wykresów rozproszenie wraz z gładkimi krzywymi dopasowania, jednak tym razem już bez podawania współczynników korelacji.

Jak widać na powyższym wykresie, dla praktycznie każdej szkoły należałoby poszukiwać krzywych regresji wśród wielomianów i to często trzeciego lub nawet wyższego rzędu. Nie będziemy jednak tego robić, bo nie wniosło by to już nic wartościowego do naszej analizy. Warto jednak w tym miejscu zwrócić uwagę na kilka szczególnych cech i przypadków. I tak np. krzywa dla szkoły o kodzie KIE jest najkrótsza co odzwierciedla wyjątkowo niskie umiejętności uczniów tej szkoły. Bardzo podobny przebieg ma krzywa dla szkoły o kodzie ZAW choć ma większą rozpiętość oraz amplitudę. Te dwie szkoły to szkoły z kategorii A, czyli szkoły których uczniowie najsłabiej radzili sobie na maturze. Poza tym dla wszystkich pozostałych szkół wykresy kończą się w pobliżu maksymalnej możliwej punktacji. Świadczy to o tym, że w każdej z tych szkół są uczniowie których zasób wiedzy jest bardzo wysoki, pozwalający osiągać najlepsze wyniki mierząc się zarówno z zadaniami testu diagnostycznego jak i z zadaniami maturalnymi.

Uwarunkowania

Przejdźmy do analizy uwarunkowań. Badanym uczniom zadano szereg pytań ankietowych. Pytania te zostały podzielone na kilka logicznych grup. W takich też grupach przeprowadzać będziemy analizę, stopniowo odnajdując te czynniki, które są statystycznie istotne.

Sposoby przygotowywaniu uczniów do matury

Średnie wartości odpowiedzi ankietowych

Pierwszą grupą pytań były pytania dotyczące metod i sposobów przygotowywania się uczniów do matury. W tej grupie zadano uczniom jedenaście pytań. Przedstawmy je w skrócie według kolejności:

Na te pytania uczeń mógł odpowiedzieć wybierając jedną z pięciu możliwych wartości:

  • bardzo rzadko
  • rzadko
  • trudno powiedzieć
  • często
  • bardzo często

Odpowiedziom tym przydzielono pewne wartości liczbowe. Ta transformacja zostanie dokładniej omówiona w dalszej części analizy. Teraz wystarczy, że powiemy, iż odpowiedź “bardzo często” otrzymała wartość jeden, “trudno powiedzieć” - wartość zero, a odpowiedź “bardzo rzadko” otrzymała wartość minus jeden. Oczywiście odpowiedzi pośrednie otrzymały odpowiednio proporcjonalnie pośrednie wartości. Dla tak przetransformowanych wartości można było w łatwy sposób określić średnią w dowolnej grupie uczniów, która odzwierciedla średnią częstość używania danej metody przygotowania do matury.

Analizę tych czynników będziemy prowadzić w odniesieniu do przyjętego i nazwanego przez nas “wyniku przyzwoitego”. Wynik ten zastał przez nas ustalony na poziomie \(50\%\), czyli \(25\) punktów. “Wynik przyzwoity” to wynik zbliżony do średniego wyniku w kraju. Oczywiście, można było prowadzić tę analizę pod względem progu zdawalności, czyli 30%. Jednak bardzo mały odsetek uczniów nie przekraczających tego progu mógłby nie ujawnić zbyt wielu istotnych czynników. Było to szczególnie ważne w kontekście planowanego wykorzystania regresji logistycznej do badania czynników wpływających na sukces. Ustawienie progu sukcesu zbyt nisko mogło by dać bardzo niepewne wyniki i nie ujawnić znaczących czynników. To również zostanie uzasadnione bardziej szczegółowo w dalszej części analizy.

W pierwszej kolejności spójrzmy więc na odpowiednie częstości odpowiedzi, od razu dzieląc badaną próbę względem wyniku przyzwoitego, gdzie oczywiście wartość jeden oznacza osiągnięcie progu przyzwoitego, a wynik 0 brak sukcesu w tym względzie.

Pierwsza, wizualna analiza, od razu uwidacznia kilka ciekawych, lecz niewielkich różnic. Największe dotyczą korepetycji (I.2), internetu (I.4), materiałów CKE (I.5), zadań domowych (I.7) oraz arkuszy maturalnych (I.11). Choć trzeba zaznaczyć, że różnice te nie są aż tak duże. Przy rozpiętości możliwych wyników od \(-1\) do \(1\), różnica na poziomie \(0.2\) stanowi zaledwie \(10\%\). Największa różnica występuje w przypadku arkuszy maturalnych oraz korepetycji, choć i tu jest to zaledwie \(0.3\), czyli \(15\%\). Warto też zwrócić uwagę, że korepetycje (I.2) oraz internet (I.4) występują znacznie częściej w grupie która nie przekroczyła progu przyzwoitego wyniku. Z kolei czynniki takie jak materiały CKE (I.5) i arkusze maturalne (I.11) występowały częściej w grupie przekraczającej ten próg i były jednocześnie najczęściej wskazywanymi sposobami przygotowania do matury. Wyjątkowo słabym zainteresowaniem natomiast cieszyły się, i to jednakowo w obu grupach, narzędzia IT (I.81) oraz praca w grupach (I.91). Za to praca z podręcznikiem (I.10), zadania domowe (I.7) i próbne matury (I.6) były dość często wskazywane w obu grupach, z nieco większą różnicą w przypadku zadań domowych na korzyść grupy osiągającej sukces.

Sprawdźmy więc, jak te odpowiedzi kształtowały się pomiędzy poszczególnymi kategoriami szkół.

Znów na czoło wysuwa się pytanie drugie, czyli korepetycje (I.2). Szczególnie w kategorii B, gdzie wystąpiła największa różnica. Jest rzeczą zastanawiającą, że w przypadku korepetycji w tej kategorii, największą popularnością cieszyły się one wśród uczniów, którzy nie osiągnęli sukcesu przy jednoczesnym, prawie identycznym braku zainteresowania nimi, wśród wszystkich uczniów odnoszących wynik przyzwoity. Widać tu także wyraźnie, że niezależnie od kategorii, narzędzia IT (I.8) nie wzbudzają wśród uczniów prawie żadnego zainteresowania. Tak samo praca w grupach (I.9), do której z wyjątkową niechęcią podchodzą uczniowie, co charakterystyczne, nie osiągających sukcesu ze szkół kategorii C. Niezmiennie widać także, że dużym zainteresowaniem cieszą się praca z podręcznikiem (I.10) oraz arkusze maturalne (I.11). Niezaprzeczalnym liderem są zaś próbne matury (I.6) z najwyższym wynikiem w szkołach kategorii C, choć tylko dla uczniów osiągających sukces. Wyjątkowo zaś neutralnym zainteresowaniem cieszą się prawie wszystkie metody przygotowania, poza arkuszami maturalnymi, uczniów w szkołach kategorii C, którzy nie przekraczają naszego progu przyzwoitego wyniku. Przypomnijmy, że w tej kategorii wszyscy uczniowie zdali maturę. Widać także, że w przypadku kursów przedmaturalnych zainteresowanie nimi spada wraz z kategorią szkoły, a z kolei zainteresowanie arkuszami maturalnymi rośnie wraz kategorią szkoły, chociaż występują tu różnice pomiędzy uczniami osiągającymi a nie osiągającymi progu przyzwoitego.

Na koniec przygotujmy jeszcze raz taką mapę cieplną odpowiedzi z podziałem na poszczególne szkoły. Aby jednak nie pogarszać czytelności wykresu, zrezygnujmy tym razem z nanoszenia wartości średnich wyników na poszczególne pola. Należy także dodać, że tym razem wyniki zostały przefiltrowane w taki sposób aby w jednej grupie były co najmniej 3 osoby. Z tego więc powodu brakuje tu wyników tych kilku uczniów ze szkoły o kodzie KIE którzy zaliczyli sukces oraz tych kilku uczniów z szkoły o kodzie OP3 którzy sukcesu nie zaliczyli. Ponadto warto zanotować, że szkoły zostały posortowane (oś pionowa) według rosnącej mediany wyniku maturalnego.

Tym razem możemy zauważyć wyjątkowo słabe zainteresowanie prawie każdym ze sposobów przygotowania do matury (poza pracą z podręcznikiem) wśród uczniów nie zaliczających sukcesu ze szkół o kodach KIE oraz OP2. Oczywiście niezmiennie bardzo słabym zainteresowaniem cieszą się narzędzia IT oraz praca w grupach, z szczególnie wyróżniającym się, najsłabszym zainteresowaniem wśród uczniów niezaliczających sukcesu. Dużym zainteresowaniem natomiast nadal cieszą się próbne matury, zadania domowe, podręcznik i arkusze maturalne (oczywiście nie licząc niezaliczających uczniów z KIE oraz OP2).Ciekawym jest także, że zajęcia dodatkowe oraz internet cieszą się zainteresowaniem w szkołach słabszych, oraz odwrotnie nie są uważane za coś istotnego w szkołach z lepszymi wynikami. Nie bez znaczenia jest także fakt, że takie sposoby przygotowania jak zajęcia dodatkowe, kursy przedmaturalne oraz korepetycje, dla wszystkich szkół z najlepszym wynikiem (lewy górny róg) nie cieszą się zbytnim zainteresowaniem.

Macierz korelacji pomiędzy zmiennymi grupy I

Aby móc jednak w pełni ocenić, na założonym poziomie istotności, wpływ poszczególnych czynników użyjemy modelu regresji logistycznej. W pierwszym kroku sprawdźmy jednak czy pomiędzy tymi predyktorami nie występują silne współliniowości. Posłużymy się tu opisaną wcześniej mapą cieplną macierzy korelacji Spearamana.

Jak widać na powyższej mapie cieplnej, istnieje niewielka korelacja pomiędzy czynnikami takimi jak praca z materiałami CKE oraz z arkuszami maturalnymi z poprzednich lat, co wydaje się dość zrozumiałe i zasadne. W pozostałych przypadkach korelacja jest albo słaba albo wręcz bardzo słaba. Poza tym warto zwrócić uwagę, że praktycznie brak jest jakiejkolwiek istotnej korelacji pomiędzy szkołą a którymkolwiek z ze sposobów przygotowania do matury.

Brak jakichkolwiek silnych współliniowości pozwala nam ze spokojem przejść do modelu regresji logistycznej. W tym miejscu należy jednak nadmienić, że w analizie będą porównywane dwa modele. Jeden model będzie konstruowany na podstawie wyników maturalnych natomiast drugi będzie budowany na podstawie wyników testu diagnostycznego. Oba modele poddawane będą tej samej, krokowej metodzie wyboru predyktorów opisanej we rozdziale Krokowe wybieranie zmiennych.

Regresja logistyczna dla sukcesu przyzwoitego

Przejdźmy więc do analizy pierwszych współczynników regresji logistycznej. Dla łatwej analizy zostaną one prezentowane na omówionym wcześniej wykresie.

Ten, zdawało by się prosty wykres niesie ogromną ilość informacji. Po pierwsze widać, że na prawdopodobieństwo sukcesu w obu egzaminach wpływają w podobny sposób wyraz wolny (\(\beta_0\)) (na wykresie oznaczany (Intercept)), Szkoła (\(\beta_{Szkoła}\)), oraz korepetycje (\(\beta_{I.2}\)). Wartość prawdopodobieństwa testowego testu Walda jest we wszystkich tych przypadkach poniżej \(0.001\). Na dodatek w obu modelach szerokości przedziałów ufności tych współczynników są dość porównywalne.

W przypadku matury nie liczą się praktycznie żadne inne predyktory! Co prawda proces ich doboru pozostawił jeszcze zadania domowe (\(\beta_{I.7}\)), jednak w tym przypadku p-wartość jest większa od założonego przez nas poziomu istotności, co nie pozwala nam na odrzucenie hipotezy zerowej o braku liniowej zależności ze zmienną objaśnianą. Czynnik ten ma co prawda znaczenie dla testu diagnostycznego, jednak ma on równocześnie bardzo szeroki przedział ufności. Poza tym, dla testu diagnostycznego istotność statystyczną zyskały jeszcze zajęcia dodatkowe (\(\beta_{I.1}\)), choć i tu również z dość szerokim przedziałem ufności, oraz czynnik związany z internetem (\(\beta_{I.4}\)), choć w tym przypadku jest to czynnik ograniczający.

Warto w tym miejscu wyjaśnić jaki przyjęto sposób transformacji zmiennych kategorialnych. Co prawda korzystaliśmy już z tych wartości podczas analizy częstości odpowiedzi, jednakże przyjęte poziomy zostały celowo dobrane tak aby ułatwić analizę wyników regresji logistycznej. Omówimy to więc po kolei. Przypomnijmy więc, że dla zmiennych takich jak pytania I.1 do I.11 występowało pięć możliwych odpowiedzi:

  • bardzo rzadko
  • rzadko
  • trudno powiedzieć
  • często
  • bardzo często

Te pięć wartości kategorialnych należało przed zastosowaniem funkcji regresji logistycznej przetransformować na wartości liczbowe. Można było w tym celu wykonać prostą transformację zmiennej w skali porządkowej na kolejne wartości liczbowe, oczywiście po zapewnieniu określonego porządku rosnącego np. w taki oto sposób:

  • bardzo rzadko - \(1\)
  • rzadko - \(2\)
  • trudno powiedzieć - \(3\)
  • często - \(4\)
  • bardzo często - \(5\)

Jednak takie przyjęcie wartości liczbowych utrudniałoby interpretację estymowanych współczynników regresji. W całej tej analizie, w przypadku zmiennych z pięcioma możliwymi wartościami, przyjęto nieco inny sposób transformacji, gdzie wartościom kategorialnym przypisano następujące wartości liczbowe:

  • bardzo rzadko - \(-1\)
  • rzadko - \(-0.5\)
  • trudno powiedzieć - \(0\)
  • często - \(0.5\)
  • bardzo często - \(1\)

Oczywiście, sposób transformacji nie mógł w żaden sposób wpłynąć na sam model regresji, jego precyzję oraz na istotność estymowanych współczynników regresji, a jedynie nieznacznie na ich wartość. Jednak teraz można już o wiele prościej interpretować uzyskane wyniki. Dodatkowo należy przypomnieć, że na wykresie prezentowane są wykładnicze wartości współczynników \(\beta\). Jednak dla uproszczenia zapisu będziemy się nadal posługiwać prostym zapisem pomijając eksponent. Aby ułatwić odczytywanie konkretnych wartości liczbowych współczynników regresji, przywołajmy jeszcze raz wcześniejszy wykres, tym razem uzupełniając go o odpowiednie etykiety z wartościami.

I tak dla przykładu, na powyższym wykresie możemy odczytać, że dla testu diagnostycznego współczynnik \(\beta_{I.7}\) czyli zadania domowe, ma wartość \(1.58\). Ponieważ jest on większy od jedności oznacza to, że ten czynnik ma stymulujący wpływ na sukces. Dodatkowo, przy zastosowaniu takiej transformacji jak opisano powyżej, możemy od razu określić jak duży ten wpływ jest. W tym przypadku, jeżeli uczeń odpowiedział “bardzo często”, jego szansa rosła o \(58\%\). Jeżeli odpowiedział “trudno powiedzieć” czynnik ten nie ma znaczenia i nie zmienia szansy powodzenia. W przypadku gdy odpowiedział “bardzo rzadko”, jego szansa maleje, i należy ją pomnożyć przez odwrotność tego współczynnika. Tak więc w tym przypadku wartość jego szansy maleje o \(1-\frac{1}{1.58}=37\%\).

Bardzo zaskakująca może wydawać się w tym momencie wartość współczynnika \(\beta_{I.2}\), czyli wpływ korepetycji. Jak widać na wykresie jest ona bowiem mniejsza od jedności a to oznacza, że ten czynnik ma wpływ ograniczający. Czy to aby nie jest błąd? Jak można wytłumaczyć taki wynik? Wartość \(\beta_{I.2}\) wynosi \(0.52\) a to oznacza, że jeżeli uczeń odpowiedział, że bardzo często korzysta z korepetycji to jego szansa maleje o \(48\%\). Natomiast jeżeli uczeń nie korzysta z korepetycji, to jego szansa na sukces rośnie o \(\frac{1}{0.52}-1=91\%\). Trzeba przyznać, że na pierwszy rzut oka to dość zaskakujący wynik. Jednak tylko z pozoru te dane stoją w sprzeczności ze zdrową logiką. Należy je bowiem umiejętnie czytać. Przypomnijmy więc sobie pierwsze wykresy obrazujące popularność metod przygotowania do matury w poszczególnych grupach. Wynikało z nich jasno, że z korepetycji znacznie częściej korzystali uczniowie którym ostatecznie nie udało się przekroczyć progu przyzwoitego wyniku, w odróżnieniu od ich kolegów którzy ten próg przekroczyli. Oznacza to, że z korepetycji korzystają częściej uczniowie słabi. W tym kontekście wyniki te należy interpretować następująco: jeżeli uczeń należy do grupy która potrzebuje korepetycji to oznacza, że należy również do grupy słabszych uczniów a w związku z tym jego szansa na powodzenie jest odpowiednio mniejsza. Maleje ona jednak nie z powodu tego, że pobiera korepetycje. To z pewnością przyczyni się do lepszego wyniku. Maleje ona jednak z powodu tego, że należy on do grupy słabiej radzącej sobie z tym tematem.

Można jednak zapytać w jaki sposób została przetransformowana zmienna kategorialna Szkoła. Na początku analizy wartościom kategorialnym tej zmiennej objaśniającej przypisano mediany wyników maturalnych w danej szkole. Jednak takie postępowanie można krytykować, dopatrując się działania tak jakbyśmy badali wpływ zmiennej \(x\) na wynik zmiennej \(x\). Jeżeli bowiem w zmiennej objaśniającej Szkoła zakodowana będzie wartość wyniku maturalnego który, co oczywiste, zakodowany jest również w zmiennej objaśnianej czyli w prawdopodobieństwie sukcesu, to czy taki model nadal będzie poprawny? Z kolei nie można pominąć faktu, że szkoły uzyskują różne wyniki. Można się spodziewać, że pominięcie tego czynnika będzie mieć negatywny wpływ na dokładność modelu. Aby w pełni przekonać się czy i jakiego typu transformację należy wykonać, przeprowadzono mały eksperyment. W tym celu przygotowano pięć różnych modeli logistycznych. Pierwszy model (A) był pozbawiony zmiennej Szkoła. Kolejne cztery modele były wyznaczone w oparciu o dane, w których zmienną Szkoła transformowano na następujące wartości:

  • B - średni wynik szkoły,
  • C - mediana wyniku szkoły,
  • D - trimean Tukeya,
  • E - kolejne liczby naturalne.

Sprawdźmy najpierw jaki będzie to miało wpływ na współczynniki regresji \(\beta\).

Analizując powyższy wykres należy przede wszystkim zwrócić uwagę, że pod względem kryterium informacyjnego Akaikego AIC (ale tak samo i Bayesowskiego kryterium informacyjnego Schwarza - BIC) najlepiej dopasowanym modelem jest model B, w którym zastosowano transformowanie zmiennej Szkoła na wartość średniej. Model ten jednak jest lepszy do modeli C i D (mediana, trimean) tylko bardzo nieznacznie. Z kolei najgorszym modelem (biorąc pod uwagę te same kryteria) okazał się model pozbawiony predyktora Szkoła, czyli model A. Model E, czyli model z transformowanymi wartościami na kolejne liczby naturalne, jest nieco gorszy od modeli B, C czy D. Spójrzmy jednak na poszczególne wartości współczynników \(\beta\) wraz z ich przedziałami ufności. Widać wyraźnie, że pozbawienie modelu predyktora Szkoła spowodowało, że współczynnik \(\beta_0\) osiągnął dość wysoką wartość, zdecydowanie różną od pozostałych modeli, jednak z bardzo szerokim przedziałem ufności. Z wykresu możemy także odczytać, że wejściowa szansa w tym modelu wynosi w przybliżeniu \(2.9\) w przedziale ufności od \(1.7\) do \(4.7\). Tymczasem wejściowa szansa w modelach gdzie ta zmienna występuje, niezależnie od metody transformacji, wynosi tylko kilka tysięcznych, przy jednocześnie bardzo wąskim przedziale ufności. Ten fakt można wyrazić następująco: jeżeli uczeń nie uczy się w żadnej szkole jego szanse zdania matury są bliskie zeru. Wartość szansy zaś bierze się przede wszystkim ze zmiennej Szkoła. Może się tu wydawać, że dla modelu E jest ona znacznie większa niż dla pozostałych modeli z predyktorem Szkoła. Należy jednak uświadomić sobie w jaki sposób oblicza się odpowiedni czynnik szansy. Przeprowadźmy więc kilka prostych wyliczeń. Aby to zrobić przywołajmy wcześniejszy wykres z wartościami wyłącznie dla modeli C i E.

Pomijając na chwilę pozostałe zmienne, możemy np. dla modelu C zapisać równanie szansy:

\(o=e^{\beta_0}{(e^{\beta_{Szkoła}})}^{Me(Szkoła)}\)

W przypadku szkoły, której mediana wyników maturalnych wynosi \(34.5\) (w naszym przypadku jest to szkoła o kodzie OGL), wartość szansy wynosi:

\(o=0.01*1.183^{34.5}=3.3\)

co odpowiada prawdopodobieństwu sukcesu \(0.77\). Ta sama szkoła w naszym naszym modelu E (z transformacją na kolejne liczby naturalne) otrzymała wartość 4. Wyznaczmy więc szansę dla tego modelu:

\(o=0.132*2.042^{4}=2.3\)

co odpowiada prawdopodobieństwu sukcesu \(0.7\).

Nie można jednak zapominać, iż w przypadku modelu E, współczynnik \(\beta_{Szkoła}\) ma dość szeroki przedział ufności.Można także zwrócić uwagę, że transformowanie wartości szkoła kolejnymi liczbami naturalnymi spowodowało iż przedyktor I.6 należy uznać, na przyjętym przez nas poziomie istotności za zależny liniowo od zmiennej objaśnianej.

Wróćmy znów do porównania wszystkich pięciu modeli. Zauważmy, że po pozbawieniu modelu zmiennej Szkoła istotne okazały się się takie zmienne jak I.4 (internet) oraz I.10 (podręcznik), oba o działaniu ograniczającym, oraz dwa predyktory o czynnikach stymulujących I.7 (zadania domowe) oraz I.11 (arkusze maturalne). Można to interpretować następująco: jeżeli nie brać pod uwagę do której szkoły chodzą uczniowie to praca nad zadaniami domowymi oraz arkuszami maturalnymi wpłynie na wzrost szansy o \(1.72*3.22=5.53\) czyli ponad pięciokrotnie, podczas gdy eksploracja zasobów internetowych ograniczy tę szansę o \(42\%\). Nie należy jednak zapominać o dużej niepewności szansy wejściowej (\(\beta_0\)), której przedział ufności mieści się w granicach \(1.7\) do \(4.7\).

Ocena wpływu rodzaju transformacji kategorycznej zmiennej Szkoła

Sprawdźmy jednak na ile precyzyjne są nasze modele. Zbudujmy je jednak na nowo usuwając nieistotne (przy założonym przez nas poziomie istotności) predyktory. Następnie wykorzystajmy opisaną wcześniej macierz konfuzji.

Jeżeli przyjrzymy się wskaźnikom oceny poszczególnych modeli, to z pewnością zauważymy, że najniższą dokładnością (\(Accu\)) charakteryzuje się model A dla którego jego średnia wartość wynosi \(0.79\) (co oznacza, że model ten myli się w 21% przypadków), oraz jego niską precyzję (\(Prec\)) przy jednoczesnym bardzo wysokim wycofaniu (\(Rec\)). O wiele lepiej wypadają tu modele z predyktorem Szkoła. Bardzo zbliżone wartości, zarówno wskaźnika precyzji jak i wycofania, świadczą o tym, że te modele mylą się w obu kierunkach, czyli zarówno prognozując sukces przy występującej porażce (ok. \(14\%\) przypadków) jak i przewidując porażkę uczniom którym się powiedzie (\(4\%\) przypadków). Porównując zaś wartości wskaźnika \(F1\) dochodzimy do wniosku, że najlepiej wypada model C, gdzie kategorialna zmienna Szkoła została przetransformowana na wartość mediany. Za nim uplasowały się, z bardzo zbliżonym wynikiem \(F1\) modele B (średnia), D (trimean) oraz E (liczby naturalne). Takie wartości mogą wynikać z faktu, braku zgodności z rozkładem normalnym wyników maturalnych i po raz kolejny uwidaczniają konieczność posługiwania się wartością mediany.

Wnioski płynące z tej analizy będą wykorzystywane w dalszej części pracy. W każdej grupie badanych czynników będzie uwzględniany predyktor Szkoła którego kategorialne wartości będą transformowane na wartość mediany wyników maturalnych osiąganych w danej szkole.

Porównanie regresji logistycznej z regresją liniową

Z czystej ciekawości badacza sprawdźmy jeszcze jakie otrzymamy wyniki, jeżeli zastosujemy model regresji liniowej. Oczywiście musimy przy tym pamiętać, o konieczności sprawdzenia czy model ten spełnia założenia regresji liniowej. Zróbmy więc kilka szybkich obliczeń.

Aby jednak móc lepiej porównać poszczególne współczynniki regresji zestawmy w jednym miejscu wykres dla modeli regresji liniowej z wykresem dla modeli logistycznych. Dokonując tego porównania należy jednak wziąć pod uwagę, że w przypadku modeli regresji logistycznej współczynniki \(\beta\) są prezentowane w wartościach wykładniczych. Dlatego w tym przypadku czynniki ograniczające odnaleźć można poniżej wartości jeden. W przypadku modeli liniowych te czynniki, które wpływają ograniczająco mają ujemne wartości. Ponadto kolejność predyktorów jest nieco inna, co wynika z kolejności występowania danych predyktorów w określonym modelu.

Analizując otrzymane współczynniki regresji liniowej w pierwszej kolejności powinniśmy zwrócić uwagę na bardzo wąski przedział ufności współczynnika \(\beta_{Szkoła}\) przy jednocześnie bardzo niskim prawdopodobieństwie testowym, którego wartość jest mniejsza od \(0.001\). Tymczasem wartości wyrazów wolnych \(\beta_0\), choć o podobnej wartości prawdopodobieństwa testowego mają najszersze przedziały ufności. Jest to odwrotnie niż w przypadku modeli regresji logistycznych. Niezależnie od tych różnic dla obu typów modeli są to bardzo istotne czynniki. Kolejnym podobieństwem jest ograniczający i bardzo znaczący czynnik \(\beta_{I.2}\) czyli korepetycje. W obu typach regresji współczynniki te mają podobnie wąskie przedziały ufności z podobnie niską wartością prawdopodobieństwa testowego.

W przypadku zmiennej I.1 (zajęcia dodatkowe) współczynniki regresji liniowej są niezależne od zmiennej objaśnianej. W przypadku regresji logistycznych ten czynnik okazał się istotny tylko w przypadku modelu skonstruowanego dla testu diagnostycznego. Spójrzmy teraz na zmienną I.4 (internet). Jak widać w obu przypadkach czynnik ten okazał się jednakowo czynnikiem ograniczającym. Co prawda w przypadku modeli logistycznych miał on znaczenie znów tylko dla testu diagnostycznego. Dalej, zmienna I.6 (próbne matury), istotna w obu modelach regresji liniowej, w przypadku regresji logistycznej w ogóle nie występuje. Z kolei zmienna I.7, dla regresji liniowej jest również istotna w obu modelach, gdy tymczasem dla regresji logistycznej jest ona istotna tylko dla modelu dotyczącego testu diagnostycznego. Ostatnie dwie zmienne modeli liniowych to I.11 oraz I.5, przy czym pierwsza z nich jest istotna tylko w odniesieniu do matur a druga w odniesieniu do testu diagnostycznego nie występują lub nie są istotne w modelach regresji logistycznej.

W tym miejscu można jednak próbować wyciągnąć wniosek (błędny), że skoro dla regresji liniowych wartości estymowanych współczynników \(\beta\) są tak bardzo podobne (tzn. występują dla tych samych predyktorów, przy takiej samej p-wartości oraz podobnych szerokościach przedziałów ufności) zarówno dla testu diagnostycznego jak i dla matury, to te modele lepiej opisują rzeczywistą sytuację. Bez sprawdzenia zgodności z założeniami regresji liniowej byłyby to oczywiście zbyt pochopny wniosek. Jednak zanim to zrobimy należy uzmysłowić sobie co te wartości dla nas oznaczają. Otóż wartość wyrazu wolnego \(\beta_0 = 4\) mówi, że uczeń “na wejściu” powinien uzyskać co najmniej 4 punkty, dalej to do jakiej szkoły chodzi daje mu kolejne punkty równe \(\beta_{Szkoła} = 0.77\) razy mediana wyniku szkoły, czyli dla poprzedniego przykładu, tzn. szkoły o kodzie OGL która uzyskała medianę równą \(34.5\) dało by mu to wynik równy \(4+0.77*34.5 = 30.5\) punktów. Tymczasem takie czynniki jak często odrabiane zadania domowe mogą ten wynik zmienić o niecałe 2 punkty (\(\beta_{I.7} = 1.94\)). Dokładnie o taką samą wartość zmieni się wynik jeżeli uczeń często korzystał z arkuszy maturalnych (\(\beta_{I.11} = 1.94\)). Jeżeli zaś należał do grupy często korzystającej z korepetycji to jego wynik będzie mniejszy o 3 punkty (\(\beta_{I.2} = -3\)), a jeżeli często szukał pomocy w internecie to jego wynik będzie mniejszy o niecałe dwa punkty (\(\beta_{I.4} =-1.9\)). Widać więc wyraźnie, że większa część wyniku pochodzi i tak ze zmiennej Szkoła. Pozostałe predyktory zmieniają wynik o zaledwie 2, 3 punkty.

Sprawdźmy jednak czy nasze modele spełniają założenia regresji liniowej. Dokonajmy tego na podstawie wizualnej oceny analizując kilka wybranych wykresów diagnostycznych.

Analiza wykresów diagnostycznych uwidacznia niedostateczną liniowość tych modeli oraz szczególnie heteroskedastyczność rezyduów co nie pozwala nam na przyjęcie tych modeli i wnioskowanie dotyczące przedziałów ufności weystymowanych współczynników. Musimy także pamiętać o braku zgodności zarówno zmiennej Matura jak i zmiennej Test z rozkładem normalnym co zostało szczegółowo omówione we wcześniejszych rozdziałach.

Analiza nakładu pracy uczniów

Cała powyższa analiza prowadzi do dość nieoczekiwanych wniosków które stoją w konflikcie z założoną tezą o korelacji pomiędzy pracą własną ucznia a osiąganym wynikiem maturalnym. Dlaczego tak się stało? Jak można to interpretować? Chcąc dokładnie zbadać przyczynę takiego stanu rzeczy wykonano jeszcze kilka szybkich analiz. Każdą z z odpowiedzi na pierwszą grupę pytań ankietowych dotyczących metod przygotowań uczniów do matury można potraktować jako swoisty nakład pracy, a przy zastosowanej transformacji (\(-1...0...+1\)) wystarczy proste zsumowanie tych odpowiedzi dla każdego ucznia. Powinniśmy w ten sposób otrzymać pewien wskaźnik przyjmujący wartości od \(-11\) do \(+11\) odzwierciedlający nakład pracy ucznia przygotowującego się do matury. Zobaczmy więc jak wartość tego wskaźnika kształtowała się w poszczególnych kategoriach szkół.

Na wyniki nakładu pracy zostały nałożone (w formie czerwonych punktów), odpowiednio przeskalowane mediany wyników maturalnych. Już sama, pobieżna tylko analiza tego wykresu, uwidacznia nam bardzo wyraźny fakt braku jakiejkolwiek istotnej różnicy pomiędzy tymi grupami. Potwierdza to także test Wilcoxona. Dla dopełnienia tego obrazu wyznaczmy współczynnik korelacji Spearmana pomiędzy nakładem pracy a wynikiem maturalnym, który w tym przypadku wynosi 0.083, co świadczy o absolutnym braku jakiejkolwiek korelacji.

Przejdźmy zatem do wyników osiągniętych w poszczególnych szkołach.

Jedyna szkoła która wyróżnia się z tego zbioru, to szkoła o kodzie KIE. Wyróżnia się ona jednak w bardzo negatywny sposób. Dla prawie wszystkich uczniów tej szkoły nakład pracy wyniósł poniżej zera. Przypomnijmy, że jest to szkoła w której maturę zdało tylko \(18\%\) uczniów. Dla wszystkich pozostałych szkół wyniki są bardzo podobne, co potwierdza nam test Wilcoxona. Można zauważyć, że mediana jest tu prawie zawsze większa od zera (poza szkołą o kodzie OP2). W każdej szkole są uczniowie którzy bardzo często korzystają z różnych sposobów przygotowania do matury jak i tacy którzy sięgają po te pomoce bardzo rzadko. Co znamienne czterech uczniów z najniższym wynikiem nakładu pracy wystąpiło w szkołach osiągających najlepsze wyniki. Jest zadziwiające, że nie można dopatrzeć się tu żadnej korelacji pomiędzy nakładem pracy uczniów a osiąganymi wynikami szkoły. Wyznaczmy więc współczynnik korelacji Spearmana, jednak tym razem potraktujmy szkołę o kodzie KIE jako wynik odstający i nie uwzględniajmy ich w obliczeniach tego współczynnika. Tak wyznaczony współczynnik korelacji wynosi -0.013 co również świadczy o braku jakiejkolwiek korelacji pomiędzy nakładem pracy a osiąganym wynikiem z niewielkim wskazaniem, że nakład pracy w słabszych szkołach jest nieco większy niż w szkołach o najlepszych wynikach.

Dopełnieniem tej analizy niechaj będzie ostatni już wykres, ilustrujący bardzo precyzyjnie dlaczego pomiędzy nakładem pracy a wynikiem maturalnym brak jest jakiejkolwiek korelacji. Będzie to wykres prezentujący wynik maturalny każdego ucznia w funkcji wyliczonego tu nakładu pracy. Aby jednak punkty wykresu wzajemnie się nie nakładały, na ich pozycje nałożono niewielkie dodatkowe losowe przesunięcie. Dodatkowo na wykresie zaznaczono kilka wartości granicznych. Dwie poziome linie określające próg maturalny (linia czerwona) oraz próg wyniku przyzwoitego (linia niebieska). Dwie pionowe linie oddzielają wyniki z zakresu \([-5,5]\).

Jak można zauważyć pomiędzy nakładem pracy o wartości \(-5\) a \(5\) występuje praktycznie każdy możliwy wynik maturalny. Warto też zwrócić uwagę na dwa szczególne wyniki. Analizując poprzedni wykres można było zauważyć, że jeden jedyny uczeń który nie wskazał aktywności w ani jednym punkcie ankiety to uczeń ze szkoły o kodzie OP2. Bardzo łatwo można go odnaleźć na powyższym wykresie. Jest to punkt najdalej na lewo. Jak widać uczeń ten zdał maturę, choć udało mu się to tylko nieznacznie przekraczając próg zdawalności. Natomiast jeden z uczniów ze szkoły ZAW (dolny prawy punkt), który zaznaczył aktywność w prawie wszystkich jedenastu punktach, niestety nie przekroczył progu zdawalności, co jest niezwykle smutnym spostrzeżeniem.

Sposoby przygotowywania uczniów do matury w kontekście progu 80%

Średnie wartości odpowiedzi ankietowych dla progu wysokiego

Wprowadźmy zatem jeszcze jeden, nowy próg, i spróbujmy przeprowadzić całą tę analizę jeszcze raz. Tym razem jako próg przyjmijmy 40 punktów, czyli 80% maksymalnego wyniku. Próg ten nazwijmy wynikiem wysokim. Sprawdźmy zatem, czy takie podniesienie poprzeczki uwidoczni jakieś istotne zmiany oraz jak to wpłynie na wartości współczynników regresji logistycznej. Na początek porównajmy odpowiedzi na poszczególne pytania ankietowe w odniesieniu do nowego progu. Zbierzmy to jednak na jednym wykresie aby łatwiej można było dokonać odpowiednich, wizualnych porównań.

Jak możemy zauważyć te dwie mapy cieplne prawie nie różnią się od siebie. Jeżeli występują tu różnice to są one bardzo subtelne i w większości nie przekraczają \(0.1\). Wykonajmy więc jeszcze porównanie w poszczególnych kategoriach szkół. Jednak tym razem, mając na uwadze czytelność wykresów bez podawania wartości liczbowych na wykresach.

Proste wizualne porównanie również nie pozwala nam wychwycić większych różnic pomiędzy tymi wynikami. Czy zatem można się spodziewać, że wpłynie to na wartości współczynników regresji? Zróbmy odpowiednie rachunki.

Regresja logistyczna dla progu wysokiego

Tym razem porównajmy otrzymane wartości wyłącznie dla wyników egzaminu maturalnego. Pamiętając jednak wcześniejsze zależności od predyktora Szkoła skonstruujmy cztery modele. Po dwa dla progu przyzwoitego oraz dwa dla progu wysokiego. Wprowadźmy następujące oznaczenie modeli:

  • M2 - model dla progu przyzwoitego bez predyktora Szkoła
  • M2S - model dla progu przyzwoitego z predyktorem Szkoła
  • M3 - model dla progu wysokiego bez predyktora Szkoła
  • M3S - model dla progu wysokiego z predyktorem Szkoła

Oczywiście każdy z modeli będzie poddawany metodzie krokowego doboru predyktorów. Wyniki będziemy prezentować na dobrze już znanym wykresie współczynników regresji.

Kolejny raz wykres ten niesie ogromną ilość informacji. Po pierwsze możemy zauważyć, że pozbawienie modelu predyktora Szkoła zawsze wpływa na zwiększenie wartości wyrazu wolnego \(\beta_0\). Jednak w przypadku progu wysokiego współczynnik ten zwiększył swoją wartość tylko nieznacznie, i to przy stosunkowo niewielkiej szerokości przedziału ufności. Natomiast w przypadku progu przyzwoitego wzrost ten jest znacznie większy oraz dodatkowo, towarzyszy temu znaczne poszerzenie przedziału ufności. Spróbujmy zatem oszacować szansę, a co za tym idzie i prawdopodobieństwo płynące z wyrazu wolnego (tzw. szansa na wejście). W przypadku modelu M2 wartość \(\beta_0\) wynosi 2.86 w przedziale od 1.74 do 4.7 co dopowiada prawdopodobieństwu sukcesu 0.74 w przedziale od 0.64 do 0.82 co oznacza, że jeżeli uczeń na wszystkie pytania ankietowe odpowiedział “trudno powiedzieć” model klasyfikuje go jako osobę która osiągnie sukces.

Zupełnie inaczej wygląda to w przypadku modelu dla progu wysokiego. Tutaj \(\beta_0\) wynosi 0.51 w przedziale od 0.31 do 0.81 co dopowiada prawdopodobieństwu sukcesu 0.34 w przedziale od 0.24 do 0.45. Tak więc w tym przypadku o sukcesie, bez innych czynników nie ma mowy. Można stąd także wyciągnąć wniosek, że podniesienie progu do \(80\%\) spowodowało, że znaczenie do jakiej szkoły chodzi dany uczeń jest już znacznie mniejsze.

Następnie warto zwrócić uwagę, że dla obu modeli uwzględniających predyktor Szkoła zarówno wyraz wolny \(\beta_0\) jak i współczynnik regresji dla tej zmiennej \((\beta_{Szkoła})\) mają prawie takie same wartości, bardzo podobną p-wartość oraz jednakowo, bardzo wąskie przedziały ufności. Kolejny raz potwierdza się więc, że zmienna Szkoła jest bardzo istotnym czynnikiem, niosącym znaczną część szansy powodzenia, niezależnie od wysokości progu sukcesu. I tak dla przykładu uczniowie ze szkoły o kodzie OGL której mediana wyników maturalnych wynosi \(34.5\) pomnażają swoją wejściową szansę równą 710^{-4} razy 428 co w rezultacie daje szansę 0.3, co z kolei odpowiada prawdopodobieństwu 0.23. Oczywiście nadal jest to za mało, aby móc liczyć na sukces. Teraz znaczenia nabierają pozostałe predyktory.

Idźmy jednak dalej. To co w następnej kolejności jest niezwykle interesujące, to wpływ czynnika I.2 czyli, tak często omawiane już wcześniej korepetycje. Jak widać czynnik ten pojawia się w każdym modelu z prawie taką samą, ograniczającą wartością, przy bardzo niskim prawdopodobieństwie testowym i bardzo wąskim przedziale ufności. Widać stąd, jak silny jest to czynnik. Nie ma znaczenia czy próg ustawimy na \(50\%\) czy też podniesiemy go do \(80\%\). Niezmiennie, jeżeli uczeń należy do grupy pobierającej korepetycje to oznacza, że jest na tyle słaby, że jego szansa na sukces maleje, i to niezależnie jak wysoko próg tego sukcesu jest ustawiony. Bardzo podobnie zachowuje się także predyktor I.4 czyli korzystanie z internetu. Co prawda dla progu przyzwoitego i po uwzględnieniu zmiennej Szkoła predyktor ten został wyeliminowany jako nieistotny, to jednak w pozostałych trzech modelach wystąpił z bardzo zbliżoną wartością oraz przedziałami ufności. Co to dla nas oznacza? Jest bardzo prawdopodobne, że ci uczniowie którzy przygotowywali się do matury korzystając z zasobów internetu, pozostawali tam zbyt długo tracąc część czasu na zdobywanie wiedzy niekoniecznie na maturze przydatnej. Można tu także wyciągnąć taki wniosek, że przygotowywanie się poprzez korzystanie z zasobów internetowych oraz serwisu YouTube zajmuje uczniom sporo czasu, jednak czas ten nie przekłada się na zbytnie podniesienie ich wiedzy i umiejętności.

Dalej, na wykresie tym możemy zauważyć jeszcze jeden czynnik który wystąpił w każdym z czterech modeli, przy zbliżonej wartości i podobnych przedziałach ufności. Jest to zmienna I.7 czyli odrabianie zadań domowych. Tym razem jednak jest to zmienna bezsprzecznie stymulująca i co warto zauważyć, największy wpływ ma ona dla modelu M3S w którym pomnaża szansę dwukrotnie. Można to wyrazić następująco, ważna jest szkoła do której chodzisz, jednak aby osiągnąć wysoki wynik powinieneś poważnie traktować zadania domowe, bo zwiększasz sobie w ten sposób szansę osiągnięcia tego wyniku. Dodatkowo widać, że model M3S jest jedynym modelem w którym wystąpił predyktor I.1 czyli zajęcia dodatkowe. Daje on uczniowi wzrost szansy o dodatkowe \(50\%\). Jest to też bardzo znamienne, że ten czynnik wystąpił jedynie w przypadku właśnie tego modelu.

Bardzo ciekawe są natomiast wyniki dla zmiennej I.10, czyli korzystanie z podręcznika. Jak widać na wykresie jest to jedyny czynnik który przyjął dwie skrajne wartości. Skrajne w tym sensie, że w przypadku modelu M2 ma on wpływ ograniczający, a w przypadku modelu M3S ma wpływ stymulujący, o wartości podobnej do zajęć dodatkowych. Zrozumieć można to w ten sposób. Bez określenia szkoły do której chodzi dany uczeń, praca z podręcznikiem na niewiele się zdaje. Dopiero jeżeli uczeń ten uczęszcza do odpowiedniej szkoły z odpowiednio dobrymi wynikami i chciałby sam osiągnąć wysoki wynik na maturze, to korzystając z podręcznika z pewnością zwiększa swoje szanse.

Jest jeszcze jeden czynnik który ma wpływ stymulujący. Jest nim I.9 czyli praca w grupach. Jak może pamiętamy był to sposób przygotowywania do matury wyjątkowo rzadko wskazywany przez uczniów, niezależnie od szkoły. Analizując wcześniejsze wizualizacje można było zauważyć, że uczniowie którzy nie osiągali sukcesu dla założonych przez nas progów nieco najrzadziej korzystali w tego sposobu przygotowania. Co prawda uczniowie przekraczający nasze progi również rzadko wskazywali ten czynnik jednak nieznacznie częściej od swoich poprzedników. Tą subtelną różnice wychwycił nasz model regresji logistycznej który wskazuje nam, że mimo tak słabego zainteresowania tym sposobem, ma on jednak znaczenie. Co prawda p-wartość była poniżej przyjętego przez nas poziom istotności jedynie w przypadku modelu M3, to nie można pominąć, że predyktor ten pozostał także w modelu M3S i to z prawie taką samą wartością współczynnika \(\beta\). Nie bez znaczenia jest również fakt, że tego czynnika brak jest w modelu M2S a w modelu M2 ma bardzo wysoką p-wartość. Świadczy to o tym, że praca w grupach nabiera znaczenia dopiero wtedy kiedy mówimy o odpowiednio wysokich wynikach.

Ostatnie dwie zmienne to I.5 (materiały CKE) oraz I.11 (arkusze maturalne). To, że predyktory te pozostały wyłącznie w modelach bez zmiennej Szkoła oznacza, że z tych sposobów przygotowania do matury korzysta się w mniej więcej w podobny sposób w każdej badanej szkole. Jednak znaczenie nabierają one wyłącznie dla wysokich wyników. Oczywiście w obu przypadkach są to czynniki stymulujące.

Na koniec warto jeszcze zwrócić uwagę na wartości kryterium informacyjnego Akaikiego. Oczywiście nie możemy tu porównywać modeli dla progu przyzwoitego z modelami dla progu wysokiego. Modele te bowiem zawierają różną liczbę predyktorów. Stąd wartości tego kryterium będą się znacznie różnić. Jednak w przypadku modeli M3 oraz M3S mamy dokładnie taką sama liczbę predyktorów. Proste porównanie więc wartości AIC dla tych modeli wyraźnie wskazuje na znacznie lepsze dopasowanie modelu z predyktorem Szkoła.

Sprawdźmy zatem, jakie wskaźniki jakościowe zwrócą nam te cztery modele.

Ocena jakości modeli dla progów przyzwoitego i wysokiego

Wykres ten może nas wprowadzić w niejaką konfuzję. I to nie dla tego, że powstał na bazie macierzy konfuzji. Możemy tu bowiem odczytać, że najlepszym modelem jest model M2S a tylko nieznacznie gorszy od niego jest model M2. Zanim jednak wyciągniemy zbyt pochopne wnioski trzeba zdać sobie sprawę z jednego faktu. Załóżmy, że mamy dane w których występuje \(70\%\) sukcesów, oraz co oczywiste \(30\%\) porażek. Załóżmy następnie, że dla tych danych skonstruowaliśmy odpowiedni model który poddalibyśmy weryfikacji macierzą konfuzji. Jeżeli taki model odpowiedział by prognozując sukces dla wszystkich pomiarów, co oczywiście świadczyło by o bezużyteczności tego modelu, to zarówno dokładność tego modelu (Accu) jak i jego precyzja (Prec) wyniosła by \(70\%\) przy wycofaniu (Rec) równym \(100\%\). Jest to tak zwany paradoks dokładności.

Sprawdźmy zatem jak to jest w naszym przypadku. Dla progu przyzwoitego stosunek sukcesów do całkowitej ilości badanych wynosi 80%. Jak widać model M2 uzyskał dokładnie taką wartość wskaźnika dokładności Accu! Dodatkowo bardzo wysoka wartość wskaźnika wycofania Rec przy znacznie niższej wartości wskaźnika precyzji Prec, świadczą o tym, że tak jak w naszym przykładzie model ten, dla progu przyzwoitego prognozuje prawie wszystkim pełny sukces. Bierze się to bezsprzecznie z bardzo wysokiej wartości wyrazu wolnego \(\beta_0\) w tym modelu, co go ostatecznie prawie całkowicie dyskwalifikuje.

W tym kontekście model M2S wykazuje się nico lepszymi wskaźnikami. Niestety tu również mamy do czynienia z znaczną różnica pomiędzy wycofaniem a precyzją co także świadczy, że dla większości badanych model ten prognozował sukces. Mimo wszystko model ten niesie już jakieś minimalnie wartościowe wskazówki.

Zupełnie inaczej wygląda to w przypadku progu wysokiego i modeli M3 oraz szczególnie modelu M3S. Dla tego progu, proporcja sukcesu wynosi 0.46. Jeżeli teraz porównamy to z wskaźnikiem dokładności wynoszącym w modelu M3S \(0.77\), to dojdziemy do wniosku, że model ten, mimo znacznie niższego wskaźnika Accu, jest znacznie lepszy od modelu M2S. W tym modelu także uzyskaliśmy prawie identyczne wartości wskaźników precyzji oraz wycofania. Świadczy to o tym, że ten model się myli, jednak myli się równomiernie w obie strony prognozując tyle samo błędnych sukcesów jak i błędnych porażek, oczywiście w odniesieniu do prawdziwych sukcesów.

Nie można także pominąć bardzo dużej różnicy pomiędzy wskaźnikami dla modelu M3S a M3. Kolejny raz przekonujemy się jak bardzo istotne jest to, aby konstruując nasze modele uwzględniać predyktor Szkoła. Innymi słowy jest niezwykle istotne do jakiej szkoły chodzi badany uczeń, niezależnie od tego jakiej wysokości próg bierzmy pod uwagę.

Dal lepsze ilustracji powyższych spostrzeżeń sporządźmy wykres z wartościami proporcjonalnymi liczników z macierzy konfuzji.

Uzyskane wyniki całkowicie potwierdzają wnioski które wyciągnęliśmy my z analizy wskaźników jakości modelu. Dla modelu M2 mamy \(77\) procent pozytywnych trafień (TP), przy prawie całkowitym braku negatywnych trafień (TN - \(3\%\)) oraz negatywnych pomyłek (FN - \(2\%\)), jednocześnie przy bardzo dużej liczbie fałszywych sukcesów (FP - \(18\%\)). Zupełnie inaczej jest to dla modelu M3S. Tu mamy prawie taką samą ilość fałszywych pozytywów jak i negatywów (FP - \(12\%\), FN - \(11\%\)).

Znaczenie metody krokowego doboru predyktorów

W tym miejscu warto także zadać sobie pytanie jaki wpływ na jakość modelu miała stosowana przez nas metoda krokowego doboru predyktorów. Ostatnio można się bowiem dość często spotkać z twierdzeniem, że metoda da jest już nieco przestarzała. Sprawdźmy zatem jak wpływała ona na nasze modele. W tym celu przygotujemy jeszcze jeden model który nazwiemy tutaj M4S. W modelu tym pozostawimy wszystkie predyktory od I.1 do I.11, po czym porównamy go z modelem M3S. Zacznijmy od analizy wykresu współczynników regresji, aby przekonać się jakie wartości otrzymały współczynniki regresji dla usuniętych predyktorów.

Jak widać na powyższym wykresie usunięcie predyktorów spowodowało, że niektóre współczynniki regresji mają nieznacznie różną wartość. Tak jest w przypadku zmiennej I.4 oraz I.7. Ponadto, dla zmiennej I.10 po usunięciu predyktorów p-wartość zmalała do poziomu pozwalającego nam odrzucić hipotezę zerową o braku zależności liniowej ze zmienną objaśnianą. Zauważmy także, że wartości współczynników regresji dla usuniętych zmiennych różnią się od jedności nie więcej niż o \(0.25\) oraz, że wartość prawdopodobieństwa testowego jest w każdym z tych przypadków większa od \(0.1\). Ostatnim, na co powinniśmy zwrócić uwagę to wartości kryteriów informacyjnych AIC oraz BIC które, co oczywiste, są mniejsze dla modelu z usuniętymi predyktorami.

Sprawdźmy teraz jak te modele będą odpowiadać, korzystając ze znanego już wykresu wskaźników jakościowych.

Ocena porównawcza wpływu doboru predyktorów na jakość modelu regresji

Wnioski jakie możemy wyciągnąć z powyższego wykresu są dość oczywiste. Widać wyraźnie, że pozostawienie w modelu dodatkowych pięciu predyktorów praktycznie nie wpłynęło w żaden sposób na wskaźniki jakościowe modelu. Oba modele odpowiadają dokładnie tak samo a różnice występują dopiero na trzecim miejscu po przecinku.

Test ten ostatecznie uwidocznił oraz potwierdził zasadność stosowania krokowej metody doboru predyktorów modelu. Metoda ta będzie więc konsekwentnie stosowana w trakcie całej dalszej analizy.

Wizualizacja prawdopodobieństwa sukcesu dla progu przyzwoitego

Na sam koniec tej części analizy zwizualizujmy jeszcze prawdopodobieństwo sukcesu, które skonstruowane przez nas modele zwracają dla naszych danych. Obliczenia będziemy prowadzić osobno dla modeli zawierających predyktor Szkoła oraz dla modeli pozbawionych tego predyktora, zarówno dla progu przyzwoitego jak i progu wysokiego, trzymając się przyjętych wcześniej oznaczeń dla poszczególnych modeli regresji.

Zaprezentowany powyżej wykres na początek kilku słów komentarza. Po pierwsze, jest to wykres prawdopodobieństwa sukcesu w funkcji logarytmu szansy. Po drugie, do wykreślonej w ten sposób sigmoidy dodano odpowiednie przedziały ufności o szerokości \(0.95\). Może jednak zastanawiać, dlaczego przedziały te nie mają gładkiego charakteru i widać tam wyraźne ostre piki, szczególnie w przypadku modelu M2. Trzeba jednak zdawać sobie sprawę, że w tym przypadku mamy do czynienia z regresją wieloczynnikową, a więc szansa, a co za tym idzie prawdopodobieństwo wynika z wielu różnych zmiennych objaśniających. Dla każdego zaś z predyktorów odpowiedni współczynnik regresji \(\beta_i\) miał swój własny przedział ufności. Złożenie wszystkich tych czynników powoduje, że przedział ufności dla wynikowego prawdopodobieństwa nie odznacza się gładkim kształtem jaki można uzyskać w przypadku regresji jednoczynnikowej.

Pod trzecie, należy wyjaśnić że, na wykres ten dodano punkty dla każdego poszczególnego wyniku. Jednak aby uniknąć wzajemnego nakładania się tych punktów, do ich pozycji dodano, często stosowane w tej analizie, niewielkie losowe przesunięcia. Ponadto wykreślono wyłącznie punkty dla których model niepoprawnie określił sukces. Oznaczenie FP (ang. false positive) oznacza tych uczniów, dla których model przewidział sukces, mimo iż osiągnęli porażkę. Oznaczenie FN (ang. false negative) oznacza tych uczniów, którzy w rzeczywistości, dla przyjętego przez nas progu sukces osiągnęli, z czym nie zgadza się odpowiedź modelu.

To, co również jest warte zauważenia to fakt, który mieliśmy już okazję wcześniej poznać. Model M2, czyli model bez predyktora Szkoła zwraca bardzo dużo fałszywych sukcesów, przy niewielu fałszywych porażkach, co na powyższym wykresie zobrazowane jest dużą liczbą punktów FP przy nieznacznej liczbie punktów FN . Widać także, że dodanie zmiennej Szkoła spowodowało znaczne poszerzenie zakresu logarytmu szansy oraz zmniejszenie ilości fałszywych pozytywów.

Zobaczmy jednak, jak prawdopodobieństwo sukcesu będzie się kształtować kiedy rozdzielimy nasze wyniki na poszczególne szkoły. Aby jednak obszary szans dla poszczególnych szkół nie przesłaniały się wzajemnie rozdzielmy to także według kategorii szkoły.

Jest niezwykle zaskakujące, że mimo iż model M2 pozbawiony jest predyktora Szkoła to w przypadku uczniów szkół kategorii C dla każdego przewiduje sukces choć myli się tu w kilku przypadkach. Tymczasem w przypadku kategorii A zakres logarytmu szans jest dość szeroki i w przybliżeniu podobny, niezależnie od szkoły. Podobnie w przypadku trzech szkół z kategorii B. Kiedy jednak do modelu dodam predyktor Szkoła, to widać jak przedziały logarytmu szans zawężają się, co dzieje się szczególnie w przypadku szkół o kodach KIE, KKO oraz szkół kategorii C.

Zobaczmy więc jak te wykresy będą się prezentować jeżeli progiem będzie wynik wysoki.

Wizualizacja prawdopodobieństwa sukcesu dla progu wysokiego

Tym razem modele te wracają znacznie więcej nietrafionych wyników. Widać to szczególnie w przypadku modelu M3. Oczywiście musimy pamiętać o paradoksie dokładności oraz o tym, że w przypadku progu wysokiego proporcja sukcesów była zdecydowanie niższa niż w przypadku progu przyzwoitego. Drugi efekt na który powinniśmy zwrócić uwagę, to znacznie szerszy przedział logarytmu szansy dla modelu M3S który w tym przypadku rozciąga się od prawie \(-7.5\) do ponad czterech. W przypadku modelu M2S zakres ten był znacznie węższy i obejmował wartości od \(-4\) do \(+4\).

Przejdźmy na koniec do wykresu prawdopodobieństwa sukcesu dla progu wysokiego, w podziale dla badanych szkół.

Tym razem szerokości przedziałów logarytmu szansy wynikające z modelu bez predyktora Szkoła są już znacznie bardziej zbliżone. Dopiero dodanie tej zmiennej objaśniającej zawęża te szerokości, przesuwając szansę dla wszystkich uczniów z szkół kategorii A poniżej zera, a uczniom ze szkół kategorii C w większości powyżej zera.

Na tym zakończmy tą dość rozbudowaną analizę metod przygotowywania uczniów do egzaminu maturalnego. Wszystkie wyciągnięte w tej części wnioski będą konsekwentnie stosowane w dalszej części pracy.

Wpływ osobowości, motywacji oraz zainteresowań na wynik maturalny

Średnie wartości odpowiedzi ankietowych

Druga część uwarunkowań nakierowana była na osobowość ucznia, jego zainteresowania oraz motywację jaką przejawiał. W tej części zadano uczniom czternaście pytań ankietowych, które hasłowo można określić jak w poniższej tabeli.

Na te pytania uczeń mógł dać jedną z poniższych pięciu odpowiedzi.

  • zdecydowanie nie
  • raczej nie
  • trudno powiedzieć
  • raczej tak
  • zdecydowanie tak

Te kategoryczne zmienne zostały przekształcone w dokładnie taki sam sposób jak w przypadku pytań z metod przygotowywania do matury. I tak “zdecydowanie nie” otrzymało wartość minus jeden a “zdecydowanie tak” wartość jeden. Reszta proporcjonalnie w tym samym kluczu.

Dodatkowo wszyscy uczniowie zostali przebadani przy pomocy oddzielnego kwestionariusza badania motywacji osiągnięć zwanego KBMO. Wynikiem tego kwestionariusza była wartość liniowa w zakresie od \(20\) do \(100\) określająca poziom motywacji ucznia. W odpowiednim momencie zajmiemy się również tymi wynikami, co będzie wyraźnie zaznaczone. Nie należy jednak łączyć tej motywacji z samooceną wynikającą z pytania II.2.

Na początek jednak zbadajmy jak kształtowały się odpowiedzi badanych uczniów, od razu dzieląc naszą badaną próbę pod względem obu wyników, zarówno przyzwoitego jak i wysokiego.

Najpierw skupmy się na różnicach. Widać od razu jak duże różnice występują we własnej ocenie uczniów w odniesieniu do swoich zdolności matematycznych, motywacji do nauki tego przedmiotu, podejścia do samodzielnej pracy oraz zainteresowań przedmiotami ścisłymi (II.1, II.2, II.3, II.7). Co jest też dość oczywiste, znacznie wyżej oceniają się tutaj uczniowie odnoszący sukces, niezależnie od ustawionych przez nas progów.

Dalej można by wskazać wiele czynników o bardzo zbliżonych, jeżeli nie takich samych wartościach. Widać, wysoką znajomość zasad egzaminu maturalnego (II.4) oraz równie wysoką sympatię, jaką uczniowie darzą swoich nauczycieli (II.14), przy minimalnie wyższych wartościach wśród uczniów “sukcesu”. Tak samo wysoko uczniowie oceniają swoją znajomość przynajmniej jednego języka obcego (II.8).

Na średnio wysokim poziomie uczniowie oceniają zainteresowanie swoich rodziców czynionymi przez nich postępami w tej dziedzinie (II.12), oraz wsparcie jakie otrzymują od swoich nauczycieli (II.13). Co ciekawe, nie można się dopatrzeć prawie żadnych różnic dla poziomu tego wsparcia, co bardzo dobrze świadczy o samych nauczycielach. Wpierają jednakowo i tych którzy osiągają wysokie wyniki jak i tych którzy są nieco słabsi. A przynajmniej jest tak w odczuciu samych uczniów.

Równie średnio wysokie wskazania uczniów występują w odniesieniu do aktywności na portalach społecznościowych (II.9).

Dość neutralne, ale też i nieróżnicowane względem progów, okazały się takie czynniki jak zainteresowania sportem (II.5), zaangażowanie społeczne (II.6) oraz systematyczność (II.11), która została minimalnie niżej oceniona przez uczniów “porażki”.

Wśród tych odpowiedzi najbardziej może cieszyć wyjątkowo słabe zainteresowanie grami komputerowymi (II.10). Tym bardziej, że jest ono nawet nieznacznie słabsze dla uczniów z grupy nie odnoszącej wysokich wyników.

Sprawdźmy teraz czy dostrzeżemy jakieś rozbieżności jeżeli wyniki podzielimy dodatkowo według kategorii szkoły.

Zasadniczo, wyniki te nie odbiegają w jakiś zdecydowany sposób od wyników prezentowanych na poprzednim wykresie. Zwróćmy jednak na początek uwagę na dwa “najcieplejsze” oraz dwa “najchłodniejsze” punkty. Najwyższą znajomość zasad (II.4) oraz najwyższą sympatię względem swego nauczyciela wskazali uczniowie odnoszący sukces z szkół kategorii A. Z kolei najniższe średnie odpowiedzi możemy zanotować w odniesieniu do zainteresowań przedmiotami ścisłymi (II.7) oraz zainteresowań grami komputerowymi (II.10), które występują wśród uczniów nie zaliczających sukcesu przyzwoitego w szkołach kategorii C. Ogólnie jednak można powiedzieć, że najbardziej istotne różnice które wychwyciliśmy na powyższym wykresie, w przypadku podziału na kategorie szkoły występują w podobnych proporcjach.

Ciekawym jest jednak, że w przypadku wsparcia nauczycieli (II.13) widzimy teraz nieco większe zróżnicowanie. Jak widać najbardziej wspierani czują się tu uczniowie ze szkół kategorii A, czyli szkół z najsłabszymi wynikami. Tymczasem dla kategorii B oraz C widać już zróżnicowanie odpowiedzi. Teraz uczniowie zaliczający sukces, niezależnie od jego poziomu doświadczają większego wsparcia od uczniów tych sukcesów nie odnoszący.

Wydaje się także, że w przypadku takich pytań jak II.6 czyli zaangażowanie społeczne oraz II.11 czyli systematyczna praca, po rozdzieleniu danych według kategorii szkoły, uwidacznia się nieco mniejsze zaangażowanie uczniów zaliczających sukces.

Ostatnim co warto zauważyć jest wzrastające poczucie umiejętności językowych wraz ze wzrostem kategorii szkoły przy takich samych ocenach względem sukcesów. Jest to jednak dość oczywisty efekt. Szkoły odnoszące wysokie wyniki na maturze z matematyki z pewnością odnoszą również wysokie wyniki w innych przedmiotach. Stąd również przekonanie uczniów i ich własna wysoka samoocena odnośnie umiejętności lingwistycznych.

Macierz korelacji pomiędzy zmiennymi grupy II

Pora teraz na wykazanie się możliwościami w odnajdywaniu istotnych czynników dla metody regresji logistycznej. Tak jak poprzednio, pozostańmy tu przy tych samych, przyjętych wcześniej nazwach odpowiednich modeli (M2, M2S, M3 oraz M3S). Oczywiście pozostawiając zmienną Szkoła z stosowaną i sprawdzoną wcześniej transformacją na wartość mediany. Jednak najpierw sprawdźmy czy pomiędzy tymi zmiennymi nie istnieje silna korelacja. Do tego celu wykorzystajmy znany już wykres mapy cieplnej macierzy współczynników korelacji Spearmana.

Jedyna, dość znaczna korelacja występuje w przypadku zmiennej II.1 czyli zdolnościami matematycznymi a zmienną II.7 czyli zainteresowaniami naukami ścisłymi. Jest to dość oczywisty i logiczny fakt. Choć wartość tego współczynnika nie jest jeszcze bardzo wysoka, to należy zwrócić szczególną uwagę czy predyktory te wystąpią w naszych modelach. Kolejna wysoką korelację można zauważyć w przypadku zmiennych II.13 oraz II.14, czyli pomiędzy wsparciem nauczyciela a sympatią którą obdarzają go uczniowie, co również jest dość oczywistym następstwem.

Ostatnie dwa współczynniki korelacji warte naszej uwagi to współczynniki korelacji pomiędzy zdolnościami matematycznymi (II.1) a motywacją do nauki (II.2) oraz samodzielną pracą (II.3). Poza tym brak jest jakiejkolwiek znaczącej korelacji, co pozwala nam ze spokojem przejść do modelowania. Proces ten rozpoczniemy oczywiście od analizy wykresu współczynników regresji.

Regresja logistyczna dla sukcesu przyzwoitego oraz wysokiego maturalnego

Tym razem otrzymaliśmy wykres który nas zaskakuje znacznie mniej, niż wyniki uzyskiwane w poprzednim rozdziale. Najsilniejszy czynnik było łatwo przewidzieć i kompletnie nie dziwi nas wartość współczynnika regresji \(\beta_{II.1}\). Przypomnijmy, że jest to własna ocena uczniów co do poziomu radzeniem sobie z materiałem uczonym na lekcjach matematyki. Jak na razie jest to czynnik który otrzymał najwyższy współczynnik szansy, choć trzeba przyznać, że z równie szerokim przedziałem ufności. Szczególnie dla modeli M3 oraz M3S. Oczywistym jest również, że dla progu przyzwoitego daje on już znacznie mniejszą szansę, co uwidocznione jest w mniejszej wartości tego współczynnika regresji dla modeli M2 oraz M2S.

Dalej warto zwrócić uwagę, że nieco inaczej niż w poprzedniej części analizy, dodanie predyktora Szkołą ma już znacznie mniejsze znaczenie. Co prawda brak tego predyktora znów spowodował zwiększenie wartości wyrazu wolnego \(\beta_0\), jednak stało się tak tylko w przypadku modelu M2, czyli modelu dla progu przyzwoitego. Jednak już w przypadku modelu dla progu wysokiego wzrost ten jest już minimalny.

Kolejne dwa, silnie stymulujące predyktory to I.3 czyli samodzielna praca, oraz I.7 czyli zainteresowania naukami ścisłymi. Co może budzić nieznaczne zdziwienie, to jedynie brak tego predyktora w modelu M2S. Widać stąd, że praca samodzielna przestaje mieć znaczenie, jeżeli bierzemy pod uwagę wynik przyzwoity i oceniamy to w kontekście szkoły do której uczęszcza dany uczeń. Mówiąc wprost szkoła zapewnia mu już taki wynik, i nie ma to ścisłego związku z jego samodzielną pracą. Porównując jednak wartości dla zmiennej I.7 widzimy, że zainteresowania naukami ścisłymi dają nieco większa szansę dla progu przyzwoitego i minimalnie mniejszą dla progu wysokiego.

Ostatni, stymulujący predyktor związany jest z umiejętnościami językowymi, choć jak widać ma on znaczenie jedynie, kiedy nie uwzględnimy szkoły. Po wprowadzeniu do modelu zmiennej Szkoła ten czynnik został wyeliminowany w procesie krokowego doboru predyktorów.

Spójrzmy teraz na czynniki ograniczające. Wystąpiły one dla takich zmiennych jak znajomość zasad egzaminu maturalnego (I.4), systematyczność (I.11) oraz społeczne zaangażowanie. Jednak, podobnie jak w przypadku korepetycji, nie oznacza to że systematyczna praca czy zaangażowanie społeczne zmniejsza szansę na osiągnięcie wysokich wyników, ale oznacza to tylko tyle, że uczniowie którzy taki wynik osiągają po prostu są nieco mniej systematyczni oraz mniej zaangażowani społecznie, co można było zauważyć na wcześniejszym wykresie. Można tutaj również dopatrzeć się niejakiej zbieżności z bardzo szeroką rozpiętością włożonej pracy w kontekście braku korelacji z wynikami maturalnymi którą wykryliśmy badając te uwarunkowania. Nie należy także zapominać, że w przypadku tych predyktorów p-wartość była na tyle wysoka, że nie pozwala nam to na odrzucenie hipotezy zerowej o braku liniowej zależności ze zmienna objaśnianą.

Jedyny czynnik wśród czynników ograniczających który uzyskał odpowiednio niską wartość prawdopodobieństwa testowego to czynnik związany z wsparciem ze strony nauczyciela. Czynnik ten jednak wystąpił jedynie w modelu M2. Jak jednak pamiętamy na poprzednim wykresie mogliśmy zauważyć większe wsparcie nauczycieli dla uczniów z szkół kategorii A, czyli szkół z najniższymi wynikami co całkowicie tłumaczy wartość tego współczynnika regresji.

Największym jednak zaskoczeniem może być brak predyktora II.2, czyli motywacji własnej ucznia, w żadnym ze skonstruowanych przez nas modeli. Choć wstępna analiza średnich odpowiedzi na prezentowanych wyżej mapach cieplnych wykazywała na istniejące różnice pomiędzy uczniami odnoszącymi a nie odnoszącymi sukces, to jednak w żadnym z modeli czynnik ten nie przetrwał procesu krokowego doboru predyktorów. Widać stąd, brak jakiejkolwiek zależności pomiędzy motywacją a osiąganym wynikiem. Ten fakt będziemy jeszcze badać odnosząc się do wyników z wspomnianego już wcześniej kwestionariusza badania motywacji osiągnięć.

Ocena jakości modeli dla zmiennych z grupy II

Teraz jednak przejdźmy do oceny jakości naszych modeli, tym razem jednak, mając w pamięci wcześniejsze problemy z paradoksem dokładności, skoncentrujmy się wyłącznie na modelach skonstruowanych dla progu wysokiego. Dodajmy jednak do tego zestawu model M4S. Będzie to model podobny do modelu M3S, z którego jednak usuniemy dwa ograniczające predyktory II.4 oraz II.11, czyli zmienne które co prawda przeszły przez proces eliminacji predyktorów, jednak dla których p-wartość była większa od założonego przez nas poziomu istotności.

Pierwszym co należy zauważyć, to bardzo podobna różnica pomiędzy modelem z, a modelem bez predyktora Szkoła. Może nas to jedynie utwierdzić w przekonaniu co do słuszności wcześniej wyciąganych wniosków o istotności tego predyktora. Przywołując także w pamięci wskaźniki uzyskane dla modeli dla metod przygotowań do matury możemy zauważyć, że tym razem uzyskujemy znacznie wyższą dokładność (Acc) oraz równie wysokie, oraz niewiele różniące się od siebie wskaźniki precyzji (Prec) oraz wycofania (Rec), co wskazuje na o wiele lepszą jakość odpowiedzi tych modeli, wyrażoną w mniejszej ilości błędnych prognoz. Zwróćmy także uwagę na minimalnie niższą, w porównaniu do modelu M3S, wartość wskaźników modelu M4S. Jak widać usunięcie predyktorów pozostawionych przez proces ich doboru, mimo przekroczenia dla nich progu istotności przez p-wartość, nieznacznie pogorszyła jakość odpowiedzi tak skonstruowanego modelu.

Wizualizacja prawdopodobieństwa sukcesu dla progu wysokiego dla zmiennych z grupy II

Dopełnieniem tej analizy niech będą wykresy prawdopodobieństwa sukcesu. Jednak tak jak wcześniej pozostańmy jedynie przy modelach dla progu wysokiego.

Jak możemy zauważyć, szerokość zakresu logarytmu szansy rozciąga się na bardzo podobnej szerokości jak w przypadku modeli konstruowanych dla metod przygotować do matury. Jednak w tym przypadku mamy znacznie mniej błędnych prognoz, co oczywiście potwierdza wnioski które wyciągnęliśmy z analizy wcześniejszego wykresu wskaźników jakościowych.

Tym razem obserwujemy znacznie mniejsze, względem modeli dla metod przygotowania do matury, skrócenie zakresu logarytmu szansy, po wyłączeniu z modelu predyktora Szkoła. Jedyna szkoła gdzie ono wyraźnie występuje to szkoła o kodzie KIE. Jest to jednak, jak może pamiętamy, szkoła uzyskująca najniższe wyniki.

Porównanie modeli regresji dla wyniku maturalnego oraz wyniku testu diagnostycznego

Nie zapominajmy jednak, że w naszych danych mamy także wyniki testu diagnostycznego. Sprawdźmy zatem czy wystąpią, a jeżeli tak się stanie, to jakie będą różnice pomiędzy współczynnikami regresji modeli skonstruowanych dla wyniku wysokiego maturalnego oraz dla wyniku wysokiego testu diagnostycznego.

To co warto na początku analizy powyższego wykresu odnotować, to bardzo zbliżone wartości współczynników \(\beta_0\) oraz \(\beta_{Szkoła}\) przy ich jednakowo niskiej p-wartości oraz jednakowo wąskim przedziale ufności. Świadczy to niezmiennie o jednakowo ważnym wpływie zmiennej Szkoła na osiąganie wysokiego wyniku, i to niezależnie od rodzaju testu. Jednak bardzo ciekawe są różnice pomiędzy wartościami współczynników regresji dla predyktorów II.1, czyli własnymi zdolnościami, a predyktorem II.7, czyli zainteresowaniami przedmiotami ścisłymi. Jak widać umiejętności własne mają ogromnie duże znaczenie dla osiągnięcia wysokiego wyniku maturalnego. Jednak dla osiągnięcia tak samo wysokiego wyniku z testu diagnostycznego szansa płynąca z tego czynnika jest już wielokrotnie niższa. Zupełnie odwrotnie jest w przypadku zainteresowań matematyką oraz przedmiotami ścisłymi (II.7). Tutaj znacznie większą szansę daje ten czynnik w przypadku testu diagnostycznego niż w przypadku testu maturalnego.

Zwróćmy także uwagę, że w przypadku testu maturalnego znaczenie ma zmienna II.3, czyli praca samodzielna, przy braku tego czynnika dla testu diagnostycznego, podczas gdy odwrotnie zmienna II.13, czyli wsparcie nauczyciela ma znaczenie da testu diagnostycznego, przy całkowitym braku znaczenia tej zmiennej dla testu maturalnego. Nie możemy także pominąć, że dwa predyktory o wpływie ograniczającym (II.4 oraz II.11) nie wystąpiły w modelu dla testu diagnostycznego. Kolejny raz widać zatem, że zakres wiedzy potrzebny do zaliczenia testu diagnostycznego był nieco inny od zakresu wiedzy i poziomu własnych umiejętności potrzebnych w przypadku testu maturalnego. Ważne także w tym przypadku było wsparcie nauczyciela.

Zależność wyniku maturalnego od motywacji własnej uczniów

Na zakończenie tej części analizy wróćmy do wspominanych już wcześniej wyników z kwestionariusza badania motywacji osiągnięć KBMO. Najpierw jednak zaprezentujmy wyniki pochodzące z tego kwestionariusza przy pomocy stosowanych już wcześniej metod. Zmienna ta nazywana będzie Motywacja.

Podstawowe statystyki zmiennej Motywacja.

n Min Q1 Średnia Mediana TM Q3 Max IQR
394 40 58 62.62 63 63.19 68.8 81 10.8

Rozszerzone statystyki zmiennej Motywacja.

n Kurtoza Skośność Odch.st. LTF UTF Shapiro.W Shapiro.p Shapiro
394 -0.106 -0.325 7.8 41.9 84.9 0.989 3.6e-03 FALSE

Jak widać na powyższym wykresie gęstość rozkładu tej zmiennej jest już znacznie bliższa rozkładowi normalnemu. Skośność jest tylko nienaznaczana, a kurtoza bliska wartości zero. Niestety także i w tym przypadku wynik testu Shapiro-Wilka zmusza nas do odrzucenia hipotezy o pochodzeniu danych z takiego właśnie rozkładu.

Sprawdźmy jednak, czy istnieje jakakolwiek korelacja pomiędzy motywacją a osiąganym przez badanych uczniów wynikiem maturalnym. Naszą analizę rozpocznijmy od przygotowania wykresu rozproszenia dla tych dwóch zmiennych, wizualnie szacując rodzaj ewentualnej zależności pomiędzy tymi zmiennymi.

Jak widać na powyższym wykresie brak jest absolutnie jakiejkolwiek zależności pomiędzy tymi zmiennymi. Świadczy o tym, zamieszczona na wykresie, bardzo niska wartość współczynnika korelacji Pearsona, jak i kształt wstępnie dopasowanej gładkiej krzywej. Aby jednak wycisnąć z naszych danych maksimum informacji wykonajmy jeszcze raz ten sam wykres, tym razem uwzględniając jeszcze kategorię szkoły.

To czego nabieramy po analizie tego wykresu to jeszcze głębsze przekonanie o braku jakiejkolwiek zależności pomiędzy motywacją a wynikiem maturalnym. Jest to prawdziwe i niezależne od kategorii szkoły. To co możemy tu stwierdzić to, że w szkołach rożnych kategorii uczniowie uzyskują różne wyniki, co zawarte jest w przesunięciu pomiędzy gładkimi krzywymi dopasowania. Ale tą wiedzę już posiadamy. Jedyny wniosek jaki w tym momencie przychodzi na myśl to potwierdzenie starego angielskiego przysłowia o tym, że Dobrymi chęciami piekło jest wybrukowane.

Zaangażowanie nauczyciela

Średnie oceny wskazane w ankietach

Trzecia grupa pytań ankietowych dotyczyła oceny nauczyciela, jego zaangażowania, poziomu fachowości, życzliwości oraz szeregu innych cech. Pamiętać jednak należy, że nie było to badanie któremu poddani byli sami nauczyciele. Wyniki te pochodzą bowiem wyłącznie z ankietowych ocen wytrawionych im przez samych uczniów. Tak więc jest to subiektywne postrzeganie uczniów i ich ocena wystawiona tym którzy uczą ich matematyki.

W tej części ankiety znalazło się dziesięć różnych pytań. Pytania te zostały w sposób hasłowy przedstawione w poniższej tabeli.

Uczniowie na każde z pytań mogli dać jedną z pięciu odpowiedzi, oceniając daną cechę w swoim nauczycielu. Odpowiedzi rozciągały się od “zdecydowanie nie” do “zdecydowanie tak”. Podobnie jak w poprzednich częściach analizy, odpowiedzi te zostały przetransformowane na wartości od minus do plus jeden. Również podobnie jak wcześniej, posługiwać się będziemy dwoma granicznymi wartościami wyników maturalnych. Przypomnijmy, że są to wynik przyzwoity, równy \(50%\) oraz wynik wysoki równy \(80%\) możliwego wyniku maturalnego.

Na początek zobaczmy więc jakie oceny otrzymali nauczyciele od swoich wychowanków, od razu dzieląc odpowiedzi pod względem naszych dwóch granicznych wyników.

W pieszej kolejności powinniśmy zwróć uwagę na pewne dwie bardzo charakterystyczne prawidłowości. Po pierwsze nauczyciele dokładnie w każdym punkcie otrzymali taką samą, lub wyższą ocenę od uczniów przekraczających dany próg. Uczniowie którzy naszych progów nie przekraczają wystawiają średnią ocenę nauczycielom niższą, lub co najwyżej taką samą jak ich koledzy. Widać to także jeżeli porównamy średnie oceny otrzymane przy uwzględnieniu rodzaju progu. Jak można zauważyć w przypadku progu wysokiego oceny te są takie same lub ewentualnie nieco wyższe niż w przypadku progu przyzwoitego. To jest bardzo znamienne.

Przyjrzyjmy się teraz samym ocenom w kontekście pytań. Jak widać najwyższą ocenę nauczyciele otrzymali za dobre przygotowanie do zajęć (III.2). Tu uczniowie byli dość zgodni. Choć można się dopatrzeć nieco cieplejszego wyniku od uczniów “sukcesu”. Równie wysokie, i bardzo zbliżone oceny otrzymali nauczycie pod względem punktualności (III.1), jasnych i precyzyjnych wymagań (III.5), życzliwości (III.7), fachowości w dziedzinie której uczą (III.8) oraz dyscyplinowania klasy (III.10). W przypadku życzliwości oraz dyscyplinowania uczniowie byli wyjątkowo zgodni.

Oceny dla których odpowiedzi wyjątkowo się różniły dotyczyły komunikatywności (III.3), oraz dowcipności (III.9). Jak widać gorsze zrozumienie materiału idzie w parze również z gorszym odbiorem dowcipu.

Najniższe średnie oceny, przy jednoczesnej dość wyraźnej różnicy pomiędzy odpowiedziami uczniów osiągających sukces, w porównaniu do ich keglów sukcesu nie odnoszących, uwidaczniają się w punktach czwartym i szóstym. Punkt czwarty (III.4), to inspiracja do samodzielnej nauki. Widać tu różnicę w odczuciu inspiracji pomiędzy uczniami rozdzielonymi naszymi progami. Najbardziej neutralne wyniki, ze wskazaniem na niskie od uczniów nie przekraczających progów, otrzymali nauczyciele w odniesieniu do kreatywności. Jednak na taki wynik mogło się złożyć także samo sformułowanie pytania. Brzmiało ono bowiem “prowadzi lekcje w sposób nietypowy”. Co jednak dla uczniów znaczyła ta nietypowość, i czy przypadkiem nie miała wydźwięku negatywnego trudno teraz dociec. Faktem jest, że jest to jedyne pytanie z średnimi odpowiedziami poniżej zera co oznacza, że lekcje w odbiorze uczniów są “raczej typowe”, lub też trudno im było to ocenić.

Spróbujmy teraz przedstawić te same wynik dodatkowo dzieląc odpowiedzi według kategorii szkół.

Po rozdzieleniu wyników według kategorii szkoły, od razu uwidacznia się poziomy, bardzo “ciepły” wiersz A - 1. Odzwierciedla on bardzo wysokie oceny wystawione nauczycielom przez uczniów osiągających nasze progi ze szkół kategorii A. Szczególnie widoczne jest to w przypadku uczniów tej kategorii szkół którzy osiągnęli wysoki wynik. Świadczy to niewątpliwie na korzyść nauczycieli z tych szkół, czyli szkół uzyskujących najsłabsze wyniki. Widać tu ich ogromne starania aby mimo wszystko uczniom tym przekazać jak najwięcej wiedzy. Można tu także dopatrzeć się niejakiej zbieżności z pytaniem II.13 z poprzedniego punktu. Jak może pamiętamy, to właśnie najsłabsi uczniowie doświadczali największego wsparcia ze strony nauczycieli, co paradoksalnie przełożyło się na ograniczającą wartości współczynnika regresji.

Poza tą obserwacją możemy stwierdzić, że wykres ten jest bardzo podobny do wykresu wcześniejszego. Rozdzielenie wyników pod względem kategorii szkół nie zmieniło zaobserwowanego wcześniej efektu wyższej oceny nauczycieli przez uczniów osiągających nasze progi. Sprawdźmy zatem jakie wyniki uzyskamy wykorzystując po raz kolejny metodę regresji logistycznej.

Macierz korelacji pomiędzy cechami nauczyciela

Zanim jednak przejdziemy do regresji logistycznej zbadajmy czy nie występują silne korelacje pomiędzy naszymi zmiennymi. Tak jak poprzednio posłużymy się tutaj mapą cieplną macierzy korelacji Spearmana. Uzyskane wyniki przedstawiamy na poniższym wykresie.

Przygotowana przez nas mapa cieplna uwidacznia średnie korelacje pomiędzy prawie każdą zmienną z tej części ankiety, i prawie zupełny brak korelacji tych cech ze zmienną Szkoła. Najwyższy współczynnik korelacji uzyskano w przypadku zmiennej III.3 czyli komunikatywnością a zmienną III.4, inspiracją. Jej wartość jest jednak na tyle niska, że nie musimy się obawiać użycia wszystkich tych zmiennych w konstruowanych przez nas modeli regresji.

Konstrukcja modeli regresji logistycznej dla zmiennych z grupy III

Aby zachować spójność z poprzednimi punktami będziemy się posługiwać nadal tymi samymi nazwami modeli co poprzednio, czyli model M2 to model dla progu przyzwoitego, a model M3 to model dla progu wysokiego. Przyrostek S oznaczać będzie, że model zawiera predyktor Szkoła.

Zupełnie podobnie jak w poprzednich punktach widzimy, że pozbawienie modelu predyktora Szkoła wpływa na wzrost wartości wyrazu wolnego \(\beta_0\). Również podobnie jak w poprzednich obliczeniach dzieje się tak głównie w przypadku modelu dla progu przyzwoitego. Co prawda dla progu wysokiego również możemy zauważyć wzrost wartości wyrazu wolnego, jednak jednocześnie p-wartość dla tego współczynnika regresji jest większa od \(0.1\), a sama jego wartość jest bardzo bliska jedności, co świadczy o braku liniowej zależności ze zmienną objaśnianą.

Dalsze podobieństwa występujące w modelach ze zmienną Szkoła dostrzegamy analizując wartości, szerokości przedziałów ufności, oraz wartości prawdopodobieństwa testowego zarówno dla wyrazu wolnego \(\beta_0\) jak i dla współczynnika \(\beta_{Szkoła}\). Jak widać, w obu modelach wartości te są bardzo zbliżone. Przejdźmy jednak do analizy współczynników regresji dla pozostałych zmiennych.

Jak widać, najwyższe wartości stymulujące uzyskały współczynniki regresji dla zmiennych III.3 (komunikatywność) oraz III.4 (inspiracja do samodzielnej nauki). Jest to bezpośrednie odzwierciedlenie różnic w ocenach uwidocznionych na poprzednich mapach cieplnych średnich odpowiedzi. Szczególnie wysoką wartość ma współczynnik regresji \(\beta_{III.3}\), choć, co musimy zauważyć przy równie szerokim przedziale ufności. Warto też zwrócić uwagę, na najwyższą wartość tego współczynnika dla modelu M3S, czyli dla modelu dla progu wysokiego. Jest to jasne i oczywiste przełożenie faktu mówiącego, że im lepsza komunikatywność, albo raczej im lepszy odbiór komunikatów kierowanych przez nauczyciela do uczniów, tym oczywiście lepsze, osiągane przez nich wyniki. W przypadku naszego modelu M3S odpowiedź “zdecydowanie tak” pomnaża szansę na przekroczenie progu wysokiego o 4.75 w przedziale od 1.93 aż do 11.71. Widać więc jak silny to jest predyktor.

Z kolei inspiracja do samodzielnej nauki (zmienna III.4) ma już nieco mniejszą wartość. Dodatkowo, co można zważyć na powyższym wykresie, wpływa ona jednakowo, niezależnie od wysokości ustawionej poprzeczki progowej. Co prawda dla modelu M2S p-wartość jest większa od \(0.1\), jednak predyktor ten pozostał w modelu po procesie krokowego doboru predyktorów a odpowiadający mu współczynnik regresji ma prawie taka samą wartość jak w przypadku pozostałych modeli. Tym razem jednak szansa dla tego predyktora (dla modelu M3S) przemnaża się przez 2.02 w przedziale od zaledwie 1.11, do 3.68.

Pozostałe predyktory występują już tylko i wyłączanie w niektórych modelach. I tak dla przykładu zmienna III.2, czyli przygotowanie nauczyciela do lekcji wystąpiło po stornie ograniczającej, jednak tylko w przypadku modeli dla progu wysokiego. Oznacza to, że dla uczniów osiągających wysoki wynik taki czynnik jak przygotowanie do lekcji ma znacznie mniejsze znaczenie niż dla uczniów nie osiągających wysokiego wyniku i ich oceny tej cechy były niższe.

Następne dwie zmienne dla których współczynnik korelacji ma wartość ograniczającą to zmienna III.7, czyli życzliwość oraz III.10 - zdolność utrzymania dyscypliny. Jednak występują one wyłącznie w modelach bez predyktora Szkoła. Po drugiej stronie, czyli po stronie czynników stymulujący mamy takie predyktory jak III.1 punktualność, III.6 - kreatywność oraz III.9 - dowcipność. Jednak również i tu mają one znaczenie wyłącznie dla modeli bez predyktora Szkoła. Kolejny raz możemy się wiec przekonać jak istotne jest aby konstruowane przez nas modele zawierały ten bardzo istotny predyktor.

Ocena jakości modeli dla pytań z grupy III

Podobnie jak poprzednio poddajmy nasze modele ocenie jakościowej. Posłużmy się tu stosowaną już wcześniej metodą oceny oraz sposobem prezentacji wyników.

To co możemy zauważyć to bardzo podobna wartość osiągana przez współczynniki jakościowe w przypadku powyższych modeli w odniesieniu do modeli konstruowanych dla pytań z poprzednich grup. Potwierdza to także poniższy wykres z proporcjami odpowiedzi, gdzie wartości dla modeli dla progu wysokiego są bardzo zbliżone do wyników uzyskiwanych poprzednio.

Wizualizacja prawdopodobieństwa sukcesu dla progu wysokiego

Na koniec, już tylko formalnie przygotujmy wykres prawdopodobieństwa sukcesu dla modeli dla progu wysokiego zarówno dla tego z predyktorem Szkoła jak i bez tego predyktora.

Oczywiście, nie jest już dla nas żadnym zaskoczeniem szerokość przedziału logarytmu szansy który, jak może pamiętamy rozciąga się bardzo podobnie jak dla modeli konstruowanych wcześniej.

Szerokość przedziału logarytmu szansy jest także bardzo podobna po rozdzieleniu wyników ze względu na kategorię szkoły. Tu również widać bardzo podobny wpływ predyktora Szkoła.

Porównanie modeli regresji zbudowanych dla zmiennych z grupy III dla wyniku maturalnego oraz wyniku testu diagnostycznego

W poprzednich rozdziałach dokonywaliśmy porównań modeli konstruowanych dla wyniku maturalnego oraz wyników testu diagnostycznego. Wykonajmy im tym razem podobne porównanie.

Jest rzeczą bardzo zaskakującą, że tak jak w przypadku modeli dla pytań z grupy II również i w tym przypadku doszło do zamiany wartości szansy po zmianie rodzaju testu dla dwóch najsilniejszych predyktorów. W poprzednim przypadku wystąpiło to dla zmiennych II.1 oraz II.7. Tym razem efekt ten jest wyraźnie widoczny dla zmiennych III.3 (komunikatywność) oraz III.4 (inspiracja).

Jak można odczytać z powyższego wykresu wartość współczynnika regresji dla komunikatywności dla modelu “maturalnego” wynosi 4.8 a dla modelu dla testu diagnostycznego wynosi 2.6. Jednak w przypadku zmiennej III.4 to wartość współczynnika regresji dla modelu dla testu diagnostycznego wynosi 5 gdy tymczasem dla modelu “maturalnego” wynosi 2.

Jest to bez wątpienia kolejne potwierdzenie tego, że zakres pytań maturalnych jest schematyczny i dość przewidywalny. Stąd wyższa wartość współczynnika regresji dla komunikatywności. Natomiast w przypadku przeprowadzonego testu diagnostycznego, do rozwiązania którego była potrzebna wiedza z nieco innego zakresu, bardziej istotna jest inspiracja do samodzielnej pracy. Widać także, że dla testu diagnostycznego takie cechy nauczyciela jak punktualność (III.1) oraz dyscyplina w klasie (III.10) znalazły się po stronie czynników ograniczających co oznacza, że te cechy zostały przez uczniów odnoszących wysoki wynik z testu diagnostycznego o wiele niżej ocenione, przez co można wyciągnąć wniosek, że są one dla nich po prostu mniej istotne.

Rozkład ocen w poszczególnych szkołach

Na koniec tej części analizy zobaczmy jak rozkładały się poszczególne oceny w poszczególnych kategoriach szkół oraz w samych szkołach. Podobnie jak w przypadku metod przygotowywania się uczniów do matury, tak i w tym przypadku suma ocen wystawionych przez danego ucznia będzie odzwierciadlać pewien wskaźnik na którego wartość składają się zarówno oceny osobowości jak i fachowości nauczyciela. Oczywiście nadal w subiektywnej ocenia danego ucznia.

Zobaczmy więc jak ten wskaźnik kształtował się w poszczególnych kategoriach szkół. Aby jednak w łatwy sposób móc porównać to również z medianami wyników uzyskiwanymi na egzaminie maturalnym w tych kategoriach szkół, zaznaczmy te wartości, po ówczesnym odpowiednim przeskalowaniu, na przygotowywanym wykresie w postaci czerwonych punktów.

To co możemy wywnioskować z powyższego wykresu to bardzo zbliżone wyniki w poszczególnych kategoriach szkół. Utwierdzamy się w tym patrząc na wartości prawdopodobieństw testowych dla testu Wilcoxona, które dla każdego porównania są wyższe od przyjętego przez nas poziomu istotnościowi \(\alpha\). Widać więc, że generalnie uczniowie z szkół różnych kategorii oceniają swoich nauczycieli bardzo podobnie.

Po rozdzieleniu wyników dla poszczególnych szkół zauważamy, że występują tu trzy szkoły gdzie rozkład ocen jest nieco inny. Widać to w przypadku szkoły o kodzie KIE, czyli szkoły która uzyskała najniższy wynik, gdzie wystąpił najwęższy zakres ocen. Kolejne dwie szkoły które się tu wyróżniają to szkoły z bardzo szerokim zakresem ocen, czyli szkoły o kodach KKO oraz OP2. Z tych wyników trudno jednak wyciągnąć więcej wniosków.

Przyjrzyjmy się jednak dwom zmiennym które okazały się istotne dla wszystkich czterech modeli regresji logistycznej. Pierwszym z nich była zmienna III.3 czyli komunikatywność. Zobaczmy jak kształtują się wyniki maturalne w funkcji oceny komunikatywności.

Wykres ten nie mógł w żadnej mierze nas zaskoczyć. Widać tu wyraźną różnicę, dodatkowo potwierdzoną testem Wilcoxona, pomiędzy wynikami uczniów którzy oceniali komunikatywność jako “zdecydowanie tak” (ZT) a wynikami uczniów wystawiającym inne oceny tej cechy u swoich nauczycieli.

Spójrzmy teraz na wyniki maturalne w kontekście oceny inspiracji do samodzielnej pracy.

W tym przypadku widać nie tylko różnicę wyników dla uczniów którzy wystawili ocenę “zdecydowanie tak” (ZT), ale również występuje tu znacząca różnica wyników uczniów oceniających tą cechę na “raczej tak” (RT). Dla uczniów wystawiając pozostałe oceny nie można stwierdzić różnic w osiąganych wynikach. Jest to oczywiście wyłącznie dodatkowym potwierdzeniem wniosków wyciągniętych po analizie współczynników regresji uzyskanych dla naszych modeli.

Przyszłe plany uczniów

Czwarta część ankiety zawierała dziesięć pytań o przyszłe palny uczniów. Odpowiedzi te, jako wzajemnie się wykluczające, można jednak zebrać w jednej zmiennej kategorialnej, co też uczyniono.

Uczniowie mogli w tym przypadku wskazać, jaki kierunek studiów planują rozpocząć w swojej niedalekiej przyszłości. Jeżeli nie potrafili określić tego kierunku mogli po prostu wskazać ogólnie, że planują podjąć studia. Mogli także wskazać, że planują naukę w szkole policealnej, planują podjąć pracę lub, że nie mają żadnych określonych planów co do swojej przyszłości. Zobaczmy więc czy te plany powiązane są w jakiś sposób z osiąganym wynikiem maturalnym. Ponadto można przypuszczać, że plany będą też jakoś korelować z poziomem motywacji. Jak pamiętamy z poprzednich analiz, nie udało nam się do tej pory zaleźć jakiejkolwiek korelacji pomiędzy wynikiem maturalnym a poziomem motywacji. Sprawdźmy zatem czy w tym przypadku uda nam się dostrzec jakąkolwiek korelację pomiędzy tymi zmiennymi.

Do zobrazowania tych wyników posłużymy się dobrze znanym już z wcześniejszych analiz box-plotem z wykresem wiolinowym. Wykres ten będzie obrazował rozkład wyników maturalnych w poszczególnych grupach uczniów z dodatkowo zaznaczonym czerwoną kropką, oczywiście po uprzednim odpowiednim przeskalowaniu, poziomem motywacji.

Wykres ten ujawnia przed nami bardzo silną zależność pomiędzy rodzajem planów a osiąganymi wynikami maturalnymi. Jak widać, najwyższą medianę wyników osiągnęli uczniowie planujący podjąć studia na uczelni technicznej, co oczywiście bardzo dobrze koresponduje z potrzebnymi umiejętnościami na tego typu studiach. Kolejny bardzo wysoki wynik osiągnęli uczniowie planujący studia medyczne. Te wyniki różnią się jednak na założonym przez nas poziomie istotności. Różnią się one także od pozostałych wyników.

Kolejne cztery typy planów to niesprecyzowane studia wyższe, uniwersytet, inne kierunki studiów, prawo oraz studia zaoczne. Co prawda test Wilcoxona nie uwidacznia tu istotnych różnic, jednak należy wziąć pod uwagę, że testowano tu wyłącznie sąsiadujące ze sobą (pod względem mediany wyników) plany.

Najniższe wyniki osiągnęli uczniowie którzy nie mieli żadnych konkretnych planów na dalszą edukację, planowali podjąć pracę lub też dokończyć swoją edukację w szkole policealnej, ucząc się tam konkretnego zawodu.

Na podstawie tych wyników możemy stwierdzić jednoznacznie, że istnieje bardzo wyraźna zależność pomiędzy kategorialną zmienną Plany a osiąganym wynikiem. W tym kontekście ta nominalna zmienna kategorialna zyskuje cechy zmiennej porządkowej. Możemy więc przetransformować jej wartości na wartość mediany a następnie wprowadzić ją do naszych modeli regresji logistycznej. Sprawdźmy jednak czy ten sposób transformacji nie spowoduje silnej korelacji ze zmienną Szkoła, która również została tak transformowana. Aby to sprawdzić wyznaczmy wartość współczynnika korelacji Spearmana. Wartość tego współczynnika wynosi zaledwie 0.29, co pozwala nam ze spokojem dodać tą zmienną do konstruowanych przez nas modeli regresji. Zrobimy to jednak w kolejnych punktach wprowadzając ją do modelu wraz z innymi zmiennymi.

Skupmy teraz na chwilę naszą uwagę na zaznaczonych na wykresie poziomach motywacji. To co możemy dostrzec to nieznacznie niższe wartości median motywacji dla uczniów którzy nie mają jeszcze konkretnych planów, nie potrafili ich w momencie wypełniania ankiety dokładnie sprecyzować lub też zdecydowali nie podejmować żadnych studiów.

Lepszy ogląd uzyskamy jednak zamieniając na naszym wykresie wynik maturalny w wynikiem z testu motywacyjnego, to znaczy przedstawiając wartości wyników motywacji w postaci box-plotów oraz odpowiednich gęstości rozkładu jednocześnie zaznaczając czerwonymi kropami, znów odpowiednio przeskalowane, wartości mediany wyników maturalnych.

Takie przedstawienie wyników, a także p-wartości dla testów Wilcoxona utwierdzają nas jedynie we wcześniejszych wnioskach. Tak więc jedyną zależność jaką można tu stwierdzić to niższa motywacja przy jednoczesnym braku, lub nie do końca sprecyzowanych planach na przyszłość. Poza tym efektem trudno jest doszukać się jakiejkolwiek innej zależności, co kolejny raz pokazuje, że uczniowie mają bardzo podobną motywację.

Informacje ogólne

W naszym kwestionariuszu ankiety, w części V zawartych była także klika pytań informacyjnych. Pierwsze z pytań dotyczyło deklaracji zdawania egzaminu maturalnego. Wśród wszystkich 394 badanych uczniów tylko 11 zaznaczyło, brak chęci zdawania egzaminu maturalnego. Co ciekawe, ostatecznie wszyscy ci uczniowie przystąpili jednak do matury, z czego ponad połowa z nich zdała ten egzamin. Z kolei z 383 uczniów którzy zadeklarowali chęć zdawania egzaminu maturalnego z matematyki, ostatecznie do egzaminu nie przystąpiło 7 z nich. Przy takich wynikach zmienna ta w oczywisty sposób będzie wnosić znikomą wartość informacyjną. Pominiemy ją więc w dalszych analizach.

Zajmijmy się jednak bardziej szczegółowo drugim i trzecim pytaniem. Pytanie drugie dotyczyło deklaracji zdawania matury rozszerzonej. Pytanie trzecie zaś było pytaniem o przekonanie uczniów, o tym, że uda im się zdać podstawowy egzamin maturalny.

Powyższy wykres nie jest oczywiście dla nas wielkim zaskoczeniem. Jest dość oczywiste, że uczniowie deklarujący chęć zdawania matury rozszerzonej osiągnęli zdecydowanie lepszy wynik w stosunku do uczniów którzy tej deklaracji nie składali. Pod tym względem te dwie grupy zdecydowanie się różnią. Warto tu jednak zwróć uwagę na jeden dość znamienny fakt. Jak może pamiętamy z wcześniejszych analiz, do tej pory wyniki maturalne wykazywały dwa wyraźne maksima gęstości rozkładu rozdzielone wyraźnym minimum, które często występowało w okolicy mediany. W tym przypadku trudno jest dopatrzeć się tych dwóch maksimów. Jest to pierwszy sygnał o tym, że nasze wcześniejsze przypuszczenia co do zmieszania dwóch grup badanych uczniów, zdolnych oraz przeciętnych może mieć spore uzasadnienie. Co prawda w tym przypadku również brak jest zgodności z rozkładem normalnym, co mogło by sugerować, że i tutaj należało by dokonać takiego rozdziału, jednak wyniki mają już bardziej wyraźną wartość centralna a maksimum rozkładu gęstości jest bardzo zbliżone do mediany wyników.

Sprawdźmy teraz jak rozkładać się będą wyniki maturalne w podziale względem uczniów przekonanych o tym, że poradzą sobie z egzaminem podstawowym a ich kolegami z odmiennym przekonaniem.

Również w tym przypadku widać wyraźną różnicę pomiędzy tymi dwoma grupami. Choć należy zauważyć, że tak jak w grupie uczniów przekonanych o swoim sukcesie możemy wskazać kilka procent tych, którym ostatecznie nie udało się zaliczyć tego egzaminu, tak w grupie uczniów którzy takiej wiary nie mieli, nie tylko widać, że aż \(81\%\) z nich przekroczyło próg maturalny, to dodatkowo można dostrzec, że byli tu nawet tacy uczniowie którzy osiągnęli maksymalny możliwy wynik. Warto też zwróć uwagę na pojawienie się na nowo dwóch maksimów gęstości rozkładu, szczególnie widocznych w przypadku uczniów z drugiej grupy.

Przedostatnie pytanie ankietowe w tej grupie pytań dotyczyło tego czy uczeń mieszka w internacie lub bursie. W naszej badanej grupie było tylko 14 uczniów którzy odpowiedzieli na to pytanie twierdząco. Z tych samych powodów więc, jak w przypadku pytania pierwszego z tej grupy, zrezygnowano z dalszej analizy tej zmiennej.

Ostatnim pytaniem z grupy piątej było pytanie o to, czy uczeń dojeżdżał do szkoły z innej miejscowości. Te wyniki warto przedstawić na wykresie aby móc zweryfikować przekonanie, że taki czynnik może mieć wpływ na wyniki.

To o czym może nas przekonać ten wykres to zdecydowany brak zależności pomiędzy tym czynnikiem a wynikami maturalnymi. Świadczy o tym wysoka wartość prawdopodobieństwa testowego testu Wilcoxona, ale także może nas o tym przekonać wizualna ocena tych wyników.

Metryczka

Przejdźmy teraz do analizy ostatnich pytań ankietowych dotyczących płci, miejsca zamieszkania, wykształcenia rodziców itp. Wszystkie te zmienne, wraz ze zmiennymi z poprzednich dwóch punktów dodamy na koniec do modelu regresji liniowej poddając je podobnej jak poprzednio analizie.

Płeć

Pierwszą z analizowanych zmiennych będzie Płeć. Sprawdźmy więc czy i w jaki sposób różnią się wyniki osiągane przez chłopców i dziewczęta.

W całej naszej analizie przyjęliśmy jednakowy, tradycyjnie przyjmowany poziom istotności \(\alpha=0.05\). Porównując jednak wyniki z podziałem według płci widzimy, że p-wartość testu Wilcoxona jest większa od naszego poziomu istotności o zaledwie jedną tysięczną. W tym momencie przydatna była by metoda pozwalająca wyznaczyć moc tego testu. Niestety ze względu na to, iż test Wilcoxona jest testem nieparametrycznym, istnieją trudności w oszacowaniu mocy tego testu. Spójrzmy jednak na rozkład gęstości. W przypadku chłopców widać znów wyraźne dwa maksima, a rozdzielające je minimum ulokowane jest w pobliżu mediany. Z kolei w przypadku dziewcząt, dolne maksimum jest mocno spłaszczone a mediana jest przesunięta znacznie wyżej, w kierunku górnego maksimum. Może to być spowodowane nieco inną proporcją uczniów zdolnych do przeciętnych lub też innym poziomem pracowitości w tych dwóch grupach. Spróbujmy to zatem zbadać. Jak może pamiętamy, odpowiedzi na pytania z pierwszej części ankiety można było wykorzystać do oszacowania wskaźnika określającego nakład pracy. Zobaczmy więc czy te dwie grupy różnią się pod tym względem.

Tym razem nie mamy wątpliwości. Pod względem nakładu pracy nie ma statystycznie istotnych różnic pomiędzy chłopcami a dziewczętami. Warto także zauważyć, że w przypadku wyników dziewcząt rozkład nabrał cech rozkładu normalnego, o czym świadczy wysoka p-wartość testu Shapiro-Wilka która nie pozwala nam na odrzucenie hipotezy zerowej o pochodzeniu próby z populacji o rozkładzie normalnym. Widzimy także, że w przypadku chłopców wystąpiło kilka wartości odstających a cały rozkład ma lekką skośność. Mediana zaś tych wyników jest jest nieco wyższa od wyników dziewcząt. Z pewnością jednak zaobserwowane różnice w wynikach maturalnych nie pochodzą z odmiennych sposobów przygotowywania się do matury. Ostatecznie więc przyjmujemy, że te dwie grupy nie różnią się między sobą pod względem osiąganych wyników.

Zmienna ta oczywiście będzie dodana do naszego modelu regresji. Wtedy będziemy mogli jeszcze raz ocenić czy płeć ma decydujący wpływ na osiąganie przyzwoitego lub wysokiego wyniku maturalnego. Będzie to z pewnością bardzo pouczające doświadczenie.

Miejsce zamieszkania

Wypełniający ankietę uczniowie pytani byli także o miejsce zamieszkania. Mogli tu wybrać jedną z trzech odpowiedzi:

  • wieś
  • miasteczko
  • miasto

Sprawdźmy więc na początku czy miejsce zamieszkania ma wpływ na wyniki maturalne.

Jak widać, uczniowie mieszkający w dużych miastach osiągają zdecydowanie wyższe wyniki od pozostałych uczniów. Z kolei pomiędzy uczniami mieszkającymi w mniejszych miejscowościach oraz tych mieszkających na wsi nie ma istnych różnic ich wyników. Przed dodaniem tej zmiennej do modelu regresji powinniśmy jednak zdecydować o sposobie jej transformacji. Pozostaniemy tu jednak przy wcześniejszym, sprawdzonym sposobie który zastosowaliśmy w przypadku zmiennej Szkoła, czyli transformacji przy użyciu wartości mediany wyników poszczególnych grup. Tak powstałą nową, transformowaną zmienną nazwiemy skrótowo M.Zam.

Wykształcenie rodziców

Ankietowani uczniowie byli proszeni o określenie wykształcenia zarówno matki jak i ojca. Odpowiadając na to pytanie mogli wybrać jedną z trzech możliwych odpowiedzi:

  • podstawowe
  • średnie
  • wyższe

Te zmienne (Wyk.Matki oraz Wyk.Ojca), jako porządkowe zmienne kategorialne zostały od razu przetransformowane na wartości liczbowe z zakresu od 1 do 3. Jednak do dalszej analizy zsumowano je tworząc jedną nową zmienną Wyk.Rodziców. W dalszej części tej analizy będziemy się zajmować wyłącznie tą jedną zmienną.

Jak widać, tylko pomiędzy wynikami uczniów których transformowana i sumaryczna wartość wykształcenia rodziców wynosi trzy lub cztery nie można stwierdzić istotnej różnicy. W każdym pozostałym przypadku te różnice są istotne na przyjętym przez nas poziomie istotności.

Profil klasy

Badani uczniowie uczyli się w klasach o różnych profilach. Najczęściej był to profil matematyczny (137 uczniów), biologiczno-chemiczny (121 uczniów) oraz humanistyczny (97 uczniów). Poza tym było także dwunastu uczniów z profilu językowego oraz dwudziestu z pozostałych profili. Zobaczmy jak kształtowały się wyniki maturalne w poszczególnych profilach.

Uzyskane zróżnicowanie wyników nie może nas tu w żaden sposób dziwić. Jest oczywistym, że najwyższe wyniki osiągnęli uczniowie z profilu matematycznego. Całkowicie logicznym będzie tu również transformowanie tej zmiennej kategorialnej w stosowany już wcześniej sposób, czyli medianą wyników.

Co może być ciekawe to zależność pomiędzy profilem a motywacją. Jej poziom został zaznaczony czerwonymi punktami na powyższym wykresie. Jest to bodajże pierwsze miejsce gdzie możemy dopatrzeć się minimalnej, dodatniej korelacji. Rzeczywiście, po wykonaniu stosownych obliczeń okazało się, że współczynnik korelacji Spearmana pomiędzy zmienną Motywacja a transformowaną zmienną Profil wynosi 0.11. Nie jest to oczywiście jakaś duża wartość, ale wobec całkowitego braku jakiejkolwiek korelacji pomiędzy motywacją a innymi zmiennymi tutaj nie możemy jej nie zauważyć.

Ocena śródroczna w III klasie liceum

Przedostatnim pytaniem ankietowym było pytanie o ocenę z matematyki, jaką uczeń uzyskał w III klasie liceum.

To kolejna zmienna której zbieżność z wynikami maturalnymi nie może nas w żaden sposób dziwić. Warto jednak zauważyć, że każdy z siedmiu uczniów którzy w trzeciej klasie na półrocze otrzymali ocenę niedostateczną, ostatecznie zaliczyło podstawowy egzamin maturalny.

Liczba nauczycieli w liceum

Przejdźmy już do ostatniego pytania ankietowego. Było nim pytanie o liczbę nauczycieli którzy uczyli badanego ucznia w całym okresie nauki w liceum.

Powyższy wykres uwidacznia nam jak duże znaczenie ma liczba nauczycieli którzy uczą uczniów w całym czteroletnim okresie ich nauki. Co prawda test Wilcoxona nie pozwala nam na wnioskowanie, że istnieje różnica pomiędzy wynikami pomiędzy grupą uczniów uczonych przez dwóch oraz przez trzech nauczycieli, jednak obie te grupy zdecydowanie różnią się od grupy uczonej tylko przez jednego nauczyciela. Wyznaczmy jeszcze współczynnik korelacji Spearmana pomiędzy tą zmienna w wynikami maturalnymi. Wynosi on -0.28.

Konstrukcja modelu regresji logistycznej dla planów, zmiennych informacyjnych oraz metryczki

Macierz korelacji dla planów, zmiennych informacyjnych oraz metryczki

Skonstruujmy zatem kolejny model regresji logistycznej uwzględniający zmienne z punktu IV, które jak pamiętamy zostały przekształcone w jedną zmienną kategorialną, zmienne z punktu V (informacyjne) oraz zmienne z ostatniego punktu ankiety czyli metryczki. Oczywiście na początek sporządźmy odpowiednią mapę cieplną macierzy korelacji pomiędzy badanymi zmiennymi.

Jedyna wysoka korelacja wysteruje pomiędzy zmienną V.2, czyli deklaracją chęci zdawania matury rozszerzonej oraz zmienną Profil co jest dość oczywistym faktem. Jej wartość nie jest jednak na tyle wysoka aby należało obawiać się wysokiej współliniowości pomiędzy tymi zmiennymi. Dal pozostałych zmiennych korelacja jest niska lub nawet zerowa. Wszystkie te zmienne zostaną więc dodane do naszego modelu regresji logistycznej. Tak jak robiliśmy to już wcześniej zbudujemy aż cztery modele trzymając się również tych samych co poprzednio oznaczeń.

Regresja logistyczna dla planów, zmiennych informacyjnych oraz metryczki

Patrząc na powyższy wykres zwróćmy najpierw uwagę, że tym razem dodanie predyktora Szkoła w ogóle nie wpłynęło ani na wartość ani na przedział ufności wyrazu wolnego. Bardzo podobnie ma się również rzecz z pozostałymi współczynnikami regresji. Co prawda dla modeli z tym predyktorem ich wartości są nieco niższe niż w przypadku modeli nie zawierających tego predyktora, lecz tylko w dwóch przypadkach, i to tylko dla wyniku wysokiego, dodanie tej zmiennej spowodowało, że dany predyktor nie występuje już w modelu. Jest tak w przypadku miejsca zamieszkania i wykształcenia rodziców. Widać więc, że te dwa czynniki mają wpływ jedynie jeżeli pomniemy to do jakiej szkoły uczęszcza dany uczeń.

Oczywiście największą szansę uzyskał współczynnik regresji dla predyktora V.2, czyli deklaracji chęci zdawania matury rozszerzonej. Zwróćmy jednak uwagę, że dla progu przyzwoitego przedział ufności dla tych współczynników regresji jest jednocześnie bardzo szeroki. Kolejną zmienną z istotnym oraz silnym wpływem na szansę sukcesu jest, co nie powinno nas dziwić, przekonanie o zdaniu matury (V.3).

Równie istotne, są współczynniki \(\beta\) dla zmiennej Plany oraz Profil które dodatkowo mają bardzo wąskie przedziały ufności. Zastanawiać może nieco ich niska wartość. Jednak należ pamiętać, ze tak jak w przypadku zmiennej Szkoła, tak też dla tych dwóch kategorialnych predyktorów zastosowaliśmy transformację na wartość mediany wyniku maturalnego dla danej grupy. To powoduje, że wpływ tych czynników jest znacznie większy, niż może to wynikać z prostego porównania wartości współczynników regresji na tym wykresie. Nie można jednak pominąć, że p-wartość dla predyktora Plany dla progu wysokiego jest już nieco większa od założonego przez nas poziomu istotności \(\alpha\).

Jedyne zmienne które po procesie krokowego doboru nie występują już w naszych modelach to zmienna V.5, czyli dojazdy z innej miejscowości oraz zmienna V.1 czyli deklaracja chęci zdawania matury podstawowej. Jak widać te czynniki nie mają znaczenia na osiągane wyniki. Nadmienić tu także należy, że zmienna V.4 (mieszkanie w internacie) nie została w ogóle wprowadzona do modeli. Jej specyficzna wartość (mała liczebność uczniów mieszkających w internacie) w odniesieniu do binarnych zmiennych oznaczających nasze progi powodowała, że model regresji zwracał nierealnie szerokie przedziały ufności. Z tego powodu zdecydowano na pominiecie tej zmiennej.

Najbardziej jednak zaskakuje nas brak zmiennej określającej ilość nauczycieli. Zmienna ta została wyeliminowana w procesie krokowego doboru predyktorów jako zmienna nie wpływająca na kryterium oceny AIC dla naszych modeli. Jest to bardzo znamienny fakt, który każe nam poddać weryfikacji nasze wcześniejsze wnioski płynące z analizy wyników maturalnych w funkcji tej zmiennej kategorialnej.

Na koniec zwróćmy jeszcze uwagę na predyktor Płeć. Jak pamiętamy mieliśmy niejakie wątpliwości czy traktować grupy chłopców i dziewcząt jako grupy uzyskujące takie same wyniki maturalne. Jeżeli przyjrzymy się powyższemu wykresowi to możemy zauważyć, że przedyktor ten pozostał w obu modelach dla progu wysokiego i ma wartość ograniczającą. Aby jednak zrozumieć której płci dotyczy to ograniczenie należy przyjrzeć się sposobowi transformacji tej zmiennej kategorialnej. Została ona bowiem przetransformowana wprost na wartości liczbowe w taki sposób, że płeć M została zamieniona na wartość 1 a płeć K na wartość 2. W tym kontekście ograniczająca wartość współczynnika regresji oznacza, że w przypadku progu wysokiego mniejszą szansę mają dziewczęta. Co prawda nie możemy pomijać, że p-wartość dla tego współczynnika w obu modelach jest większa od przyjętego przez nas poziomu istotności \(\alpha\). Jednak wniosek ten jest dość zaskakujący.

Ocena jakości modeli dla pytań z grup IV, V i VI

Również i teraz poddajmy nasze modele ocenie jakościowej stosując tą samą metodę co poprzednio.

Tym razem możemy zaobserwować, że dodanie predyktora Szkoła w bardzo niewielkim stopniu wpłynęło na jakość modeli. Dla każdej wartości granicznej wskaźniki jakościowe dla modeli z oraz bez tego predyktora mają bardzo zbliżone wartości. Nadal jednak w przypadku modeli dla progu przyzwoitego ujawnia się problem paradoksu dokładności, co można wywnioskować porównując wartości wskaźników Prec oraz Rec. Warto jednak zauważyć, że oba modele dla progu wysokiego osiągnęły bardzo wysokie wskaźniki jakościowe.

Wizualizacja prawdopodobieństwa sukcesu dla progu wysokiego

Tak samo jak poprzednio przygotujmy wykres prawdopodobieństwa sukcesu dla modeli dla progu wysokiego zarówno dla tego z predyktorem Szkoła jak i bez tego predyktora.

Również na powyższym wykresie widać wyraźnie, znacznie mniejszy wpływ predyktora Szkoła. Obszar ufności oraz szerokość przedziału logarytmu szansy jest już bardzo podobny dla obu modeli. Jak może pamiętamy, w poprzednich punktach szerokość przedziału logarytmu szans była zdecydowania mniejsza dla modelu bez zmiennej Szkoła. Widać także znacznie bardziej równomierne rozłożenie fałszywych wyników. Poprzednio były one skoncentrowane w dużej mierze wokół centralnej części sigmoidy. Tym razem ich rozkład jest mniej więcej równomierny na całej jej szerokości.

Porównanie modeli regresji dla wyniku maturalnego oraz wyniku testu diagnostycznego

Znów podobnie jak w poprzednich punktach dokonajmy porównania pomiędzy modelem regresji dla wysokiego wyniku maturalnego oraz wysokiego wyniku z testu diagnostycznego.

Tym razem różnice są znacznie mniejsze niż poprzednio. Największa różnica występuje w przypadku predyktora V.2 - deklaracji chęci zdawania matury rozszerzonej. W przypadku modelu dla testu diagnostycznego współczynnik regresji ma większą wartość przy jednoczesnym znacznie szerszym przedziale ufności. Jest to kolejne odzwierciedlenie różnicy pomiędzy tymi dwoma testami. W pozostałych przypadkach zarówno wartości jak i przedziały ufności są bardzo zbliżone. Co prawda w modelu dla testu diagnostycznego proces krokowego doboru predyktorów wyeliminował takie predyktory jak Płeć oraz Plany, jednak nie zapominajmy, że w modelu dla wyników maturalnych p-wartości dla tych współczynników są powyżej założonego przez nas poziomu istotności.


  1. Tukey, John W (1977). Exploratory Data Analysis. Addison-Wesley. ISBN 978-0-201-07616-5. OCLC 3058187

  2. Hyndman, RJ i Fan, Y. (1996) Przykładowe kwantyle w pakietach statystycznych, American Statistician 50 , 361–365. 10.2307 / 2684934.