Cel

Czy studenci obawiają się statystyki i jakie są tego przyczyny?

[Musimy zdecydować się co rozumiemy przez pojęcie studenci obawiają się statystyki oraz zaproponować kilka możliwych przyczyn tej obawy.]

Na gruncie teorii psychologicznych można zdefiniować Nastawienie względem statystyki jako ogólny stosunek, jaki dana osoba ma do statystyki jako dziedziny wiedzy. Obejmuje ono emocje, przekonania i zachowania związane z tym przedmiotem:

Teraz co może być przyczyną takiego lub innego Nastawienie względem statystyki?

Czyli definiujemy tzw.hipotezy szczegółowe:

sprawność matematyczna, płeć, wiek i samoskuteczność determinują Nastawienie względem Statystyki

[Pozostaje tylko drobnostka jak zmierzyć Nastawienie względem Statystyki, Samoskuteczność, sprawność matematyczną. Płeć i wiek wiemy jak zmierzyć.]

Materiał i metoda

[Tutaj definiujemy jak chcemy mierzyć zmienne, które potrzebujemy do realizacji celu/weryfikacji hipotez badawczych]

Nastawienie wględem statystyki

Nastawienie mierzono za pomocą kwestionariusza zaproponowanego przez Zhanga i innych, składającego się z 28 pytań, które mierzą cztery różne jego aspekty: afekt (a), kompetencje poznawcze (k), wartość (w) i trudność (t).

Mierzymy pozytywną postawę stąd pytania 2, 3, 5, 6, 9–12, 14, 16, 18–22 oraz 25–28 są odwrócone (co zaznaczono literką r w nawiasie).

[Pytania są umieszczone w ankiecie według kolejności określonej przez numer pytania (nr). Chodzi o to, żeby pytania o różne aspekty postawy były wymieszane – ankieta jest przez to chociaż trochę mniej nudna.]

nr aspekt pytanie
1 a Polubię statystykę
2 a Będę się czuł niepewnie gdy będę musiał rozwiązywać zadania statystyczne. (r)
11 a Podczas kolokwiów ze statystyki będę sfrustrowany (r)
14 a Będę zestresowany na zajęciach ze statystyki (r)
15 a Chętnie wezmę udział w zajęciach ze statystyki
21 a Statystyka mnie przeraża (r)
3 k Mój sposób myślenia powoduje że mam kłopoty ze zrozumieniem statystyki (r)
9 k Nie mam pojęcia o co chodzi w statystyce (r)
20 k Zajmując się statystyką popełniam wiele błędów matematycznych (r)
23 k Mogę nauczyć się statystyki
24 k Zrozumiem wzory statystyczne
27 k Zrozumienie pojęć ze statystyki będzie dla mnie trudne (r)
5 w Statystyka jest bezwartościowa (r)
7 w Statystyka powinna być obowiązkowym przedmiotem na studiach
8 w Znajomość statystyki ułatwi mi znalezienie pracy
10 w Profesjonalista nie potrzebuje znajomości statystyki (r)
12 w Za wyjątkiem wykorzystania w pracy zawodowej statystyka jest bezużyteczna (r)
13 w Wykorzystuję statystykę w codziennym życiu
16 w Na co dzień rzadko się widzi wykorzystanie statystyki (r)
19 w Statystyka nie przyda się w moim zawodzie (r)
25 w Statystyka nie ma żadnego znaczenia w moim życiu (r)
4 t Wzory statystyczne są łatwe do zrozumienia
6 t Statystyka jest skomplikowana (r)
17 t Większość ludzi szybko uczy się statystyki
18 t Nauczenie się statystyki wymaga dużej dyscypliny (r)
22 t Statystyka wymaga żmudnych obliczeń (r)
26 t Statystyka jest wysoce specjalistyczna (r)
28 t Większość ludzi musi nauczyć się nowego sposobu myślenia aby zajmować się statystyką (r)

Odpowiedzi na wszystkie pytania: Zdecydowanie nie zgadzam się | Nie zgadzam się | Raczej nie zgadzam się | Nie mam zdania | Raczej zgadzam się | Zgadzam się | Zdecydowanie się zgadzam.

Jeżeli osoba uważa statystykę za supertrudną, to wartość NwS wyniesie 28; jeżeli osoba uważa statystykę za superłatwą, to NwS=196.

Samoskuteczność

Samoskuteczność mierzono za pomocą klasycznego zestawu 10 pytań:

nr pytanie
1 Zawsze jestem w stanie rozwiązać trudne problemy, jeśli tylko wystarczająco się staram
2 Jeśli ktoś mi się sprzeciwia, mam sposoby, aby osiągnąć to co chcę
3 Łatwo jest mi trzymać się swoich celów
4 Jestem przekonany, że skutecznie poradziła/poradziłbym sobie z niespodziewanymi wydarzeniami
5 Dzięki swojej pomysłowości dać sobie radę w nieoczekiwanych sytuacjach
6 Potrafię rozwiązać większość problemów, jeśli włożę w to odpowiednio dużo wysiłku
7 Potrafię zachować spokój w obliczu trudności, gdyż mogę polegać na swoich umiejętnościach radzenie sobie
8 Gdy zmagam się z jakimś problemem, zwykle znajduję kilka rozwiązań
9 Gdy jestem w kłopotliwej sytuacji, na ogół wiem, co robić
10 Niezależnie od tego co mnie spotyka, potrafię sobie z tym poradzić

Odpowiedzi na wszystkie pytania: zdecydowanie nie | nie | ani tak/ani nie | tak | zdecydowanie tak.

Pozostałe zmienne

Sprawność matematyczną mierzono pytając respondentów o wynik matury z matematyki. Pozostawiono możliwość odmowy odpowiedzi mając na względzie, iż niektórzy mogą już nie pamiętać ile to było :-)

Płeć; K/M

Wiek (w latach),

Kierunek studiów (PO/RM/Ekonomia)

Mamy następujące zmienne: samoskuteczność, nws, nws.afekt, nws.trudnosc, nws.kompetencje, nws.wartosc, wiek, wynik.na.maturze, płeć i kierunek.

samoskuteczność, nws, nws.afekt, nws.trudnosc, nws.kompetencje, nws.wartosc są sumami odpowiednich rang i są traktowane jako liczby

wiek i wynik.na.maturze są liczbami

płeć i kierunek są mierzone na skali nominalnej

Reasumując 42 pytania = 10 zmiennych.

Uwaga: osoby z dobrą pamięcią stwierdzą że formularz, który wypełniały zawierał jeszcze dwa pytania. Powiedzmy, że te te pytania były niepotrzebne.

Metryczka

Łącznie otrzymano 235 ankiet.

Płeć respondentów

płeć n %
K 171 72.76596
M 64 27.23404

albo na wykresie

Badani wg wieku wieku

n min max m me q1 q3 sd
235 18 1985 42.85 34 23 47 127.75

Każdą zmienną (w tym a zwłaszcza liczbową) powinniśmy sprawdzić na okoliczność wystąpienia danych anormalnych. Można to zrobić wizualnie (jeżeli zbiór nie jest za duży) lub obliczając statystyki takie jak wartość minimalna/maksymalna + wykres.

W przypadku zmiennej wiek wartość minimalna wydaje się OK, ale wartość maksymalna już zupełnie nie. Ktoś ewidentnie wpisał rok urodzenia zamiast liczby lat ukończonych.

W wielu aplikacjach służących do zbierania danych (takich jak Formularze Google) jest możliwe określenie akceptowalnego zbioru wartości jakie może przyjąć zmienna. W przypadku zmiennej wiek na przykład należało podać, że wiek musi zawierać się w przedziale 18–70 (albo nawet 18–67). Nie podałem tego warunku dla pierwszej wersji ankiety no i jak widać ktoś to wykorzystał :-)

Histogram jest oczywiście kompletnie bez sensu, ponieważ klas jest ponad 900 z czego o niezerowych liczebnościach około 20.

Co teraz z tym fantem zrobić?

Po pierwsze należy ustalić ile jest wadliwych obserwacji. Na przykład ilu respondentów podało wiek większy niż 70 lat?

Takich obserwacji okazuje się, że jest 1 czyli na szczęście niewiele. Teraz można albo usunąć wadliwe albo poprawić jeżeli wiadomo o co chodziło respondentowi. W naszym przykładzie oba rozwiązania są poprawne. Ale gdyby ktoś dla tzw. jaj wpisał 300 lat, to już by nam pozostało tylko usunięcie żartownisia ze zbioru danych.

Decydujemy się na poprawienie danych:

n min max m me q1 q3 sd
235 18 56 34.57 34 23 47 11.44

Teraz dane są OK.

Często (zwłaszcza na początku naszej kariery statystyka) dopiero po zebraniu danych się okazuje, że o czymś tam zapomnieliśmy i ankietowani podali nie takie dane jakie trzeba. Dlatego ważna jest weryfikacja danych pod kątem ich poprawności. Jeszcze lepszym pomysłem jest wykonanie badania próbnego zwanego badaniem pilotażowym. Robimy badanie dla 20 osób i patrzymy co wyszło – duża szansa że ujawnią się potencjalne niedoróbki. Pilotaż można włączyć do pozostałych danych jeżeli niedoróbek nie było…

Poprawiony wykres:

Uwaga: m oznacza średnią, q1/q3 pierwszy/trzeci kwartyl, a me oznacza medianę. Te oznaczenia dodaliśmy ekstra nasz program potrafi dodawać różne rzeczy do wykresów, inne nie potrafią. Jeżeli państwa nie potrafi – nie ma problemu.

Widać, że rozkład wieku jest wielomodalny: jeden punkt skupienia to okolice pierwszego kwartyla a drugi punkt skupienia to okolice trzeciego kwartyla.

Zachodzi podejrzenie, że rozkład wg wieku może być połączeniem dwóch rozkładów jednomodalnych.

Wiek według płci

Czy rozkład wieku w grupie kobiet i mężczyzn będzie jednomodalny?

sex n m me q1 q3 sd q.dev
K 171 36.94 37.0 25 48 11.37 11.5
M 64 28.23 25.5 21 34 9.03 6.5

Ciekawostka średnia 36.9356725 \(\approx\) 37 (w grupie kobiet).

Samoskuteczność

Z uwagi na sposób konstrukcji formularza jest 100% pewność że dane są poprawne ale strzeżonego pan Bóg strzeże. Maksymalna możliwa wartość tej zmiennej to 50 a minimalna 10.

max min m me q1 q3 sd q.dev
50 26 37.38 38 35 40 4.58 2.5

Szczegóły histogramu (jakby ktoś był ciekaw), czyli szereg rozdzielczy przedziałowy:

xmin xmax n p
25 27 4 1.70
27 29 12 5.11
29 31 8 3.40
31 33 16 6.81
33 35 30 12.77
35 37 47 20.00
37 39 48 20.43
39 41 34 14.47
41 43 20 8.51
43 45 6 2.55
45 47 3 1.28
47 49 4 1.70
49 51 3 1.28

xmin/xmax – dolny/górny koniec klasy; n – liczebność klasy; p – udział procentowy.

Liczba ankietowanych o wartości samoskuteczności mniejszej od q1 = 55. Liczba ankietowanych o wartości samoskuteczności większej od q3 = 43.

Samoskuteczność a płeć

sex m me q1 q3 sd
K 36.98 37 34.00 40 4.93
M 38.45 39 36.75 40 3.26

Rozkład wartości zmiennej Nastawienie względem statystyki

max min m me q1 q3 sd q.dev
177 51 117.24 117 105 129 19.57 12

Średnia wartość Nws wyniosła 117.24 (co stanowi 59.8% wartości maksymalnej).

Płeć a NwS

sex m me q1 q3 sd
K 114.32 115 103 125.00 19.15
M 125.05 124 112 134.25 18.65

albo na wykresie

Średnie wartości poszczególnych wymiarów (min = 1; max = 7):

sex m
K 4.079922
M 4.536458
sex m
K 4.167641
M 4.703125
sex m
K 4.429500
M 4.737847
sex m
K 3.566416
M 3.852679

Na wykresie pudełkowym:

Sprawność matematyczna

Tylko 143 respondentów podało wynik na maturze z matematyki. Dodatkowo pytanie było nieprecyzyjne: nieokreślono czy chodzi o wynik z matury rozszerzonej czy podstawowej. W związku z tym zmienna ta została pominięta w dalszej analizie.

[Raczej czymś takim nie powinniśmy się chwalić i lepiej udawać że takiego pytania w ogóle nie było:-) ]

Weryfikacja hipotez badawczych

Wiek a NwS

Czy nws zależy od wieku (np. starsi respondenci mają wyższe wartości NwS)?

Na zdrowy-chłopski-rozum, jest czy nie ma?

A teraz to samo za pomocą regresji liniowej:

Zmienna B SE z p Beta
(Intercept) 122.794 4.061 30.239 0.000 NA
wiek -0.161 0.112 -1.441 0.151 -0.09

Pierwsza kolumna Zmienna zawiera nazwy zmiennych ((Intercept) oznacza wyraz wolny).

Druga kolumna oznaczona jako B zawiera oszacowane wartości (oceny) parametrów linii regresji.

Kolumna SE zawiera oceny błędu standardowego estymatorów parametrów linii regresji.

Kolumna z zawiera wielkość statystyki testu; duże wielkości tej statystyki świadczą przeciw hipotezie zerowej (że wartość parametru jest równa zero)

Kolumna p zawiera prawdopodobieństwo otrzymania takiego (lub większego co do wartości bezwzględnej) wyniku testu jaki został zaobserwowany, przy założeniu, że hipoteza zerowa jest prawdziwa.

Kolumna Beta zawiera standaryzowane oceny parametrów linii regresji.

Każdy rok więcej skutkuje przeciętnie zmniejszeniem NwS o -0.1607162. Wielkość współczynnika regresji jest nieistotna statystycznie ponieważ wartość \(p\) jest większa od każdego zwyczajowo przyjmowanego poziomu istotności (np. 0,05).

Współczynnik determinacji wynosi 0.88%. 0.88% zmienności NwS jest wyjaśniane przez wiek.

Czy istnieje zależność między Nws oraz płcią?

Stosujemy test t Welcha. Hipotezą zerową (wstępnym założeniem) jest, że pomiędzy PsW i płcią nie ma zależności. Formalnie, że średnie wartości w obu grupach zmiennej psw są identyczne.

Grupa1 Grupa2 n1 n2 t p
K M 171 64 -3.89859 0.000163

Kolumny n1/n2 zawieraja liczebności grup;

Kolumna t zawiera wielkość statystyki testu; duże wielkości tej statystyki świadczą przeciw hipotezie zerowej (że średnie w obu grupach są równe)

Kolumna p zawiera prawdopodobieństwo otrzymania takiego (lub większego co do wartości bezwzględnej) wyniku testu jaki został zaobserwowany, przy założeniu, że hipoteza zerowa jest prawdziwa.

Hipotezę zerową należy odrzucić. Mężczyźni mają statystycznie istotne wyższe pozytywne nastawienie do statystyki.

Sprawdzamy założenia dotyczące normalności (test Shapiro-Wilka)

płeć S-W p
K 0.9877044 0.1412455
M 0.9624824 0.0490701

Kolumna S-W zawiera wielkość statystyki testu; duże wielkości tej statystyki świadczą przeciw hipotezie zerowej (że rozkład jest normalny)

Kolumna p zawiera prawdopodobieństwo otrzymania takiego (lub większego co do wartości bezwzględnej) wyniku testu jaki został zaobserwowany, przy założeniu, że hipoteza zerowa jest prawdziwa.

Rozkład w grupie K nie jest normalny. Wykorzystanie testu t Welcha nie było uzasadnione. Należy zastosować test U-Manna-Whitneya.

Grupa1 Grupa2 n1 n2 U p
K M 171 64 3872 0.000564

Kolumna U zawiera wielkość statystyki testu; duże wielkości tej statystyki świadczą przeciw hipotezie zerowej (że rozkłady w obu grupach są jednakowe)

Kolumna p zawiera prawdopodobieństwo otrzymania takiego (lub większego co do wartości bezwzględnej) wyniku testu jaki został zaobserwowany, przy założeniu, że hipoteza zerowa jest prawdziwa.

Hipotezę zerową należy odrzucić. Mężczyźni mają statystycznie istotne wyższe pozytywne nastawienie do statystyki.

Kierunek a Nws

kierunek średni nws
Pielęgniarstwo 115.2831
Ratownictwo Medyczne 121.9420

Przypuszczalnie istnieje silna zależność pomiędzy kierunkiem a płcią (można to zweryfikować np. testem Chi-kwadrat)

Wartości rzeczywiste (tabela 2x2):

##    kierunek
## sex Pielęgniarstwo Ratownictwo Medyczne
##   K            153                   18
##   M             13                   51

Wartości teoretyczne (tabela 2x2):

##    kierunek
## sex Pielęgniarstwo Ratownictwo Medyczne
##   K      120.79149             50.20851
##   M       45.20851             18.79149

Czy różnice są istotne? Prawdopodobieństwo tak dużych różnic przy założeniu że nie ma związku między kierunkiem a płcią wynosi:

## [1] 0.000000000000000000000001930277

Albo 1.930277e-24 Coś jak wyrzucić orła 60 razy pod rząd w 60 rzutach monetą. Na poziomie istotności odrzucamy hipotezę zerową myląc się raz na 518060381213812487880704 powtórzeń.

Czy istnieje zależność pomiędzy nws.trudnosc a wiekiem?

Regresja liniowa

Zmienna B SE z p Beta
(Intercept) 26.988 0.999 27.015 0.000 NA
wiek -0.043 0.027 -1.557 0.121 -0.1

Czy istnieje zależność między wiekiem a psw.wartosc

Regresja liniowa:

Zmienna B SE z p Beta
(Intercept) 41.404 1.638 25.277 0.000 NA
wiek -0.023 0.045 -0.503 0.615 -0.03

nie ma zależności.

nws a samoskutecznosc

Istnieje?

Może…

Regresja liniowa:

Zmienna B SE z p Beta
(Intercept) 73.729 10.145 7.268 0 NA
samoskutecznosc 1.164 0.269 4.321 0 0.27

nws a płeć i samoskuteczność

Zmienna B SE z p Beta
(Intercept) 76.045 9.951 7.642 0.000 NA
samoskutecznosc 1.035 0.266 3.885 0.000 0.24
sexM 9.203 2.734 3.366 0.001 0.21

Wnioski

Literatura

Abraham Ayebo, Jered Bright, Christian Ballam, Examining the Factor Structure of the Survey of Attitudes Towards Statistics among Undergraduate Health Science Students, https://doi.org/10.29333/iejme/5942

Yuhai Zhang i inni, Attitudes toward statistics in medical postgraduates: measuring, evaluating and monitoring, http://www.biomedcentral.com/1472-6920/12/117

Norizan Anwar, Aniza Jamaluddin and Hanis Diyana Kamarudin, Attitude of Students towards Statistics Application, Global J. Bus. Soc. Sci. Review 1 (3) 78–83 (2013)