Czy studenci obawiają się statystyki i jakie są tego przyczyny?
[Musimy zdecydować się co rozumiemy przez pojęcie studenci obawiają się statystyki oraz zaproponować kilka możliwych przyczyn tej obawy.]
Na gruncie teorii psychologicznych można zdefiniować Nastawienie względem statystyki jako ogólny stosunek, jaki dana osoba ma do statystyki jako dziedziny wiedzy. Obejmuje ono emocje, przekonania i zachowania związane z tym przedmiotem:
emocje: jakie emocje dana osoba odczuwa wobec statystyki (np. lęk, zainteresowanie, przyjemność, frustracja)
przekonania poznawcze: co dana osoba sądzi na temat statystyki, na przykład o jej użyteczności czy znaczeniu w codziennym życiu, nauce lub pracy
intencje behawioralne: Jak bardzo dana osoba jest skłonna angażować się w naukę lub stosowanie statystyki, np. uczestniczyć w kursach statystyki, rozwiązywać zadania lub stosować metody statystyczne w praktyce.
Teraz co może być przyczyną takiego lub innego Nastawienie względem statystyki?
Także na gruncie psychologii znana jest klasyczna teoria samoskuteczności, zaproponowana przez Alberta Bandurę, który uważał, że to, jak postrzegamy własne kompetencje, znacząco wpływa na nasze zachowania, decyzje i wyniki działań. Samoskuteczność (self-efficacy) to przekonanie jednostki o jej zdolności do skutecznego wykonywania określonych zadań lub osiągania celów. Albo wiara we własne umiejętności.
Sprawność matematyczna (osoby bieglejsze w matematyce będą miały bardziej pozytywne nastawienie)
Płeć (panie będą miały bardziej pozytywne nastawienie niż panowie lub odwrotnie)
Wiek (starsi bardziej docenią statystykę, lub odwrotnie)
Czyli definiujemy tzw.hipotezy szczegółowe:
sprawność matematyczna, płeć, wiek i samoskuteczność determinują Nastawienie względem Statystyki
[Pozostaje tylko drobnostka jak zmierzyć Nastawienie względem Statystyki, Samoskuteczność, sprawność matematyczną. Płeć i wiek wiemy jak zmierzyć.]
[Tutaj definiujemy jak chcemy mierzyć zmienne, które potrzebujemy do realizacji celu/weryfikacji hipotez badawczych]
Nastawienie mierzono za pomocą kwestionariusza zaproponowanego przez Zhanga i innych, składającego się z 28 pytań, które mierzą cztery różne jego aspekty: afekt (a), kompetencje poznawcze (k), wartość (w) i trudność (t).
Mierzymy pozytywną postawę stąd pytania 2, 3, 5, 6, 9–12, 14, 16,
18–22 oraz 25–28 są odwrócone (co zaznaczono literką r
w
nawiasie).
[Pytania są umieszczone w ankiecie według kolejności określonej przez numer pytania (nr). Chodzi o to, żeby pytania o różne aspekty postawy były wymieszane – ankieta jest przez to chociaż trochę mniej nudna.]
nr | aspekt | pytanie |
---|---|---|
1 | a | Polubię statystykę |
2 | a | Będę się czuł niepewnie gdy będę musiał rozwiązywać zadania statystyczne. (r) |
11 | a | Podczas kolokwiów ze statystyki będę sfrustrowany (r) |
14 | a | Będę zestresowany na zajęciach ze statystyki (r) |
15 | a | Chętnie wezmę udział w zajęciach ze statystyki |
21 | a | Statystyka mnie przeraża (r) |
3 | k | Mój sposób myślenia powoduje że mam kłopoty ze zrozumieniem statystyki (r) |
9 | k | Nie mam pojęcia o co chodzi w statystyce (r) |
20 | k | Zajmując się statystyką popełniam wiele błędów matematycznych (r) |
23 | k | Mogę nauczyć się statystyki |
24 | k | Zrozumiem wzory statystyczne |
27 | k | Zrozumienie pojęć ze statystyki będzie dla mnie trudne (r) |
5 | w | Statystyka jest bezwartościowa (r) |
7 | w | Statystyka powinna być obowiązkowym przedmiotem na studiach |
8 | w | Znajomość statystyki ułatwi mi znalezienie pracy |
10 | w | Profesjonalista nie potrzebuje znajomości statystyki (r) |
12 | w | Za wyjątkiem wykorzystania w pracy zawodowej statystyka jest bezużyteczna (r) |
13 | w | Wykorzystuję statystykę w codziennym życiu |
16 | w | Na co dzień rzadko się widzi wykorzystanie statystyki (r) |
19 | w | Statystyka nie przyda się w moim zawodzie (r) |
25 | w | Statystyka nie ma żadnego znaczenia w moim życiu (r) |
4 | t | Wzory statystyczne są łatwe do zrozumienia |
6 | t | Statystyka jest skomplikowana (r) |
17 | t | Większość ludzi szybko uczy się statystyki |
18 | t | Nauczenie się statystyki wymaga dużej dyscypliny (r) |
22 | t | Statystyka wymaga żmudnych obliczeń (r) |
26 | t | Statystyka jest wysoce specjalistyczna (r) |
28 | t | Większość ludzi musi nauczyć się nowego sposobu myślenia aby zajmować się statystyką (r) |
Odpowiedzi na wszystkie pytania: Zdecydowanie nie zgadzam się | Nie zgadzam się | Raczej nie zgadzam się | Nie mam zdania | Raczej zgadzam się | Zgadzam się | Zdecydowanie się zgadzam.
Jeżeli osoba uważa statystykę za supertrudną, to wartość NwS wyniesie 28; jeżeli osoba uważa statystykę za superłatwą, to NwS=196.
Samoskuteczność mierzono za pomocą klasycznego zestawu 10 pytań:
nr | pytanie |
---|---|
1 | Zawsze jestem w stanie rozwiązać trudne problemy, jeśli tylko wystarczająco się staram |
2 | Jeśli ktoś mi się sprzeciwia, mam sposoby, aby osiągnąć to co chcę |
3 | Łatwo jest mi trzymać się swoich celów |
4 | Jestem przekonany, że skutecznie poradziła/poradziłbym sobie z niespodziewanymi wydarzeniami |
5 | Dzięki swojej pomysłowości dać sobie radę w nieoczekiwanych sytuacjach |
6 | Potrafię rozwiązać większość problemów, jeśli włożę w to odpowiednio dużo wysiłku |
7 | Potrafię zachować spokój w obliczu trudności, gdyż mogę polegać na swoich umiejętnościach radzenie sobie |
8 | Gdy zmagam się z jakimś problemem, zwykle znajduję kilka rozwiązań |
9 | Gdy jestem w kłopotliwej sytuacji, na ogół wiem, co robić |
10 | Niezależnie od tego co mnie spotyka, potrafię sobie z tym poradzić |
Odpowiedzi na wszystkie pytania: zdecydowanie nie | nie | ani tak/ani nie | tak | zdecydowanie tak.
Sprawność matematyczną mierzono pytając respondentów o wynik matury z matematyki. Pozostawiono możliwość odmowy odpowiedzi mając na względzie, iż niektórzy mogą już nie pamiętać ile to było :-)
Płeć; K/M
Wiek (w latach),
Kierunek studiów (PO/RM/Ekonomia)
Mamy następujące zmienne: samoskuteczność, nws, nws.afekt, nws.trudnosc, nws.kompetencje, nws.wartosc, wiek, wynik.na.maturze, płeć i kierunek.
samoskuteczność, nws, nws.afekt, nws.trudnosc, nws.kompetencje, nws.wartosc są sumami odpowiednich rang i są traktowane jako liczby
wiek i wynik.na.maturze są liczbami
płeć i kierunek są mierzone na skali nominalnej
Reasumując 42 pytania = 10 zmiennych.
Uwaga: osoby z dobrą pamięcią stwierdzą że formularz, który wypełniały zawierał jeszcze dwa pytania. Powiedzmy, że te te pytania były niepotrzebne.
Łącznie otrzymano 235 ankiet.
płeć | n | % |
---|---|---|
K | 171 | 72.76596 |
M | 64 | 27.23404 |
albo na wykresie
n | min | max | m | me | q1 | q3 | sd |
---|---|---|---|---|---|---|---|
235 | 18 | 1985 | 42.85 | 34 | 23 | 47 | 127.75 |
Każdą zmienną (w tym a zwłaszcza liczbową) powinniśmy sprawdzić na okoliczność wystąpienia danych anormalnych. Można to zrobić wizualnie (jeżeli zbiór nie jest za duży) lub obliczając statystyki takie jak wartość minimalna/maksymalna + wykres.
W przypadku zmiennej wiek wartość minimalna wydaje się OK, ale wartość maksymalna już zupełnie nie. Ktoś ewidentnie wpisał rok urodzenia zamiast liczby lat ukończonych.
W wielu aplikacjach służących do zbierania danych (takich jak Formularze Google) jest możliwe określenie akceptowalnego zbioru wartości jakie może przyjąć zmienna. W przypadku zmiennej wiek na przykład należało podać, że wiek musi zawierać się w przedziale 18–70 (albo nawet 18–67). Nie podałem tego warunku dla pierwszej wersji ankiety no i jak widać ktoś to wykorzystał :-)
Histogram jest oczywiście kompletnie bez sensu, ponieważ klas jest ponad 900 z czego o niezerowych liczebnościach około 20.
Co teraz z tym fantem zrobić?
Po pierwsze należy ustalić ile jest wadliwych obserwacji. Na przykład ilu respondentów podało wiek większy niż 70 lat?
Takich obserwacji okazuje się, że jest 1 czyli na szczęście niewiele. Teraz można albo usunąć wadliwe albo poprawić jeżeli wiadomo o co chodziło respondentowi. W naszym przykładzie oba rozwiązania są poprawne. Ale gdyby ktoś dla tzw. jaj wpisał 300 lat, to już by nam pozostało tylko usunięcie żartownisia ze zbioru danych.
Decydujemy się na poprawienie danych:
n | min | max | m | me | q1 | q3 | sd |
---|---|---|---|---|---|---|---|
235 | 18 | 56 | 34.57 | 34 | 23 | 47 | 11.44 |
Teraz dane są OK.
Często (zwłaszcza na początku naszej kariery statystyka) dopiero po zebraniu danych się okazuje, że o czymś tam zapomnieliśmy i ankietowani podali nie takie dane jakie trzeba. Dlatego ważna jest weryfikacja danych pod kątem ich poprawności. Jeszcze lepszym pomysłem jest wykonanie badania próbnego zwanego badaniem pilotażowym. Robimy badanie dla 20 osób i patrzymy co wyszło – duża szansa że ujawnią się potencjalne niedoróbki. Pilotaż można włączyć do pozostałych danych jeżeli niedoróbek nie było…
Poprawiony wykres:
Uwaga: m oznacza średnią, q1/q3 pierwszy/trzeci kwartyl, a me oznacza medianę. Te oznaczenia dodaliśmy ekstra nasz program potrafi dodawać różne rzeczy do wykresów, inne nie potrafią. Jeżeli państwa nie potrafi – nie ma problemu.
Widać, że rozkład wieku jest wielomodalny: jeden punkt skupienia to okolice pierwszego kwartyla a drugi punkt skupienia to okolice trzeciego kwartyla.
Zachodzi podejrzenie, że rozkład wg wieku może być połączeniem dwóch rozkładów jednomodalnych.
Czy rozkład wieku w grupie kobiet i mężczyzn będzie jednomodalny?
sex | n | m | me | q1 | q3 | sd | q.dev |
---|---|---|---|---|---|---|---|
K | 171 | 36.94 | 37.0 | 25 | 48 | 11.37 | 11.5 |
M | 64 | 28.23 | 25.5 | 21 | 34 | 9.03 | 6.5 |
Ciekawostka średnia 36.9356725 \(\approx\) 37 (w grupie kobiet).
Z uwagi na sposób konstrukcji formularza jest 100% pewność że dane są poprawne ale strzeżonego pan Bóg strzeże. Maksymalna możliwa wartość tej zmiennej to 50 a minimalna 10.
max | min | m | me | q1 | q3 | sd | q.dev |
---|---|---|---|---|---|---|---|
50 | 26 | 37.38 | 38 | 35 | 40 | 4.58 | 2.5 |
Szczegóły histogramu (jakby ktoś był ciekaw), czyli szereg rozdzielczy przedziałowy:
xmin | xmax | n | p |
---|---|---|---|
25 | 27 | 4 | 1.70 |
27 | 29 | 12 | 5.11 |
29 | 31 | 8 | 3.40 |
31 | 33 | 16 | 6.81 |
33 | 35 | 30 | 12.77 |
35 | 37 | 47 | 20.00 |
37 | 39 | 48 | 20.43 |
39 | 41 | 34 | 14.47 |
41 | 43 | 20 | 8.51 |
43 | 45 | 6 | 2.55 |
45 | 47 | 3 | 1.28 |
47 | 49 | 4 | 1.70 |
49 | 51 | 3 | 1.28 |
xmin/xmax – dolny/górny koniec klasy; n – liczebność klasy; p – udział procentowy.
Liczba ankietowanych o wartości samoskuteczności mniejszej od q1 = 55. Liczba ankietowanych o wartości samoskuteczności większej od q3 = 43.
sex | m | me | q1 | q3 | sd |
---|---|---|---|---|---|
K | 36.98 | 37 | 34.00 | 40 | 4.93 |
M | 38.45 | 39 | 36.75 | 40 | 3.26 |
max | min | m | me | q1 | q3 | sd | q.dev |
---|---|---|---|---|---|---|---|
177 | 51 | 117.24 | 117 | 105 | 129 | 19.57 | 12 |
Średnia wartość Nws wyniosła 117.24 (co stanowi 59.8% wartości maksymalnej).
sex | m | me | q1 | q3 | sd |
---|---|---|---|---|---|
K | 114.32 | 115 | 103 | 125.00 | 19.15 |
M | 125.05 | 124 | 112 | 134.25 | 18.65 |
albo na wykresie
Średnie wartości poszczególnych wymiarów (min = 1; max = 7):
sex | m |
---|---|
K | 4.079922 |
M | 4.536458 |
sex | m |
---|---|
K | 4.167641 |
M | 4.703125 |
sex | m |
---|---|
K | 4.429500 |
M | 4.737847 |
sex | m |
---|---|
K | 3.566416 |
M | 3.852679 |
Na wykresie pudełkowym:
Tylko 143 respondentów podało wynik na maturze z matematyki. Dodatkowo pytanie było nieprecyzyjne: nieokreślono czy chodzi o wynik z matury rozszerzonej czy podstawowej. W związku z tym zmienna ta została pominięta w dalszej analizie.
[Raczej czymś takim nie powinniśmy się chwalić i lepiej udawać że takiego pytania w ogóle nie było:-) ]
Czy nws zależy od wieku (np. starsi respondenci mają wyższe wartości NwS)?
Na zdrowy-chłopski-rozum, jest czy nie ma?
A teraz to samo za pomocą regresji liniowej:
Zmienna | B | SE | z | p | Beta |
---|---|---|---|---|---|
(Intercept) | 122.794 | 4.061 | 30.239 | 0.000 | NA |
wiek | -0.161 | 0.112 | -1.441 | 0.151 | -0.09 |
Pierwsza kolumna Zmienna
zawiera nazwy zmiennych
((Intercept)
oznacza wyraz wolny).
Druga kolumna oznaczona jako B
zawiera oszacowane
wartości (oceny) parametrów linii regresji.
Kolumna SE
zawiera oceny błędu standardowego estymatorów
parametrów linii regresji.
Kolumna z
zawiera wielkość statystyki testu; duże
wielkości tej statystyki świadczą przeciw hipotezie zerowej (że wartość
parametru jest równa zero)
Kolumna p
zawiera prawdopodobieństwo otrzymania takiego
(lub większego co do wartości bezwzględnej) wyniku testu jaki został
zaobserwowany, przy założeniu, że hipoteza zerowa jest prawdziwa.
Kolumna Beta
zawiera standaryzowane oceny parametrów
linii regresji.
Każdy rok więcej skutkuje przeciętnie zmniejszeniem NwS o -0.1607162. Wielkość współczynnika regresji jest nieistotna statystycznie ponieważ wartość \(p\) jest większa od każdego zwyczajowo przyjmowanego poziomu istotności (np. 0,05).
Współczynnik determinacji wynosi 0.88%. 0.88% zmienności NwS jest wyjaśniane przez wiek.
Stosujemy test t Welcha. Hipotezą zerową (wstępnym założeniem) jest,
że pomiędzy PsW i płcią nie ma zależności. Formalnie, że średnie
wartości w obu grupach zmiennej psw
są identyczne.
Grupa1 | Grupa2 | n1 | n2 | t | p |
---|---|---|---|---|---|
K | M | 171 | 64 | -3.89859 | 0.000163 |
Kolumny n1/n2 zawieraja liczebności grup;
Kolumna t
zawiera wielkość statystyki testu; duże
wielkości tej statystyki świadczą przeciw hipotezie zerowej (że średnie
w obu grupach są równe)
Kolumna p
zawiera prawdopodobieństwo otrzymania takiego
(lub większego co do wartości bezwzględnej) wyniku testu jaki został
zaobserwowany, przy założeniu, że hipoteza zerowa jest prawdziwa.
Hipotezę zerową należy odrzucić. Mężczyźni mają statystycznie istotne wyższe pozytywne nastawienie do statystyki.
Sprawdzamy założenia dotyczące normalności (test Shapiro-Wilka)
płeć | S-W | p |
---|---|---|
K | 0.9877044 | 0.1412455 |
M | 0.9624824 | 0.0490701 |
Kolumna S-W
zawiera wielkość statystyki testu; duże
wielkości tej statystyki świadczą przeciw hipotezie zerowej (że rozkład
jest normalny)
Kolumna p
zawiera prawdopodobieństwo otrzymania takiego
(lub większego co do wartości bezwzględnej) wyniku testu jaki został
zaobserwowany, przy założeniu, że hipoteza zerowa jest prawdziwa.
Rozkład w grupie K nie jest normalny. Wykorzystanie testu t Welcha nie było uzasadnione. Należy zastosować test U-Manna-Whitneya.
Grupa1 | Grupa2 | n1 | n2 | U | p |
---|---|---|---|---|---|
K | M | 171 | 64 | 3872 | 0.000564 |
Kolumna U
zawiera wielkość statystyki testu; duże
wielkości tej statystyki świadczą przeciw hipotezie zerowej (że rozkłady
w obu grupach są jednakowe)
Kolumna p
zawiera prawdopodobieństwo otrzymania takiego
(lub większego co do wartości bezwzględnej) wyniku testu jaki został
zaobserwowany, przy założeniu, że hipoteza zerowa jest prawdziwa.
Hipotezę zerową należy odrzucić. Mężczyźni mają statystycznie istotne wyższe pozytywne nastawienie do statystyki.
kierunek | średni nws |
---|---|
Pielęgniarstwo | 115.2831 |
Ratownictwo Medyczne | 121.9420 |
Przypuszczalnie istnieje silna zależność pomiędzy kierunkiem a płcią (można to zweryfikować np. testem Chi-kwadrat)
Wartości rzeczywiste (tabela 2x2):
## kierunek
## sex Pielęgniarstwo Ratownictwo Medyczne
## K 153 18
## M 13 51
Wartości teoretyczne (tabela 2x2):
## kierunek
## sex Pielęgniarstwo Ratownictwo Medyczne
## K 120.79149 50.20851
## M 45.20851 18.79149
Czy różnice są istotne? Prawdopodobieństwo tak dużych różnic przy założeniu że nie ma związku między kierunkiem a płcią wynosi:
## [1] 0.000000000000000000000001930277
Albo 1.930277e-24 Coś jak wyrzucić orła 60 razy pod rząd w 60 rzutach monetą. Na poziomie istotności odrzucamy hipotezę zerową myląc się raz na 518060381213812487880704 powtórzeń.
nws.trudnosc
a
wiekiem?Regresja liniowa
Zmienna | B | SE | z | p | Beta |
---|---|---|---|---|---|
(Intercept) | 26.988 | 0.999 | 27.015 | 0.000 | NA |
wiek | -0.043 | 0.027 | -1.557 | 0.121 | -0.1 |
psw.wartosc
Regresja liniowa:
Zmienna | B | SE | z | p | Beta |
---|---|---|---|---|---|
(Intercept) | 41.404 | 1.638 | 25.277 | 0.000 | NA |
wiek | -0.023 | 0.045 | -0.503 | 0.615 | -0.03 |
nie ma zależności.
Istnieje?
Może…
Regresja liniowa:
Zmienna | B | SE | z | p | Beta |
---|---|---|---|---|---|
(Intercept) | 73.729 | 10.145 | 7.268 | 0 | NA |
samoskutecznosc | 1.164 | 0.269 | 4.321 | 0 | 0.27 |
Zmienna | B | SE | z | p | Beta |
---|---|---|---|---|---|
(Intercept) | 76.045 | 9.951 | 7.642 | 0.000 | NA |
samoskutecznosc | 1.035 | 0.266 | 3.885 | 0.000 | 0.24 |
sexM | 9.203 | 2.734 | 3.366 | 0.001 | 0.21 |
płeć oraz samoskuteczność istotnie wpływają na wielkość Nastawienia względem Statystyki.
wiek nie ma istotnego wpływu na NwS.
Abraham Ayebo, Jered Bright, Christian Ballam, Examining the Factor Structure of the Survey of Attitudes Towards Statistics among Undergraduate Health Science Students, https://doi.org/10.29333/iejme/5942
Yuhai Zhang i inni, Attitudes toward statistics in medical postgraduates: measuring, evaluating and monitoring, http://www.biomedcentral.com/1472-6920/12/117
Norizan Anwar, Aniza Jamaluddin and Hanis Diyana Kamarudin, Attitude of Students towards Statistics Application, Global J. Bus. Soc. Sci. Review 1 (3) 78–83 (2013)