Egzamin jest jedną z form sprawdzania wiedzy uczestników na dany temat. W czasach przed pandemią COVID-19 wszyscy zbierali się w klasach, aby przystąpić do egzaminu. Obecnie dzięki technologii do egzaminu można przystąpić w dogodnym czasie, na własnym urządzeniu, nie ważne skąd za pomocą sieci online. Egzamin ma za zadanie sprawdzenie wiedzy teoretycznej którą nabyło się podczas uczestnistwa na zajęciach. Do egzaminu przystępuje grupa osób która różni się wieloma aspektami. Nasze dane do tego projektu zawierają informacje dotyczącą wyniku egzaminu z trzech kategorii:
Populacja którą postanowiliśmy przebadać różni się między sobą takimi czynnikami jak pakiet obiadowy w szkole (który może oznaczać stan zamożności), grupą pochodzenia, płcią, wykształceniem w rodzinie, przygotowaniem wstępnym do egzaminu (uczestnistwo w kursie przygotowującym do egzaminu).
Celem niniejszego raportu jest przeanalizowanie jakie grupy wypadły lepiej na egzaminie i jakie czynniki miały na to wpływ.
Dane z których korzystaliśmy pochodzą z serwisu Kaggle
dane<-read.csv("StudentsPerformance.csv")
Inspiracją jest zrozumienie wpływu pochodzenia rodziców, przygotowania do testu itp. na wyniki uczniów. zestaw danych składa się z 1000 wierszy i 8 kolumn, za pomocą których zamierzamy określić, jakie cechy odgrywają kluczową rolę i wpływają na wyniki uczniów, a także postaramy się rozwiązać niektóre mity, na przykład czy grupa która dobrze radzi sobie z matematyką jest gorsza w pisaniu.
Po załadowaniu danych do systemu RStudio dokonamy wstępnej obróbki aby móc później wygodniej pracować nad nimi.
str(dane)
## 'data.frame': 1000 obs. of 8 variables:
## $ gender : chr "female" "female" "female" "male" ...
## $ race.ethnicity : chr "group B" "group C" "group B" "group A" ...
## $ parental.level.of.education: chr "bachelor's degree" "some college" "master's degree" "associate's degree" ...
## $ lunch : chr "standard" "standard" "standard" "free/reduced" ...
## $ test.preparation.course : chr "none" "completed" "none" "none" ...
## $ math.score : int 72 69 90 47 76 71 88 40 64 38 ...
## $ reading.score : int 72 90 95 57 78 83 95 43 64 60 ...
## $ writing.score : int 74 88 93 44 75 78 92 39 67 50 ...
Wśród kategorii danych możemy zauważyć 8 zmiennych które posiadają dwie kategorie:
Kolejnym krokiem czyszczenia naszych danych jest sprawdzenie czy zbiór naszych danych nie posiada tzw. pustych obserwacji które sprawdzamy pakietem naniar a konkretnie funkcją n_miss.
Ten krok jest niezbędny, aby upewnić się, że nie ma brakujących obserwacji dla zdefiniowanych zmiennych.
n_miss(dane)
## [1] 0
Mając puste obserwacje na poziomie 0 możemy przystąpić do pracy nad danymi. W celu wygodnej pracy postanowiliśmy dostosować nazwy kolumn przypisując im własne nazwy. Dużych zmian nie wprowadzamy ale dla lepszej wizualizacji wprowadzamy nazwy rozpoczynające się z dużej litery, zmieniamy nazwy na polskie oraz usuwamy znaki interpunkcyjne z tytułów.
names(dane)[1] <- "Plec"
names(dane)[2] <- "GrupaEtniczna"
names(dane)[3] <- "WyksztalcenieRodzice"
names(dane)[4] <- "PakietObiadowy"
names(dane)[5] <- "PreKurs"
names(dane)[6] <- "Matematyka"
names(dane)[7] <- "Czytanie"
names(dane)[8] <- "Pisanie"
names(dane)
## [1] "Plec" "GrupaEtniczna" "WyksztalcenieRodzice"
## [4] "PakietObiadowy" "PreKurs" "Matematyka"
## [7] "Czytanie" "Pisanie"
Od teraz wszystkie kategorie zbioru danych bedą miały nazwy które zostały przez nas przypisane do konkrenej kolumny według funkcji powyżej. Obecnie nasze dane prezentują się następująco:
paged_table(dane)
W celu lepszej wizualizacji przezentujemy dane za pomocą funkcji paged_table.
Kolejnym krokiem w celu wygodniejszej pracy jest konwersjia wartośći opisowych
dane_factor <- c("Plec", "GrupaEtniczna", "WyksztalcenieRodzice", "PakietObiadowy", "PreKurs")
dane[dane_factor] <-lapply(dane[dane_factor], factor)
Ostatecznie nasze dane prezentują się tak:
str(dane)
## 'data.frame': 1000 obs. of 8 variables:
## $ Plec : Factor w/ 2 levels "female","male": 1 1 1 2 2 1 1 2 2 1 ...
## $ GrupaEtniczna : Factor w/ 5 levels "group A","group B",..: 2 3 2 1 3 2 2 2 4 2 ...
## $ WyksztalcenieRodzice: Factor w/ 6 levels "associate's degree",..: 2 5 4 1 5 1 5 5 3 3 ...
## $ PakietObiadowy : Factor w/ 2 levels "free/reduced",..: 2 2 2 1 2 2 2 1 1 1 ...
## $ PreKurs : Factor w/ 2 levels "completed","none": 2 1 2 2 2 2 1 2 1 2 ...
## $ Matematyka : int 72 69 90 47 76 71 88 40 64 38 ...
## $ Czytanie : int 72 90 95 57 78 83 95 43 64 60 ...
## $ Pisanie : int 74 88 93 44 75 78 92 39 67 50 ...
Mając już przygotowane, oczyszczone i przekonwertowane dane można rozpocząć analize właściwą która zbada nam co miało znaczący wpływ na wyniki z każdej części egzaminu.
Przeszukiwanie informacji w celu zrozumienia bywa czasami trudne. Wizalizacje znacznie łatwiej ułątwiają analizy oraz przyspieszają je oferując możliwości szybkiego dostrzeżęnia tego co jest najważniejsze w zbiorze danych.Ponad 90% informacji wysyłanych do mózgu to informacje wizualne, a mózg przetwarza wizualizacje około 60 tyś razy szybciej niż tekst. W celu dalszej analizy zdecydowanie lepiej przemówią wykorzystane wizualizacje do przekazania informacji z naszego zbioru.
Obserwacje z powyższych wykresów pokazują, że w zbiorze danych jest więcej kobiet niż mężczyzn. Po drugie, uczniowie którzy ukończyliby kurs przygotowawczy przed egzaminem, stanowią nieco ponad połowę grupy tych, którzy go nie podjęli. Wygląda na to że przewaga jest uczniów którzy zaufali swoim możliwościom i nie skorzystali z kursu który miał za zadanie przygotować osoby do uzyskania najlepszego wyniki. Wśród kategorii pakietów obiadowych mamy dwie zmienne: obiad standardowy oraz darmowy/zredukowany. Zakładamy tutaj że pakiet standardowy jest napewno odpłatny i kategorycznie lepszy niż drugia kategoria. Z poziomu ilości wynika że więcej osób korzysta z takiego pakietu i stanowi dwukrotną większość osób które takiego pakietu nie posiadają. Kolejną ilością jest grupa etniczna w której mamy podział na 5 grup. Najliczniejszą grupę stanowi grupa C której ilość osób jest ponad 300 i jest ponad 3 krotnie liczniejsza niż grupa A. Niecałe 100 osób stanowi najmniejsza grupa czyli grupa A. Następną najmniej liczną grupą po tej jest grupa E której ilość osób w populacji stanowi niecałe 150 osób.
Analizując wykres ilości istnieje spora zmienność na 6 poziomach edukacji rodziców badanej grupy. Najmniej popularnym poziomem wykształcenia uzyskiwanym wśród rodziców jest stopień magistra (master’s degree). W górę listy znajduje się tytuł bachelor’s degree oznaczający poziom polskiego licencjata, który prawie podwaja ilość osób których rodzice posiadają tytuł magistra.Stopnie associate’s degree naukowy i niektóre poziomy uczelni (some college) są niemal równorzędne jako najpopularniejszy poziom edukacyjny wśród rodziców, zaraz za nim plasują się szkoły średnie (high school) i niektóre poziomy szkół średnich (some high school). Podsumowując: najliczniejszą ilość uczniów rodzice uzyskali poziom naukowy niższej rangi .
Z powyższego wykresu pudełkowego jasno wynika że największa ilość uczniów w badanej grupie miała problem z egzaminem z matematyki. Natomiast największej grupie uczniów, najlepiej poszedł egzamin z „czytania”. Egzamin z „pisania” uplasował się nieco niżej niż egzamin z „czytania”.
| Plec | GrupaEtniczna | WyksztalcenieRodzice | PakietObiadowy | PreKurs | Matematyka | Czytanie | Pisanie | |
|---|---|---|---|---|---|---|---|---|
| female:518 | group A: 89 | associate’s degree:222 | free/reduced:355 | completed:358 | Min. : 0.00 | Min. : 17.00 | Min. : 10.00 | |
| male :482 | group B:190 | bachelor’s degree :118 | standard :645 | none :642 | 1st Qu.: 57.00 | 1st Qu.: 59.00 | 1st Qu.: 57.75 | |
| NA | group C:319 | high school :196 | NA | NA | Median : 66.00 | Median : 70.00 | Median : 69.00 | |
| NA | group D:262 | master’s degree : 59 | NA | NA | Mean : 66.09 | Mean : 69.17 | Mean : 68.05 | |
| NA | group E:140 | some college :226 | NA | NA | 3rd Qu.: 77.00 | 3rd Qu.: 79.00 | 3rd Qu.: 79.00 | |
| NA | NA | some high school :179 | NA | NA | Max. :100.00 | Max. :100.00 | Max. :100.00 |
Jednoznacznie należy stwierdzić, że wizualna analiza nie jest nigdy tak dokładna jak analiza za pomocą wartości liczbowych. Zgodnie z wynikiem powyżej największa mediana wyników stanowią wyniki z czytania osiągając wartość 70. Podobnie jak minimum które porównując pozostałe trzy kategoriie jest najwyższe. Wnioskować można że najlepsze wyniki osiąga się dla kategorii czytanie o którym również informuje nas najwyższa średnia. W stosunku do wszystkich kategorii najniższy poziom badana populacja osiąga w matematyce której wartości porównując z czytaniem i pisaniem wychodzą najniżej we wszystkich anlizowanych statystykach. Możemy wnioskować że test z matematyki był najtrudniejszą częśćią tego egzaminu. Interesującym wydaje się fakt że wśród tej części pojawia się ocena 0. Być może ktoś oddał pustą kartkę lub z jakiegoś nieznanego powodu otrzymał z góry niezaliczenie.
Chcąc dokonać ekploaracji i analizy danych co miało wpływ na wyniki z egzaminu postanowiliśmy postawić kilka pytań badawczych na które postaramy znaleźć odpowiedź wizualizując dane:
Powyższy wykres słupkowy wyraźnie pokazuje, że większość uczniów w grupach etnicznych B i C to kobiety. Mężczyźni przeważają jedynie w grupie etnicznej A. W pozostałych grupach etnicznych wyniki są wyrównane.
Po analizie wyników testu z matematyki, przedstawionych na powyższym wykresie gęstości możemy stwierdzić, że większa ilość chłopców otrzymała lepsze oceny z tego egzaminu. Z powyższego wykresu możemy wywnioskować, iż to płeć męska lepiej poradziła sonie z tym egzaminem. Większa ilość mężczyzn osiągnęła wynik 75 i więcej.
Całkowicie inaczej, przedstawiają się wyniki egzaminu z „czytania”. Po analizie powyższego wykresu, możemy jednoznacznie stwierdzić, że niższe stopnie koncentrują się wśród mężczyzn, wyższe natomiast wśród kobiet. Zdecydowanie więcej kobiet, osiągnęło wynik 75 i więcej.
Niższe stopnie są skoncentrowane wśród chłopców, podczas gdy kobiety dominują w tych wyższych. Tutaj jednak mamy węższy przedział między dwiema grupami konkurującymi o niższe dwadzieścia pięć procent (25%) wyników.
Podobnie kształtuje się wykres gęstości przedstawiający wyniku egzaminu z „pisania”. Również kobiety osiągały wyższe oceny z tego egzaminu. Większość chłopców, osiągała zauważanie niższe wyniki z tego egzaminu.
Odpowiedzią na postawione pytanie wynika, że to kobiety lepiej poradziły sobie na pełnym egzaminie.
Po analizie powyższego wykresu, możemy stwierdzić, że dla każdej kategorii stosunek kobiet do mężczyzn jest zbliżony. Zarówno wśród grupy która ukończyła, jak i nie ukończyła testu dominowały kobiety. Z powyższego wykresu, możemy również wysunąć wniosek że zaledwie połowa uczniów ukończyła (zapewne płaty) kurs przygotowawczy do studiów.
Odpowiedzią jest, że udział w kursie nie był dość popularny wśród badanej płci. Wynika z tego że większa ilość osób zaufała swoim możliwościom i nie wzieła udziału w przygotowaniu do egzaminu
| completed | none | |
|---|---|---|
| associate’s degree | 82 | 140 |
| bachelor’s degree | 46 | 72 |
| high school | 56 | 140 |
| master’s degree | 20 | 39 |
| some college | 77 | 149 |
| some high school | 77 | 102 |
Przyjrzyjmy się bliżej powyższym wynikom. Przedstawiają one ilość uczniów biorących udział w kursie przygotowawczym. Wyniki zostały pogrupowane ze względu na wykształcenie rodziców. Najmniejsza dysproporcja, w ilości uczniów którzy ukończyli kurs przygotowawczy występuje w grupie rodziców z wykształceniem klasyfikowanym jako „some high school”, największa natomiast w grupie „high school”. Z tabeli wynika że im wyższe wyszktałcenie rodzica tym mniejszy udział w kursie przygotowującym.
| WyksztalcenieRodzice | Min | Q1 | Median | Q3 | Max | Mean | SD | n | Missing |
|---|---|---|---|---|---|---|---|---|---|
| associate’s degree | 26 | 57.00 | 67.0 | 80 | 100 | 67.88288 | 15.11209 | 222 | 0 |
| bachelor’s degree | 29 | 61.00 | 68.0 | 79 | 100 | 69.38983 | 14.94379 | 118 | 0 |
| high school | 8 | 53.75 | 63.0 | 72 | 99 | 62.13776 | 14.53965 | 196 | 0 |
| master’s degree | 40 | 55.50 | 73.0 | 81 | 95 | 69.74576 | 15.15392 | 59 | 0 |
| some college | 19 | 59.00 | 67.5 | 76 | 100 | 67.12832 | 14.31290 | 226 | 0 |
| some high school | 0 | 53.00 | 65.0 | 74 | 97 | 63.49721 | 15.92799 | 179 | 0 |
| WyksztalcenieRodzice | Min | Q1 | Median | Q3 | Max | Mean | SD | n | Missing |
|---|---|---|---|---|---|---|---|---|---|
| associate’s degree | 31 | 61.0 | 72.5 | 81.00 | 100 | 70.92793 | 13.86895 | 222 | 0 |
| bachelor’s degree | 41 | 63.0 | 73.0 | 82.75 | 100 | 73.00000 | 14.28525 | 118 | 0 |
| high school | 24 | 54.0 | 66.0 | 74.25 | 99 | 64.70408 | 14.13213 | 196 | 0 |
| master’s degree | 42 | 65.5 | 76.0 | 84.50 | 100 | 75.37288 | 13.77516 | 59 | 0 |
| some college | 23 | 60.0 | 70.5 | 79.75 | 100 | 69.46018 | 14.05705 | 226 | 0 |
| some high school | 17 | 56.5 | 67.0 | 79.00 | 100 | 66.93855 | 15.47929 | 179 | 0 |
| WyksztalcenieRodzice | Min | Q1 | Median | Q3 | Max | Mean | SD | n | Missing |
|---|---|---|---|---|---|---|---|---|---|
| associate’s degree | 35 | 58.0 | 70.5 | 80 | 100 | 69.89640 | 14.31112 | 222 | 0 |
| bachelor’s degree | 38 | 62.5 | 74.0 | 83 | 100 | 73.38136 | 14.72826 | 118 | 0 |
| high school | 15 | 52.0 | 64.0 | 73 | 100 | 62.44898 | 14.08591 | 196 | 0 |
| master’s degree | 46 | 67.0 | 75.0 | 85 | 100 | 75.67797 | 13.73071 | 59 | 0 |
| some college | 19 | 60.0 | 70.0 | 79 | 99 | 68.84071 | 15.01233 | 226 | 0 |
| some high school | 10 | 54.0 | 66.0 | 77 | 100 | 64.88827 | 15.73620 | 179 | 0 |
Wnioskiem, który jako pierwszy nasuwa się po analizie wykresów jest konkluzja że ukończenie kursu przygotowawczego znacząco poprawiało zdawalność każdego egzaminu. Jednocześnie możemy zauważyć, że wynik był podobny niezależnie od poziomu wykształcenia rodziców. Pozwala nam to wysunąć wniosek, że zdawalność egzaminów była znacząco uzależniona od faktu ukończenia kursu. Przyjrzyjmy się jeszcze średnim wynikom na podstawie każdego wyniku przyrównując to pod wykształcenie rodzica badanej populacji.
W tym celu posłużymy się wizualnym badaniem wariancji dla grup w naszych danych, wykreślając słupki błędów wraz z rozrzutem naszych obserwacji.
Dzięki wizualizacji wydaje się, że słupki błędów dla średniej nie różnią się tak bardzo, gdy przechodzimy przez kategorie na poziomie edukacji. To dostarcza nam informacji o rozprzestrzenianiu się danych. Zauważyć można, że w miarę jak przechodzimy przez rodzaje egaminu to pisanie wydaje się najbardziej rozproszone. Zwłaszcza na posiadaniu tytułu magistra wśród rodziców.
Z przedstawionego wykresu wynika, żę rozłożenie płci na wykształcenie rodzica w danej grupie jest zróżnicowana. W Większoszci rodzice w grupie C posiadają najniższy poziom wykształcenia. Wynika to też z liczności tej grupy (przypominamy na całą populacje grupa C wyniosła 319 osób).
Wykresy przedstawiające rozłożenie pakietów obiadowych, w większości nie są raczej mocno zróżnicowane. Wśród większości poziomów wykształcenia rodziców, przeważają standardowe, a więc płatne pakiety. Jedynym wyjątkiem, jest wykształcenie rodziców odpowiadające polskiemu magistrowi. W tej grupie wykształcenia rodziców, większość uczniów korzystała z darmowych pakietów obiadowych. Z wyłączeniem grupy etnicznej D i E. W grupach A,B oraz C ilość uczniów korzystających ze standardowych pakietów obiadowych była najniższa spośród wszystkich badanych grup.
Z powyższego zestawienia, możemy wywnioskować, że niezależnie od faktu uczestnictwa w kursie przygotowawczym, większość uczniów we wszystkich grupach etnicznych, korzystała ze standardowych pakietów obiadowych.
Gdy przyjrzymy się rozkładowi wyników egzaminu z matematyki, podzielonym na grupy etniczne możemy zauważyć sporą dysproporcję. Zdecydowanie najlepiej z egzaminem z matematyki, poradzili sobie przedstawiciele grupy etnicznej E, natomiast najgorzej przedstawiciele grupy etnicznej A.
Podobnie przedstawia się sytuacja w przypadku egzaminu z „czytania”. W tej kategorii również najwyższe wyniki osiągała grupa etniczna E. Najgorsze wyniki, ponownie przypadły w udziale grupie etnicznej A.
Identycznie przedstawia się sytuacja w przypadku analizy wyników egzaminu z „pisania”. Ponownie najwyższe wyniki osiągnęli uczniowie sklasyfikowani jako przedstawiciele grupy etnicznej E. Był to również kolejny egzamin, z którego najgorsze wyniki uzyskali przedstawiciele grupy etnicznej A. Jedyną różnicą jaką możemy zaobserwować w przypadku tego egzaminu, jest podobieństwo wyników osiągniętych przez grupę etniczną E i D.
Niezależnie od typy egzaminu, uczniowie o wyższym statusie społecznym (a więc tacy których stać było na standardowe pakiety obiadowe), osiągali wyższe wyniki w każdym egzaminie. Z analizy powyższych wykresów jasno wynika również, że w każdym przypadku, to chłopcy korzystający z lepszych pakietów obiadowych mogą pochwalić się wyższymi wynikami egzaminów.
Jako że każde przypuszczenie ma swoją alternatywę kolejnym krokiem raportu jest testowanie hipotez. Testowanie odnosi się do formalnych procedur używanych przez statystyków aby odrzucić lub przyjąć konkretną hipoteze. Wśród hipotez statystycznych rozróżniamy:
Hipoteza zerowa - oznaczona jako H0, w której wyniki z próbek obserwacyjnych wynikają z przypadku
Hipoteza alernatywna - oznaczona jako H1 gdzie wyniki z próbek obserwacyjnych zdefiniowane są przez jakąś nielosową przyczynę.
Testowanie hipotezy interpretuje wartość p-value czyli prawdopodobieństwo testowe. Uzyskanie w teści założonego poziomu istotności przyjęte jest na wartości p wynoszące 0,05. Bardziej formalna defnicja testu mówi, że stawiamy w nim hipoteze zerową i sprawdzamy czy można ją odrzucić na korzyść hipotezy alternatywnej.
Jeśli poziom p value jest mniejszy niż poziom 0,05 to odpowiedź brzmi żę można odrzucić hipoteze zerową. Hipotezy zerowe opisują sytuacje “nie będące odkryciami” czyli np brak zależności pomiędzy czynnikami badania. Hipotezy alternatywne natomiast opisują “odkrycia” czyli zależności pomiędzy czynnikami badania.
Podsumowując:
Test niezależnośći chi kwadrat jest testem służącym do oceny zależności pomiędzy rozkładem częstości odpowiedzi w zakresie jednej zmiennej, w odniesieniu do drugiej. Test zgodności służy do weryfikowania hipotezy o tym, że rozkład prawdopodobieństwa badanej cechy jest rozkładem określonego typu. Testy te są oczywiśćie testami nieparametycznymi, gdyż testując hipoteze o typie rozkładu, nie możemy zakładać, jaki on jest. W naszym raporcie postaramy się wykorzystać test chi-kwadrat Persona badając zależność wyników z egzaminów pomiędzy grupą etniczną oraz poziomem wykształcenia rodziców. Generalnie test chi-kwadrat służy do zależnośći dwóch zmiennych czynników o poziomach powyżej dwóch dlatego decydujemy się przeprowadzić to badanie na tych dwóch kategoriach.
Przed przystąpieniem do testu CHI-Kwadrat zamienimy wartości numeryczne int na wartości factor oraz dołączymy je jako 3 nowe kategorie zmiennych do naszego zbioru danych. Wartośći wyników fct oznaczymy z końcówką badanie.
## 'data.frame': 1000 obs. of 11 variables:
## $ Plec : Factor w/ 2 levels "female","male": 1 1 1 2 2 1 1 2 2 1 ...
## $ GrupaEtniczna : Factor w/ 5 levels "group A","group B",..: 2 3 2 1 3 2 2 2 4 2 ...
## $ WyksztalcenieRodzice: Factor w/ 6 levels "associate's degree",..: 2 5 4 1 5 1 5 5 3 3 ...
## $ PakietObiadowy : Factor w/ 2 levels "free/reduced",..: 2 2 2 1 2 2 2 1 1 1 ...
## $ PreKurs : Factor w/ 2 levels "completed","none": 2 1 2 2 2 2 1 2 1 2 ...
## $ Matematyka : int 72 69 90 47 76 71 88 40 64 38 ...
## $ Czytanie : int 72 90 95 57 78 83 95 43 64 60 ...
## $ Pisanie : int 74 88 93 44 75 78 92 39 67 50 ...
## $ matematyka_badanie : Factor w/ 81 levels "0","8","18","19",..: 53 50 71 28 57 52 69 21 45 19 ...
## $ czytanie_badanie : Factor w/ 72 levels "17","23","24",..: 45 63 68 30 51 56 68 16 37 33 ...
## $ pisanie_badanie : Factor w/ 77 levels "10","15","19",..: 51 65 70 21 52 55 69 16 44 27 ...
Mając przygotowane dane oznaczone jako dane2 przystępujęmy do testowania hipotezy czy grupa etniczna wpłyneła na wynik każdej części egzaminu.
Jako pierwsze badanie przeprowadzimy test zależnośći grupy etnicznej do wyniku z części matematycznej :
##
## Pearson's Chi-squared test
##
## data: table(dane2$GrupaEtniczna, dane2$matematyka_badanie)
## X-squared = 358.6, df = 320, p-value = 0.06752
Zgodnie z przeprowadzonym testem CHI-kwadrat pomiędzy wpływem grupy etnicznej na wynik egzaminu z częśći matematycznej osiąga się poziom p-value na poziomie 0,06752. Zgodnie z założeniem wartości p na poziomie powyżej 0,05 odrzuca się tu hipoteze że przynależność grupy etnicznej wpłyneła na wynik w tej częśći egzaminu.
##
## Pearson's Chi-squared test
##
## data: table(dane2$GrupaEtniczna, dane2$czytanie_badanie)
## X-squared = 334.17, df = 284, p-value = 0.02168
Przeprowadzająć test między wpływem grupy etnicznej na wyniki z części czytania stwierdza się “odkrycie”. Wartość p dla tych dwóch zmiennych wynosi 0,02168 czyli mniejszą niż poziom 0,05 co oznacza że te dwie zmienne są ze sobą powiązane. Podsumowując na wynik czytania wpłyneło przynależność do grupy etnicznej.
##
## Pearson's Chi-squared test
##
## data: table(dane2$GrupaEtniczna, dane2$pisanie_badanie)
## X-squared = 348.68, df = 304, p-value = 0.03946
W badaniu między przyneleżnością do grupy etnicznej a wynikami z części pisemnej również stwierdza się odkrycie. W tej części badania poziom p-value osiągnął poziom 0,03946 który również jest pod poziomem wartości 0,05. Można zatem stwierdzić że przynależność do grupy etnicznej ma również znaczący wpływ na wynik egzaminu z częsci pisemnej.
Mając już przeprowadzoną analize wpływu grupy etnicznej dla każdej części egzaminu można przejść do testowania kolejnej zmiennej jaką będzie wpływ wykształcenia rodzica do wyniku z każdej częśći ezgaminu. Na początek jak w przypadku grupy etnicznej przeprowadzi się test na części matematycznej.
##
## Pearson's Chi-squared test
##
## data: table(dane2$WyksztalcenieRodzice, dane2$matematyka_badanie)
## X-squared = 417.05, df = 400, p-value = 0.2683
Wynik testu CHI-Kwadrat między wykształceniem rodziców a wynikami z części matematycznej dla wartości p wynosi 0,2683. Zgodnie z założeniem odrzuca się tutaj wpływ wykształcenia rodziców na tę część egzaminu.
##
## Pearson's Chi-squared test
##
## data: table(dane2$WyksztalcenieRodzice, dane2$czytanie_badanie)
## X-squared = 376.85, df = 355, p-value = 0.2036
Podobnie jak w badaniu między wyszktałceniem rodzica a części matematycznej tak samo w części czytania stwierdza się brak powiązania na tę część egzaminu. W tym przypadku poziom p-value wynosi 0,2036 co odrzuca nam powiązanie.
##
## Pearson's Chi-squared test
##
## data: table(dane2$WyksztalcenieRodzice, dane2$pisanie_badanie)
## X-squared = 446.35, df = 380, p-value = 0.01063
Natomiast badając wpływ wykształcenia rodziców na część pisania stwierdza się również odkrycie. W tej części poziom p-value wynosi 0,01063 co oznacza że mieści się w wartości ponież 0,05 pozwalając nam stwierdzić że wpływ rodzica ma znaczący wpływ na wynik z części pisemnej egzaminu wśród uczniów.
Podsumowując. Wnioski z testu Chi kwadrat pozwalają nam stwierdzić że:
Chcąc sprawdzić średni wynik czy jest zależny od płci oraz od kursu przygotowującego posłużymy się testem Levena. Jest to test, którego zadaniem jest ocena czy wariancja w naszym zbiorze danych jest równa w zakresie analizowanych przez nas grup. Metoda testuje hipoteze zerową wskazując na równość wariancji. Jeżeli wartość istotności testu Levena uzyska p<005 to oznacza że uznajemy wariancje za niejednorodną tj występującą różnicę między wariancjami w grupach. Natomiast w przypadku wyniku p>0,05 przyjmujemy założenie o homoheniczności wariancji.
Próbe badania hipotezy przeprowadzamy na średniej wszystkich wyników z egzaminu tworząc nowy zbiór danych wraz z nową kolumną:
dane3 <- dane %>%
mutate(Srednia = (Matematyka + Czytanie + Pisanie)/3)
Testujemy średni wynik na płci za pomocą testu Levene’a
leveneTest(Srednia ~ Plec, data = dane3)
Następnie sprawdzimy czy udział w kursie przygotowującym miał wpływ na średnią:
leveneTest(Srednia ~ PreKurs, data = dane3)
t.test(
Srednia ~ Plec,
data = dane3,
paired = FALSE,
var.equal = TRUE,
alternative = "two.sided",
conf.interval=0.95
)
##
## Two Sample t-test
##
## data: Srednia by Plec
## t = 4.1699, df = 998, p-value = 3.312e-05
## alternative hypothesis: true difference in means between group female and group male is not equal to 0
## 95 percent confidence interval:
## 1.975745 5.488286
## sample estimates:
## mean in group female mean in group male
## 69.56950 65.83748
t.test(
Srednia ~ PreKurs,
data = dane3,
paired = FALSE,
var.equal = TRUE,
alternative = "two.sided",
conf.interval=0.95
)
##
## Two Sample t-test
##
## data: Srednia by PreKurs
## t = 8.3909, df = 998, p-value < 2.2e-16
## alternative hypothesis: true difference in means between group completed and group none is not equal to 0
## 95 percent confidence interval:
## 5.846012 9.415027
## sample estimates:
## mean in group completed mean in group none
## 72.66946 65.03894
Zastosowano dwustronny test levena, aby sprawdzić istotną różnicę między średnim wynikiem między mężczyznami i kobietami. Z przeprowadzonego testu wynika, że wartość p dla płci wynosi 0.7139 czyli więcej niż poziom istotnośći 0,05 co oznacza że w tym przypadku nie ma znaczącej różnicy między badanymi wariancjami tej grupy.
Test również zastosowano aby stwierdzić że przystąpienie do testu przygotowującego zwiększyło wynik średni w teście. Jednakże wynik testu Levena przyniósł nam wartość p value na poziomie 0,08971 co również oznacza przyjęcie że tutaj nie wystąpiła znacząca różnica. Aby zobrazować ten poziom posłużymy się wykresem boxplot utworzonymi dla płci oraz dla stopnia kursu przygotowującego.
boxplot(Srednia ~ Plec,
data = dane3,
main = "Rozkład utraty wagi według płci",
xlab = "Płeć",
ylab = "Średnia",
col = "steelblue",
border = "black")
boxplot(Srednia ~ PreKurs,
data = dane3,
main = "Rozkład utraty wagi według kursu przygotowującego",
xlab = "Kurs przygotowujący",
ylab = "Średnia",
col = "steelblue",
border = "black")
Abyśmy mogli liczyć współczynnik korelacji liniowej Pearsona nasze dane muszą spełniać kilka warunków:
W tej części kategorie które miały poziom dwa czyli płeć, udział w kursie przygotowującym oraz pakiet obiadowy zamienimy na system zero jedynkowy. Za pomocą systemu RStudio przekształcamy wartości kategori na wartości 0 oraz 1 i wcielamy je pod nową nazwą z końcówką 10 do naszego zbioru danych.
dane2$Plec10 = ifelse(dane2$Plec=="male",1,0)
dane2$PakietObiadowy10 = ifelse(dane2$PakietObiadowy=="standard",1,0)
dane2$PreKurs10 = ifelse(dane2$PreKurs=="completed",1,0)
str(dane2)
## 'data.frame': 1000 obs. of 14 variables:
## $ Plec : Factor w/ 2 levels "female","male": 1 1 1 2 2 1 1 2 2 1 ...
## $ GrupaEtniczna : Factor w/ 5 levels "group A","group B",..: 2 3 2 1 3 2 2 2 4 2 ...
## $ WyksztalcenieRodzice: Factor w/ 6 levels "associate's degree",..: 2 5 4 1 5 1 5 5 3 3 ...
## $ PakietObiadowy : Factor w/ 2 levels "free/reduced",..: 2 2 2 1 2 2 2 1 1 1 ...
## $ PreKurs : Factor w/ 2 levels "completed","none": 2 1 2 2 2 2 1 2 1 2 ...
## $ Matematyka : int 72 69 90 47 76 71 88 40 64 38 ...
## $ Czytanie : int 72 90 95 57 78 83 95 43 64 60 ...
## $ Pisanie : int 74 88 93 44 75 78 92 39 67 50 ...
## $ matematyka_badanie : Factor w/ 81 levels "0","8","18","19",..: 53 50 71 28 57 52 69 21 45 19 ...
## $ czytanie_badanie : Factor w/ 72 levels "17","23","24",..: 45 63 68 30 51 56 68 16 37 33 ...
## $ pisanie_badanie : Factor w/ 77 levels "10","15","19",..: 51 65 70 21 52 55 69 16 44 27 ...
## $ Plec10 : num 0 0 0 1 1 0 0 1 1 0 ...
## $ PakietObiadowy10 : num 1 1 1 0 1 1 1 0 0 0 ...
## $ PreKurs10 : num 0 1 0 0 0 0 1 0 1 0 ...
Mając tak przygotowane dane i wcielone pod nasz zbiór danych przechodzimy do analizy korelacji. W naszej analizie korelacja będzie analizowana między wartościami:
numric <- dane2[sapply(dane2,is.numeric)]
descrCor <- cor(numric)
corrplot(descrCor, method = "number")
Analiza korelacji udowadnia nam silną zależność pomiędzy wynikami pisania oraz wynikami z części czytania. Poziom korelacji między tymi wartościami wynosi 0.95 oznaczającą bardzo silną korelacje. Nasze wartości kategorii które zamieniliśmy na system zero jedynkowy. Kolejną silną korelacją są wyniki matematyki oraz czytania wynoszące aż 0,82. Pozostałe wartośći udowadniają że nie ma silnych korelacji na wyniki egzaminu przez kategorie płci, kursu przygotowującego i poziomu pakietów obiadowych.
Kolejnym krokiem w naszym raporcie przyjrzymy się jak poszczególne zaliczenie jakiejś części egzaminu wpływa na zaliczenie na inną część. Zakładamy że aby zaliczyć poszczególną część egzaminu należy uzyskać wartość 50 lub więcej.
| NzalCzyt | ZalCzyt | |
|---|---|---|
| NZalMat | 0.059 | 0.076 |
| ZalMat | 0.031 | 0.834 |
Tabela powyżej przedstawia proporcje między zaliczeniem części matematycznej do części czytania. Zauważyć możemy że przedstawia wysoki współczynnik zdawalności między tymi dwiema częściami. Aż 83,4%, którzy zdali matematykę, również zdali egzaminy z czytania.
Najniższy odsetek (3,1%) przypada na grupę uczniów, którzy zdają matematykę, ale nie zdają części z czytania. Zauważyć możemy że uczniowie którzy nie zaliczyli matematyki i zdali czytanie osiągają proporcje 7,6% i jest to pułap wyższy niż ci, którzy nie zaliczyli zarówno matematyki, jak i egzaminu z czytania. Ten pułap wynosi aż 5,9%.
| NzalPis | ZalPis | |
|---|---|---|
| NZalCzyt | 0.078 | 0.012 |
| ZalCzyt | 0.036 | 0.874 |
Analizując proporcje między czytaniem a pisaniem zaliczenie obu części plasuje się na poziomie aż 87,4% czyli więcej niż między matematyką a czytaniem. Niezaliczenie obu części osiąga poziom 7,8% czyli również więcej niż z poprzedniej tabeli.
| NzalPis | ZalPis | |
|---|---|---|
| NZalMat | 0.069 | 0.066 |
| ZalMat | 0.045 | 0.820 |
W przypadku porównania proporcji zaliczeń części matematycznej i części pisemnej zaliczenie obu części egzaminu wynosi 82%. Jest to znacznie mniej niż w porównaniu z zdawalnoscią czytania i pisania, ale i również mniejszy niż między zaliczeniem matematyki i czytania. Niezaliczenie z obu tych części plasuje się na poziomie 6,9% natomiast zaliczenie tylko części matematycznej 4,5.
Jaki jest najlepiej dopasowany model do przewidywania wyników ucznia na egzaminie z matematyki? W naszym raporcie postaramy się to przewidzieć budując model regresji wielorakiej. Jest to model który ujmuje ilościowe związki pomiędzy wieloma zmiennymi niezależnymi (objaśniającymi) a zmienną zależną (kryterialną, objaśnianą). W praktyce użycie regresji posiada dwie fazy:
budowe modelu, czyli funkcji opisującej, jak zależy wartość oczekiwana zmiennej objaśnianej od zmiennych objaśniających. Model konstruuje się tak, aby najlepiej pasował do danych z próby, zawierającej zarówno zmienne objaśniające, jak i objaśniane (zbiór uczący).
zastosowanie modelu - czyli użyciewyliczonego modelu do danych w których znamy tylko zmienne objaśniające, w celu wyznaczenia wartości oczekiwanej zmiennej objaśnianej.
Do tego badania będzie utworzony zbiór testowy (test) oraz praktyczy (train). Utworzenie zbioru jest niezbędnym etapem, jeżeli wykonywane są przewidywania poza próbą. Nasz zbiór danych został podzielony zgodnie z zasadą 80/20 między zestawem praktycznym a zestawem testowym poprzez losowe próbkowanie bez procesu zastępowania.
set.seed(2)
sampleSize <- floor(.80*nrow(dane2))
trainIndexes <- sample(seq_len(nrow(dane2)), sampleSize, replace = TRUE)
train <- dane2[trainIndexes, ]
test <- dane2[-trainIndexes, ]
We wszystkich modelach jako wartość predykcyjna będzie wykorzystywana wartość wyników z czytania. Zdecydowaliśmy się wybrać tą wartość ze względu na wysoki poziom korelacji (0,82).
##
## Call:
## lm(formula = Matematyka ~ Czytanie, data = train)
##
## Residuals:
## Min 1Q Median 3Q Max
## -24.4507 -6.4342 0.3197 6.7665 21.2050
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 6.45005 1.52891 4.219 2.74e-05 ***
## Czytanie 0.86886 0.02148 40.452 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 8.946 on 798 degrees of freedom
## Multiple R-squared: 0.6722, Adjusted R-squared: 0.6718
## F-statistic: 1636 on 1 and 798 DF, p-value: < 2.2e-16
Ten model wykorzystuje zmienną ocen z czytania jako zmienną predykcyjną. Zmienna ta została wybrana jako zmienna niezależna, ponieważ udowodniono, że ma silną korelacje ze zmienną z częsci matematycznej.
Z powyższych wyników wynika, że zmienna wyniku Czytania znacząco przyczynia się do tego modelu, ponieważ jej wartość p jest mniejsza niż 0,05%. W przybliżeniu 67,22% zmienności wyników z matematyki można wyjaśnić wynikami czytania z naszego modelu. A zgodnie z wartością nachylenia (wartość szacunkowa czytanie), z każdym wzrostem wyniku czytania, wynik matematyki zwiększa się o 0,86886 tej wartości. Ogólnie rzecz biorąc, model jest istotny, ponieważ statystyki pokazują, że jego wartość p jest mniejsza niż 0,5%. Dowodzi to, że nachylenie zmiennej predykcyjnej nie jest równe zeru.
Dopasowane równanie regresji dla Matematyki to 6,45005 + 0,86886 dla Czytania.
##
## Call:
## lm(formula = Matematyka ~ Czytanie + Plec, data = train)
##
## Residuals:
## Min 1Q Median 3Q Max
## -22.8481 -4.4546 0.3746 4.2838 18.1546
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -8.0398 1.2290 -6.541 1.09e-10 ***
## Czytanie 0.9836 0.0161 61.078 < 2e-16 ***
## Plecmale 12.8059 0.4743 26.997 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 6.47 on 797 degrees of freedom
## Multiple R-squared: 0.8288, Adjusted R-squared: 0.8283
## F-statistic: 1929 on 2 and 797 DF, p-value: < 2.2e-16
W tym modelu w porównaniu do poprzedniego dodano wartość kategorii Płci. Również możemy zauważyć żę do naszego modelu osiąga pełne 3 gwiazdki.
##
## Call:
## lm(formula = Matematyka ~ Czytanie + Plec + PreKurs, data = train)
##
## Residuals:
## Min 1Q Median 3Q Max
## -23.2196 -4.2278 0.1563 4.0882 17.7329
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -9.76661 1.38314 -7.061 3.6e-12 ***
## Czytanie 0.99588 0.01668 59.701 < 2e-16 ***
## Plecmale 12.90303 0.47389 27.228 < 2e-16 ***
## PreKursnone 1.31403 0.48973 2.683 0.00744 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 6.445 on 796 degrees of freedom
## Multiple R-squared: 0.8303, Adjusted R-squared: 0.8297
## F-statistic: 1298 on 3 and 796 DF, p-value: < 2.2e-16
##
## Call:
## lm(formula = Matematyka ~ Czytanie + Plec + PreKurs + PakietObiadowy,
## data = train)
##
## Residuals:
## Min 1Q Median 3Q Max
## -20.5586 -4.5433 0.0699 4.1406 18.2703
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -9.69940 1.31468 -7.378 4.06e-13 ***
## Czytanie 0.96012 0.01632 58.843 < 2e-16 ***
## Plecmale 12.34017 0.45449 27.152 < 2e-16 ***
## PreKursnone 1.15094 0.46581 2.471 0.0137 *
## PakietObiadowystandard 4.34073 0.46781 9.279 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 6.125 on 795 degrees of freedom
## Multiple R-squared: 0.8469, Adjusted R-squared: 0.8461
## F-statistic: 1099 on 4 and 795 DF, p-value: < 2.2e-16
Mając wszystkie 4 modele możemy przejść do testowania najlepszego dla naszego badania.
Po stworzeniu i ocenie modeli konieczne jest porównanie modeli ze sobą, aby poprowadzić wybór najlepiej dopasowanego modelu z zestawu. Można to zrobić na kilka sposobów, ale tutaj będą one oceniane na podstawie wartości AIC, BIC, R-squared i ich ogólnych wartości p.
| Model | Intercept | Slope | P-Value | AIC | BIC | R-Square |
|---|---|---|---|---|---|---|
| Model #1 | 6.45 | 1.5289 | 2.2e-16 | 5780.2479 | 5794.3017 | 0.6722 |
| Model #2 | -8.0398 | 1.229 | 2.2e-16 | 5262.6789 | 5281.4174 | 0.8288 |
| Model #3 | -9.7666 | 1.3831 | 2.2e-16 | 5257.4759 | 5280.899 | 0.8303 |
| Model #4 | -9.6994 | 1.3147 | 2.2e-16 | 5177.2147 | 5205.3224 | 0.8469 |
W oparciu o te wartości najlepszym modelem do przewidywania wyniku matematycznego ucznia jest model nr 4, który składa się z kombinacji wkładów z 3 wpływowych zmiennych w modelu. Pomimo tego, że wartość p jest stała dla wszystkich modeli, pochodny model otrzymał najwyższą ocenę pod względem wydajności zarówno z kryterium informacyjnego Akaike (AIC), jak i Bayesowskiego kryterium informacyjnego (BIC), a także posiadający najwyższe wartości R-Square.
To sprawia, że ten model jest wyraźnym zwycięzcą wśród modeli i zapewnia odpowiedź na pytanie, jaki jest najlepiej dopasowany model do przewidywania wyników ucznia na egzaminie z matematyki.
Ostatnim krokiem jest porównanie wartośći prognozowanych ocen wraz z ocenami rzeczywistymi za pomocą tego modelu.
| Ocena.Rzeczywista | Ocena.Przewidywana | |
|---|---|---|
| 2 | 88 | 81.05233 |
| 5 | 75 | 83.02198 |
| 6 | 78 | 75.48242 |
| 7 | 92 | 85.85294 |
| 11 | 52 | 59.97905 |
| 12 | 43 | 58.05880 |
| Ocena.Rzeczywista | Ocena.Przewidywana | |
|---|---|---|
| Ocena.Rzeczywista | 1.0000000 | 0.8285526 |
| Ocena.Przewidywana | 0.8285526 | 1.0000000 |
Wykorzystując pakiet ggstatsplot prezentujemy jak wygląda wykres modelu numer 4.
Podsumowując, model czwarty można wykorzystać do bardzo dokładnych prognoz, ponieważ współczynnik korelacji wynosi 0.8285526 między wartościami rzeczywistymi a przewidywanymi.
Podsumowując wszystkie nasze obserwacje możemy stwierdzić że:
Osoby płci żeńskiej osiągały lepsze wyniki w egzaminach z „czytania” oraz „pisania”. Chłopcy natomiast lepiej poradzili sobie z egzaminem z matematyki.
Przynależność do grupy etnicznej E, pomogła osiągnąć znacznie lepsze wyniki w każdym z badanych egzaminów. Jednocześnie, przedstawiciele grupy etnicznej A, osiągali najsłabsze wyniki w każdym z badanych przez nas typie egzaminu.
Niezależnie od płci, zauważono że osoby z ukończenym kursem przygotowawującym do egzaminu osiągały lepsze wyniki w każdym z badanych egzaminów.
Zaobserwowano że status materialny rodziców pomaga w osiąganiu lepszych wyników. Niezależnie od płci, uczniowie korzystający z droższych pakietów obiadowych również osiągali lepsze wyniki egzaminów.
Istnieje silna korelacja miedzy wynikami. Uczniowie którzy osiągnęli niski wynik w jednym z egzaminów, mieli większą szansę na osiągnięcie niższego wyniku w kolejnym egzaminie. Analogicznie, uczniowie osiągający wysoki wynik w jednym egzaminie, są predysponowaniu do osiągnięcia kolejnego wysokiego wyniku.
Z dokonanej przez nas analizy jasno wynika, że najsilniej skorelowane są wyniki egzaminów z czytania i pisania. Poziom korelacji między wynikami tych egzaminów wynosi aż 0,95.
Wykonany test CHI-Kwadrat udowodnił że przynależność do grupy etnicznej ma wpływ na wyniki z części czytania oraz pisania
Z przeprowadzonego testu CHI-Kwadrat stwierdza się że wykształcenie rodzica wpłyneło tylko na wynik z pisania.