In diesem Bericht wird der offene Datensatz „Statistik der Prüfungen – Prüfungsjahr 2024“ explorativ untersucht.
Der Datensatz enthält statistische Informationen zu bestandenen Hochschulprüfungen in Deutschland. Enthalten sind unter anderem Angaben zu Fächergruppen, Studienbereichen sowie bestandenen Prüfungen nach Geschlecht.
Forschungsfrage:
Unterscheiden sich die Zahlen bestandener Prüfungen zwischen Männern und
Frauen in verschiedenen Fächergruppen?
library(readxl)
pruefungen <- read_excel(
"/Users/perle/Desktop/ELMEB/SEMESTER 3/02 Data Science/Projekt/Statistik_Pruefungen.xlsx",
skip = 3,
col_names = FALSE,
na = "-"
)
## New names:
## • `` -> `...1`
## • `` -> `...2`
## • `` -> `...3`
## • `` -> `...4`
## • `` -> `...5`
## • `` -> `...6`
## • `` -> `...7`
## • `` -> `...8`
## • `` -> `...9`
## • `` -> `...10`
## • `` -> `...11`
## • `` -> `...12`
## • `` -> `...13`
## • `` -> `...14`
## • `` -> `...15`
## • `` -> `...16`
## • `` -> `...17`
## • `` -> `...18`
## • `` -> `...19`
## • `` -> `...20`
## • `` -> `...21`
## • `` -> `...22`
## • `` -> `...23`
## • `` -> `...24`
## • `` -> `...25`
## • `` -> `...26`
## • `` -> `...27`
## • `` -> `...28`
head(pruefungen)
## # A tibble: 6 × 28
## ...1 ...2 ...3 ...4 ...5 ...6 ...7 ...8 ...9 ...10 ...11 ...12 ...13
## <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 Geist… 48187 26537 1639 418 945 1653 461 16532 2 12250 6432 543
## 2 Geist… 5055 2740 80 26 40 79 65 2025 NA 923 496 32
## 3 Evang… 1472 912 66 11 28 84 50 321 NA 506 305 27
## 4 Katho… 877 523 72 32 27 73 1 149 NA 278 145 29
## 5 Philo… 2627 1259 155 16 111 227 71 788 NA 1224 556 90
## 6 Gesch… 5237 2583 205 18 43 388 9 1990 1 2601 1331 109
## # ℹ 15 more variables: ...14 <dbl>, ...15 <dbl>, ...16 <dbl>, ...17 <dbl>,
## # ...18 <dbl>, ...19 <dbl>, ...20 <dbl>, ...21 <dbl>, ...22 <dbl>,
## # ...23 <dbl>, ...24 <dbl>, ...25 <dbl>, ...26 <dbl>, ...27 <dbl>,
## # ...28 <dbl>
Zusammenfassung:
Dieser Schritt wurde durchgeführt, um den Excel-Datensatz in R nutzbar
zu machen. Dafür wurde die Datei mit read_excel()
eingelesen, wobei die ersten drei Zeilen übersprungen und Striche als
fehlende Werte behandelt wurden. Die Ausgabe der ersten Zeilen zeigt, ob
der Datensatz korrekt importiert wurde und ob die Daten grundsätzlich
lesbar vorliegen.
dim(pruefungen)
## [1] 72 28
cat("Anzahl Zeilen:", nrow(pruefungen), "\n")
## Anzahl Zeilen: 72
cat("Anzahl Spalten:", ncol(pruefungen))
## Anzahl Spalten: 28
names(pruefungen)
## [1] "...1" "...2" "...3" "...4" "...5" "...6" "...7" "...8" "...9"
## [10] "...10" "...11" "...12" "...13" "...14" "...15" "...16" "...17" "...18"
## [19] "...19" "...20" "...21" "...22" "...23" "...24" "...25" "...26" "...27"
## [28] "...28"
str(pruefungen)
## tibble [72 × 28] (S3: tbl_df/tbl/data.frame)
## $ ...1 : chr [1:72] "Geisteswissenschaften" "Geisteswissenschaften allgemein" "Evangelische Theologie, -Religionslehre" "Katholische Theologie, -Religionslehre" ...
## $ ...2 : num [1:72] 48187 5055 1472 877 2627 ...
## $ ...3 : num [1:72] 26537 2740 912 523 1259 ...
## $ ...4 : num [1:72] 1639 80 66 72 155 ...
## $ ...5 : num [1:72] 418 26 11 32 16 18 NA 28 NA 196 ...
## $ ...6 : num [1:72] 945 40 28 27 111 43 56 98 17 330 ...
## $ ...7 : num [1:72] 1653 79 84 73 227 ...
## $ ...8 : num [1:72] 461 65 50 1 71 9 123 37 NA 21 ...
## $ ...9 : num [1:72] 16532 2025 321 149 788 ...
## $ ...10: num [1:72] 2 NA NA NA NA 1 NA 1 NA NA ...
## $ ...11: num [1:72] 12250 923 506 278 1224 ...
## $ ...12: num [1:72] 6432 496 305 145 556 ...
## $ ...13: num [1:72] 543 32 27 29 90 109 10 21 5 75 ...
## $ ...14: num [1:72] 90 10 6 12 8 8 NA 5 NA 20 ...
## $ ...15: num [1:72] 237 6 7 6 36 21 21 29 9 57 ...
## $ ...16: num [1:72] 761 34 46 46 140 209 2 47 20 69 ...
## $ ...17: num [1:72] 164 16 20 1 35 6 44 12 NA 4 ...
## $ ...18: num [1:72] 4022 329 95 39 359 ...
## $ ...19: num [1:72] 1 NA NA NA NA 1 NA NA NA NA ...
## $ ...20: num [1:72] 35937 4132 966 599 1403 ...
## $ ...21: num [1:72] 20105 2244 607 378 703 ...
## $ ...22: num [1:72] 1096 48 39 43 65 ...
## $ ...23: num [1:72] 328 16 5 20 8 10 NA 23 NA 176 ...
## $ ...24: num [1:72] 708 34 21 21 75 22 35 69 8 273 ...
## $ ...25: num [1:72] 892 45 38 27 87 179 4 112 8 134 ...
## $ ...26: num [1:72] 297 49 30 NA 36 3 79 25 NA 17 ...
## $ ...27: num [1:72] 12510 1696 226 110 429 ...
## $ ...28: num [1:72] 1 NA NA NA NA NA NA 1 NA NA ...
Zusammenfassung:
Dieser Schritt dient dazu, einen ersten Überblick über den Aufbau des
Datensatzes zu bekommen. Dafür wurden die Anzahl der Zeilen und Spalten
sowie die Spaltennamen und Datentypen ausgegeben. Die Ergebnisse zeigen,
wie umfangreich der Datensatz ist und welche Variablen für die weitere
Analyse grundsätzlich verfügbar sind.
colSums(is.na(pruefungen))
## ...1 ...2 ...3 ...4 ...5 ...6 ...7 ...8 ...9 ...10 ...11 ...12 ...13
## 0 1 1 2 9 12 1 9 3 62 1 1 2
## ...14 ...15 ...16 ...17 ...18 ...19 ...20 ...21 ...22 ...23 ...24 ...25 ...26
## 10 13 1 10 3 67 1 1 2 11 14 1 13
## ...27 ...28
## 3 63
Zusammenfassung:
Dieser Schritt wurde durchgeführt, um die Datenqualität einzuschätzen.
Mit is.na() wurde geprüft, wo Werte fehlen, und mit
colSums() wurde die Anzahl fehlender Werte pro Spalte
berechnet. Die Ergebnisse zeigen, in welchen Variablen Lücken vorhanden
sind und ob diese bei der weiteren Analyse berücksichtigt oder bereinigt
werden müssen.
Für die Forschungsfrage werden die Fächergruppe sowie die bestandenen Prüfungen von Männern und Frauen benötigt. Deshalb werden die relevanten Spalten umbenannt.
names(pruefungen)[c(1, 11, 20)] <- c(
"faechergruppe",
"bestandene_pruefungen_maennlich",
"bestandene_pruefungen_weiblich"
)
head(pruefungen[, c(
"faechergruppe",
"bestandene_pruefungen_maennlich",
"bestandene_pruefungen_weiblich"
)])
## # A tibble: 6 × 3
## faechergruppe bestandene_pruefunge…¹ bestandene_pruefunge…²
## <chr> <dbl> <dbl>
## 1 Geisteswissenschaften 12250 35937
## 2 Geisteswissenschaften allgemein 923 4132
## 3 Evangelische Theologie, -Religi… 506 966
## 4 Katholische Theologie, -Religio… 278 599
## 5 Philosophie 1224 1403
## 6 Geschichte 2601 2636
## # ℹ abbreviated names: ¹bestandene_pruefungen_maennlich,
## # ²bestandene_pruefungen_weiblich
Der Datensatz wird anschließend auf diese drei Variablen reduziert.
pruefungen_kurz <- pruefungen[, c(
"faechergruppe",
"bestandene_pruefungen_maennlich",
"bestandene_pruefungen_weiblich"
)]
pruefungen_kurz$bestandene_pruefungen_maennlich <- as.numeric(
pruefungen_kurz$bestandene_pruefungen_maennlich
)
pruefungen_kurz$bestandene_pruefungen_weiblich <- as.numeric(
pruefungen_kurz$bestandene_pruefungen_weiblich
)
pruefungen_kurz <- pruefungen_kurz[
!is.na(pruefungen_kurz$faechergruppe) &
!is.na(pruefungen_kurz$bestandene_pruefungen_maennlich) &
!is.na(pruefungen_kurz$bestandene_pruefungen_weiblich),
]
Da im Datensatz unterschiedliche Ebenen enthalten sind, werden für diese Analyse nur die übergeordneten Fächergruppen verwendet.
faechergruppen <- c(
"Geisteswissenschaften",
"Sport",
"Rechts-, Wirtschafts- und Sozialwissenschaften",
"Mathematik, Naturwissenschaften",
"Humanmedizin/Gesundheitswissenschaften",
"Agrar-, Forst- und Ernährungswissenschaften, Veterinärmedizin",
"Ingenieurwissenschaften",
"Kunst, Kunstwissenschaft",
"Außerhalb der Studienbereichsgliederung/Sonstige Fächer"
)
pruefungen_kurz <- pruefungen_kurz[
pruefungen_kurz$faechergruppe %in% faechergruppen,
]
pruefungen_kurz
## # A tibble: 9 × 3
## faechergruppe bestandene_pruefunge…¹ bestandene_pruefunge…²
## <chr> <dbl> <dbl>
## 1 Geisteswissenschaften 12250 35937
## 2 Sport 3049 2600
## 3 Rechts-, Wirtschafts- und Sozia… 82399 126202
## 4 Mathematik, Naturwissenschaften 25919 29051
## 5 Humanmedizin/Gesundheitswissens… 10952 24517
## 6 Agrar-, Forst- und Ernährungswi… 4393 7303
## 7 Ingenieurwissenschaften 95035 34465
## 8 Kunst, Kunstwissenschaft 5967 11458
## 9 Außerhalb der Studienbereichsgl… 46 63
## # ℹ abbreviated names: ¹bestandene_pruefungen_maennlich,
## # ²bestandene_pruefungen_weiblich
Zusätzlich wird berechnet, welches Geschlecht in einer Fächergruppe mehr bestandene Prüfungen aufweist.
pruefungen_kurz$differenz <-
pruefungen_kurz$bestandene_pruefungen_weiblich -
pruefungen_kurz$bestandene_pruefungen_maennlich
pruefungen_kurz$dominanz <- ifelse(
pruefungen_kurz$bestandene_pruefungen_weiblich >
pruefungen_kurz$bestandene_pruefungen_maennlich,
"Frauen",
ifelse(
pruefungen_kurz$bestandene_pruefungen_maennlich >
pruefungen_kurz$bestandene_pruefungen_weiblich,
"Männer",
"ausgeglichen"
)
)
pruefungen_kurz$absolute_differenz <- abs(pruefungen_kurz$differenz)
pruefungen_kurz
## # A tibble: 9 × 6
## faechergruppe bestandene_pruefunge…¹ bestandene_pruefunge…² differenz dominanz
## <chr> <dbl> <dbl> <dbl> <chr>
## 1 Geisteswisse… 12250 35937 23687 Frauen
## 2 Sport 3049 2600 -449 Männer
## 3 Rechts-, Wir… 82399 126202 43803 Frauen
## 4 Mathematik, … 25919 29051 3132 Frauen
## 5 Humanmedizin… 10952 24517 13565 Frauen
## 6 Agrar-, Fors… 4393 7303 2910 Frauen
## 7 Ingenieurwis… 95035 34465 -60570 Männer
## 8 Kunst, Kunst… 5967 11458 5491 Frauen
## 9 Außerhalb de… 46 63 17 Frauen
## # ℹ abbreviated names: ¹bestandene_pruefungen_maennlich,
## # ²bestandene_pruefungen_weiblich
## # ℹ 1 more variable: absolute_differenz <dbl>
Zusammenfassung:
Dieser Schritt wurde durchgeführt, um den Datensatz gezielt auf die
Forschungsfrage vorzubereiten. Dafür wurden die relevanten Spalten
umbenannt, auf Fächergruppe sowie bestandene Prüfungen von Männern und
Frauen reduziert, in Zahlenwerte umgewandelt und unvollständige Zeilen
entfernt. Da der Datensatz verschiedene Hierarchieebenen enthält, wurden
nur die übergeordneten Fächergruppen ausgewählt. Zusätzlich wurden
Differenz, dominierendes Geschlecht und absolute Differenz
berechnet.
summary(pruefungen_kurz$bestandene_pruefungen_maennlich)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 46 4393 10952 26668 25919 95035
summary(pruefungen_kurz$bestandene_pruefungen_weiblich)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 63 7303 24517 30177 34465 126202
Zusammenfassung:
Dieser Schritt wurde durchgeführt, um einen ersten statistischen
Überblick über die Verteilung der bestandenen Prüfungen zu erhalten.
Dafür wurden mit summary() zentrale Kennwerte wie Minimum,
Median, Mittelwert und Maximum für Männer und Frauen ausgegeben. Die
Werte zeigen, wie stark die Zahlen bestandener Prüfungen zwischen den
Fächergruppen schwanken.
frauen_dominieren <- pruefungen_kurz[
pruefungen_kurz$dominanz == "Frauen",
]
frauen_dominieren <- frauen_dominieren[
order(frauen_dominieren$differenz, decreasing = TRUE),
]
frauen_dominieren
## # A tibble: 7 × 6
## faechergruppe bestandene_pruefunge…¹ bestandene_pruefunge…² differenz dominanz
## <chr> <dbl> <dbl> <dbl> <chr>
## 1 Rechts-, Wir… 82399 126202 43803 Frauen
## 2 Geisteswisse… 12250 35937 23687 Frauen
## 3 Humanmedizin… 10952 24517 13565 Frauen
## 4 Kunst, Kunst… 5967 11458 5491 Frauen
## 5 Mathematik, … 25919 29051 3132 Frauen
## 6 Agrar-, Fors… 4393 7303 2910 Frauen
## 7 Außerhalb de… 46 63 17 Frauen
## # ℹ abbreviated names: ¹bestandene_pruefungen_maennlich,
## # ²bestandene_pruefungen_weiblich
## # ℹ 1 more variable: absolute_differenz <dbl>
Zusammenfassung:
Dieser Schritt wurde durchgeführt, um gezielt die Fächergruppen zu
betrachten, in denen mehr bestandene Prüfungen von Frauen als von
Männern vorliegen. Dafür wurden nur die Zeilen mit der Dominanz „Frauen“
ausgewählt und nach der Differenz absteigend sortiert. Die Tabelle
zeigt, in welchen Fächergruppen der Vorsprung von Frauen besonders groß
ist.
maenner_dominieren <- pruefungen_kurz[
pruefungen_kurz$dominanz == "Männer",
]
maenner_dominieren <- maenner_dominieren[
order(maenner_dominieren$differenz),
]
maenner_dominieren
## # A tibble: 2 × 6
## faechergruppe bestandene_pruefunge…¹ bestandene_pruefunge…² differenz dominanz
## <chr> <dbl> <dbl> <dbl> <chr>
## 1 Ingenieurwis… 95035 34465 -60570 Männer
## 2 Sport 3049 2600 -449 Männer
## # ℹ abbreviated names: ¹bestandene_pruefungen_maennlich,
## # ²bestandene_pruefungen_weiblich
## # ℹ 1 more variable: absolute_differenz <dbl>
Zusammenfassung:
Dieser Schritt wurde durchgeführt, um gezielt die Fächergruppen zu
betrachten, in denen mehr bestandene Prüfungen von Männern als von
Frauen vorliegen. Dafür wurden nur die Zeilen mit der Dominanz „Männer“
ausgewählt und nach der Differenz sortiert. Da negative Differenzen
einen Vorsprung der Männer bedeuten, stehen die Fächergruppen mit dem
größten Männer-Vorsprung oben.
top_unterschiede <- pruefungen_kurz[
order(pruefungen_kurz$absolute_differenz, decreasing = TRUE),
]
top_unterschiede
## # A tibble: 9 × 6
## faechergruppe bestandene_pruefunge…¹ bestandene_pruefunge…² differenz dominanz
## <chr> <dbl> <dbl> <dbl> <chr>
## 1 Ingenieurwis… 95035 34465 -60570 Männer
## 2 Rechts-, Wir… 82399 126202 43803 Frauen
## 3 Geisteswisse… 12250 35937 23687 Frauen
## 4 Humanmedizin… 10952 24517 13565 Frauen
## 5 Kunst, Kunst… 5967 11458 5491 Frauen
## 6 Mathematik, … 25919 29051 3132 Frauen
## 7 Agrar-, Fors… 4393 7303 2910 Frauen
## 8 Sport 3049 2600 -449 Männer
## 9 Außerhalb de… 46 63 17 Frauen
## # ℹ abbreviated names: ¹bestandene_pruefungen_maennlich,
## # ²bestandene_pruefungen_weiblich
## # ℹ 1 more variable: absolute_differenz <dbl>
Zusammenfassung:
Dieser Schritt wurde durchgeführt, um die stärksten Unterschiede
zwischen Männern und Frauen unabhängig von der Richtung sichtbar zu
machen. Dafür wurden die Fächergruppen nach der absoluten Differenz
sortiert. Die Tabelle zeigt, in welchen Fächergruppen die Zahlen
bestandener Prüfungen zwischen den Geschlechtern besonders weit
auseinanderliegen.
labels <- top_unterschiede$faechergruppe
labels <- gsub(
"Rechts-, Wirtschafts- und Sozialwissenschaften",
"Rechts-, Wirtschafts-\nund Sozialwissenschaften",
labels
)
labels <- gsub(
"Mathematik, Naturwissenschaften",
"Mathematik,\nNaturwissenschaften",
labels
)
labels <- gsub(
"Humanmedizin/Gesundheitswissenschaften",
"Humanmedizin/\nGesundheitswissenschaften",
labels
)
labels <- gsub(
"Agrar-, Forst- und Ernährungswissenschaften, Veterinärmedizin",
"Agrar-, Forst- und\nErnährungswissenschaften,\nVeterinärmedizin",
labels
)
labels <- gsub(
"Kunst, Kunstwissenschaft",
"Kunst,\nKunstwissenschaft",
labels
)
labels <- gsub(
"Außerhalb der Studienbereichsgliederung/Sonstige Fächer",
"Sonstige Fächer",
labels
)
werte <- rbind(
top_unterschiede$bestandene_pruefungen_maennlich,
top_unterschiede$bestandene_pruefungen_weiblich
)
par(
mar = c(5, 20, 4, 2),
bg = "#1d3157",
col.axis = "white",
col.lab = "white",
col.main = "white"
)
barplot(
werte,
beside = TRUE,
horiz = TRUE,
names.arg = labels,
las = 1,
cex.names = 0.8,
col = c("#1bd8ff", "#b678ff"),
border = c("#79edff", "#d7b6ff"),
main = "Bestandene Prüfungen nach Geschlecht und Fächergruppe",
xlab = "Bestandene Prüfungen"
)
legend(
"bottomright",
legend = c("Männer", "Frauen"),
fill = c("#1bd8ff", "#b678ff"),
text.col = "white",
bg = "#1d3157",
border = "white"
)
Zusammenfassung:
Dieser Schritt wurde durchgeführt, um die Unterschiede zwischen Männern
und Frauen in den Fächergruppen visuell vergleichbar darzustellen. Dafür
wurden die Werte in einem gruppierten Balkendiagramm abgebildet. Die
Grafik zeigt auf einen Blick, ob in den jeweiligen Fächergruppen mehr
bestandene Prüfungen von Männern oder Frauen vorliegen und wie deutlich
der Abstand ist.
table(pruefungen_kurz$dominanz)
##
## Frauen Männer
## 7 2
Zusammenfassung:
Dieser Schritt wurde durchgeführt, um einen zusammenfassenden Überblick
über alle Fächergruppen zu erhalten. Dafür wurde mit
table() gezählt, wie oft Frauen, Männer oder ein
ausgeglichenes Verhältnis als Dominanz vorkommen. Das Ergebnis zeigt, in
wie vielen Fächergruppen jeweils mehr bestandene Prüfungen von Frauen
oder Männern gezählt wurden.
Ziel dieser Analyse war die Beantwortung der Forschungsfrage, ob sich die Zahlen bestandener Prüfungen zwischen Männern und Frauen in verschiedenen Fächergruppen unterscheiden.
Die Auswertungen zeigen, dass sich die Zahlen bestandener Prüfungen zwischen Männern und Frauen deutlich unterscheiden. In einigen Fächergruppen liegt die Anzahl bestandener Prüfungen von Frauen höher, während in anderen Fächergruppen Männer mehr bestandene Prüfungen aufweisen. Besonders sichtbar wird dies in der grafischen Darstellung, in der die Fächergruppen direkt miteinander verglichen werden.
Durch die Beschränkung auf übergeordnete Fächergruppen werden in dieser Analyse keine unterschiedlichen Hierarchieebenen miteinander vermischt. Dadurch ist die Auswertung methodisch einheitlicher als eine Analyse, in der grobe Fächergruppen und einzelne Studienbereiche gemeinsam betrachtet würden.
Bei der Interpretation der Ergebnisse ist jedoch zu beachten, dass der Datensatz ausschließlich die Anzahl bestandener Prüfungen enthält. Es liegen keine Informationen darüber vor, wie viele Männer und Frauen insgesamt in den jeweiligen Fächergruppen eingeschrieben sind oder Prüfungen abgelegt haben. Deshalb kann nicht beurteilt werden, ob ein Geschlecht erfolgreicher studiert. Die Analyse zeigt lediglich Unterschiede in den absoluten Zahlen bestandener Prüfungen.
Insgesamt liefert die Untersuchung einen ersten Überblick über geschlechtsspezifische Unterschiede bei bestandenen Prüfungen in verschiedenen Fächergruppen.