1 Offene Bildungsdaten: Statistik der Prüfungen 2024

In diesem Bericht wird der offene Datensatz „Statistik der Prüfungen – Prüfungsjahr 2024“ explorativ untersucht.

Der Datensatz enthält statistische Informationen zu bestandenen Hochschulprüfungen in Deutschland. Enthalten sind unter anderem Angaben zu Fächergruppen, Studienbereichen sowie bestandenen Prüfungen nach Geschlecht.

Forschungsfrage:
Unterscheiden sich die Zahlen bestandener Prüfungen zwischen Männern und Frauen in verschiedenen Fächergruppen?

2 Datensatz einlesen

library(readxl)

pruefungen <- read_excel(
  "/Users/perle/Desktop/ELMEB/SEMESTER 3/02 Data Science/Projekt/Statistik_Pruefungen.xlsx",
  skip = 3,
  col_names = FALSE,
  na = "-"
)
## New names:
## • `` -> `...1`
## • `` -> `...2`
## • `` -> `...3`
## • `` -> `...4`
## • `` -> `...5`
## • `` -> `...6`
## • `` -> `...7`
## • `` -> `...8`
## • `` -> `...9`
## • `` -> `...10`
## • `` -> `...11`
## • `` -> `...12`
## • `` -> `...13`
## • `` -> `...14`
## • `` -> `...15`
## • `` -> `...16`
## • `` -> `...17`
## • `` -> `...18`
## • `` -> `...19`
## • `` -> `...20`
## • `` -> `...21`
## • `` -> `...22`
## • `` -> `...23`
## • `` -> `...24`
## • `` -> `...25`
## • `` -> `...26`
## • `` -> `...27`
## • `` -> `...28`
head(pruefungen)
## # A tibble: 6 × 28
##   ...1    ...2  ...3  ...4  ...5  ...6  ...7  ...8  ...9 ...10 ...11 ...12 ...13
##   <chr>  <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 Geist… 48187 26537  1639   418   945  1653   461 16532     2 12250  6432   543
## 2 Geist…  5055  2740    80    26    40    79    65  2025    NA   923   496    32
## 3 Evang…  1472   912    66    11    28    84    50   321    NA   506   305    27
## 4 Katho…   877   523    72    32    27    73     1   149    NA   278   145    29
## 5 Philo…  2627  1259   155    16   111   227    71   788    NA  1224   556    90
## 6 Gesch…  5237  2583   205    18    43   388     9  1990     1  2601  1331   109
## # ℹ 15 more variables: ...14 <dbl>, ...15 <dbl>, ...16 <dbl>, ...17 <dbl>,
## #   ...18 <dbl>, ...19 <dbl>, ...20 <dbl>, ...21 <dbl>, ...22 <dbl>,
## #   ...23 <dbl>, ...24 <dbl>, ...25 <dbl>, ...26 <dbl>, ...27 <dbl>,
## #   ...28 <dbl>

Zusammenfassung:
Dieser Schritt wurde durchgeführt, um den Excel-Datensatz in R nutzbar zu machen. Dafür wurde die Datei mit read_excel() eingelesen, wobei die ersten drei Zeilen übersprungen und Striche als fehlende Werte behandelt wurden. Die Ausgabe der ersten Zeilen zeigt, ob der Datensatz korrekt importiert wurde und ob die Daten grundsätzlich lesbar vorliegen.

3 Erste Exploration des Datensatzes

3.1 Anzahl der Zeilen und Spalten

dim(pruefungen)
## [1] 72 28
cat("Anzahl Zeilen:", nrow(pruefungen), "\n")
## Anzahl Zeilen: 72
cat("Anzahl Spalten:", ncol(pruefungen))
## Anzahl Spalten: 28

3.2 Variablenübersicht

names(pruefungen)
##  [1] "...1"  "...2"  "...3"  "...4"  "...5"  "...6"  "...7"  "...8"  "...9" 
## [10] "...10" "...11" "...12" "...13" "...14" "...15" "...16" "...17" "...18"
## [19] "...19" "...20" "...21" "...22" "...23" "...24" "...25" "...26" "...27"
## [28] "...28"
str(pruefungen)
## tibble [72 × 28] (S3: tbl_df/tbl/data.frame)
##  $ ...1 : chr [1:72] "Geisteswissenschaften" "Geisteswissenschaften allgemein" "Evangelische Theologie, -Religionslehre" "Katholische Theologie, -Religionslehre" ...
##  $ ...2 : num [1:72] 48187 5055 1472 877 2627 ...
##  $ ...3 : num [1:72] 26537 2740 912 523 1259 ...
##  $ ...4 : num [1:72] 1639 80 66 72 155 ...
##  $ ...5 : num [1:72] 418 26 11 32 16 18 NA 28 NA 196 ...
##  $ ...6 : num [1:72] 945 40 28 27 111 43 56 98 17 330 ...
##  $ ...7 : num [1:72] 1653 79 84 73 227 ...
##  $ ...8 : num [1:72] 461 65 50 1 71 9 123 37 NA 21 ...
##  $ ...9 : num [1:72] 16532 2025 321 149 788 ...
##  $ ...10: num [1:72] 2 NA NA NA NA 1 NA 1 NA NA ...
##  $ ...11: num [1:72] 12250 923 506 278 1224 ...
##  $ ...12: num [1:72] 6432 496 305 145 556 ...
##  $ ...13: num [1:72] 543 32 27 29 90 109 10 21 5 75 ...
##  $ ...14: num [1:72] 90 10 6 12 8 8 NA 5 NA 20 ...
##  $ ...15: num [1:72] 237 6 7 6 36 21 21 29 9 57 ...
##  $ ...16: num [1:72] 761 34 46 46 140 209 2 47 20 69 ...
##  $ ...17: num [1:72] 164 16 20 1 35 6 44 12 NA 4 ...
##  $ ...18: num [1:72] 4022 329 95 39 359 ...
##  $ ...19: num [1:72] 1 NA NA NA NA 1 NA NA NA NA ...
##  $ ...20: num [1:72] 35937 4132 966 599 1403 ...
##  $ ...21: num [1:72] 20105 2244 607 378 703 ...
##  $ ...22: num [1:72] 1096 48 39 43 65 ...
##  $ ...23: num [1:72] 328 16 5 20 8 10 NA 23 NA 176 ...
##  $ ...24: num [1:72] 708 34 21 21 75 22 35 69 8 273 ...
##  $ ...25: num [1:72] 892 45 38 27 87 179 4 112 8 134 ...
##  $ ...26: num [1:72] 297 49 30 NA 36 3 79 25 NA 17 ...
##  $ ...27: num [1:72] 12510 1696 226 110 429 ...
##  $ ...28: num [1:72] 1 NA NA NA NA NA NA 1 NA NA ...

Zusammenfassung:
Dieser Schritt dient dazu, einen ersten Überblick über den Aufbau des Datensatzes zu bekommen. Dafür wurden die Anzahl der Zeilen und Spalten sowie die Spaltennamen und Datentypen ausgegeben. Die Ergebnisse zeigen, wie umfangreich der Datensatz ist und welche Variablen für die weitere Analyse grundsätzlich verfügbar sind.

4 Fehlende Werte

colSums(is.na(pruefungen))
##  ...1  ...2  ...3  ...4  ...5  ...6  ...7  ...8  ...9 ...10 ...11 ...12 ...13 
##     0     1     1     2     9    12     1     9     3    62     1     1     2 
## ...14 ...15 ...16 ...17 ...18 ...19 ...20 ...21 ...22 ...23 ...24 ...25 ...26 
##    10    13     1    10     3    67     1     1     2    11    14     1    13 
## ...27 ...28 
##     3    63

Zusammenfassung:
Dieser Schritt wurde durchgeführt, um die Datenqualität einzuschätzen. Mit is.na() wurde geprüft, wo Werte fehlen, und mit colSums() wurde die Anzahl fehlender Werte pro Spalte berechnet. Die Ergebnisse zeigen, in welchen Variablen Lücken vorhanden sind und ob diese bei der weiteren Analyse berücksichtigt oder bereinigt werden müssen.

5 Datensatz vorbereiten

Für die Forschungsfrage werden die Fächergruppe sowie die bestandenen Prüfungen von Männern und Frauen benötigt. Deshalb werden die relevanten Spalten umbenannt.

names(pruefungen)[c(1, 11, 20)] <- c(
  "faechergruppe",
  "bestandene_pruefungen_maennlich",
  "bestandene_pruefungen_weiblich"
)

head(pruefungen[, c(
  "faechergruppe",
  "bestandene_pruefungen_maennlich",
  "bestandene_pruefungen_weiblich"
)])
## # A tibble: 6 × 3
##   faechergruppe                    bestandene_pruefunge…¹ bestandene_pruefunge…²
##   <chr>                                             <dbl>                  <dbl>
## 1 Geisteswissenschaften                             12250                  35937
## 2 Geisteswissenschaften allgemein                     923                   4132
## 3 Evangelische Theologie, -Religi…                    506                    966
## 4 Katholische Theologie, -Religio…                    278                    599
## 5 Philosophie                                        1224                   1403
## 6 Geschichte                                         2601                   2636
## # ℹ abbreviated names: ¹​bestandene_pruefungen_maennlich,
## #   ²​bestandene_pruefungen_weiblich


Der Datensatz wird anschließend auf diese drei Variablen reduziert.

pruefungen_kurz <- pruefungen[, c(
  "faechergruppe",
  "bestandene_pruefungen_maennlich",
  "bestandene_pruefungen_weiblich"
)]

pruefungen_kurz$bestandene_pruefungen_maennlich <- as.numeric(
  pruefungen_kurz$bestandene_pruefungen_maennlich
)

pruefungen_kurz$bestandene_pruefungen_weiblich <- as.numeric(
  pruefungen_kurz$bestandene_pruefungen_weiblich
)

pruefungen_kurz <- pruefungen_kurz[
  !is.na(pruefungen_kurz$faechergruppe) &
  !is.na(pruefungen_kurz$bestandene_pruefungen_maennlich) &
  !is.na(pruefungen_kurz$bestandene_pruefungen_weiblich),
]


Da im Datensatz unterschiedliche Ebenen enthalten sind, werden für diese Analyse nur die übergeordneten Fächergruppen verwendet.

faechergruppen <- c(
  "Geisteswissenschaften",
  "Sport",
  "Rechts-, Wirtschafts- und Sozialwissenschaften",
  "Mathematik, Naturwissenschaften",
  "Humanmedizin/Gesundheitswissenschaften",
  "Agrar-, Forst- und Ernährungswissenschaften, Veterinärmedizin",
  "Ingenieurwissenschaften",
  "Kunst, Kunstwissenschaft",
  "Außerhalb der Studienbereichsgliederung/Sonstige Fächer"
)

pruefungen_kurz <- pruefungen_kurz[
  pruefungen_kurz$faechergruppe %in% faechergruppen,
]

pruefungen_kurz
## # A tibble: 9 × 3
##   faechergruppe                    bestandene_pruefunge…¹ bestandene_pruefunge…²
##   <chr>                                             <dbl>                  <dbl>
## 1 Geisteswissenschaften                             12250                  35937
## 2 Sport                                              3049                   2600
## 3 Rechts-, Wirtschafts- und Sozia…                  82399                 126202
## 4 Mathematik, Naturwissenschaften                   25919                  29051
## 5 Humanmedizin/Gesundheitswissens…                  10952                  24517
## 6 Agrar-, Forst- und Ernährungswi…                   4393                   7303
## 7 Ingenieurwissenschaften                           95035                  34465
## 8 Kunst, Kunstwissenschaft                           5967                  11458
## 9 Außerhalb der Studienbereichsgl…                     46                     63
## # ℹ abbreviated names: ¹​bestandene_pruefungen_maennlich,
## #   ²​bestandene_pruefungen_weiblich


Zusätzlich wird berechnet, welches Geschlecht in einer Fächergruppe mehr bestandene Prüfungen aufweist.

pruefungen_kurz$differenz <- 
  pruefungen_kurz$bestandene_pruefungen_weiblich -
  pruefungen_kurz$bestandene_pruefungen_maennlich

pruefungen_kurz$dominanz <- ifelse(
  pruefungen_kurz$bestandene_pruefungen_weiblich >
    pruefungen_kurz$bestandene_pruefungen_maennlich,
  "Frauen",
  ifelse(
    pruefungen_kurz$bestandene_pruefungen_maennlich >
      pruefungen_kurz$bestandene_pruefungen_weiblich,
    "Männer",
    "ausgeglichen"
  )
)

pruefungen_kurz$absolute_differenz <- abs(pruefungen_kurz$differenz)

pruefungen_kurz
## # A tibble: 9 × 6
##   faechergruppe bestandene_pruefunge…¹ bestandene_pruefunge…² differenz dominanz
##   <chr>                          <dbl>                  <dbl>     <dbl> <chr>   
## 1 Geisteswisse…                  12250                  35937     23687 Frauen  
## 2 Sport                           3049                   2600      -449 Männer  
## 3 Rechts-, Wir…                  82399                 126202     43803 Frauen  
## 4 Mathematik, …                  25919                  29051      3132 Frauen  
## 5 Humanmedizin…                  10952                  24517     13565 Frauen  
## 6 Agrar-, Fors…                   4393                   7303      2910 Frauen  
## 7 Ingenieurwis…                  95035                  34465    -60570 Männer  
## 8 Kunst, Kunst…                   5967                  11458      5491 Frauen  
## 9 Außerhalb de…                     46                     63        17 Frauen  
## # ℹ abbreviated names: ¹​bestandene_pruefungen_maennlich,
## #   ²​bestandene_pruefungen_weiblich
## # ℹ 1 more variable: absolute_differenz <dbl>

Zusammenfassung:
Dieser Schritt wurde durchgeführt, um den Datensatz gezielt auf die Forschungsfrage vorzubereiten. Dafür wurden die relevanten Spalten umbenannt, auf Fächergruppe sowie bestandene Prüfungen von Männern und Frauen reduziert, in Zahlenwerte umgewandelt und unvollständige Zeilen entfernt. Da der Datensatz verschiedene Hierarchieebenen enthält, wurden nur die übergeordneten Fächergruppen ausgewählt. Zusätzlich wurden Differenz, dominierendes Geschlecht und absolute Differenz berechnet.

6 Deskriptive Statistik

summary(pruefungen_kurz$bestandene_pruefungen_maennlich)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##      46    4393   10952   26668   25919   95035
summary(pruefungen_kurz$bestandene_pruefungen_weiblich)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##      63    7303   24517   30177   34465  126202

Zusammenfassung:
Dieser Schritt wurde durchgeführt, um einen ersten statistischen Überblick über die Verteilung der bestandenen Prüfungen zu erhalten. Dafür wurden mit summary() zentrale Kennwerte wie Minimum, Median, Mittelwert und Maximum für Männer und Frauen ausgegeben. Die Werte zeigen, wie stark die Zahlen bestandener Prüfungen zwischen den Fächergruppen schwanken.

7 Fächergruppen, in denen Frauen dominieren

frauen_dominieren <- pruefungen_kurz[
  pruefungen_kurz$dominanz == "Frauen",
]

frauen_dominieren <- frauen_dominieren[
  order(frauen_dominieren$differenz, decreasing = TRUE),
]

frauen_dominieren
## # A tibble: 7 × 6
##   faechergruppe bestandene_pruefunge…¹ bestandene_pruefunge…² differenz dominanz
##   <chr>                          <dbl>                  <dbl>     <dbl> <chr>   
## 1 Rechts-, Wir…                  82399                 126202     43803 Frauen  
## 2 Geisteswisse…                  12250                  35937     23687 Frauen  
## 3 Humanmedizin…                  10952                  24517     13565 Frauen  
## 4 Kunst, Kunst…                   5967                  11458      5491 Frauen  
## 5 Mathematik, …                  25919                  29051      3132 Frauen  
## 6 Agrar-, Fors…                   4393                   7303      2910 Frauen  
## 7 Außerhalb de…                     46                     63        17 Frauen  
## # ℹ abbreviated names: ¹​bestandene_pruefungen_maennlich,
## #   ²​bestandene_pruefungen_weiblich
## # ℹ 1 more variable: absolute_differenz <dbl>

Zusammenfassung:
Dieser Schritt wurde durchgeführt, um gezielt die Fächergruppen zu betrachten, in denen mehr bestandene Prüfungen von Frauen als von Männern vorliegen. Dafür wurden nur die Zeilen mit der Dominanz „Frauen“ ausgewählt und nach der Differenz absteigend sortiert. Die Tabelle zeigt, in welchen Fächergruppen der Vorsprung von Frauen besonders groß ist.

8 Fächergruppen, in denen Männer dominieren

maenner_dominieren <- pruefungen_kurz[
  pruefungen_kurz$dominanz == "Männer",
]

maenner_dominieren <- maenner_dominieren[
  order(maenner_dominieren$differenz),
]

maenner_dominieren
## # A tibble: 2 × 6
##   faechergruppe bestandene_pruefunge…¹ bestandene_pruefunge…² differenz dominanz
##   <chr>                          <dbl>                  <dbl>     <dbl> <chr>   
## 1 Ingenieurwis…                  95035                  34465    -60570 Männer  
## 2 Sport                           3049                   2600      -449 Männer  
## # ℹ abbreviated names: ¹​bestandene_pruefungen_maennlich,
## #   ²​bestandene_pruefungen_weiblich
## # ℹ 1 more variable: absolute_differenz <dbl>

Zusammenfassung:
Dieser Schritt wurde durchgeführt, um gezielt die Fächergruppen zu betrachten, in denen mehr bestandene Prüfungen von Männern als von Frauen vorliegen. Dafür wurden nur die Zeilen mit der Dominanz „Männer“ ausgewählt und nach der Differenz sortiert. Da negative Differenzen einen Vorsprung der Männer bedeuten, stehen die Fächergruppen mit dem größten Männer-Vorsprung oben.

9 Fächergruppen mit den größten Unterschieden

top_unterschiede <- pruefungen_kurz[
  order(pruefungen_kurz$absolute_differenz, decreasing = TRUE),
]

top_unterschiede
## # A tibble: 9 × 6
##   faechergruppe bestandene_pruefunge…¹ bestandene_pruefunge…² differenz dominanz
##   <chr>                          <dbl>                  <dbl>     <dbl> <chr>   
## 1 Ingenieurwis…                  95035                  34465    -60570 Männer  
## 2 Rechts-, Wir…                  82399                 126202     43803 Frauen  
## 3 Geisteswisse…                  12250                  35937     23687 Frauen  
## 4 Humanmedizin…                  10952                  24517     13565 Frauen  
## 5 Kunst, Kunst…                   5967                  11458      5491 Frauen  
## 6 Mathematik, …                  25919                  29051      3132 Frauen  
## 7 Agrar-, Fors…                   4393                   7303      2910 Frauen  
## 8 Sport                           3049                   2600      -449 Männer  
## 9 Außerhalb de…                     46                     63        17 Frauen  
## # ℹ abbreviated names: ¹​bestandene_pruefungen_maennlich,
## #   ²​bestandene_pruefungen_weiblich
## # ℹ 1 more variable: absolute_differenz <dbl>

Zusammenfassung:
Dieser Schritt wurde durchgeführt, um die stärksten Unterschiede zwischen Männern und Frauen unabhängig von der Richtung sichtbar zu machen. Dafür wurden die Fächergruppen nach der absoluten Differenz sortiert. Die Tabelle zeigt, in welchen Fächergruppen die Zahlen bestandener Prüfungen zwischen den Geschlechtern besonders weit auseinanderliegen.


10 Visualisierung der Unterschiede

labels <- top_unterschiede$faechergruppe

labels <- gsub(
  "Rechts-, Wirtschafts- und Sozialwissenschaften",
  "Rechts-, Wirtschafts-\nund Sozialwissenschaften",
  labels
)

labels <- gsub(
  "Mathematik, Naturwissenschaften",
  "Mathematik,\nNaturwissenschaften",
  labels
)

labels <- gsub(
  "Humanmedizin/Gesundheitswissenschaften",
  "Humanmedizin/\nGesundheitswissenschaften",
  labels
)

labels <- gsub(
  "Agrar-, Forst- und Ernährungswissenschaften, Veterinärmedizin",
  "Agrar-, Forst- und\nErnährungswissenschaften,\nVeterinärmedizin",
  labels
)

labels <- gsub(
  "Kunst, Kunstwissenschaft",
  "Kunst,\nKunstwissenschaft",
  labels
)

labels <- gsub(
  "Außerhalb der Studienbereichsgliederung/Sonstige Fächer",
  "Sonstige Fächer",
  labels
)

werte <- rbind(
  top_unterschiede$bestandene_pruefungen_maennlich,
  top_unterschiede$bestandene_pruefungen_weiblich
)

par(
  mar = c(5, 20, 4, 2),
  bg = "#1d3157",
  col.axis = "white",
  col.lab = "white",
  col.main = "white"
)

barplot(
  werte,
  beside = TRUE,
  horiz = TRUE,
  names.arg = labels,
  las = 1,
  cex.names = 0.8,
  col = c("#1bd8ff", "#b678ff"),
  border = c("#79edff", "#d7b6ff"),
  main = "Bestandene Prüfungen nach Geschlecht und Fächergruppe",
  xlab = "Bestandene Prüfungen"
)

legend(
  "bottomright",
  legend = c("Männer", "Frauen"),
  fill = c("#1bd8ff", "#b678ff"),
  text.col = "white",
  bg = "#1d3157",
  border = "white"
)

Zusammenfassung:
Dieser Schritt wurde durchgeführt, um die Unterschiede zwischen Männern und Frauen in den Fächergruppen visuell vergleichbar darzustellen. Dafür wurden die Werte in einem gruppierten Balkendiagramm abgebildet. Die Grafik zeigt auf einen Blick, ob in den jeweiligen Fächergruppen mehr bestandene Prüfungen von Männern oder Frauen vorliegen und wie deutlich der Abstand ist.

11 Anzahl der Fächergruppen nach dominierendem Geschlecht

table(pruefungen_kurz$dominanz)
## 
## Frauen Männer 
##      7      2

Zusammenfassung:
Dieser Schritt wurde durchgeführt, um einen zusammenfassenden Überblick über alle Fächergruppen zu erhalten. Dafür wurde mit table() gezählt, wie oft Frauen, Männer oder ein ausgeglichenes Verhältnis als Dominanz vorkommen. Das Ergebnis zeigt, in wie vielen Fächergruppen jeweils mehr bestandene Prüfungen von Frauen oder Männern gezählt wurden.

12 Fazit

Ziel dieser Analyse war die Beantwortung der Forschungsfrage, ob sich die Zahlen bestandener Prüfungen zwischen Männern und Frauen in verschiedenen Fächergruppen unterscheiden.

Die Auswertungen zeigen, dass sich die Zahlen bestandener Prüfungen zwischen Männern und Frauen deutlich unterscheiden. In einigen Fächergruppen liegt die Anzahl bestandener Prüfungen von Frauen höher, während in anderen Fächergruppen Männer mehr bestandene Prüfungen aufweisen. Besonders sichtbar wird dies in der grafischen Darstellung, in der die Fächergruppen direkt miteinander verglichen werden.

Durch die Beschränkung auf übergeordnete Fächergruppen werden in dieser Analyse keine unterschiedlichen Hierarchieebenen miteinander vermischt. Dadurch ist die Auswertung methodisch einheitlicher als eine Analyse, in der grobe Fächergruppen und einzelne Studienbereiche gemeinsam betrachtet würden.

Bei der Interpretation der Ergebnisse ist jedoch zu beachten, dass der Datensatz ausschließlich die Anzahl bestandener Prüfungen enthält. Es liegen keine Informationen darüber vor, wie viele Männer und Frauen insgesamt in den jeweiligen Fächergruppen eingeschrieben sind oder Prüfungen abgelegt haben. Deshalb kann nicht beurteilt werden, ob ein Geschlecht erfolgreicher studiert. Die Analyse zeigt lediglich Unterschiede in den absoluten Zahlen bestandener Prüfungen.

Insgesamt liefert die Untersuchung einen ersten Überblick über geschlechtsspezifische Unterschiede bei bestandenen Prüfungen in verschiedenen Fächergruppen.