Forschungsfrage und Hypothese

Forschungsfrage:
Wie hängt die Kinderanzahl von Frauen im Alter von 15 bis 54 Jahren mit ihrem Bildungsstand in Deutschland zusammen?

Hypothese:
Je höher der Bildungsstand einer Frau, desto geringer ist die durchschnittliche Kinderzahl.


Pakete laden

library(readxl)
library(dplyr)
library(stringr)
library(tidyr)
library(knitr)

Daten einlesen

daten <- read_excel("/Users/aleksandrrita/Desktop/16.xlsx", sheet = "csv-12612-16")

Datenbereinigung

# Nur Frauen behalten, die in Deutschland geboren sind
daten <- daten %>% filter(Geburtsland == "In Deutschland geboren")

# Spalten entfernen
daten <- daten %>% select(-Statistik, -MZ_Jahr)

# Nur gewünschte Altersgruppen (15-54 Jahre) behalten
muster <- "15-24|25-34|35-44|45-54"
daten <- daten %>% filter(str_detect(Alter, muster))

# Zeilen mit "insgesamt" oder "Mütter" entfernen
daten <- daten %>% filter(!(Anzahl_geborene_Kinder %in% c("insgesamt", "Mütter")))

# Zeilen entfernen, in denen "/" in "Frauen_in1000" steht
daten <- daten %>% filter(Frauen_in1000 != "/")

# Spalten umbenennen
daten <- daten %>%
  rename(
    Bildungsstand = Bildungstand_ISCED_2011,
    Kinderanzahl = Anzahl_geborene_Kinder
  )

# Spalte "Geburtsland" entfernen
daten <- daten %>% select(-Geburtsland)

# "Frauen_in1000" in numerisch umwandeln
daten$Frauen_in1000 <- as.numeric(daten$Frauen_in1000)

# Alle Zeilen mit fehlenden Werten entfernen
daten <- na.omit(daten)

unique(daten$Frauen_in1000)
##  [1]  176  239  108   17 1138  300  499  132   24  402  259  428  119   29  283
## [16]   28 1204  399  266   47    9 1165  528  728  194   51  509  692  921  240
## [31]   65  557   36   10  701   88   82   32   13  186   70  113   58   84   96
## [46]  138   63   81

Datensatz zeigen

head(daten)
## # A tibble: 6 × 4
##   Bildungsstand Alter             Kinderanzahl       Frauen_in1000
##   <chr>         <chr>             <chr>                      <dbl>
## 1 Hoch          1998-2007 (15-24) Frauen ohne Kinder           176
## 2 Hoch          1988-1997 (25-34) 1 Kind                       239
## 3 Hoch          1988-1997 (25-34) 2 Kinder                     108
## 4 Hoch          1988-1997 (25-34) 3 Kinder                      17
## 5 Hoch          1988-1997 (25-34) Frauen ohne Kinder          1138
## 6 Hoch          1978-1987 (35-44) 1 Kind                       300

Deskriptive Statistik

# Gesamtsumme der Frauen (in 1.000)
gesamt <- sum(daten$Frauen_in1000, na.rm = TRUE)
print(gesamt)
## [1] 13675
# Anzahl Frauen pro Bildungsstand
frauen_x_bildung <- daten %>%
  group_by(Bildungsstand) %>%
  summarise(Gesamt = sum(Frauen_in1000, na.rm = TRUE))
kable(frauen_x_bildung)
Bildungsstand Gesamt
Hoch 4153
Mittel 7603
Niedrig 1919
# Häufigkeit nach Kinderanzahl
frauen_pro_kind <- daten %>%
  group_by(Kinderanzahl) %>%
  summarise(Gesamt = sum(Frauen_in1000, na.rm = TRUE))
kable(frauen_pro_kind)
Kinderanzahl Gesamt
1 Kind 2735
2 Kinder 3293
3 Kinder 902
4 Kinder und mehr 259
Frauen ohne Kinder 6486
# Kinderanzahl pro Bildungsstand und Altersgruppe
table(daten$Bildungsstand, daten$Kinderanzahl)
##          
##           1 Kind 2 Kinder 3 Kinder 4 Kinder und mehr Frauen ohne Kinder
##   Hoch         3        3        3                 2                  4
##   Mittel       4        3        3                 3                  4
##   Niedrig      4        4        3                 3                  4

Im bereinigten Datensatz befinden sich 13.675.000 Frauen, die in Deutschland geboren wurden und im Alter von 15 bis 54 Jahren sind. Die Mehrheit der Frauen weist einen mittleren Bildungsstand auf (7.603.000), gefolgt von Frauen mit hohem Bildungsstand (4.153.000) und niedrigem Bildungsstand (1.919.000).

Chi-Quadrat-Test: Zusammenhang zwischen Kinderanzahl und Bildungsstand

# Häufigkeitstabelle
table_data <- with(daten, tapply(Frauen_in1000, list(Kinderanzahl, Bildungsstand), sum))
print(table_data)
##                    Hoch Mittel Niedrig
## 1 Kind              798   1647     290
## 2 Kinder           1035   1915     343
## 3 Kinder            268    481     153
## 4 Kinder und mehr    53    125      81
## Frauen ohne Kinder 1999   3435    1052
# Test durchführen
chi_result <- chisq.test(table_data)

# Ergebnis anzeigen
chi_result
## 
##  Pearson's Chi-squared test
## 
## data:  table_data
## X-squared = 173.37, df = 8, p-value < 2.2e-16

Es zeigt sich ein hochsignifikanter Zusammenhang zwischen Bildungsstand und Kinderanzahl. Das bedeutet, dass sich die Verteilung der Kinderzahlen zwischen den verschiedenen Bildungsgruppen statistisch deutlich unterscheidet. Die Kinderzahl von Frauen ist abhängig vom Bildungsstand.

Kontingenztabelle

kontingenz <- daten %>%
  group_by(Bildungsstand, Kinderanzahl) %>%
  summarise(Frauen = sum(Frauen_in1000, na.rm = TRUE)) %>%
  pivot_wider(names_from = Kinderanzahl, values_from = Frauen, values_fill = 0)
  
colnames(kontingenz) <- c(
  "Bildungsstand",  
  "1K",             # 1 Kind
  "2K",             # 2 Kinder
  "3K",             # 3 Kinder
  "4+K",            # 4 Kinder und mehr
  "0K"              # Frauen ohne Kinder
)

knitr::kable(kontingenz)
Bildungsstand 1K 2K 3K 4+K 0K
Hoch 798 1035 268 53 1999
Mittel 1647 1915 481 125 3435
Niedrig 290 343 153 81 1052

Die Auswertung der Kontingenztabelle zeigt deutliche Unterschiede in der Kinderzahl je nach Bildungsstand. Frauen mit mittlerem Bildungsstand stellen die größte Gruppe in allen Kinderanzahl-Kategorien. Besonders auffällig ist, dass der Anteil kinderloser Frauen in der Gruppe mit hohem Bildungsstand ebenfalls sehr hoch ist (nahezu jede zweite Frau). Dagegen ist bei Frauen mit niedrigem Bildungsstand die Kinderlosigkeit geringer, während sie häufiger drei oder mehr Kinder haben.

Visuelle Darstellung: Kinderanzahl nach Bildungsstand

# Nur die Zahlen ohne die Spalte 'Bildungsstand' nehmen
table_data <- as.matrix(kontingenz[,-1])
rownames(table_data) <- kontingenz$Bildungsstand

# relative Häufigkeit pro Bildungsstand
prop_table <- prop.table(table_data, margin = 1) 

# Barplot
barplot(
  t(prop_table),
  beside = TRUE,
  legend.text = colnames(table_data),
  args.legend = list(
    title = "Kinderanzahl",
    x = "top",              
    horiz = TRUE,          
    cex = 0.8,              
    inset = c(0, -0.05)     
  ),
  xlab = "Bildungsstand",
  ylab = "Anteil innerhalb des Bildungsstands",
  main = "Kinderanzahl nach Bildungsstand"
)

Cramer’s V

# Cramer’s V ist ein Maß für den Zusammenhang zwischen zwei nomialskalierten Variablen, ähnlich dem Korrelationskoeffizienten r. Es ist das meist berichtete Maß der Effektstärke für Chi-Quadrat Tests. (https://www.youtube.com/watch?v=7B6NbQAlSZw)

install.packages("rcompanion", repos = "https://cran.uni-muenster.de")
## 
## The downloaded binary packages are in
##  /var/folders/64/s9k6vbpx47d0yt8h4j0gnmp00000gn/T//Rtmp9zimBd/downloaded_packages
library(rcompanion)

# https://rcompanion.org/handbook/H_10.html WebSeite des Autors des Paketes mit Cramer's V Interpretationen

cramerV(table_data)
## Cramer V 
##  0.07962
cohenW(table_data)
## Cohen w 
##  0.1126

Mein k (die kleinste Anzahl an Kategorien) ist 3, weil ich drei Bildungsgruppen habe. Cramér’s V = 0.0796 → Kleiner Effekt. Cohen’s W = 0.1126 → Kleiner Effekt. Obwohl der Chi-Quadrat-Test einen hochsignifikanten Zusammenhang zwischen Bildungsstand und Kinderzahl zeigte, ist der Zusammenhang in seiner Stärke eher gering. Das bedeutet: Bildungsstand und Kinderanzahl hängen statistisch signifikant, aber nur schwach zusammen.

Zusammenfassung

Die durchgeführte Analyse zeigt einen deutlichen Zusammenhang zwischen Bildungsstand und Kinderzahl bei Frauen im Alter von 15 bis 54 Jahren in Deutschland: Frauen mit hohem Bildungsstand sind deutlich häufiger kinderlos als Frauen mit mittlerem oder niedrigem Bildungsstand. Mit abnehmendem Bildungsstand steigt der Anteil der Frauen mit mehreren Kindern (drei oder mehr). Statistische Tests (Chi-Quadrat) belegen einen hochsignifikanten Zusammenhang zwischen den Variablen, auch wenn die Effektstärke gering ist. Die Hypothese konnte bestätigt werden: Mit steigendem Bildungsstand nimmt die durchschnittliche Kinderzahl ab, vor allem steigt der Anteil kinderloser Frauen deutlich. Der Bildungsstand ist somit ein wichtiger Faktor für die Kinderzahl bei Frauen in Deutschland.