Forschungsfrage:
Wie hängt die Kinderanzahl von Frauen im Alter von 15 bis 54 Jahren mit
ihrem Bildungsstand in Deutschland zusammen?
Hypothese:
Je höher der Bildungsstand einer Frau, desto geringer ist die
durchschnittliche Kinderzahl.
library(readxl)
library(dplyr)
library(stringr)
library(tidyr)
library(knitr)
daten <- read_excel("/Users/aleksandrrita/Desktop/16.xlsx", sheet = "csv-12612-16")
# Nur Frauen behalten, die in Deutschland geboren sind
daten <- daten %>% filter(Geburtsland == "In Deutschland geboren")
# Spalten entfernen
daten <- daten %>% select(-Statistik, -MZ_Jahr)
# Nur gewünschte Altersgruppen (15-54 Jahre) behalten
muster <- "15-24|25-34|35-44|45-54"
daten <- daten %>% filter(str_detect(Alter, muster))
# Zeilen mit "insgesamt" oder "Mütter" entfernen
daten <- daten %>% filter(!(Anzahl_geborene_Kinder %in% c("insgesamt", "Mütter")))
# Zeilen entfernen, in denen "/" in "Frauen_in1000" steht
daten <- daten %>% filter(Frauen_in1000 != "/")
# Spalten umbenennen
daten <- daten %>%
rename(
Bildungsstand = Bildungstand_ISCED_2011,
Kinderanzahl = Anzahl_geborene_Kinder
)
# Spalte "Geburtsland" entfernen
daten <- daten %>% select(-Geburtsland)
# "Frauen_in1000" in numerisch umwandeln
daten$Frauen_in1000 <- as.numeric(daten$Frauen_in1000)
# Alle Zeilen mit fehlenden Werten entfernen
daten <- na.omit(daten)
unique(daten$Frauen_in1000)
## [1] 176 239 108 17 1138 300 499 132 24 402 259 428 119 29 283
## [16] 28 1204 399 266 47 9 1165 528 728 194 51 509 692 921 240
## [31] 65 557 36 10 701 88 82 32 13 186 70 113 58 84 96
## [46] 138 63 81
head(daten)
## # A tibble: 6 × 4
## Bildungsstand Alter Kinderanzahl Frauen_in1000
## <chr> <chr> <chr> <dbl>
## 1 Hoch 1998-2007 (15-24) Frauen ohne Kinder 176
## 2 Hoch 1988-1997 (25-34) 1 Kind 239
## 3 Hoch 1988-1997 (25-34) 2 Kinder 108
## 4 Hoch 1988-1997 (25-34) 3 Kinder 17
## 5 Hoch 1988-1997 (25-34) Frauen ohne Kinder 1138
## 6 Hoch 1978-1987 (35-44) 1 Kind 300
# Gesamtsumme der Frauen (in 1.000)
gesamt <- sum(daten$Frauen_in1000, na.rm = TRUE)
print(gesamt)
## [1] 13675
# Anzahl Frauen pro Bildungsstand
frauen_x_bildung <- daten %>%
group_by(Bildungsstand) %>%
summarise(Gesamt = sum(Frauen_in1000, na.rm = TRUE))
kable(frauen_x_bildung)
Bildungsstand | Gesamt |
---|---|
Hoch | 4153 |
Mittel | 7603 |
Niedrig | 1919 |
# Häufigkeit nach Kinderanzahl
frauen_pro_kind <- daten %>%
group_by(Kinderanzahl) %>%
summarise(Gesamt = sum(Frauen_in1000, na.rm = TRUE))
kable(frauen_pro_kind)
Kinderanzahl | Gesamt |
---|---|
1 Kind | 2735 |
2 Kinder | 3293 |
3 Kinder | 902 |
4 Kinder und mehr | 259 |
Frauen ohne Kinder | 6486 |
# Kinderanzahl pro Bildungsstand und Altersgruppe
table(daten$Bildungsstand, daten$Kinderanzahl)
##
## 1 Kind 2 Kinder 3 Kinder 4 Kinder und mehr Frauen ohne Kinder
## Hoch 3 3 3 2 4
## Mittel 4 3 3 3 4
## Niedrig 4 4 3 3 4
Im bereinigten Datensatz befinden sich 13.675.000 Frauen, die in Deutschland geboren wurden und im Alter von 15 bis 54 Jahren sind. Die Mehrheit der Frauen weist einen mittleren Bildungsstand auf (7.603.000), gefolgt von Frauen mit hohem Bildungsstand (4.153.000) und niedrigem Bildungsstand (1.919.000).
# Häufigkeitstabelle
table_data <- with(daten, tapply(Frauen_in1000, list(Kinderanzahl, Bildungsstand), sum))
print(table_data)
## Hoch Mittel Niedrig
## 1 Kind 798 1647 290
## 2 Kinder 1035 1915 343
## 3 Kinder 268 481 153
## 4 Kinder und mehr 53 125 81
## Frauen ohne Kinder 1999 3435 1052
# Test durchführen
chi_result <- chisq.test(table_data)
# Ergebnis anzeigen
chi_result
##
## Pearson's Chi-squared test
##
## data: table_data
## X-squared = 173.37, df = 8, p-value < 2.2e-16
Es zeigt sich ein hochsignifikanter Zusammenhang zwischen Bildungsstand und Kinderanzahl. Das bedeutet, dass sich die Verteilung der Kinderzahlen zwischen den verschiedenen Bildungsgruppen statistisch deutlich unterscheidet. Die Kinderzahl von Frauen ist abhängig vom Bildungsstand.
kontingenz <- daten %>%
group_by(Bildungsstand, Kinderanzahl) %>%
summarise(Frauen = sum(Frauen_in1000, na.rm = TRUE)) %>%
pivot_wider(names_from = Kinderanzahl, values_from = Frauen, values_fill = 0)
colnames(kontingenz) <- c(
"Bildungsstand",
"1K", # 1 Kind
"2K", # 2 Kinder
"3K", # 3 Kinder
"4+K", # 4 Kinder und mehr
"0K" # Frauen ohne Kinder
)
knitr::kable(kontingenz)
Bildungsstand | 1K | 2K | 3K | 4+K | 0K |
---|---|---|---|---|---|
Hoch | 798 | 1035 | 268 | 53 | 1999 |
Mittel | 1647 | 1915 | 481 | 125 | 3435 |
Niedrig | 290 | 343 | 153 | 81 | 1052 |
Die Auswertung der Kontingenztabelle zeigt deutliche Unterschiede in der Kinderzahl je nach Bildungsstand. Frauen mit mittlerem Bildungsstand stellen die größte Gruppe in allen Kinderanzahl-Kategorien. Besonders auffällig ist, dass der Anteil kinderloser Frauen in der Gruppe mit hohem Bildungsstand ebenfalls sehr hoch ist (nahezu jede zweite Frau). Dagegen ist bei Frauen mit niedrigem Bildungsstand die Kinderlosigkeit geringer, während sie häufiger drei oder mehr Kinder haben.
# Nur die Zahlen ohne die Spalte 'Bildungsstand' nehmen
table_data <- as.matrix(kontingenz[,-1])
rownames(table_data) <- kontingenz$Bildungsstand
# relative Häufigkeit pro Bildungsstand
prop_table <- prop.table(table_data, margin = 1)
# Barplot
barplot(
t(prop_table),
beside = TRUE,
legend.text = colnames(table_data),
args.legend = list(
title = "Kinderanzahl",
x = "top",
horiz = TRUE,
cex = 0.8,
inset = c(0, -0.05)
),
xlab = "Bildungsstand",
ylab = "Anteil innerhalb des Bildungsstands",
main = "Kinderanzahl nach Bildungsstand"
)
# Cramer’s V ist ein Maß für den Zusammenhang zwischen zwei nomialskalierten Variablen, ähnlich dem Korrelationskoeffizienten r. Es ist das meist berichtete Maß der Effektstärke für Chi-Quadrat Tests. (https://www.youtube.com/watch?v=7B6NbQAlSZw)
install.packages("rcompanion", repos = "https://cran.uni-muenster.de")
##
## The downloaded binary packages are in
## /var/folders/64/s9k6vbpx47d0yt8h4j0gnmp00000gn/T//Rtmp9zimBd/downloaded_packages
library(rcompanion)
# https://rcompanion.org/handbook/H_10.html WebSeite des Autors des Paketes mit Cramer's V Interpretationen
cramerV(table_data)
## Cramer V
## 0.07962
cohenW(table_data)
## Cohen w
## 0.1126
Mein k (die kleinste Anzahl an Kategorien) ist 3, weil ich drei Bildungsgruppen habe. Cramér’s V = 0.0796 → Kleiner Effekt. Cohen’s W = 0.1126 → Kleiner Effekt. Obwohl der Chi-Quadrat-Test einen hochsignifikanten Zusammenhang zwischen Bildungsstand und Kinderzahl zeigte, ist der Zusammenhang in seiner Stärke eher gering. Das bedeutet: Bildungsstand und Kinderanzahl hängen statistisch signifikant, aber nur schwach zusammen.
Die durchgeführte Analyse zeigt einen deutlichen Zusammenhang zwischen Bildungsstand und Kinderzahl bei Frauen im Alter von 15 bis 54 Jahren in Deutschland: Frauen mit hohem Bildungsstand sind deutlich häufiger kinderlos als Frauen mit mittlerem oder niedrigem Bildungsstand. Mit abnehmendem Bildungsstand steigt der Anteil der Frauen mit mehreren Kindern (drei oder mehr). Statistische Tests (Chi-Quadrat) belegen einen hochsignifikanten Zusammenhang zwischen den Variablen, auch wenn die Effektstärke gering ist. Die Hypothese konnte bestätigt werden: Mit steigendem Bildungsstand nimmt die durchschnittliche Kinderzahl ab, vor allem steigt der Anteil kinderloser Frauen deutlich. Der Bildungsstand ist somit ein wichtiger Faktor für die Kinderzahl bei Frauen in Deutschland.