In dieser Analyse arbeiten wir nicht mit Einzeldaten, sondern mit aggregierten Gruppendaten, bei denen jede Zeile eine bestimmte Anzahl von Frauen in einer Kombination aus Bildungsstand und Kinderanzahl darstellt. Die Variable FrauenPro1000 zeigt dabei, wie viele Frauen in jeder dieser Gruppen vertreten sind. Um diese Unterschiede korrekt zu berücksichtigen, wird mit Gewichtungen gearbeitet – denn größere Gruppen (z.B. 500 statt 100) sollen auch einen entsprechend stärkeren Einfluss auf das Ergebnis haben. Das machen wir z.B. durch eine gewichtete Regression oder die Verwendung von gewichteten Häufigkeiten im Chi-Quadrat-Test.
# Daten einlesen (bitte Pfad anpassen)
library(readxl)
## Warning: Paket 'readxl' wurde unter R Version 4.4.3 erstellt
daten <- read_excel("C:/Users/Marlene/Documents/R_Files/X12612_16.xlsx") # Pfad anpassen
# Daten filtern für eine Ziel-Altersgruppe
sub <- daten[daten$Alter == "1978-1987 (35-44)" &
daten$Statistik == "Frauen nach Zahl der geborenen Kinder", ]
# Nur Einträge mit konkreter Kinderzahl (1,2,3,4+)
sub <- sub[ sub$Anzahl_geborene_Kinder %in% c("1 Kind","2 Kinder","3 Kinder","4 Kinder und mehr"), ]
# Metrische Kinderzahl erzeugen
# Kategorie „4 Kinder und mehr“ als 4 ersetzen
sub$Kinderanzahl <- as.numeric(gsub(" .*", "", sub$Anzahl_geborene_Kinder))
sub$KinderproTausend <- sub$Frauen_in1000
# Teildatensatz erstellen für die Analyse
analyse_data <- sub[, c("Kinderanzahl", "Bildungstand_ISCED_2011", "Frauen_in1000")]
# Spaltennamen vereinfachen
colnames(analyse_data) <- c("Kinder", "Bildungsstand", "FrauenPro1000")
# In numerisch umwandeln
analyse_data$FrauenPro1000 <- as.numeric(analyse_data$FrauenPro1000)
## Warning: NAs durch Umwandlung erzeugt
# Zeilen mit NA entfernen
analyse_data <- na.omit(analyse_data)
# Erste Zelen anzeigen lassen
head(analyse_data)
## # A tibble: 6 × 3
## Kinder Bildungsstand FrauenPro1000
## <dbl> <chr> <dbl>
## 1 1 Hoch 433
## 2 2 Hoch 686
## 3 3 Hoch 181
## 4 4 Hoch 35
## 5 1 Hoch 300
## 6 2 Hoch 499
# Häufigkeitstabelle
table_data <- with(analyse_data, tapply(FrauenPro1000, list(Kinder, Bildungsstand), sum))
# Test durchführen
chi_result <- chisq.test(table_data)
# Ergebnis anzeigen
chi_result
##
## Pearson's Chi-squared test
##
## data: table_data
## X-squared = 614.24, df = 6, p-value < 2.2e-16
Interpretation:
Der Chi-Quadrat-Wert beträgt 614.24 bei 6 Freiheitsgraden.
Der p-Wert liegt bei <2e-16, also deutlich unter dem üblichen
Signifikanzniveau von 0.05.
Fazit: Es besteht ein signifikanter Zusammenhang
zwischen Bildungsstand und Kinderanzahl.
Die Kontingenztabelle zeigt, wie sich die Anzahl der geborenen Kinder auf die verschiedenen Bildungsgruppen verteilt.
# Kontingenztabelle anzeigen
table_data
## Hoch Mittel Niedrig
## 1 888 1328 307
## 2 1402 1978 585
## 3 370 577 380
## 4 70 171 274
Interpretation der Häufigkeitstabelle:
In allen Bildungsgruppen ist „2 Kinder“ am häufigsten.
Allerdings zeigen sich klare Unterschiede bei den höheren
Kinderzahlen:
Frauen mit niedrigem Bildungsstand haben deutlich häufiger 3 oder mehr Kinder als Frauen mit mittlerem oder hohem Bildungsstand.
Umgekehrt sind 4+ Kinder bei hochgebildeten Frauen sehr selten.
# Relative Häufigkeiten
prop_table <- prop.table(table_data, margin = 2) # pro Bildungsstand
barplot(prop_table, beside = TRUE, legend = TRUE,
xlab = "Kinderanzahl", ylab = "Anteil innerhalb des Bildungsstands",
main = "Kinderanzahl nach Bildungsstand")
Der Chi-Quadrat-Test zeigt, dass ein statistischer Zusammenhang zwischen Bildungsstand und Kinderanzahl besteht, sagt aber nichts darüber aus, wie stark dieser Zusammenhang ist oder in welche Richtung er verläuft. Eine gewichtete lineare Regression ergänzt die Analyse, indem sie den durchschnittlichen Kinderwert je Bildungsgruppe schätzt und dabei die Größe der einzelnen Gruppen (über FrauenPro1000) berücksichtigt.
model <- lm(Kinder ~ Bildungsstand, data = analyse_data, weights = FrauenPro1000)
summary(model)
##
## Call:
## lm(formula = Kinder ~ Bildungsstand, data = analyse_data, weights = FrauenPro1000)
##
## Weighted Residuals:
## Min 1Q Median 3Q Max
## -22.852 -4.912 3.103 9.687 18.908
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.86154 0.21528 8.647 4.84e-11 ***
## BildungsstandMittel 0.03757 0.27849 0.135 0.893
## BildungsstandNiedrig 0.54014 0.35803 1.509 0.139
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 11.25 on 44 degrees of freedom
## Multiple R-squared: 0.05752, Adjusted R-squared: 0.01468
## F-statistic: 1.343 on 2 and 44 DF, p-value: 0.2717
Interpretation:
Die Referenzkategorie ist “Hoch” (alphabetisch erste Kategorie in
„Bildungsstand“).
- Der Intercept (1.86) gibt den geschätzten Mittelwert der Kinderanzahl
bei Frauen mit hohem Bildungsstand an.
- Frauen mit mittlerem Bildungsstand haben im Schnitt 0.04 Kinder mehr.
Der zugehörige p-Wert ist größer als 0.05, daher ist der Unterschied
statistisch nicht signifikant.
- Frauen mit niedrigem Bildungsstand haben im Schnitt 0.54 Kinder mehr.
Auch hier liegt der p-Wert über 0.05, sodass der Unterschied nicht
signifikant ist.
R² = 0.058 → Bildungsstand erklärt nur einen sehr kleinen Teil der Varianz.
Fazit: Der Gesamt-p-Wert des Modells beträgt 0.2717 und liegt damit deutlich über dem Signifikanzniveau von 0.05.Das bedeutet, dass der Bildungsstand kein statistisch signifikanter Prädiktor für die durchschnittliche Kinderanzahl ist.