Erklärung

In dieser Analyse arbeiten wir nicht mit Einzeldaten, sondern mit aggregierten Gruppendaten, bei denen jede Zeile eine bestimmte Anzahl von Frauen in einer Kombination aus Bildungsstand und Kinderanzahl darstellt. Die Variable FrauenPro1000 zeigt dabei, wie viele Frauen in jeder dieser Gruppen vertreten sind. Um diese Unterschiede korrekt zu berücksichtigen, wird mit Gewichtungen gearbeitet – denn größere Gruppen (z.B. 500 statt 100) sollen auch einen entsprechend stärkeren Einfluss auf das Ergebnis haben. Das machen wir z.B. durch eine gewichtete Regression oder die Verwendung von gewichteten Häufigkeiten im Chi-Quadrat-Test.

Datenaufbereitung

# Daten einlesen (bitte Pfad anpassen)
library(readxl)
## Warning: Paket 'readxl' wurde unter R Version 4.4.3 erstellt
daten <- read_excel("C:/Users/Marlene/Documents/R_Files/X12612_16.xlsx") # Pfad anpassen

# Daten filtern für eine Ziel-Altersgruppe
sub <- daten[daten$Alter == "1978-1987 (35-44)" &
               daten$Statistik == "Frauen nach Zahl der geborenen Kinder", ]

# Nur Einträge mit konkreter Kinderzahl (1,2,3,4+)
sub <- sub[ sub$Anzahl_geborene_Kinder %in% c("1 Kind","2 Kinder","3 Kinder","4 Kinder und mehr"), ]

# Metrische Kinderzahl erzeugen
# Kategorie „4 Kinder und mehr“ als 4 ersetzen
sub$Kinderanzahl <- as.numeric(gsub(" .*", "", sub$Anzahl_geborene_Kinder))
sub$KinderproTausend <- sub$Frauen_in1000

# Teildatensatz erstellen für die Analyse 
analyse_data <- sub[, c("Kinderanzahl", "Bildungstand_ISCED_2011", "Frauen_in1000")]

# Spaltennamen vereinfachen
colnames(analyse_data) <- c("Kinder", "Bildungsstand", "FrauenPro1000")

# In numerisch umwandeln
analyse_data$FrauenPro1000 <- as.numeric(analyse_data$FrauenPro1000)
## Warning: NAs durch Umwandlung erzeugt
# Zeilen mit NA entfernen
analyse_data <- na.omit(analyse_data)

# Erste Zelen anzeigen lassen
head(analyse_data)
## # A tibble: 6 × 3
##   Kinder Bildungsstand FrauenPro1000
##    <dbl> <chr>                 <dbl>
## 1      1 Hoch                    433
## 2      2 Hoch                    686
## 3      3 Hoch                    181
## 4      4 Hoch                     35
## 5      1 Hoch                    300
## 6      2 Hoch                    499

Chi-Quadrat-Test: Zusammenhang zwischen Kinderanzahl und Bildungsstand

# Häufigkeitstabelle
table_data <- with(analyse_data, tapply(FrauenPro1000, list(Kinder, Bildungsstand), sum))

# Test durchführen
chi_result <- chisq.test(table_data)

# Ergebnis anzeigen
chi_result
## 
##  Pearson's Chi-squared test
## 
## data:  table_data
## X-squared = 614.24, df = 6, p-value < 2.2e-16

Interpretation:
Der Chi-Quadrat-Wert beträgt 614.24 bei 6 Freiheitsgraden.
Der p-Wert liegt bei <2e-16, also deutlich unter dem üblichen Signifikanzniveau von 0.05.
Fazit: Es besteht ein signifikanter Zusammenhang zwischen Bildungsstand und Kinderanzahl.

Kontingenztabelle: Verteilung der Kinderanzahl nach Bildungsstand

Die Kontingenztabelle zeigt, wie sich die Anzahl der geborenen Kinder auf die verschiedenen Bildungsgruppen verteilt.

# Kontingenztabelle anzeigen
table_data
##   Hoch Mittel Niedrig
## 1  888   1328     307
## 2 1402   1978     585
## 3  370    577     380
## 4   70    171     274

Interpretation der Häufigkeitstabelle:

In allen Bildungsgruppen ist „2 Kinder“ am häufigsten.
Allerdings zeigen sich klare Unterschiede bei den höheren Kinderzahlen:

Frauen mit niedrigem Bildungsstand haben deutlich häufiger 3 oder mehr Kinder als Frauen mit mittlerem oder hohem Bildungsstand.

Umgekehrt sind 4+ Kinder bei hochgebildeten Frauen sehr selten.

Visuelle Darstellung

# Relative Häufigkeiten
prop_table <- prop.table(table_data, margin = 2)  # pro Bildungsstand
barplot(prop_table, beside = TRUE, legend = TRUE,
        xlab = "Kinderanzahl", ylab = "Anteil innerhalb des Bildungsstands",
        main = "Kinderanzahl nach Bildungsstand")

Gewichtete lineare Regression

Der Chi-Quadrat-Test zeigt, dass ein statistischer Zusammenhang zwischen Bildungsstand und Kinderanzahl besteht, sagt aber nichts darüber aus, wie stark dieser Zusammenhang ist oder in welche Richtung er verläuft. Eine gewichtete lineare Regression ergänzt die Analyse, indem sie den durchschnittlichen Kinderwert je Bildungsgruppe schätzt und dabei die Größe der einzelnen Gruppen (über FrauenPro1000) berücksichtigt.

model <- lm(Kinder ~ Bildungsstand, data = analyse_data, weights = FrauenPro1000)
summary(model)
## 
## Call:
## lm(formula = Kinder ~ Bildungsstand, data = analyse_data, weights = FrauenPro1000)
## 
## Weighted Residuals:
##     Min      1Q  Median      3Q     Max 
## -22.852  -4.912   3.103   9.687  18.908 
## 
## Coefficients:
##                      Estimate Std. Error t value Pr(>|t|)    
## (Intercept)           1.86154    0.21528   8.647 4.84e-11 ***
## BildungsstandMittel   0.03757    0.27849   0.135    0.893    
## BildungsstandNiedrig  0.54014    0.35803   1.509    0.139    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 11.25 on 44 degrees of freedom
## Multiple R-squared:  0.05752,    Adjusted R-squared:  0.01468 
## F-statistic: 1.343 on 2 and 44 DF,  p-value: 0.2717

Interpretation:

Die Referenzkategorie ist “Hoch” (alphabetisch erste Kategorie in „Bildungsstand“).
- Der Intercept (1.86) gibt den geschätzten Mittelwert der Kinderanzahl bei Frauen mit hohem Bildungsstand an.
- Frauen mit mittlerem Bildungsstand haben im Schnitt 0.04 Kinder mehr. Der zugehörige p-Wert ist größer als 0.05, daher ist der Unterschied statistisch nicht signifikant.
- Frauen mit niedrigem Bildungsstand haben im Schnitt 0.54 Kinder mehr. Auch hier liegt der p-Wert über 0.05, sodass der Unterschied nicht signifikant ist.

R² = 0.058 → Bildungsstand erklärt nur einen sehr kleinen Teil der Varianz.

Fazit: Der Gesamt-p-Wert des Modells beträgt 0.2717 und liegt damit deutlich über dem Signifikanzniveau von 0.05.Das bedeutet, dass der Bildungsstand kein statistisch signifikanter Prädiktor für die durchschnittliche Kinderanzahl ist.