Wie kann man die Konzentration von Merkmalen wie dem Einkommen statistisch messen? Eine Möglichkeit - das Quintilsverhältnis S80/S20 (die Summe der Einkommen der obersten 20 % relativ zur Summe der Einkommen der untersten 20 %) - wurde in der Lehrveranstaltung schon kurz vorgestellt. Eine weitere Möglichkeit ist die Darstellung der nach Max-Otto Lorenz benannten Lorenz-Kurve sowie die Berechnung des Gini-Koeffizienten nach Corrado Gini (s. Fahrmeir et al., Kap. 2.3). Als Beispiel verwenden wir erneut die Einkommen der ganzjährig Vollzeiterwerbstätigen, Lorenz-Kurve und Gini-Koeffizient können aber auch für andere metrische Merkmale berechnet werden, die strikt \(\geq 0\) sind.
Stellen wir uns zunächst vor, alle Einkommen in einem Land wären gleich verteilt, d.h. jede Person hätte das exakt gleiche Einkommen. In einem solchen Fall würden 10 % der gesamten Einkommen von 10 % der Erwerbstätigen erzielt, 50 % von der Hälfte der Erwerbstätigen, 90 % von 90 % der Erwerbstätigen, etc. Anders ausgedrückt: Bei einer Gleichverteilung ist der Anteil am gesamten “Kuchen” direkt proportional zum Anteil an den Erwerbstätigen.
Handelt es sich hingegen um eine ungleiche Verteilung, dann gilt diese direkte Proportionalität nicht mehr: Würden wir alle Personen ihrem Einkommen nach sortieren und dann die Personen bis zum Median betrachten, dann würde der Anteil am gesamten Einkommen für die Erwerbstätigen in der unteren Hälfte der Einkommensverteilung weniger als 50 % ausmachen. Oder allgemein ausgedrückt: Der Anteil an der Summe aller Einkommen ist für die Erwerbstätigen mit einem Einkommen kleiner oder gleich einem beliebigen p-Quantil \(\tilde{x}_p\) stets geringer als \(p\).
Um dies anhand der Bruttoeinkommen der ganzjährig vollzeitbeschäftigten unselbständig Erwerbstätigen zu verdeutlichen laden wir zunächst den Datensatz der Lohnsteuerstatistik:
load("lststatistik.RData")
Wie hoch ist der Anteil der 10 % mit dem geringsten Einkommen an der Summe der Einkommen? Wir berechnen zuerst die Summe aller Einkommen, das 0.1-Quantil der Einkommensverteilung und dann die Summe der Einkommen für jene 10 % mit einem Einkommen kleiner oder gleich dem 0.1-Quantil. Das Verhältnis dieser Summe zur Gesamtsumme ergibt dann den Anteil der untersten 10 % an den Einkommen:
ek.summe.alle <- sum(vz16$kz210) # Gesamtsumme der Einkommen
ek.q10 <- quantile(vz16$kz210, probs = 0.1, type = 2) # 0.1-Quantil
# Summe der Einkommen für Einkommen kleiner/gleich dem
# 0.1-Quantil (vgl. Heiss, Abschnitt 1.2.4!)
ek.summe.q10 <- sum(vz16$kz210[vz16$kz210 <= ek.q10])
(ek.anteil.q10 <- ek.summe.q10/ek.summe.alle)
## [1] 0.03439739
Die untersten 10 % der Einkommensbezieher erhalten demnach nur 3.4 % der Einkommenssumme. Wie sieht es für die untersten 20, 50 oder 90 % aus?
ek.q20 <- quantile(vz16$kz210, probs = 0.2, type = 2) # 0.2-Quantil
ek.q50 <- quantile(vz16$kz210, probs = 0.5, type = 2) # 0.5-Quantil
ek.q90 <- quantile(vz16$kz210, probs = 0.9, type = 2) # 0.9-Quantil
ek.summe.q20 <- sum(vz16$kz210[vz16$kz210 <= ek.q20])
ek.summe.q50 <- sum(vz16$kz210[vz16$kz210 <= ek.q50])
ek.summe.q90 <- sum(vz16$kz210[vz16$kz210 <= ek.q90])
(ek.anteil.q20 <- ek.summe.q20/ek.summe.alle)
## [1] 0.08706895
(ek.anteil.q50 <- ek.summe.q50/ek.summe.alle)
## [1] 0.2985444
(ek.anteil.q90 <- ek.summe.q90/ek.summe.alle)
## [1] 0.7471326
Die untersten 20 % der Einkommensbezieher erhalten damit 8.7 %, die untersten 50 % erhalten 29.9 % und die untersten 90 % erhalten 74.7 % der Einkommenssumme. Andersrum ausgedrückt: Die obersten 10 % der Einkommensbezieher erhalten 25.3 % der Einkommenssumme.
Wir können dies mit der Konzentration der Lohnsteuer vergleichen. Die Lohnsteuer ist, nach der Umsatzsteuer, die zweitaufkommensstärkste Steuer in Österreich. Durch den progressiven Steuertarif zahlen jedoch Personen mit geringen Einkommen gar keine Steuer, während höhere Einkommen prozentuell gesehen mehr Steuer zahlen, weshalb wir eine stärkere Konzentration erwarten können. Erneut berechnen wir die Lohnsteuerlast der untersten 10, 20, 50 und 90 % für die ganzjährig Vollzeiterwerbstätigen:
lst.summe.alle <- sum(vz16$einblst)
lst.q20 <- quantile(vz16$einblst, probs = 0.2, type = 2) # 0.2-Quantil
lst.q50 <- quantile(vz16$einblst, probs = 0.5, type = 2) # 0.5-Quantil
lst.q90 <- quantile(vz16$einblst, probs = 0.9, type = 2) # 0.9-Quantil
lst.summe.q20 <- sum(vz16$einblst[vz16$einblst <= lst.q20])
lst.summe.q50 <- sum(vz16$einblst[vz16$einblst <= lst.q50])
lst.summe.q90 <- sum(vz16$einblst[vz16$einblst <= lst.q90])
(lst.anteil.q20 <- lst.summe.q20/lst.summe.alle)
## [1] 0.02070178
(lst.anteil.q50 <- lst.summe.q50/lst.summe.alle)
## [1] 0.1396859
(lst.anteil.q90 <- lst.summe.q90/lst.summe.alle)
## [1] 0.5750352
Die untersten 20 % der Lohnsteuerzahler tragen demnach 2.1 %, die untersten 50 % tragen 14 % und die untersten 90 % tragen 57.5 % der Lohnsteuerlast. Andersrum ausgedrückt: Die obersten 10 % der Lohnsteuerzahler zahlen 42.5 % der Lohnsteuer.
Alternativ dazu könnten wir auch die relative Lohnsteuerlast nach Einkommensquantilen berechnen:
lst.summe.q20 <- sum(vz16$einblst[vz16$kz210 <= ek.q20])
lst.summe.q50 <- sum(vz16$einblst[vz16$kz210 <= ek.q50])
lst.summe.q90 <- sum(vz16$einblst[vz16$kz210 <= ek.q90])
(lst.anteil.q20 <- lst.summe.q20/lst.summe.alle)
## [1] 0.02321278
(lst.anteil.q50 <- lst.summe.q50/lst.summe.alle)
## [1] 0.1437592
(lst.anteil.q90 <- lst.summe.q90/lst.summe.alle)
## [1] 0.579522
Daraus ergeben sich marginal unterschiedliche Anteile: Die untersten 20 % der ganzjährig vollzeiterwerbstätigen Einkommensbezieher tragen demnach 2.3 %, die untersten 50 % tragen 14.4 % und die untersten 90 % tragen 58 % der Lohnsteuerlast. Andersrum ausgedrückt: Die obersten 10 % der Einkommensbezieher (die, wie oben erwähnt, 25.3 % der Einkommen erhalten) zahlen 42 % der Lohnsteuer.
Würden wir diese Werte für alle Einkommensquantile zwischen 0 und 1 berechnen und in einer Grafik darstellen, erhielten wir die sogenannte Lorenz-Kurve. Zur Vereinfachung der Berechnung verwenden wir das R-Paket ineq
(zum Thema Pakete siehe Heiss, Abschnitt 1.1.3). Ist dieses noch nicht installiert, d.h. ergibt:
"ineq" %in% installed.packages()
den Wert FALSE
, muss es zuerst mittels:
install.packages("ineq")
installiert und dann mit:
library(ineq)
aktiviert werden. Das Paket ineq
beinhaltet die Funktion Lc()
, welches die Lorenz-Kurve berechnet. Das Ergebnis dieser Funktion kann dann mit dem plot()
-Befehl grafisch dargestellt werden:
par(pty = "s") # Erzeugt quadratische Grafik
plot(Lc(vz16$kz210),
main = "Einkommenskonzentration in Österreich",
xlab = "Anteil der ganzjährig Vollzeiterwerbstätigen",
ylab = "Anteil an der Gesamtsumme")
Die diagonale entspricht der Lorenz-Kurve bei völliger Gleichverteilung der Einkommen. Je weiter die Lorenz-Kurve von dieser Diagonale entfernt liegt, desto höher ist die Konzentration der jeweiligen Variable.
Wir können die Lorenz-Kurve der Bruttoeinkommen mit der Lorenzkurve der Nettoeinkommen (Bruttoeinkommen minus einbehaltene Lohnsteuer minus Sozialversicherungsbeiträge: kz210 - einblst - kz230
) bzw. der Lohnsteuer zu vergleichen können wir diese mit dem Befehl lines()
übereinander legen (siehe Heiss, Abschnitt 1.4.3):
par(pty = "s") # Erzeugt quadratische Grafik
plot(Lc(vz16$kz210),
main = "Konzentration von Einkommen und Lohnsteuer in Österreich",
xlab = "Anteil der ganzjährig Vollzeiterwerbstätigen",
ylab = "Anteil an der Gesamtsumme")
lines(Lc(vz16$kz210 - vz16$einblst - vz16$kz230), # Nettoeinkommen
col = "blue")
lines(Lc(vz16$einblst), # Lohnsteuer
col = "red")
# Legende: Siehe Heiss, Abschnitt 1.4.4
legend("topleft",
legend = c("Bruttoeinkommen", "Nettoeinkommen", "Lohnsteuer"),
fill = c("black", "blue", "red"))
Daraus kann man sehen, dass die Lohnsteuer stärker konzentriert ist als die Bruttoeinkommen, die Nettoeinkommen hingegen weniger stark konzentriert. Dies ist auf die progressive Gestaltung des Lohnsteuersystems zurückzuführen.
Um die Konzentration in einer statistischen Kennzahl auszudrücken berechnet man den Gini-Koeffizienten. Dieser entspricht dem Anteil der Fläche zwischen der Diagonale (der Lorenz-Kurve bei Gleichverteilung) und der Lorenz-Kurve an der gesamten Fläche unter der Diagonale. Dem entsprechend ist der Gini-Koefffizient gleich Null, wenn das Merkmal völlig gleichverteilt ist und nahe 1, wenn das Merkmal maximal konzentriert ist, d.h. eine statistische Einheit alles hat (siehe Fahrmeir et al., Abschnitt 2.3.1, für eine ausführliche Diskussion). Ein höherer Wert spricht daher für eine höhere Konzentration.
Hat man das Paket ineq
geladen, kann man den Gini-Koeffizienten mit der Funktion Gini()
sehr einfach berechnen:
(gini.ek.brutto = Gini(vz16$kz210))
## [1] 0.3056033
(gini.ek.netto = Gini(vz16$kz210 - vz16$einblst - vz16$kz230))
## [1] 0.2644021
(gini.lst = Gini(vz16$einblst))
## [1] 0.5619329
Auch anhand dieser kann man zeigen, dass die Nettoeinkommen weniger stark konzentriert sind als die Bruttoeinkommen, während die Lohnsteuerzahlungen relativ ungleich verteilt sind.