Datenaufbereitung

Lernziele


Am Ende des Kapitels

  • können Sie erhobene Werte/ Skalen für die Analyse vorbereiten
  • können Sie Likert-Skalen kodieren
  • kennen Sie Summenindices und Item-Mittelwerte und können diese berechnen
  • kennen Sie die unterschiedlichen Skalenniveaus und
  • können diese bestimmen und anwenden

Station PPDAC

Auswertung der Skalen


Sobald die Daten erhoben sind braucht es eine Aufbereitung dieser.

Meist werden die Konstrukte mittels Multi-Item-Messungen und Likert-Skalen erhoben.

Die Daten müssen nun sinnvoll zusammengefasst werden.

Mehrere Items, die dasselbe Konstrukt erfassen, werden zu einer Skala zusammengefasst.

Unterschieden werden: Summenindices und Mittelwertbildung nach Kodierung.

Inverse Items im PSQ


Am Beispiel des PSQ (perceived-stress-questionnaire) (Fliege et al., 2001).

Linke Spalte
Hier dein Text, Liste, etc.

Rechte Spalte
Ici la deuxième colonne.

::::


Item 14 “Sie haben Spaß” zeigt z.B. ein inverses Item.
Im Vergleich zu anderen Items z.B. Item 11 “Sie fühlen sich gehetzt” müsste die Antwortskala bei Item 14 eigentlich umgedreht sein. Diese werden final in der Datenaufbereitung umgedreht.

:::

Fliege, H., Rose, M., Arck, P., Levenstein, S. & Klapp, B. F. (2001). Validierung des “Perceived Stress Questionnaire” (PSQ) an einer deutschen Stichprobe. Diagnostica, 47, 142-152.

Inverse Items


Zur Auswertung werden die Werte “umgedreht”

  • 4 \(\rightarrow\) 1
  • 3 \(\rightarrow\) 2
  • 2 \(\rightarrow\) 3
  • 1 \(\rightarrow\) 4

Final haben hohe Werte aller Items dieselbe Bedeutung.

Inverse Items weden häufig als “Kontrollitem” eingesezt oder um umständliche Formulierungen zu vermeiden.

Kodierung


Nicht numerische Antworten müssen in Zahlen überführt werden,
die sog. Kodierung. Erst dann lassen sich die beobachteten Daten auswerten.

Beispiel Kodierung 5-stufige Likert-Skala

- „trifft gar nicht zu“ = 1  
- „trifft eher nicht zu“ = 2  
- „teils/teils“ = 3  
- „trifft eher zu“ = 4  
- „trifft voll zu“ = 5  

Summenidizes


Summenindizes:

Bsp.: 5 Items messen ein Konstrukt mit je 1 - 5 Punkten.

Addieren der Itemwerte; Skala reicht von 5 - 25.

Ein Summenindex entsteht, wenn mehrere inhaltlich zusammenhängende Likert-Items addiert werden, um ein Konstrukt wie Arbeitszufriedenheit oder Belastung als Gesamtscore abzubilden.

Beispiel Summenindex


Skala zur Erhebung “Allgemeine Arbeitszufriedenheit”

Fischer, L. & Lück, H.E. (2014). Allgemeine Arbeitszufriedenheit. Zusammenstellung sozialwissenschaftlicher Items und Skalen (ZIS). https://doi.org/10.6102/zis1

Mittelwertskala


Itemwerte der Befragten werden gemittelt.

Das Ergebnis bleibt auf ursprünglichen Skala, ist dadurch besser vergleichbar.

Items_Sorgen_gekreuzt:

Berechnung der 5 Items für “Sorgen”:

\(ItemMittelwert =\frac{3+2+4+4+2}{5} = 3\)

Skalenniveau


Die Skalenniveaus legen fest, welche Informationen die Daten beinhalten und welche statistische Auswertung zulässig und möglich sind.

Skalenniveaus ergeben sich aus den im Fragebogen verwendeten Antwortmöglichkeiten (Merkmalsausprägungen).

Übung - Skalenniveaus


Vergleichen Sie den Informationsgehalt der Antworten:

Wie alt sind Sie?

  1. Antwort: alt / jung
  2. Antwort: 18-25, 26-30, 31-35, 36-40
  3. Antwort: Tragen Sie Ihr heutiges Alter ganzzahlig ein.

Wie unterscheiden sich die Antworten?

Lösung: Übung - Skalenniveaus

Vergleichen Sie den Informationsgehalt der Antworten:

Kategoriale Skalenniveaus - Nominalskala

Kategoriale Skala, qualitativ


Nominal:

  • Merkmal ist in mind. zwei diskrete Kategorie (=Gruppen, Codierung) einzuteilen.
  • Beobachtet wird die Anzahl der auftretenden Kategorien.
  • Es können Häufigkeiten berechnet werden.
  • Bei diskreten Variablen sind keine Zwischenstufen möglich.
    Beispiel: Geschlecht (m,w,d), Augenfarbe (blau, grün, braun)

Beispiel Datensatz

Anbei fiktive Daten mit folgenden Variablen:

  • Beobachtung: P1–P12 (z. B. Studierende)
  • Studiengang: (Soziale Arbeit = SA, Pflege = PF, Public Health = PH) (nominal)
  • Zufriedenheit: (1 = sehr unzufrieden … 5 = sehr zufrieden) (ordinal)
  • Geburtsjahr: (intervall)
  • Sportstunden pro Woche (Angabe in h/ Wo.) (verhältnis)
Beobachtung Studiengang Zufriedenheit Geburtsjahr Sport[h/Wo.]
P1 SA 3 2002 2.5
P2 SA 4 2006 1.0
P3 PF 2 2005 0
P4 PH 5 2007 4.5
P5 SA 3 2001 3.5
P6 PF 1 1999 0
P7 PH 4 2006 5.0
P8 SA 2 2006 1.0
P9 PF 3 2005 0.5
P10 PH 5 2006 6.5
P11 SA 4 2004 2.5
P12 PF 3 2007 1.0

Bsp. Nominalskala

Studiengang Anzahl
SA 5
PF 4
PH 3
Summe 12

Fünf Beobachtungen studieren Soziale Arbeit, das entspricht \[\frac{5}{12} = 42\,\%\]

Berechnung der relativen und absoluten Häufigkeit, sowie der Vergleich der Anteile ist möglich.
Es studieren mehr Beobachtungen Soziale Arbeit (5/42%) als Public Health (3/25 %).

Kategoriale Skalenniveaus - Ordinalskala


Ordinal:

  • Ordinaldaten können in Reihen- oder Rangfolge gebracht werden.
  • Merkmale treten in vergleichbaren, diskreten Kategorien auf.
  • und lassen sich nach Intensität, Größe, Stärke o.ä. anordnen.
  • Mehr Informationen, als bei Nominaldaten; zur Häufigkeit kommt ein ordnendes Vergleichen dazu.
    Beispiel: Olympische Medaillen; Gold ist besser als Silber, Silber besser als Bronze), Bildungsabschlüsse

Köhler, Schachtel, Voleske (2007). Biostatistik, 4. Aufl., Springer

Bsp. Ordinalskala

Werte der Zufriedenheit: 3,4,2,5,3,1,…

  • Reihenfolge ist interpretierbar; 5 ist zufriedener als 1
  • Werte können sortiert werden
  • der Abstand zwischen den Werten ist nicht gleich groß

Häufigkeiten wie in bei nominalskalierten Werten ist eruierbar.

\(\frac{2}{12} = 16\,\%\) sind sehr zufrieden


Weitere Werte können bestimmt werden, wie z.B.der Median
\(x_{med} = 3\) und der häufigst vorkommende Wert (Modus).
\(x_{mod} = 3\).

Metrische Skalenniveaus - Intervallskala

Numerisch/ metrische Skala, quantitativ, kardinal

Merkmalsausprägungen können unterschieden und in eine Reihenfolge gebracht werden, die Abstände sind vergleichbar.


Intervallskala:

  • Abstände zwischen Merkmalen können eruiert werden und sind gleich und vergleichbar.
  • Gleiche Differenzen = Intervalle auf der Skala
  • Erlaubt zusätzlich der Rangordnung oder Anordnung (Ordinalskala) der Merkmale auch den Vergleich der Abstände zwischen den Ausprägungen
  • Nullpunkt gesetzt, bspw. Zeitrechnung (Jahr 0).
    Beispiel: Temperatur in ◦C ist intervallskaliert, Differenz der Skala entspricht der Differenz der Messwerte.
    Temperaturschwankungen von -3◦C und +6◦C im Winter und von +20◦C und +29◦C ist gleich groß – Differenz beträgt 9◦C.

Bsp. Intervallskala


Geburtsjahr: 2002, 2006, 2005, 2007 …

  • die Abstände sind gleich und interpretierbar
  • Werte können in Reihenfolge gebracht werden
  • kein natürlicher Nullpunkt
  • Differenz berechenbar

\(\bar{x} = \frac{2002 + 2006 + 2005 + 2007 + 2001 + 1999 + 2006 + 2006+ 2005 + 2006 + 2004 + 2007}{12} = 2004.5\)

Im Mittel sind die Studierenden der Stichprobe im Jahr 2004 geboren.
Weitere Statistiken sind bestimmbar; Median, Modus, Streuung…


Hieraus kann eine verhätlnisskalierte Variable berechnet werden, wie?

Metrische Skalenniveaus - Verhältnisskala


Verhältnisskala *

  • (absoluter/ natürlicher) Nullpunkt gegeben, bspw. Gewicht.
  • Aus Messwerten d. Verhältnisskala darf sowohl die Differenz, als auch der Quotient gebildet werden.
  • Während bei der Intervallskala Vergleich der Abstände (Intervalle) gemessener Werte sinnvoll ist, ist bei der Verhältnisskala auch der Vergleich (Quotient) sinnvoll.
  • Die sinnvolle Berechnung ist möglich, da Verhältnisskalen einen eindeutig festgelegten Nullpunkt haben.

Beispiel: Das Merkmal „Länge“ in cm genügt einer Verhältnisskala. Der Nullpunkt ist nicht willkürlich definierbar – daher sagt auch der Quotient etwas über das Längenverhältnis zweier Messwerte aus: 32 cm ist zweimal so lang wie 16 cm, der Quotient ist 2.

*auch Ratioskala

Bsp. Verhältnisskala

  • absoluter Nullpunkt (0 = kein Sport)
  • Verhältnisse sinnvoll: 2 h Sport = \(2 = \frac{4}{2}\)
  • Abstände gleich

\(Summe = 2.5 + 1 + 0 + 4.5 + 3.5 + 0 + 5 + 1 + 0.5 + 6.5 + 2.5 + 1 = 28\)

\(\bar{x} = \frac{28}{12} ≈ 2.3\) Stunden/Woche

Weitere Statistiken sind bestimmbar; Median, Modus, Streuung…

Variablentypen: stetig und diskret


Weitere Unterscheidung:

stetig: beliebige Zwischenwerte im Intervall sind möglich, bspw. Größe.


diskret: höchstens abzählbar viele Werte sind möglich, bspw. Anzahl Kinder

Übung : Skalenniveau Stundenlohn


Welches Skalenniveau hat die Variable Stundenlohn?

A. Kategorial nominal.
B. Kategorial ordinal.
C. Metrisch intervallskaliert.
D. Metrisch verhältnisskaliert.

Lösung: Übung - Skalenniveau Stundenlohn


Welches Skalenniveau hat die Variable Stundenlohn?

Übung : Skalenniveau Vorwahl


Welches Skalenniveau hat die Variable Telefonvorwahl?

A. Kategorial nominal.
B. Kategorial ordinal.
C. Metrisch intervallskaliert.
D. Metrisch verhältnisskaliert.

Lösung: Übung - Skalenniveau Vorwahl


Welches Skalenniveau hat die Variable Telefonvorwahl?

Skalen: Aussagen und Operationen


Je nach Skalenniveau sind unterschiedliche Aussagen und Operationen möglich.

  • Kategorial – nominal: \(=, \neq\)
  • Kategorial – ordinal: \(=, \neq, <,>\)
  • Numerisch – intervallskaliert: \(=, \neq, <,>, +,-\)
  • Numerisch – verhältnisskaliert: \(=, \neq, <,>, +,-, *, :\)