Another Silly Textbook for Stats

Authors
Affiliations

Universität Hohenheim

PH Schwäbisch Gmünd

Published

September 23, 2023

Kapitel 2: Datentypen und Skalenniveaus

1. Datentypen

In der statistischen Analyse begegnen uns verschiedene Arten von Daten, die jeweils unterschiedliche Informationen repräsentieren. Ein zentrales Konzept in der Statistik ist das einer Variable. Eine Variable kann als eine Eigenschaft oder ein Merkmal betrachtet werden, das unterschiedliche Werte oder Kategorien annehmen kann. Sie repräsentiert Informationen, die variieren oder sich ändern können. Zum Beispiel könnte die Frage “Wie alt sind Sie?” als Variable betrachtet werden, da das Alter von Person zu Person (in der Regel) variiert.

Zunächst unterscheiden wir zwischen kategorialen und numerischen Daten. Kategoriale Daten teilen Einheiten in bestimmte Kategorien oder Gruppen ein, ohne dabei eine quantitative Messung vorzunehmen. Ein klassisches Beispiel hierfür ist das (biologische) Geschlecht, bei dem die Kategorien “männlich” und “weiblich” sind. Ein anderes Beispiel könnte der Raucherstatus sein, bei dem die Kategorien “Raucher”, “Nichtraucher” und “Gelegenheitsraucher” unterschieden werden könnten.

Auf der anderen Seite haben wir numerische/metrische Daten, die quantitativ sind und gemessen oder gezählt werden können. Diese Art von Daten gibt uns spezifische Werte. Zum Beispiel könnten wir den Blutdruck von Patienten messen und Werte wie 120/80 mmHg erhalten. Ein weiteres Beispiel wäre die Anzahl der Krankenhausaufenthalte eines Patienten in einem Jahr, die als ganze Zahl, z.B. “3 Aufenthalte”, dargestellt werden könnte.

2. Skalenniveaus

Die Art und Weise, wie Daten gemessen und kategorisiert werden, wird durch ihr Skalenniveau bestimmt. Im Allgemeinen wird zwischen vier Skalenniveaus unterschieden: nominal, ordinal, intervall und verhältnis. Nominale und ordinale Daten sind kategoriale Daten, während intervall- und verhältnisskalierte Daten numerisch/metrisch sind. Jedes dieser Skalenniveaus hat spezifische Eigenschaften, die bestimmen, welche statistischen Analysen und Maße angewendet werden können.

Beginnen wir mit der Nominalskala. Daten, die auf einer Nominalskala gemessen werden, sind kategorial und haben keine natürliche Reihenfolge. Das Geschlecht, das wir zuvor erwähnt haben, ist ein gutes Beispiel für nominal skalierte Daten. Hier können wir nicht sagen, dass eine Kategorie “höher” oder “besser” ist als die andere.1 Die Blutgruppen A, B, AB und O oder die politische Parteipräferenz sind ein weiteres Beispiel für nominal skalierte Daten. Ein weiteres Beispiel aus dem Alltag wäre die Kategorisierung von Büchern nach Genres wie Roman, Science-Fiction, Sachbuch oder Biografie. Wiederum gibt es keine Rangordnung zwischen diesen Genres; sie dienen lediglich dazu, die Bücher in verschiedene Kategorien einzuteilen.

  • 1 Ich sehe schon wie ein Teil der Leserschaft hier grinst. Auch wenn Sie persönlich der Ansicht sind das eine Kategorie besser/größer/schneller/gesünder als eine andere ist, enspricht dies bestimmt keiner natürlichen Ordnung, sondern ist eben nur Ihre persönliche Meinung…belassen wir es dabei.

  • Als nächstes haben wir die Ordinalskala. Daten, die auf dieser Skala gemessen werden, haben eine bestimmte Reihenfolge, aber der Abstand zwischen den Kategorien ist nicht definiert. Ein gutes Beispiel hierfür sind Schmerzstufen. Ein Patient könnte seinen Schmerz als “leicht”, “mittel” oder “stark” beschreiben. Während wir wissen, dass “starker” Schmerz intensiver ist als “leichter” Schmerz, können wir nicht quantifizieren, wie viel “stärker” er ist.

    Die Intervallskala bietet uns eine klare Reihenfolge und gleichmäßige Abstände zwischen den Werten, hat jedoch keinen echten Nullpunkt. Ein gängiges Beispiel hierfür ist die Temperaturmessung in Grad Celsius. Während der Abstand zwischen 10°C und 20°C dem Abstand zwischen 20°C und 30°C entspricht, gibt es keinen absoluten Nullpunkt, der das Fehlen von Temperatur anzeigt. 0°C ist nicht das Fehlen von Temperatur, sondern die Temperatur, bei der Wasser gefriert.2 Streng genommen kann man somit auch nicht sagen, dass 20°C doppelt so warm ist wie 10°C auch wenn dies im alltagsprachlichen Gebrauch durchaus üblich sein kann.

  • 2 Ja, wir wissen, dass es auch die Kelvin-Skala gibt (die tatsächlich eine Verhältnisskala ist, wobei 0 Kelvin auch wirklich keine thermische Energie bedeutet), aber die ist für die meisten Menschen nicht intuitiv und wird in der alltagsweltlichen Praxis kaum verwendet.

  • Schließlich haben wir das höchste Skalenniveau, die Verhältnisskala, die wie die Intervallskala funktioniert, aber einen echten Nullpunkt hat. Das Körpergewicht in Kilogramm ist ein Beispiel dafür. Ein Gewicht von 0 kg bedeutet das Fehlen von Gewicht, und wir können sagen, dass jemand, der 60 kg wiegt, doppelt so schwer ist wie jemand, der 30 kg wiegt. Ein anderes Beispiel wäre die Anzahl der Krankenhausaufenthalte eines Patienten in einem Jahr. Wenn ein Patient 0 Aufenthalte hat, bedeutet dies, dass er/sie nicht im Krankenhaus war. Wenn ein Patient 2 Aufenthalte hat, bedeutet dies, dass er/sie doppelt so viele Aufenthalte hatte wie ein Patient mit 1 Aufenthalt.

    Sonderfall: Quasi-metrische Variablen

    Quasi-metrische Variablen sind ein interessantes und oft diskutiertes Konzept in der Forschungspraxis. Sie bezeichnen Daten, die ursprünglich auf einer ordinalen Skala gemessen wurden, aber in der Analyse wie metrische Daten behandelt werden. Das bedeutet, obwohl die Daten ursprünglich nur eine Rangordnung ohne gleichmäßige Abstände zwischen den Werten hatten, werden sie so behandelt, als gäbe es gleichmäßige Abstände.

    Ein klassisches Beispiel für quasi-metrische Variablen sind (sogenannte) Likert-Skalen3, die häufig in Umfragen verwendet werden. Ein Befragter könnte gebeten werden, seine Zustimmung zu einer Aussage auf einer Skala von 1 („stimme überhaupt nicht zu“) bis 5 („stimme voll und ganz zu“) anzugeben. Obwohl diese Skala ordinal ist, da sie nur eine Rangordnung der Zustimmung des Befragten darstellt, könnte sie in der Analyse als quasi-metrisch behandelt werden, indem angenommen wird, dass der Abstand zwischen den Werten gleichmäßig ist.

  • 3 Eigentlich muss für eine Likert-Skala auch eine formales Verfahren der Likert-Skalierung vorgenommen werden, aber in der breiten Forschungspraxis spricht man heutzutage von einer Likert-Skala, wenn ein Statement auf einer ab 5-stufigen Einschätzungsskala bewertet werden soll. Dies kann man gut oder schlecht finden – so ist es nuneimal.

  • In der Forschungspraxis ist der Umgang mit quasi-metrischen Variablen oft Gegenstand von Debatten. Befürworter argumentieren, dass die Behandlung solcher Variablen als metrisch die Analyse vereinfacht und zu robusten Ergebnissen führt, insbesondere wenn die Datenverteilung annähernd normal ist. Kritiker hingegen betonen, dass dies zu Fehlinterpretationen führen kann, da die Annahme gleichmäßiger Abstände nicht immer gerechtfertigt ist.

    Es ist wichtig, bei der Verwendung von quasi-metrischen Variablen in der Forschung vorsichtig zu sein. Forscher sollten sich der Annahmen bewusst sein, die sie treffen, und die möglichen Auswirkungen auf ihre Ergebnisse berücksichtigen. Es kann auch hilfreich sein, sowohl ordinal basierte als auch metrisch basierte Analysen durchzuführen, um die Robustheit der Ergebnisse zu überprüfen. Letztlich hängt die Entscheidung, wie man mit quasi-metrischen Variablen umgeht, von der spezifischen Forschungsfrage, den Daten und dem Kontext ab. Als Daumenregel für die Forschungspraxis lässt sich allerdings sagen, dass man eine Ordinalskala dann als metrische Skala behandeln kann, wenn die Skala mindestens 5 Stufen aufweist und zumindest eine semantische Äquidistanz (“Gleichabständlichkeit”) zwischen den einzelnen Kategorien angenommen werden kann.4

  • 4 Diese Daumenregel ist nicht unumstritten. Es gibt auch Forscher, die eine Ordinalskala erst dann als metrische Skala behandeln, wenn die Skala mindestens 7 Stufen aufweist. Dies ist aber eher eine Ausnahme. Simulationsstudien anhand von Monte-Carlo-Experimenten haben allerdings wiederholt gezeigt, dass die Daumenregel mit 5 Stufen in den meisten Fällen zu robusten Ergebnissen führt.

  • 3. Bedeutung für die Gesundheitsforschung

    In der Gesundheitsforschung ist es entscheidend, das richtige Skalenniveau zu erkennen und zu verwenden. Dies beeinflusst:

    Statistische Analysen: Verschiedene Tests und Modelle erfordern bestimmte Skalenniveaus. Zum Beispiel sind t-Tests für intervall- oder verhältnisskalierte Daten geeignet, während der Chi-Quadrat-Test für nominale Daten verwendet wird. Generell gilt, je höher das Skalenniveau (wobei nominal die niedrigste und verhaltlnisskala das höchste wären) desto mehr und komplexere statistische Analysen können durchgeführt werden. Dies soll aber nicht bedeuten, dass ein höheres Skalenniveau immer besser ist. Es ist immer wichtig, das richtige Skalenniveau für die jeweilige Forschungsfrage und den jeweiligen Sachverhalt, welchen man abbilden will zu verwenden.5

  • 5 Tatsächlich lassen sich in der Sozialforschung Beispiele finden, für welche eine zu hoher Grad an Differenzierung zu unzuverlässigeren Messungen führt. So können Befragte auf einer sogenannten 5-stufigen Ratingskala (1 = “stimme überhaupt nicht zu” bis 5 = “stimme voll und ganz zu”) noch eine klare Einstufung vornehmen. Bei einer 10-stufigen Ratingskala (1 = “stimme überhaupt nicht zu” bis 10 = “stimme voll und ganz zu”) wird es schon schwieriger. Bei einer 100-stufigen Ratingskala (1 = “stimme überhaupt nicht zu” bis 100 = “stimme voll und ganz zu”) wird es dann schon sehr schwierig. Die Befragten werden dann eher zufällig antworten, da sie die feinen Unterschiede zwischen den einzelnen Stufen nicht mehr wahrnehmen können. Dies führt dann zu einer geringeren Zuverlässigkeit der Messung. In diesem Fall wäre eine 5-stufige Ratingskala die bessere Wahl.

  • Interpretation der Ergebnisse: Das Verständnis des Skalenniveaus hilft Forschern, ihre Ergebnisse korrekt zu interpretieren und entsprechende (hoffentlich korrekte) Schlussfolgerungen zu ziehen.

    Datensammlung: Bei der Erhebung von Daten müssen Forscher entscheiden, wie sie ihre Messungen skalieren und kategorisieren wollen, um genaue und nützliche Informationen zu erhalten. Zentral ist hierbei die Frage, ob die Daten numerisch oder kategorial sein sollen. Wenn sie numerisch sein sollen, müssen Forscher entscheiden, ob sie eine Intervall- oder Verhältnisskala verwenden wollen. Wenn sie kategorial sein sollen, müssen sie entscheiden, ob sie eine Nominal- oder Ordinalskala verwenden wollen. Wird ein zu niedriges Skalenniveau angesetzt, geht dies mit einem Informationsverlust einher.6 Wird allerdings unpassender Weise ein zu hohes Skalenniveau angesetzt, kann dies zu falschen Schlussfolgerungen führen.

  • 6 Solch ein Informationsverlust kann durchaus gewünscht sein. Wenn die jeweilige Forschungsfrage keine feine Differnzierung verlangt, besteht auch nicht die Notwendigkeit diese messtechnisch einzuführen.

  • 4. Zusammenfassung

    Datentypen und Skalenniveaus sind nicht nur theoretische Konzepte, sondern bilden das Fundament jeder wissenschaftlichen Untersuchung, auch in der Gesundheitsforschung. Sie bestimmen, wie Daten erfasst, analysiert und interpretiert werden, und haben somit direkten Einfluss auf die Qualität und Zuverlässigkeit der Forschungsergebnisse.

    Ein tieferes Verständnis dieser Konzepte ermöglicht es Forschern, ihre Studien sorgfältig zu planen und sicherzustellen, dass die gewählten Methoden und Techniken den spezifischen Anforderungen ihrer Forschungsfragen entsprechen. Zum Beispiel kann die Wahl des richtigen Skalenniveaus dazu beitragen, Verzerrungen zu vermeiden, die Genauigkeit der Ergebnisse zu erhöhen und sicherzustellen, dass die gewonnenen Erkenntnisse in der Praxis anwendbar sind.

    Darüber hinaus spielt das Skalenniveau eine entscheidende Rolle bei der Kommunikation von Forschungsergebnissen. Es hilft, die Ergebnisse in einem Kontext zu präsentieren, der für andere Forscher, Fachleute im Gesundheitswesen und die breite Öffentlichkeit verständlich und nachvollziehbar ist. Dies ist besonders wichtig in einem Bereich wie der Gesundheitsforschung, wo die Ergebnisse oft direkte Auswirkungen auf die Patientenversorgung, gesundheitspolitische Entscheidungen und öffentliche Gesundheitsinitiativen haben können.

    Abschließend ist es wichtig zu betonen, dass die Wahl des richtigen Datentyps und Skalenniveaus nicht nur eine technische Entscheidung ist, sondern auch eine ethische. Falsche oder irreführende Ergebnisse aufgrund einer unangemessenen Datenkategorisierung können zu fehlerhaften Schlussfolgerungen führen, die letztlich das Wohl der Patienten und der Gesellschaft beeinträchtigen können. Daher ist es von größter Bedeutung, dass Forscher in der Gesundheitsforschung stets bestrebt sind, ihre Kenntnisse in diesem Bereich zu vertiefen und ihre Methoden kontinuierlich zu reflektieren und zu verbessern.


    Kapitel X: Maße der Zentralen Tendenz

    Stellen Sie sich vor, Sie betreten einen Raum voller Menschen. Einige sind groß, andere klein, manche tragen Brillen, andere nicht. Wie würden Sie die durchschnittliche Größe oder das häufigste Merkmal beschreiben? In der Welt der Statistik verwenden wir zentrale Tendenzen, um solche “Durchschnitte” oder “Häufigkeiten” zu beschreiben.

    In der Gesundheitsforschung, wo es oft darum geht, riesige Mengen an Patientendaten zu analysieren, sind diese Maße unerlässlich. Ob es darum geht, den durchschnittlichen Blutdruck einer Patientengruppe zu bestimmen, das häufigste Symptom einer Krankheit zu identifizieren oder das mittlere Alter von Patienten in einer Studie zu ermitteln – zentrale Tendenzen helfen uns, ein klares Bild von unseren Daten zu bekommen.

    Diese statistischen Werkzeuge – der Mittelwert, der Median und der Modus – ermöglichen es uns, einen klaren Überblick über eine Datensammlung zu erhalten. Sie zeigen uns, wo die “Mitte” unserer Daten liegt und bieten einen Ausgangspunkt für weiterführende Analysen.

    In diesem Kapitel werden wir uns mit diesen drei zentralen Maßen beschäftigen, ihre Bedeutung erläutern und ihre Anwendung in der Gesundheitsforschung hervorheben. Durch ein tieferes Verständnis dieser Konzepte können wir die Qualität und Präzision unserer Forschung weiter verbessern.

    1. Durchschnitt (Mittelwert/Mean)

    Der Durchschnitt, oft auch als Mittelwert bezeichnet, ist das gebräuchlichste Maß der zentralen Tendenz. Er wird berechnet, indem alle Datenpunkte addiert und durch die Anzahl der Datenpunkte geteilt werden. Die Formel lautet:7

  • 7 Das Summenzeichen, oft durch das griechische Buchstaben-Symbol “Σ” (Sigma) dargestellt, ist ein mathematisches Symbol, das einfach gesagt “addiere alles zusammen” bedeutet. Es ist ein kurzer Weg, um zu sagen, dass man eine Gruppe von Zahlen oder Werten nehmen und sie alle zusammenzählen soll. In der Mathematik und Statistik wird das Summenzeichen oft verwendet, um lange Reihen von Zahlen oder Datenpunkten schnell und effizient zu addieren bzw. diesen Prozess abzubilden. Es mag auf den ersten Blick einschüchternd aussehen, besonders wenn es in komplexen Formeln verwendet wird, aber im Kern ist es nur ein Symbol für das einfache Konzept des Zusammenzählens. Es ist wie ein freundlicher Helfer/Zeichen, der/das Ihnen sagt: “Lass uns all diese Dinge aufaddieren!” Es ist ein nützliches Werkzeug, das den mathematischen Prozess vereinfacht und uns hilft, Dinge effizienter zu betrachten und darzustellen. Also lassen sie sich nicht vom Summenzeichen \(\sum_{i=1}^{n}\) einschüchtern – es ist im Grunde genommen nur eine vereinfachte Schreibweise für \(x_1 + x_2 + x_3 + ... + x_n\).

  • \[ \text{Durchschnitt} = \frac{\sum_{i=1}^{n} x_i}{n} \]

    • \(x_i\) sind die einzelnen Datenpunkte.
    • \(n\) ist die Anzahl der Datenpunkte.

    Der Durchschnitt gibt uns eine Vorstellung davon, wo die Daten im Durchschnitt liegen. Es ist jedoch wichtig zu beachten, dass Ausreißer (extreme Werte) den Durchschnitt stark beeinflussen können.

    2. Median

    Der Median ist der Wert, der die Daten in zwei Hälften teilt: die eine Hälfte der Daten liegt über dem Median, die andere Hälfte darunter. Um den Median zu berechnen, müssen die Daten zuerst in aufsteigender Reihenfolge sortiert werden, und dann wird der mittlere Wert ausgewählt. Wenn es eine gerade Anzahl von Datenpunkten gibt, wird der Median als Durchschnitt der beiden mittleren Werte berechnet.

    Der Median ist robust gegenüber Ausreißern, da er nicht von extremen Werten beeinflusst wird. Wenn Sie eine robuste Schätzung der zentralen Tendenz benötigen, ist der Median oft die bessere Wahl.

    3. Modus

    Der Modus ist der Wert, der in einer Datensammlung am häufigsten vorkommt. Es ist möglich, dass es mehrere Modi gibt (bimodal, trimodal usw.), oder es gibt keinen Modus, wenn alle Werte eindeutig sind.

    Der Modus ist besonders nützlich bei kategorialen Daten oder diskreten Daten mit einer begrenzten Anzahl von möglichen Werten. Bei kontinuierlichen Daten ist der Modus möglicherweise weniger relevant.

    Wahl des geeigneten Maßes der zentralen Tendenz

    Die Wahl des geeigneten Maßes der zentralen Tendenz hängt von der Art der Daten und dem Analyseziel ab. Hier sind einige Richtlinien:

    • Verwenden Sie den Durchschnitt, wenn die Daten symmetrisch verteilt und nicht zu stark von Ausreißern betroffen sind.

    • Verwenden Sie den Median, wenn die Daten nicht normal verteilt sind oder Ausreißer vorhanden sind.

    • Verwenden Sie den Modus, wenn Sie nach dem am häufigsten auftretenden Wert suchen, insbesondere in kategorialen Daten.

    Das Skalenniveau der Daten bestimmt, welche Maße der zentralen Tendenz angemessen und interpretierbar sind. Es gibt vier Hauptskalenniveaus: nominal, ordinal, intervall und verhältnis. Jedes dieser Skalenniveaus hat spezifische Eigenschaften (vergleichen Sie dazu auch das entsprechende Kapitel dieses Buches), die bestimmen, welche statistischen Analysen und Maße angewendet werden können.

    1. Nominalskala: Bei dieser Skala handelt es sich um kategoriale Daten ohne natürliche Reihenfolge. Beispiele sind Geschlecht, Haarfarbe oder Blutgruppe. Für nominalskalierte Daten ist der Modus das geeignete Maß der zentralen Tendenz.

    2. Ordinalskala: Hier gibt es eine klare Reihenfolge der Kategorien, aber der Abstand zwischen den Kategorien ist nicht definiert. Beispiele sind Bildungsniveau oder Schmerzstufen. Für ordinalskalierte Daten können sowohl der Median als auch der Modus verwendet werden.

    3. Intervallskala: Bei dieser Skala gibt es sowohl eine klare Reihenfolge als auch gleichmäßige Abstände zwischen den Werten, aber es gibt keinen echten Nullpunkt. Ein Beispiel ist die Temperatur in Grad Celsius. Für intervallskalierte Daten sind der Mittelwert, der Median und der Modus alle geeignet.

    4. Verhältnisskala: Dies ist ähnlich wie die Intervallskala, aber es gibt einen echten Nullpunkt. Beispiele sind Gewicht, Höhe oder Einkommen. Für verhältnisskalierte Daten sind ebenfalls der Mittelwert, der Median und der Modus geeignet.

    Es ist wichtig zu betonen, dass die Wahl des Maßes der zentralen Tendenz nicht nur vom Skalenniveau, sondern auch von der Verteilung der Daten und dem spezifischen Forschungskontext abhängt. In der Gesundheitsforschung, wo Daten oft aus klinischen Messungen, Umfragen und Beobachtungen stammen, ist es entscheidend, das richtige Skalenniveau zu erkennen und das entsprechende Maß der zentralen Tendenz anzuwenden.

    4. Beispiele und Anwendungen

    Beispiel 1: Durchschnitt/Mittelwert/Mean

    Nehmen wir an, wir haben die Blutzuckerwerte von fünf Patienten: 85, 90, 130, 92 und 88. Der Durchschnitt dieser Werte wäre:

    \[ \text{Durchschnitt} = \frac{85 + 90 + 130 + 92 + 88}{5} = 97 \]

    Das bedeutet, dass die durchschnittliche Blutzuckerwert der Patienten 97 beträgt.

    Zusatzinfo: Der Mittelwert (Mean) bei dichotomen Variablen

    Dichotome Variablen sind solche, die nur zwei mögliche Werte annehmen können, oft kodiert als 0 und 1. Ein klassisches Beispiel ist die (biologische) Geschlechtsvariable, bei der 1 für “männlich” und 0 für “weiblich” stehen könnte. Wenn wir den Mittelwert einer solchen dichotomen Variable berechnen, erhalten wir nicht einfach einen “durchschnittlichen” Wert im herkömmlichen Sinne. Stattdessen gibt der Mittelwert den Prozentsatz oder die Wahrscheinlichkeit des Auftretens des Wertes “1” in der Stichprobe an.

    Zum Beispiel: Wenn wir eine Stichprobe von 100 Personen haben und der Mittelwert für eine dichotome Variable, die das Rauchen (1 für Raucher, 0 für Nichtraucher) kodiert, 0,3 beträgt, bedeutet dies, dass 30% der Personen in der Stichprobe Raucher sind.In diesem Sinne kann der Mittelwert einer dichotomen Variable als ein Maß für die “Häufigkeit” oder “Prävalenz” des Wertes “1” in der Stichprobe interpretiert werden.

    Beispiel 2: Median

    Betrachten Sie die gleichen Testergebnisse: 85, 90, 130, 92 und 88. Wenn wir diese Werte sortieren, erhalten wir: 85, 88, 90, 92, 130. Der Median ist der mittlere Wert, also 90.

    Beispiel 3: Modus

    Stellen Sie sich eine Umfrage vor, in der Kinder nach ihrer Lieblingsfarbe gefragt werden. Die Ergebnisse könnten so aussehen: Rot, Blau, Grün, Blau, Gelb, Blau, Rot. Der Modus dieser Daten ist “Blau”, da dieser Wert am häufigsten vorkommt.

    5. Vorteile und Einschränkungen

    Durchschnitt (Mittelwert/Mean):

    Vorteile:

    • Einfach zu berechnen und zu verstehen.
    • Nutzbar für weiterführende statistische Analysen wie die Varianz oder den Standardfehler.

    Einschränkungen:

    • Kann durch extreme Werte oder Ausreißer stark beeinflusst werden.
    • Da extereme Werte (besonders kleine oder besonders große Werte) den Mittelwert stark beeinflussen, gibt der Mitteltwert nicht immer ein genaues Bild der Datenverteilung wieder. Dies gilt insbesondere wenn die Daten eine schiefe Verteilung aufweisen.
    • Kann irreführend sein, wenn die Daten mehrere Cluster oder Peaks haben. Ein Beispiel hierfür findet sich in Figure 1. In diesem Fall kann der Mittelwert nur schwerlich als “typischer” Wert angesehen werden, da sogut wie keine Fälle an diesem Mittelwert vorhanden sind.

    Figure 1: Visualisierung einer bimodalen Verteilung mit Mittelwert

    Median:

    Vorteile:

    • Robust gegenüber Ausreißern und extremen Werten.
    • Gibt ein zentrales Maß der Datenverteilung an, unabhängig von der Form der Verteilung.

    Einschränkungen:

    • Kann weniger informativ sein, wenn die Daten viele wiederholte Werte haben.
    • Bei (sehr) großen Datensätzen kann die Berechnung des Medians zeitaufwendig sein, da die Daten zuerst sortiert werden müssen.
    • Gibt nicht immer den “typischen” Wert an, insbesondere wenn die Daten bimodal8 sind.
  • 8 Der Begriff “bimodal” bezieht sich auf eine Verteilung von Daten, die zwei verschiedene Spitzen oder Höhepunkte aufweist. In anderen Worten, es gibt zwei verschiedene Werte oder Bereiche in den Daten, die am häufigsten vorkommen. Dies kann darauf hinweisen, dass es zwei verschiedene Gruppen oder Typen innerhalb der Daten gibt. Ein klassisches Beispiel könnte die Größe von Menschen sein, bei der es zwei Spitzen gibt: eine für Männer und eine für Frauen, wenn beide Geschlechter in der Stichprobe gemischt sind.

  • Modus:

    Vorteile:

    • Kann für kategoriale, nominale und diskrete Daten verwendet werden.
    • Zeigt den am häufigsten vorkommenden Wert in einem Datensatz.

    Einschränkungen:

    • Bei kontinuierlichen Daten kann es schwierig sein, einen genauen Modus zu bestimmen.
    • Es kann mehrere Modi geben, was zu Verwirrung führen kann.
    • Nicht immer vorhanden, besonders wenn alle Datenwerte einzigartig sind.
    • Kann nicht für weiterführende statistische Analysen verwendet werden, da er nicht auf einer mathematischen Formel basiert.

    Durch das Verständnis der Vorteile und Einschränkungen jedes Maßes der zentralen Tendenz können Forscher und Analysten fundierte Entscheidungen darüber treffen, welches Maß am besten für ihre spezifische Analyse geeignet ist. Es ist wichtig, diese Maße im Kontext der gesamten Datenverteilung und in Kombination mit anderen statistischen Werkzeugen zu betrachten.

    Figure 2: Visualisierung der Maße der zentralen Tendenz bei verschiedenen Verteilungen

    6. Zusammenfassung

    Die Maße der zentralen Tendenz sind grundlegende statistische Werkzeuge, die uns helfen, die zentrale Lage einer Datensammlung zu verstehen. Jedes Maß hat seine eigenen Vorteile und Einschränkungen, und die Wahl des richtigen Maßes hängt von der spezifischen Situation und den Daten ab. Es ist wichtig, diese Maße im Kontext zu betrachten und sie in Kombination mit anderen statistischen Methoden zu verwenden, um ein umfassendes Verständnis der Daten zu erhalten.


    Kapitel X: Varianz

    Die Varianz ist ein grundlegendes statistisches Maß, das uns sagt, wie stark die Daten in einem Datensatz um den Durchschnitt (oder das Mittel) streuen. Mit anderen Worten, es misst die Abweichung der Datenpunkte vom Durchschnittswert. Wenn die Varianz hoch ist, bedeutet das, dass die Datenpunkte weit vom Durchschnitt entfernt liegen. Ist die Varianz niedrig, liegen die Datenpunkte nahe am Durchschnitt. Die Varianz ist nicht nur ein Maß für die Streuung der Daten, sie ist auch ein grundlegendes Maß für den Informationsgehalt einer Variablen. In der Tat kann ohne Varianz in der Statistik nichts erklärt werden.

    Stellen Sie sich vor, Sie haben eine Variable, die den gleichen Wert für alle Beobachtungen in Ihrem Datensatz hat. Diese Variable hat eine Varianz von Null, da es keine Streuung um den Mittelwert gibt - alle Werte sind gleich dem Mittelwert. Aber was sagt uns diese Variable wirklich? Da sie keine Varianz hat, gibt sie uns keine zusätzlichen Informationen über die Beobachtungen in unserem Datensatz. Sie kann nicht verwendet werden, um Unterschiede zwischen Beobachtungen zu erklären oder um Vorhersagen zu treffen. In diesem Sinne ist eine Variable ohne Varianz tatsächlich keine Variable, sondern eine Konstante.

    Umgekehrt gibt eine Variable mit hoher Varianz uns viele Informationen. Sie zeigt uns, dass es Unterschiede zwischen den Beobachtungen gibt und diese Unterschiede können wir quantifizieren, potenziell erklären und auf ihre (kausalen9) Ursachen zurückführen. In der statistischen Analyse und Modellierung nutzen wir diese Unterschiede, um Muster zu erkennen, Hypothesen zu testen und Vorhersagen zu machen.

  • 9 Achtung! Das böse Wort Kausalität, jeder Würde-Gern-Aber-Kann-Nicht wird versuchen sie dafür zu kritisieren. Stehen Sie darüber, beschwichtigen Sie, argumentieren Sie und greifen Sie weiter nach den Sternen!

  • In diesem Sinne ist die Varianz ein grundlegendes Konzept in der Statistik und der Datenanalyse. Sie ist ein Maß für die Menge an Information, die eine Variable enthält, und ohne sie könnten wir keine statistischen Analysen durchführen oder sinnvolle Schlussfolgerungen aus unseren Daten ziehen. Es ist daher wichtig, die Varianz und ihre Rolle in der Statistik zu verstehen.

    Berechnung der Varianz

    Die Varianz wird berechnet, indem man die quadratischen Abweichungen jeder Zahl in dem Satz vom Durchschnitt nimmt und dann den Durchschnitt dieser quadrierten Abweichungen berechnet. Die Formel zur Berechnung der Varianz (\(s^2\)) für eine Stichprobe ist:

    \[ s^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1} \]

    wobei:

    • \(x_i\) ist jeder einzelne Wert in der Stichprobe,

    • \(\bar{x}\) ist der Durchschnittswert der Stichprobe,

    • \(n\) ist die Anzahl der Werte in der Stichprobe.

    Zusatzinfo

    Die Formel für die Varianz verwendet \(n-1\) anstelle von \(n\) in der Berechnung, wenn es sich um eine Stichprobe handelt, und dies wird als “Bessel’sche Korrektur” bezeichnet. Die Begründung dafür liegt in der Unterscheidung zwischen einer Stichprobe und einer Population.Wenn wir Daten von einer gesamten Population haben (also von jedem einzelnen Mitglied einer Gruppe, über die wir Informationen sammeln möchten), dann verwenden wir \(n\) in der Formel zur Berechnung der Varianz.Wenn wir jedoch Daten von einer Stichprobe haben (also nur von einer Untergruppe der Population), dann verwenden wir \(n-1\) in der Formel. Der Grund dafür ist, dass eine Stichprobe dazu neigt, die Varianz der gesamten Population zu unterschätzen, weil sie in der Regel weniger streut als die Population. Indem wir durch \(n-1\) anstelle von \(n\) teilen, erhöhen wir die berechnete Varianz ein wenig, um diesen Unterschied auszugleichen. Dies wird als “Bessel’sche Korrektur” bezeichnet und hilft, ein unverzerrtes Schätzer für die Populationsvarianz zu erhalten. In der Praxis bedeutet dies, dass, wenn wir die Varianz von Stichprobendaten berechnen, wir die Bessel’sche Korrektur verwenden und durch \(n-1\) teilen. Wenn wir die Varianz von Populationsdaten berechnen, teilen wir durch \(n\).

    Das Quadrieren der Abweichungen bei der Berechnung der Varianz kann zu einem Problem führen, da es die Werte auf eine andere Skalenebene bringt, als die ursprünglichen Daten. Dies kann in einigen Situationen zu einer unverhältnismäßigen Gewichtung von Ausreißern oder extremen Werten führen und die Interpretation der Varianz erschweren. Aufgrund dieser Probleme entscheiden sich manche Statistiker und Forscher10 dafür, alternative Maße zu verwenden, die nicht die Quadrate der Abweichungen beinhalten, wie zum Beispiel den sogenannten mittleren absoluten Fehler (MAE) oder den interquartilen Bereich (IQR). Diese Maße bieten oft eine robustere Schätzung der Streuung und sind weniger anfällig für Ausreißer und Skalenunterschiede.

  • 10 Fairer Weise muss man dazu sagen, dass einige Statistiker ziemliche Pedanten sind und sowieso immer alles besser wissen. Und nein, wir gehören nicht dazu, …hüstel…

  • Beispiel: Varianz in der Gesundheitsforschung

    In der Gesundheitsforschung ist die Varianz besonders nützlich, um die Streuung von Messungen wie Körpergröße, Blutdruck oder BMI zu verstehen. Angenommen, wir haben die folgenden BMI-Daten für zwei Gruppen von Patienten, Gruppe A und Gruppe B:

    • Gruppe A: [22, 25, 27, 28, 29, 30, 32, 33, 34, 36]
    • Gruppe B: [27, 28, 28, 29, 29, 30, 30, 30, 31, 31]

    In R können wir die Varianz für jede Gruppe mit der Funktion var() berechnen:

    BMI_A <- c(22, 25, 27, 28, 29, 30, 32, 33, 34, 36)
    BMI_B <- c(27, 28, 28, 29, 29, 30, 30, 30, 31, 31)
    
    variance_A <- var(BMI_A)
    variance_B <- var(BMI_B)
    
    print(paste("Die Varianz des BMI in Gruppe A ist: ", variance_A))
    [1] "Die Varianz des BMI in Gruppe A ist:  18.4888888888889"
    print(paste("Die Varianz des BMI in Gruppe B ist: ", variance_B))
    [1] "Die Varianz des BMI in Gruppe B ist:  1.78888888888889"

    Figure 3: Visualisierung der Varianz der Gruppen

    In diesem Beispiel könnten wir dann die berechneten Varianzwerte verwenden, um die Streuung des BMI in den beiden Gruppen zu vergleichen. Wenn zum Beispiel die Varianz in Gruppe A größer ist als in Gruppe B, weißt dies darauf hin, dass es in Gruppe A eine größere Vielfalt an BMI-Werten gibt, während die BMI-Werte in Gruppe B näher zusammenliegen.

    Verwendung der Varianz

    • Messung der Streuung: Wie bereits erwähnt, ist die Varianz ein Maß für die Streuung von Daten. Sie gibt an, wie weit die Datenpunkte im Durchschnitt vom Mittelwert entfernt sind. Dies kann helfen, den Kontext für den Durchschnittswert zu liefern. Beispielsweise könnten zwei Datensätze den gleichen Durchschnitt haben, aber wenn einer eine höhere Varianz hat, bedeutet das, dass die Datenpunkte in diesem Satz weiter vom Durchschnitt entfernt liegen.

    • Vorhersage und Modellierung: In der statistischen Modellierung und der Vorhersageanalyse ist die Varianz eine Schlüsselkomponente. Viele Modelle, einschließlich der meisten maschinellen Lernalgorithmen, basieren auf der Annahme, dass die Daten eine bestimmte Varianz aufweisen. Wenn die tatsächliche Varianz der Daten stark von dieser Annahme abweicht, funktioniert das Modell möglicherweise nicht gut.

    • Qualitätskontrolle: In der Qualitätskontrolle und im Prozessmanagement wird die Varianz verwendet, um zu messen, wie konsequent ein Prozess ist. Wenn die Varianz über die Zeit zunimmt, kann das ein Anzeichen dafür sein, dass der Prozess weniger stabil wird und dass Maßnahmen zur Verbesserung der Qualität erforderlich sind.

    • Risikobewertung: In der Finanz- und Versicherungsmathematik wird die Varianz zur Risikobewertung herangezogen. Eine höhere Varianz kann auf ein höheres Risiko hinweisen, während eine niedrigere Varianz auf ein niedrigeres Risiko hindeuten kann.

    Es ist wichtig zu beachten, dass die Varianz allein nicht immer ein vollständiges Bild von den Daten gibt. Oft wird sie zusammen mit anderen Maßnahmen wie dem Durchschnitt und der Standardabweichung (die Quadratwurzel der Varianz) verwendet, um ein vollständigeres Verständnis der Daten zu erlangen.

    Zusammenfassung

    Die Varianz ist ein Schlüsselkonzept in der Statistik, das uns hilft zu verstehen, wie stark die Daten um den Durchschnitt streuen. Es ist wichtig zu verstehen, dass eine hohe Varianz bedeutet, dass die Datenpunkte weit vom Durchschnitt entfernt sind, während eine niedrige Varianz bedeutet, dass die Datenpunkte näher am Durchschnitt liegen.


    Kapitel Y: Standardabweichung

    Die Standardabweichung ist ein weiteres wichtiges statistisches Maß, das eng mit der Varianz verbunden ist.11 Sie gibt an, wie stark die einzelnen Datenpunkte eines Datensatzes durchschnittlich vom Mittelwert abweichen. Die Standardabweichung ist die Quadratwurzel der Varianz und wird häufig verwendet, um die Streuung der Daten zu messen und die Verteilung von Datenpunkten um den Durchschnitt herum zu beschreiben.

  • 11 Eigentlich ist dieses Abschnitt irrelevant, wenn Sie den Abschnitt zur Varianz verstanden haben. Die Standardabweichung ist einfach nur die Wurzel der Varianz. Sie lesen nur quer? Willkommen zu einem sehr nützlichem Abschnitt!

  • Berechnung der Standardabweichung

    Die Standardabweichung wird berechnet, indem man die Wurzel aus der Varianz nimmt. Die Formel zur Berechnung der Standardabweichung (\(s\)) für eine Stichprobe ist:

    \[ s = \sqrt{\frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1}} \]

    wobei:

    • \(x_i\) ist jeder einzelne Wert in der Stichprobe,
    • \(\bar{x}\) ist der Durchschnittswert der Stichprobe,
    • \(n\) ist die Anzahl der Werte in der Stichprobe.

    Im Gegensatz zur Varianz, die in Quadraten gemessen wird, hat die Standardabweichung die gleiche Einheit wie die ursprünglichen Datenpunkte, was sie intuitiver interpretierbar macht. Die Standardabweichung wird häufig gegenüber der Varianz bevorzugt, da sie leichter interpretierbar ist und eine bessere Vorstellung davon gibt, wie weit die Datenpunkte vom Durchschnitt entfernt sind. Eine hohe Standardabweichung deutet auf eine größere Streuung der Daten um den Durchschnitt hin, während eine niedrige Standardabweichung darauf hinweist, dass die Datenpunkte näher am Durchschnitt liegen.

    Beispiel: Standardabweichung im Klassenzimmer

    Angenommen, wir haben eine Stichprobe von Noten in einem Mathematiktest für eine Klasse von fünf Schülern:

    • [70, 75, 65, 80, 85]

    Um die Standardabweichung zu berechnen, gehen wir wie folgt vor:

    1. Berechnen des Durchschnitts:

    \[ \bar{x} = \frac{70 + 75 + 65 + 80 + 85}{5} = 75 \]

    1. Berechnen der quadrierten Abweichungen jedes Datenpunktes vom Durchschnitt und deren Summe:

    \[ (70-75)^2 + (75-75)^2 + (65-75)^2 + (80-75)^2 + (85-75)^2 = 250 \]

    1. Berechnen der Varianz:

    \[ s^2 = \frac{250}{5-1} = 62.5 \]

    1. Berechnen der Standardabweichung:

    \[ s = \sqrt{62.5} \approx 7.91 \]

    Die Standardabweichung der Noten in diesem Test beträgt also etwa 7.91. Die bedeutet im Schnitt ist ein einzelner Datenpunkt 7.91 Punkte vom Durchschnittswert (hier 75) entfernt.

    Wenn wir das ganze in R machen ist es weniger schreibintensiv.

    # Beispiel Stichprobe von Noten im Mathematiktest
    noten <- c(70, 75, 65, 80, 85)
    
    # Berechnung des Durchschnitts
    durchschnitt <- mean(noten)
    
    # Berechnung der Standardabweichung
    standardabweichung <- sd(noten)
    
    # Ausgabe der Ergebnisse
    print(paste("Durchschnitt/Mean:", durchschnitt))
    [1] "Durchschnitt/Mean: 75"
    print(paste("Standardabweichung:", standardabweichung))
    [1] "Standardabweichung: 7.90569415042095"

    Verwendung der Standardabweichung

    Die Standardabweichung wird in vielen Bereichen und Anwendungen verwendet, einschließlich:

    • Beschreibung von Daten: Sie gibt einen Hinweis darauf, wie stark die Datenpunkte um den Durchschnitt herum streuen. Eine größere Standardabweichung zeigt eine größere Variabilität in den Daten an, während eine kleinere Standardabweichung auf eine geringere Variabilität hindeutet.

    • Normalverteilung: In der Statistik wird die Standardabweichung oft verwendet, um die Breite einer Normalverteilung zu beschreiben. Bei einer Normalverteilung liegen etwa 68% der Datenpunkte innerhalb von einer Standardabweichung vom Mittelwert, etwa 95% innerhalb von zwei Standardabweichungen und etwa 99.7% innerhalb von drei Standardabweichungen.

    • Qualitätskontrolle: In der Industrie und im Prozessmanagement wird die Standardabweichung verwendet, um die Qualität und Konsistenz von Produkten oder Prozessen zu überwachen. Eine erhöhte Standardabweichung kann auf Schwankungen in der Produktion oder Probleme im Prozess hindeuten.

    • Bewertung der Genauigkeit: In der Naturwissenschaft und Forschung dient die Standardabweichung dazu, die Genauigkeit von Messungen und Experimenten zu bewerten. Eine kleinere Standardabweichung deutet auf präzisere Messungen hin.

    Zusammenfassung

    Die Standardabweichung ist ein bedeutendes statistisches Maß, das die Streuung der Datenpunkte um den Durchschnitt beschreibt. Sie wird häufig zusammen mit dem Durchschnitt und der Varianz verwendet, um ein umfassenderes Verständnis der Daten und ihrer Verteilung zu erhalten. Die Standardabweichung ist nützlich, um Variationen zu messen, Muster zu identifizieren und ggf. Vorhersagen zu treffen.