Another Silly Textbook for Stats

Streuungsmaße

Author

Thomas Krause

Published

July 21, 2023

Kapitel X: Varianz

Die Varianz ist ein grundlegendes statistisches Maß, das uns sagt, wie stark die Daten in einem Datensatz um den Durchschnitt (oder das Mittel) streuen. Mit anderen Worten, es misst die Abweichung der Datenpunkte vom Durchschnittswert. Wenn die Varianz hoch ist, bedeutet das, dass die Datenpunkte weit vom Durchschnitt entfernt liegen. Ist die Varianz niedrig, liegen die Datenpunkte nahe am Durchschnitt. Die Varianz ist nicht nur ein Maß für die Streuung der Daten, sie ist auch ein grundlegendes Maß für den Informationsgehalt einer Variablen. In der Tat kann ohne Varianz in der Statistik nichts erklärt werden.

Stellen Sie sich vor, Sie haben eine Variable, die den gleichen Wert für alle Beobachtungen in Ihrem Datensatz hat. Diese Variable hat eine Varianz von Null, da es keine Streuung um den Mittelwert gibt - alle Werte sind gleich dem Mittelwert. Aber was sagt uns diese Variable wirklich? Da sie keine Varianz hat, gibt sie uns keine zusätzlichen Informationen über die Beobachtungen in unserem Datensatz. Sie kann nicht verwendet werden, um Unterschiede zwischen Beobachtungen zu erklären oder um Vorhersagen zu treffen. In diesem Sinne ist eine Variable ohne Varianz tatsächlich keine Variable, sondern eine Konstante.

Umgekehrt gibt eine Variable mit hoher Varianz uns viele Informationen. Sie zeigt uns, dass es Unterschiede zwischen den Beobachtungen gibt und diese Unterschiede können wir zu quantifizieren, potenziell erklären und auf ihre Ursachen zurückführen. In der statistischen Analyse und Modellierung nutzen wir diese Unterschiede, um Muster zu erkennen, Hypothesen zu testen und Vorhersagen zu machen.

In diesem Sinne ist die Varianz ein grundlegendes Konzept in der Statistik und der Datenanalyse. Sie ist ein Maß für die Menge an Information, die eine Variable enthält, und ohne sie könnten wir keine statistischen Analysen durchführen oder sinnvolle Schlussfolgerungen aus unseren Daten ziehen. Es ist daher wichtig, die Varianz und ihre Rolle in der Statistik zu verstehen.

Berechnung der Varianz

Die Varianz wird berechnet, indem man die quadratischen Abweichungen jeder Zahl in dem Satz vom Durchschnitt nimmt und dann den Durchschnitt dieser quadrierten Abweichungen berechnet. Die Formel zur Berechnung der Varianz (\(s^2\)) für eine Stichprobe ist:

\[ s^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1} \]

wobei:

  • \(x_i\) ist jeder einzelne Wert in der Stichprobe,

  • \(\bar{x}\) ist der Durchschnittswert der Stichprobe,

  • \(n\) ist die Anzahl der Werte in der Stichprobe.1

Beispiel: Varianz in der Gesundheitsforschung

In der Gesundheitsforschung ist die Varianz besonders nützlich, um die Streuung von Messungen wie Körpergröße, Blutdruck oder BMI zu verstehen. Angenommen, wir haben die folgenden BMI-Daten für zwei Gruppen von Patienten, Gruppe A und Gruppe B:

  • Gruppe A: [22, 25, 27, 28, 29, 30, 32, 33, 34, 36]
  • Gruppe B: [27, 28, 28, 29, 29, 30, 30, 30, 31, 31]

In R können wir die Varianz für jede Gruppe mit der Funktion var() berechnen:

BMI_A <- c(22, 25, 27, 28, 29, 30, 32, 33, 34, 36)
BMI_B <- c(27, 28, 28, 29, 29, 30, 30, 30, 31, 31)

variance_A <- var(BMI_A)
variance_B <- var(BMI_B)

print(paste("Die Varianz des BMI in Gruppe A ist: ", variance_A))
[1] "Die Varianz des BMI in Gruppe A ist:  18.4888888888889"
print(paste("Die Varianz des BMI in Gruppe B ist: ", variance_B))
[1] "Die Varianz des BMI in Gruppe B ist:  1.78888888888889"
Warning: Paket 'ggplot2' wurde unter R Version 4.2.3 erstellt

Figure 1: Visualisierung der Varianz der Gruppen

In diesem Beispiel könnten wir dann die berechneten Varianzwerte verwenden, um die Streuung des BMI in den beiden Gruppen zu vergleichen. Wenn zum Beispiel die Varianz in Gruppe A größer ist als in Gruppe B, weißt dies darauf hin, dass es in Gruppe A eine größere Vielfalt an BMI-Werten gibt, während die BMI-Werte in Gruppe B näher zusammenliegen.

Verwendung der Varianz

  • Messung der Streuung: Wie bereits erwähnt, ist die Varianz ein Maß für die Streuung von Daten. Sie gibt an, wie weit die Datenpunkte im Durchschnitt vom Mittelwert entfernt sind. Dies kann helfen, den Kontext für den Durchschnittswert zu liefern. Beispielsweise könnten zwei Datensätze den gleichen Durchschnitt haben, aber wenn einer eine höhere Varianz hat, bedeutet das, dass die Datenpunkte in diesem Satz weiter vom Durchschnitt entfernt liegen.

  • Vorhersage und Modellierung: In der statistischen Modellierung und der Vorhersageanalyse ist die Varianz eine Schlüsselkomponente. Viele Modelle, einschließlich der meisten maschinellen Lernalgorithmen, basieren auf der Annahme, dass die Daten eine bestimmte Varianz aufweisen. Wenn die tatsächliche Varianz der Daten stark von dieser Annahme abweicht, funktioniert das Modell möglicherweise nicht gut.

  • Qualitätskontrolle: In der Qualitätskontrolle und im Prozessmanagement wird die Varianz verwendet, um zu messen, wie konsequent ein Prozess ist. Wenn die Varianz über die Zeit zunimmt, kann das ein Anzeichen dafür sein, dass der Prozess weniger stabil wird und dass Maßnahmen zur Verbesserung der Qualität erforderlich sind.

  • Risikobewertung: In der Finanz- und Versicherungsmathematik wird die Varianz zur Risikobewertung herangezogen. Eine höhere Varianz kann auf ein höheres Risiko hinweisen, während eine niedrigere Varianz auf ein niedrigeres Risiko hindeuten kann.

Es ist wichtig zu beachten, dass die Varianz allein nicht immer ein vollständiges Bild von den Daten gibt. Oft wird sie zusammen mit anderen Maßnahmen wie dem Durchschnitt und der Standardabweichung (die Quadratwurzel der Varianz) verwendet, um ein vollständigeres Verständnis der Daten zu erlangen.

Zusammenfassung

Die Varianz ist ein Schlüsselkonzept in der Statistik, das uns hilft zu verstehen, wie stark die Daten um den Durchschnitt streuen. Es ist wichtig zu verstehen, dass eine hohe Varianz bedeutet, dass die Datenpunkte weit vom Durchschnitt entfernt sind, während eine niedrige Varianz bedeutet, dass die Datenpunkte näher am Durchschnitt liegen.

Kapitel Y: Standardabweichung

Die Standardabweichung ist ein weiteres wichtiges statistisches Maß, das eng mit der Varianz verbunden ist.2 Sie gibt an, wie stark die einzelnen Datenpunkte eines Datensatzes durchschnittlich vom Mittelwert abweichen. Die Standardabweichung ist die Quadratwurzel der Varianz und wird häufig verwendet, um die Streuung der Daten zu messen und die Verteilung von Datenpunkten um den Durchschnitt herum zu beschreiben.

Berechnung der Standardabweichung

Die Standardabweichung wird berechnet, indem man die Wurzel aus der Varianz nimmt. Die Formel zur Berechnung der Standardabweichung (\(s\)) für eine Stichprobe ist:

\[ s = \sqrt{\frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1}} \]

wobei:

  • \(x_i\) ist jeder einzelne Wert in der Stichprobe,
  • \(\bar{x}\) ist der Durchschnittswert der Stichprobe,
  • \(n\) ist die Anzahl der Werte in der Stichprobe.

Im Gegensatz zur Varianz, die in Quadraten gemessen wird, hat die Standardabweichung die gleiche Einheit wie die ursprünglichen Datenpunkte, was sie intuitiver interpretierbar macht. Eine hohe Standardabweichung deutet auf eine größere Streuung der Daten um den Durchschnitt hin, während eine niedrige Standardabweichung darauf hinweist, dass die Datenpunkte näher am Durchschnitt liegen.

Beispiel: Standardabweichung in der Praxis

Angenommen, wir haben eine Stichprobe von Noten in einem Mathematiktest für eine Klasse von fünf Schülern:

  • [70, 75, 65, 80, 85]

Um die Standardabweichung zu berechnen, gehen wir wie folgt vor:

  1. Berechnen des Durchschnitts:

\[ \bar{x} = \frac{70 + 75 + 65 + 80 + 85}{5} = 75 \]

  1. Berechnen der quadrierten Abweichungen jedes Datenpunktes vom Durchschnitt und deren Summe:

\[ (70-75)^2 + (75-75)^2 + (65-75)^2 + (80-75)^2 + (85-75)^2 = 250 \]

  1. Berechnen der Varianz:

\[ s^2 = \frac{250}{5-1} = 62.5 \]

  1. Berechnen der Standardabweichung:

\[ s = \sqrt{62.5} \approx 7.91 \]

Die Standardabweichung der Noten in diesem Test beträgt also etwa 7.91. Die bedeutet im Schnitt ist ein einzelner Datenpunkt 7.91 Punkte vom Durchschnittswert (hier 75) entfernt.

Wenn wir das ganze in R machen ist es weniger schreibintensiv.

# Beispiel Stichprobe von Noten im Mathematiktest
noten <- c(70, 75, 65, 80, 85)

# Berechnung des Durchschnitts
durchschnitt <- mean(noten)

# Berechnung der Standardabweichung
standardabweichung <- sd(noten)

# Ausgabe der Ergebnisse
print(paste("Durchschnitt/Mean:", durchschnitt))
[1] "Durchschnitt/Mean: 75"
print(paste("Standardabweichung:", standardabweichung))
[1] "Standardabweichung: 7.90569415042095"

Verwendung der Standardabweichung

Die Standardabweichung wird in vielen Bereichen und Anwendungen verwendet, einschließlich:

  • Beschreibung von Daten: Sie gibt einen Hinweis darauf, wie stark die Datenpunkte um den Durchschnitt herum streuen. Eine größere Standardabweichung zeigt eine größere Variabilität in den Daten an, während eine kleinere Standardabweichung auf eine geringere Variabilität hindeutet.

  • Normalverteilung: In der Statistik wird die Standardabweichung oft verwendet, um die Breite einer Normalverteilung zu beschreiben. Bei einer Normalverteilung liegen etwa 68% der Datenpunkte innerhalb von einer Standardabweichung vom Mittelwert, etwa 95% innerhalb von zwei Standardabweichungen und etwa 99.7% innerhalb von drei Standardabweichungen.

  • Qualitätskontrolle: In der Industrie und im Prozessmanagement wird die Standardabweichung verwendet, um die Qualität und Konsistenz von Produkten oder Prozessen zu überwachen. Eine erhöhte Standardabweichung kann auf Schwankungen in der Produktion oder Probleme im Prozess hindeuten.

  • Bewertung der Genauigkeit: In der Naturwissenschaft und Forschung dient die Standardabweichung dazu, die Genauigkeit von Messungen und Experimenten zu bewerten. Eine kleinere Standardabweichung deutet auf präzisere Messungen hin.

Zusammenfassung

Die Standardabweichung ist ein bedeutendes statistisches Maß, das die Streuung der Datenpunkte um den Durchschnitt beschreibt. Sie wird häufig zusammen mit dem Durchschnitt und der Varianz verwendet, um ein umfassenderes Verständnis der Daten und ihrer Verteilung zu erhalten. Die Standardabweichung ist nützlich, um Variationen zu messen, Muster zu identifizieren und ggf. Vorhersagen zu treffen.

Footnotes

  1. Zusatzinfo: Die Formel für die Varianz verwendet \(n-1\) anstelle von \(n\) in der Berechnung, wenn es sich um eine Stichprobe handelt, und dies wird als “Bessel’sche Korrektur” bezeichnet. Die Begründung dafür liegt in der Unterscheidung zwischen einer Stichprobe und einer Population.Wenn wir Daten von einer gesamten Population haben (also von jedem einzelnen Mitglied einer Gruppe, über die wir Informationen sammeln möchten), dann verwenden wir \(n\) in der Formel zur Berechnung der Varianz.Wenn wir jedoch Daten von einer Stichprobe haben (also nur von einer Untergruppe der Population), dann verwenden wir \(n-1\) in der Formel. Der Grund dafür ist, dass eine Stichprobe dazu neigt, die Varianz der gesamten Population zu unterschätzen, weil sie in der Regel weniger streut als die Population. Indem wir durch \(n-1\) anstelle von \(n\) teilen, erhöhen wir die berechnete Varianz ein wenig, um diesen Unterschied auszugleichen. Dies wird als “Bessel’sche Korrektur” bezeichnet und hilft, ein unverzerrtes Schätzer für die Populationsvarianz zu erhalten. In der Praxis bedeutet dies, dass, wenn wir die Varianz von Stichprobendaten berechnen, wir die Bessel’sche Korrektur verwenden und durch \(n-1\) teilen. Wenn wir die Varianz von Populationsdaten berechnen, teilen wir durch \(n\).↩︎

  2. Eigentlich ist dieses Abschnitt irrelevant, wenn die den Abschnitt zur Varianz verstanden haben. Die Standardabweichung ist einfach nur die Wurzel der Varianz. Sie lesen nur quer? Willkommen zu einem sehr nützlichem Abschnitt!↩︎