Übung 1

In den USA muss Starbucks auf der Menükarte die Kalorien für jede Auswahl angeben (in der Schweiz scheint das leider nicht der Fall zu sein). Gewisse Menschen achten auf eine kohlenhydratarme Ernährung (Low Carb) und es wäre interessant zu wissen, ob alleine anhand der Angabe der Kalorien eine Vorhersage über den Gehalt an Kohlenhydraten möglich ist. Auf https://www.starbucks.ch/de/nutrition können die Nährwertangaben eingesehen werden.

Im Streudiagramm ist die Beziehung zwischen der Anzahl Kalorien und dem Kohlenhydratgehalt (in g) dargestellt. Die beiden anderen Grafiken sind diagnostische Plots des Regressionsmodells: links ein Plot der Residuen vs. gefittete Werte, rechts ein QQ-Plot der Residuen. (da jamovi etwas exzessiv diagnostische Plots erstellt, habe ich sie mit einem anderen Verfahren erstellt).

Aufgabe

  1. Beschreiben Sie die Beziehung zwischen der Anzahl Kalorien und dem Kohlenhydratgehalt (in g), für die Auswahl auf der Menükarte von Starbucks.
  2. Welches ist die abhängige und welches die unabhängige Variable?
  3. Erfüllen die Daten die Voraussetzungen für ein lineares Modell?


Lösung

  1. Beschreiben Sie die Beziehung zwischen der Anzahl Kalorien und dem Kohlenhydratgehalt (in g), für die Auswahl auf der Menükarte von Starbucks.
  • Es besteht ein positiver, mittelstarker, linearer Zusammenhang zwischen der Anzahl Kalorien und dem Kohlenhydratgehalt in g.
  • Der Kohlenhydratgehalt für Angebote mit höherem Kaloriengehalt ist variabler als für Angebote mit geringerem Kaloriengehalt. Dies ist ein Hinweis auf eine ungleichmässig verteilte Varianz der Daten.
  • Zudem scheint es zwei Cluster von Daten zu geben: Eine Gruppe von etwa einem Duzend Beobachtungen in der unteren linken Seite und eine grössere Gruppe auf der rechten Seite.
  1. Welches ist die abhängige und welches die unabhängige Variable?
  • Abhängige Variable: Kohlenhydratgehalt in g (carb), unabhängige Variable: Kaloriengehalt (calories)
  1. Erfüllen die Daten die Voraussetzungen für ein lineares Modell?
  • Der Zusammenhang scheint linear und die Residuen sind annähernd normalverteilt (QQ-Plot). Im Plot der Residuen gegen die gefittete Werte zeigt sich ein Muster zunehmender Streuung von links nach rechts. Damit ist die Bedingung für Homoskedastizität nicht erfüllt. Das bedeutet, dass die Regressionsgleichung und ihre Koeffizienten zwar gültig sind, Signifikanztests und Konfidenzintervalle können aber nicht mehr zuverlässig interpretiert werden.


Übung 2

In den Übungen zur einfachen linearen Regression, Teil 1 haben wir den Zusammenhang von Schlafdauer und Schlechte-Laune-Score von Dan anhand eines linearen Regressionsmodells analysiert.

Im Streudiagramm ist die Beziehung zwischen der Schlafdauer (dan.sleep) und dem Schlechte-Laune-Score (dan.grump) dargestellt. Die beiden anderen Grafiken sind diagnostische Plots des Regressionsmodells: links ein Plot der Residuen vs. gefittete Werte, rechts ein QQ-Plot der Residuen.

Aufgabe

  1. Welches ist die abhängige und welches die unabhängige Variable?
  2. Für welche Variable untersuchen wir die Residuen vs. gefittete Werte?
  3. Erfüllen die Daten die Voraussetzungen für ein lineares Modell?


Lösung

  1. Welches ist die abhängige und welches die unabhängige Variable?
  • Abhängige Variable: Schlechte-Laune-Score (dan.grump), unabhängige Variable: Dan’s Schlafdauer (dan.sleep)
  1. Für welche Variable untersuchen wir den Residuen vs. gefittete Werte?
  • für die abhängige Variable (dan.grump)
  1. Erfüllen die Daten die Voraussetzungen für ein lineares Modell?
  • Ja. Es besteht ein linearer negativer Zusammenhang zwischen Dan’s Schlafdauer und ihrem Schlechte-Laune-Score. Die Residuen sind normal verteilt (QQ-Plot) und die Punkteverteilung im Plot Residuen vs. gefittete Werte zeigt die gleiche Streuung über den gesamten Wertebereich. Damit ist die Voraussetzung für Homoskedastizität erfüllt. Sämtliche Voraussetzungen für die Gültigkeit eines linearen Modells sind erfüllt.


Übung 3

In den Übungen zur einfachen linearen Regression haben wir den Zusammenhang von Herzgrösse und Körpergewicht von Hauskatzen anhand eines linearen Regressionsmodells analysiert.

Im Streudiagramm ist die Beziehung zwischen dem Körpergewicht (Bwt in g) und dem Herzgewicht (Hwtin g) dargestellt. Die beiden anderen Grafiken sind diagnostische Plots des Regressionsmodells: links ein Plot der Residuen vs. gefittete Werte, rechts ein QQ-Plot der Residuen.

Aufgabe

  1. Erfüllen die Daten die Voraussetzungen für ein lineares Modell?



Lösung

  1. Erfüllen die Daten die Voraussetzungen für ein lineares Modell?
  • Es besteht ein positiver, moderater, linearer Zusammenhang zwischen Körpergewicht Bwt und Herzgewicht bei Hauskatzen Hwt. Die Residuen sind normalverteilt und Plot der Residuen vs. gefittete Werte zeigt eine gleichmässige Verteilung der Punkte über den gesamten Datenbereich (Homoskedastizität). Die Voraussetzungen für die Gültigkeit eines linearen Modells sind somit erfüllt.