
Übung 1
In den USA muss Starbucks auf der Menükarte die Kalorien für jede
Auswahl angeben (in der Schweiz scheint das leider nicht der Fall zu
sein). Gewisse Menschen achten auf eine kohlenhydratarme Ernährung (Low
Carb) und es wäre interessant zu wissen, ob alleine anhand der Angabe
der Kalorien eine Vorhersage über den Gehalt an Kohlenhydraten möglich
ist. Auf https://www.starbucks.ch/de/nutrition können die
Nährwertangaben eingesehen werden.
Im Streudiagramm ist die Beziehung zwischen der Anzahl Kalorien und
dem Kohlenhydratgehalt (in g) dargestellt. Die beiden anderen Grafiken
sind diagnostische Plots des Regressionsmodells: links ein Plot der
Residuen vs. gefittete Werte, rechts ein QQ-Plot der Residuen. (da
jamovi etwas exzessiv diagnostische Plots erstellt,
habe ich sie mit einem anderen Verfahren erstellt).


Aufgabe
- Beschreiben Sie die Beziehung zwischen der Anzahl Kalorien und dem
Kohlenhydratgehalt (in g), für die Auswahl auf der Menükarte von
Starbucks.
- Welches ist die abhängige und welches die unabhängige
Variable?
- Erfüllen die Daten die Voraussetzungen für ein lineares Modell?
Lösung
- Beschreiben Sie die Beziehung zwischen der Anzahl Kalorien und dem
Kohlenhydratgehalt (in g), für die Auswahl auf der Menükarte von
Starbucks.
- Es besteht ein positiver, mittelstarker, linearer Zusammenhang
zwischen der Anzahl Kalorien und dem Kohlenhydratgehalt in g.
- Der Kohlenhydratgehalt für Angebote mit höherem Kaloriengehalt ist
variabler als für Angebote mit geringerem Kaloriengehalt. Dies ist ein
Hinweis auf eine ungleichmässig verteilte Varianz der Daten.
- Zudem scheint es zwei Cluster von Daten zu geben: Eine Gruppe von
etwa einem Duzend Beobachtungen in der unteren linken Seite und eine
grössere Gruppe auf der rechten Seite.
- Welches ist die abhängige und welches die unabhängige Variable?
- Abhängige Variable: Kohlenhydratgehalt in g (
carb),
unabhängige Variable: Kaloriengehalt (calories)
- Erfüllen die Daten die Voraussetzungen für ein lineares Modell?
- Der Zusammenhang scheint linear und die Residuen sind annähernd
normalverteilt (QQ-Plot). Im Plot der Residuen gegen die gefittete Werte
zeigt sich ein Muster zunehmender Streuung von links nach rechts. Damit
ist die Bedingung für Homoskedastizität nicht erfüllt. Das
bedeutet, dass die Regressionsgleichung und ihre Koeffizienten zwar
gültig sind, Signifikanztests und Konfidenzintervalle können aber nicht
mehr zuverlässig interpretiert werden.
Übung 2
In den Übungen zur einfachen linearen Regression, Teil 1 haben wir
den Zusammenhang von Schlafdauer und Schlechte-Laune-Score von Dan
anhand eines linearen Regressionsmodells analysiert.
Im Streudiagramm ist die Beziehung zwischen der Schlafdauer
(dan.sleep) und dem Schlechte-Laune-Score
(dan.grump) dargestellt. Die beiden anderen Grafiken sind
diagnostische Plots des Regressionsmodells: links ein Plot der Residuen
vs. gefittete Werte, rechts ein QQ-Plot der Residuen.


Aufgabe
- Welches ist die abhängige und welches die unabhängige
Variable?
- Für welche Variable untersuchen wir die Residuen vs. gefittete
Werte?
- Erfüllen die Daten die Voraussetzungen für ein lineares Modell?
Lösung
- Welches ist die abhängige und welches die unabhängige Variable?
- Abhängige Variable: Schlechte-Laune-Score (
dan.grump),
unabhängige Variable: Dan’s Schlafdauer (dan.sleep)
- Für welche Variable untersuchen wir den Residuen vs. gefittete
Werte?
- für die abhängige Variable (
dan.grump)
- Erfüllen die Daten die Voraussetzungen für ein lineares Modell?
- Ja. Es besteht ein linearer negativer Zusammenhang zwischen Dan’s
Schlafdauer und ihrem Schlechte-Laune-Score. Die Residuen sind normal
verteilt (QQ-Plot) und die Punkteverteilung im Plot Residuen
vs. gefittete Werte zeigt die gleiche Streuung über den gesamten
Wertebereich. Damit ist die Voraussetzung für Homoskedastizität
erfüllt. Sämtliche Voraussetzungen für die Gültigkeit eines linearen
Modells sind erfüllt.
Übung 3
In den Übungen zur einfachen linearen Regression haben wir den
Zusammenhang von Herzgrösse und Körpergewicht von Hauskatzen anhand
eines linearen Regressionsmodells analysiert.
Im Streudiagramm ist die Beziehung zwischen dem Körpergewicht
(Bwt in g) und dem Herzgewicht (Hwtin g)
dargestellt. Die beiden anderen Grafiken sind diagnostische Plots des
Regressionsmodells: links ein Plot der Residuen vs. gefittete Werte,
rechts ein QQ-Plot der Residuen.


Aufgabe
- Erfüllen die Daten die Voraussetzungen für ein lineares Modell?
Lösung
- Erfüllen die Daten die Voraussetzungen für ein lineares Modell?
- Es besteht ein positiver, moderater, linearer Zusammenhang zwischen
Körpergewicht
Bwt und Herzgewicht bei Hauskatzen
Hwt. Die Residuen sind normalverteilt und Plot der Residuen
vs. gefittete Werte zeigt eine gleichmässige Verteilung der Punkte über
den gesamten Datenbereich (Homoskedastizität). Die Voraussetzungen für
die Gültigkeit eines linearen Modells sind somit erfüllt.