Beispiel 1

Wählen Sie den Datensatz UN aus der library car. Filtern Sie erst ‘NA’ mit der Funktion na.omit. Erklären Sie dann infant mortality durch gross domestic product. Explorieren Sie die Daten, bevor Sie ein Modell anpassen.

Datensatz

summary(df)
##         region      group       fertility         ppgdp         
##  Africa    :52   oecd  : 31   Min.   :1.134   Min.   :   114.8  
##  Asia      :50   other :110   1st Qu.:1.750   1st Qu.:  1239.8  
##  Europe    :39   africa: 52   Median :2.264   Median :  4495.8  
##  Latin Amer:20                Mean   :2.780   Mean   : 12291.1  
##  Oceania   :17                3rd Qu.:3.700   3rd Qu.: 14497.3  
##  Caribbean :13                Max.   :6.925   Max.   :105095.4  
##  (Other)   : 2                                                  
##     lifeExpF        pctUrban     infantMortality  
##  Min.   :48.11   Min.   : 11.0   Min.   :  1.916  
##  1st Qu.:65.10   1st Qu.: 39.0   1st Qu.:  7.243  
##  Median :75.57   Median : 59.0   Median : 19.637  
##  Mean   :72.08   Mean   : 57.1   Mean   : 30.739  
##  3rd Qu.:79.07   3rd Qu.: 75.0   3rd Qu.: 45.892  
##  Max.   :87.12   Max.   :100.0   Max.   :124.535  
## 

Infant Mortality

x <- df$infantMortality 
summary(x)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.916   7.243  19.637  30.739  45.892 124.535
var(x)
> 855.1969
sd(x)
> 29.24375
skewness(x)
> 1.198359
kurtosis(x)
> 0.5551002
mad(x)
> 22.06109

Der Datensatz “UN” wurde aus der library “carData” geladen, um Infant Mortality und die Gross Domestic Product Daten zu explorieren. Die NA’s wurden aus dem Datensatz herausgefiltert und es blieben 193 Variablen übrig.

Diagramme

Interpretation

Am Histogramm ist eine rechtsschiefe und unimodale Verteilung zu sehen. Im Boxplot und Q-Q Plot ist links ein leichter und rechts ein deutlich schwerer Rand zu erkennen.

Gross domestic Product

x1 <- df$ppgdp 
summary(x1)
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
##    114.8   1239.8   4495.8  12291.1  14497.3 105095.4
var(x1)
> 303190837
sd(x1)
> 17412.38
skewness(x1)
> 2.21232
kurtosis(x1)
> 5.645079
mad(x1)
> 5671.538

Diagramme

Interpretation

Wie man dem Histogramm entnehmen kann handelt es sich hierbei um eine unimodale Verteilung. Des Weiteren kann sowohl dem Histogramm als auch dem Q-Q Plot und dem Boxplot entnommen werden, dass hier eine rechtschiefe Verteilung vorliegt und zudem auch noch schwere Ränder vorhanden sind (Bestätigt durch den Skewness-Wert)

Überprüfung auf Korrelation und Liniarität zwischen Infant Mortality und Gross Domestic Product

> 
>   Pearson's product-moment correlation
> 
> data:  df$infantMortality and df$ppgdp
> t = -8.3117, df = 191, p-value = 1.73e-14
> alternative hypothesis: true correlation is not equal to 0
> 95 percent confidence interval:
>  -0.6120704 -0.4035178
> sample estimates:
>        cor 
> -0.5153847

Interpretation

Die Daten zeigen keinen linearen Zusammenhang, das vom Korrelations-Wert (-0.5153847) und Scatterplot bestätigt wird. Aus diesem Grund werd die Daten mit einerm logarithmischen Scatterplot dargestellt.

Überprüfung auf Korrelation und Liniarität zwischen Infant Mortality und Gross Domestic Product (logarithmischer Scatterplot)

> 
>   Pearson's product-moment correlation
> 
> data:  log(df$infantMortality) and log(df$ppgdp)
> t = -25.018, df = 191, p-value < 2.2e-16
> alternative hypothesis: true correlation is not equal to 0
> 95 percent confidence interval:
>  -0.9047107 -0.8376375
> sample estimates:
>        cor 
> -0.8753203

Interpretation

Logarithmiert man die Daten, so kann man die Korrelation besser erkennen (-0.8753203). Des Weiteren wird der lineare Zusammenhang der Daten besser ersichtlich. Dem Wert kann entnommen werden, dass sofern das gross domestic product größer ist, dann die infant mortality entsprechend geringer ist.

Für die Modellanpassung werden logarthmische Daten herangezogen.

Modellanpassung

summary(log.lm)
## 
## Call:
## lm(formula = log(df$infantMortality) ~ log(df$ppgdp))
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.16789 -0.36738 -0.02351  0.24544  2.43503 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    8.10377    0.21087   38.43   <2e-16 ***
## log(df$ppgdp) -0.61680    0.02465  -25.02   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.5281 on 191 degrees of freedom
## Multiple R-squared:  0.7662, Adjusted R-squared:  0.765 
## F-statistic: 625.9 on 1 and 191 DF,  p-value: < 2.2e-16

Folgendes:

H0: es gibt kein linearer Zusammenhang H1: es gibt einen linearer Zusammenhang

H0 kann verworfen werden (f-Statistik: 625.9) und p-Value (< 2.2e-16). Der Adjustet R-Squared beträgt 0.765, daraus lässt sich schließen, dass von den Variablen ca. 76% der Varianz durch dieses vorliegende Modell erläutert werden können.

Überprüfung der Residuen

Residuals vs Fitted:

Um den 0-Wert herum sind die Resiuden zentriert. Demnach lässt sich daraus schließen, dass kein systematischer Fehler vorliegt. Die Residuen beeinflussen sich nicht, keine Korrelation bzw. sie sind unkorreliert.

Normal Q-Q:

Man erkennt eine Normalverteilung. Zudem sind Ausreiser auf der rechten Seite zu erkennen, da aber die Datenmenge sehr groß ist, macht das nicht viel aus bzw. so fällt es nicht ins Gewicht.

Scale-Location:

Nicht erkennbar: Verläufe, nicht heteroskedastisch.

Residuals vs Leverage:

Hier ist kein starker Hebeleffekt zu erkennen bzw. herauszulesen, da die Punkte sich auch in der Cooks distance befinden.

Modell-Gleichung:

Allgemeine Regressionsgleichung:

y(i) = alpha + beta *x

Modell-Gleichung:

log(infantMortality) = 8.10377 - 0.61680 * log(ppgdp)

Intercept:8.10377 Steigung:-0.61680

Umkehrung der linearen Transfomation:

Umformen der logarithmischen Daten auf die ursprüngliche Form.

exp(log(infantMortality))= exp(-0.61680 * log(ppgdp) + 8.10377)

infantMortality = ppgdp^{-0.61680}*exp(8.10377)

Funktion/Modell Original-Daten:

ppgdp = 3306.912 * (infantMortality)^{-0.61680}

Interpretation

Hier kann anhand der Daten herausgelesen werden, dass sofern die infant die mortality am sinken ist, das gross domestic product unendlich groß sein würde bzw. werden würde.

Erhöhung der infant mortality um 1 - gross domestic product sinkt um das 3306.912 fache

Beispiel 2:

Verwendet werden die folgenden Variablen: “Fertility”, “Agriculture”, “Education”,“Catholic” und “Infant. Mortality” aus dem R Datensatz swiss des R package utils. Passen Sie für die oben genannten Variablen ein Modell an, das Education durch die übrigen Variablen erklärt, soweit dies zulässig ist.

summary(swiss)
##    Fertility      Agriculture     Examination      Education    
##  Min.   :35.00   Min.   : 1.20   Min.   : 3.00   Min.   : 1.00  
##  1st Qu.:64.70   1st Qu.:35.90   1st Qu.:12.00   1st Qu.: 6.00  
##  Median :70.40   Median :54.10   Median :16.00   Median : 8.00  
##  Mean   :70.14   Mean   :50.66   Mean   :16.49   Mean   :10.98  
##  3rd Qu.:78.45   3rd Qu.:67.65   3rd Qu.:22.00   3rd Qu.:12.00  
##  Max.   :92.50   Max.   :89.70   Max.   :37.00   Max.   :53.00  
##     Catholic       Infant.Mortality
##  Min.   :  2.150   Min.   :10.80   
##  1st Qu.:  5.195   1st Qu.:18.15   
##  Median : 15.140   Median :20.00   
##  Mean   : 41.144   Mean   :19.94   
##  3rd Qu.: 93.125   3rd Qu.:21.70   
##  Max.   :100.000   Max.   :26.60

Summary und Residuenplots

> 
> Call:
> lm(formula = Education ~ ., data = data)
> 
> Residuals:
>      Min       1Q   Median       3Q      Max 
> -10.4029  -2.7803  -0.7571   2.4934  12.8590 
> 
> Coefficients:
>                  Estimate Std. Error t value Pr(>|t|)    
> (Intercept)      49.99303    6.18641   8.081 4.31e-10 ***
> Fertility        -0.52070    0.07869  -6.617 5.14e-08 ***
> Agriculture      -0.22880    0.03906  -5.857 6.37e-07 ***
> Catholic          0.08333    0.02179   3.825 0.000428 ***
> Infant.Mortality  0.28437    0.30040   0.947 0.349243    
> ---
> Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
> 
> Residual standard error: 5.224 on 42 degrees of freedom
> Multiple R-squared:  0.7305,  Adjusted R-squared:  0.7048 
> F-statistic: 28.46 on 4 and 42 DF,  p-value: 1.804e-11

>                  Fertility Agriculture  Catholic Infant.Mortality
> Fertility        1.0000000  0.35307918 0.4636847       0.41655603
> Agriculture      0.3530792  1.00000000 0.4010951      -0.06085861
> Catholic         0.4636847  0.40109505 1.0000000       0.17549591
> Infant.Mortality 0.4165560 -0.06085861 0.1754959       1.00000000

Interpretation

Der Residuen Median lässt mit -0,7571 darauf schließen, dass die Residuen um 0 herum zentriert sind. (Voraussetzung für multiple Linearität dadurch gegeben und erfüllt)

Die Plots (Residual vs. Fitted und Scale-Location) lassen darauf schließen, dass die Residuen unkorreliert sind und homoskedastisch.

Der Scatterplot zeigt keine Korrelation zwischen den Variablen. Zudem sind alle Voraussetzungen für eine multiple lineare Regression erfüllt, da die Korrelationskoeffizienten unter 0,5 liegen.

Der Punkt V.De Geneve liegt außerhalb der Hooks Distance, dies lässt sich im Residuals vs Leverage Plot erkennen, daher ist der Punkt V.De Geneve ein Hebelpunkt. Dieser sollte und muss aus den Daten entfernt werden.

Der Q-Q Plot zeigt schwere Ränder. Bei solch einer großen Datenmenge fällt dies aber nicht stark ins Gewicht, sodass von einer Normalverteilung ausgegangen werden kann.

Erstellen des Modells

> 
> Call:
> lm(formula = Education ~ ., data = x4)
> 
> Residuals:
>     Min      1Q  Median      3Q     Max 
> -8.8462 -2.3128 -0.2679  1.9182 13.2990 
> 
> Coefficients:
>                  Estimate Std. Error t value Pr(>|t|)    
> (Intercept)      41.80712    6.09621   6.858 2.62e-08 ***
> Fertility        -0.41466    0.07778  -5.331 3.84e-06 ***
> Agriculture      -0.19427    0.03668  -5.296 4.30e-06 ***
> Catholic          0.06108    0.02074   2.946  0.00529 ** 
> Infant.Mortality  0.26016    0.27044   0.962  0.34170    
> ---
> Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
> 
> Residual standard error: 4.701 on 41 degrees of freedom
> Multiple R-squared:  0.6299,  Adjusted R-squared:  0.5938 
> F-statistic: 17.45 on 4 and 41 DF,  p-value: 1.966e-08

Aufgrund des p-values Summary kann Education nicht durch infant mortality erläutert werden. Dennoch werden alle Variablen die Signifikanz zeigen in das multiple lineare Regressionmodell aufgenommen.

Bestätigt durch die Step-Function:

> Start:  AIC=147.11
> Education ~ Fertility + Agriculture + Catholic + Infant.Mortality
> 
>                    Df Sum of Sq     RSS    AIC
> - Infant.Mortality  1     20.46  926.71 146.14
> <none>                           906.25 147.11
> - Catholic          1    191.80 1098.05 153.94
> - Agriculture       1    620.02 1526.27 169.09
> - Fertility         1    628.22 1534.48 169.34
> 
> Step:  AIC=146.14
> Education ~ Fertility + Agriculture + Catholic
> 
>               Df Sum of Sq     RSS    AIC
> <none>                      926.71 146.14
> - Catholic     1    197.17 1123.88 153.01
> - Fertility    1    644.05 1570.76 168.41
> - Agriculture  1    710.76 1637.47 170.32
> 
> Call:
> lm(formula = Education ~ Fertility + Agriculture + Catholic, 
>     data = x4)
> 
> Coefficients:
> (Intercept)    Fertility  Agriculture     Catholic  
>    45.26863     -0.38468     -0.20240      0.06188

Regressionsmodell

Folgendes Regressionsmodell resultiert:

Education_i = alpha + beta_{Fertility} * x_{Fertility,i} + beta_{Agriculture} * x_{Agriculture,i} + beta_{Catholic}* x_{Catholic,i} + epsilon_i

Modellgleichung

Die Modellgleichung lautet:

Education_i = 45.2686 + -0.3847* x_{Fertility,i} + -0.2024 * x_{Agriculture,i} + 0.0619 * x_{Catholic,i}

Interpretation

Betrachtet man intercept alpha (45.26863), so lässt sich erkennen, dass 45.2686% der Bevölkerung eine höhere Ausbildung als nur die Grundschulausbildung genossen haben, dies gilt, wenn folgenden Voraussetzugen erfüllt wären:

  • keine Person bekennt sich der katholischen Glaubensbekenntnis
  • Die Population ist unfruchtbar
  • Kein Mann ist in der Landwirtschaft tätig

Die Beta-Koeffizienten zeigen, um welchen Prozentsatz der Anteil der Bevölkerung mit einem höheren Abschluss als die Grundschulausbildung steigen würden, wenn das dazugehörige Maß um 1% steigen würde, sofern die anderen Maße aber gleich bleiben.

  • 1% mehr in der “common standardized fertility measure” = 0.3847% weniger Menschen mit einer höheren Ausbildung als Grundschulausbildung
  • 1% mehr Männer in der Landwirtschaft = 0.2024% weniger Personen, die eine höher Ausbildung als die Grundschulausbildung besitzen
  • 1% mehr Menschen, die sich der katholischen Glaubensrichtung bekennen = 0.0619% mehr Menschen mit einer höheren Ausbildung als Grundschulausbildung

Beispiel 3:

Scatterplots

Es ist erkennbar, dass Murder und Illiteracy und Murder und Life.exp einen linearen Zusammenhang haben.Lineare Modelle werden erstellt.

Murder ~ Illitracy

Keine extreme Werte sind erkennbar. Die Residuen sind um 0 zentriert und homoskedastisch. Die Voraussetzung für ein lineares Modell ist erfüllt, da ein Q-Q-Plot eine Normalverteilung zeigt.

Murder ~ Life.exp

Keine extreme Werte sind erkennbar. Die Residuen sind um 0 zentriert und homoskedastisch. Die Voraussetzung für ein lineares Modell ist erfüllt, da ein Q-Q-Plot eine Normalverteilung zeigt.

lm(Mur ~ Ill)
> 
> Call:
> lm(formula = Mur ~ Ill)
> 
> Coefficients:
> (Intercept)          Ill  
>       2.397        4.257

##Regressionsmoell

Murder = a + b(Illiteracy)*Illiteracy + e(i)

Murder = 2.397+ 4.257*Illiteracy

Der Wert a zeigt, wie groß die Menge Murder wäre, wenn Illiteracy 0 wäre (hier 2.397).

Der Wert b gibt zeigt, wie stark der Wert Murder mit der Zunahme an Illiteracy zu- bzw. abnimmt. Murder steigt um 4.257 pro Einheit der Illiteracy.

lm(Mur ~ LifeExp)
> 
> Call:
> lm(formula = Mur ~ LifeExp)
> 
> Coefficients:
> (Intercept)      LifeExp  
>     159.576       -2.147

Murder = a + b(Life.exp)*Life.exp + e(i)

Murder = 159.57 + (-2.147)*Life.exp

Der Wert a zeigt, wie groß die Menge Murder wäre, wenn Life.exp 0 wäre (hier 159.57).

Der Wert b gibt zeigt, wie stark der Wert Murder mit der Zunahme an Life.exp zu- bzw. abnimmt. Hier sinkt nimmt Murder um 2.147 pro Einheit der Life.exp ab.

Beispiel 4:

Wir kehren zurück zum Datensatz “LakeHuron”. Passen Sie ein Modell an, das den Zeittrend modelliert. Überprüfen Sie alle erforderlichen statistischen Voraussetzungen für die Gültigkeit dieses Modells mithilfe der quality plots der Residuen.

Datensatz

summary(LakeHuron)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   576.0   578.1   579.1   579.0   579.9   581.9

Überprüfung der Residuen

Residuals vs Fitted:

Es ist eine leicht nach unten gebogene rote Linie zu sehen: Das lässt darauf schließen, dass hier die Schwankungen etwas größer sind. Da jedoch auch vorne und hinten sich die gerade systematisch vom Nullpunkt entfernt gleicht sich das ganze relativ gut aus. Es besteht nur eine leichte Inhomogenität

Normal Q-Q:

Hier kann von einer Normalverteilung ausgegangen werden, da sich die Datenpunkte relativ nah bzw. auf der Referenzlinie befinden.

Scale-Location:

Die Standardabweichung der Residuen zeigt eine relativ konstante rote Linie, somit kann hier von Homoskedastizität ausgegangen werden.

Residuals vs Leverage:

Es liegt kein Hebelpunkt vor, da alle Datenpunkte innerhalb der Cooks Distance liegen.

Anforderungen eines linearen Regressionsmodells

  1. Das Modell hat keinen systematischen Fehler : Bewiesen durch “Residuals vs. Fitted” Plot
  2. Die Fehlervarianz ist für alle Beobachtungen gleich groß (homoskedastisch): Bewiesen durch “Scale-Location” und “Residuals vs. Fitted” Plot
  3. Die Komponenten des Fehlerterms sind nicht korreliert: Bewiesen durch: “Residuals vs. Fitted” Plot, kein “Bath-Effekt Punk”
  4. Der Modellfehler sei normalvertelt: Bewiesen durch “Normal Q-Q” Plot
  5. Kein Hebelpunkt: Bewiesen durch “Residuals vs. Leverage” Plot

Regressionsanalyse

> 
> Call:
> lm(formula = lx ~ time(lx))
> 
> Residuals:
>      Min       1Q   Median       3Q      Max 
> -2.50997 -0.72726  0.00083  0.74402  2.53565 
> 
> Coefficients:
>               Estimate Std. Error t value Pr(>|t|)    
> (Intercept) 625.554918   7.764293  80.568  < 2e-16 ***
> time(lx)     -0.024201   0.004036  -5.996 3.55e-08 ***
> ---
> Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
> 
> Residual standard error: 1.13 on 96 degrees of freedom
> Multiple R-squared:  0.2725,  Adjusted R-squared:  0.2649 
> F-statistic: 35.95 on 1 and 96 DF,  p-value: 3.545e-08
>       Min.    1st Qu.     Median       Mean    3rd Qu.       Max. 
> -2.5099700 -0.7272602  0.0008289  0.0000000  0.7440245  2.5356500

Der Median der Residuen liegt bei ca. 0.

Mittelwert der Residuen = 0 => Intercept ist in der Schätzung enthalten (A1 Voraussetzung automatisch erfüllt)

y= 625.55

x= -0.024

N0: Wert ist gleich wie Null

NA: Wert ist ungleich Null

Intercept und Time : p-value < 0.005 => Nullhypothese wird verworfen => Werte sind ungleich Null

Beide Variabelen sind zueinander signifikant

1.13 : Summe der Quadrate der Residuen

96 degrees of freedom: Wir haben 98 Datenpunkte (96+2)

Adjusted R-squared = 0.2649 => sehr schwacher linearer Zusammenhang

Regressionsgleichung

Regressionsgleichung:

yreg = 625.554918 - 0.024201 * xreg

Interpretation

Der Wasserspiegel sinkt pro Jahr um den Wert 0.024201 Fuß. Zu Beginn (x=0) lag der Wasserspiegel bei 625.55498 Fuß. Hierbei ist ein negativer Trend über die jahre zu Beobachten. Jedoch schwanken die Werte des Wasserspiegels unterschiedlich stark in den einzelnen Jahren.