Wählen Sie den Datensatz UN aus der library car. Filtern Sie erst ‘NA’ mit der Funktion na.omit. Erklären Sie dann infant mortality durch gross domestic product. Explorieren Sie die Daten, bevor Sie ein Modell anpassen.
summary(df)
## region group fertility ppgdp
## Africa :52 oecd : 31 Min. :1.134 Min. : 114.8
## Asia :50 other :110 1st Qu.:1.750 1st Qu.: 1239.8
## Europe :39 africa: 52 Median :2.264 Median : 4495.8
## Latin Amer:20 Mean :2.780 Mean : 12291.1
## Oceania :17 3rd Qu.:3.700 3rd Qu.: 14497.3
## Caribbean :13 Max. :6.925 Max. :105095.4
## (Other) : 2
## lifeExpF pctUrban infantMortality
## Min. :48.11 Min. : 11.0 Min. : 1.916
## 1st Qu.:65.10 1st Qu.: 39.0 1st Qu.: 7.243
## Median :75.57 Median : 59.0 Median : 19.637
## Mean :72.08 Mean : 57.1 Mean : 30.739
## 3rd Qu.:79.07 3rd Qu.: 75.0 3rd Qu.: 45.892
## Max. :87.12 Max. :100.0 Max. :124.535
##
x <- df$infantMortality
summary(x)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.916 7.243 19.637 30.739 45.892 124.535
var(x)
> 855.1969
sd(x)
> 29.24375
skewness(x)
> 1.198359
kurtosis(x)
> 0.5551002
mad(x)
> 22.06109
Der Datensatz “UN” wurde aus der library “carData” geladen, um Infant Mortality und die Gross Domestic Product Daten zu explorieren. Die NA’s wurden aus dem Datensatz herausgefiltert und es blieben 193 Variablen übrig.
Am Histogramm ist eine rechtsschiefe und unimodale Verteilung zu sehen. Im Boxplot und Q-Q Plot ist links ein leichter und rechts ein deutlich schwerer Rand zu erkennen.
x1 <- df$ppgdp
summary(x1)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 114.8 1239.8 4495.8 12291.1 14497.3 105095.4
var(x1)
> 303190837
sd(x1)
> 17412.38
skewness(x1)
> 2.21232
kurtosis(x1)
> 5.645079
mad(x1)
> 5671.538
Wie man dem Histogramm entnehmen kann handelt es sich hierbei um eine unimodale Verteilung. Des Weiteren kann sowohl dem Histogramm als auch dem Q-Q Plot und dem Boxplot entnommen werden, dass hier eine rechtschiefe Verteilung vorliegt und zudem auch noch schwere Ränder vorhanden sind (Bestätigt durch den Skewness-Wert)
>
> Pearson's product-moment correlation
>
> data: df$infantMortality and df$ppgdp
> t = -8.3117, df = 191, p-value = 1.73e-14
> alternative hypothesis: true correlation is not equal to 0
> 95 percent confidence interval:
> -0.6120704 -0.4035178
> sample estimates:
> cor
> -0.5153847
Die Daten zeigen keinen linearen Zusammenhang, das vom Korrelations-Wert (-0.5153847) und Scatterplot bestätigt wird. Aus diesem Grund werd die Daten mit einerm logarithmischen Scatterplot dargestellt.
>
> Pearson's product-moment correlation
>
> data: log(df$infantMortality) and log(df$ppgdp)
> t = -25.018, df = 191, p-value < 2.2e-16
> alternative hypothesis: true correlation is not equal to 0
> 95 percent confidence interval:
> -0.9047107 -0.8376375
> sample estimates:
> cor
> -0.8753203
Logarithmiert man die Daten, so kann man die Korrelation besser erkennen (-0.8753203). Des Weiteren wird der lineare Zusammenhang der Daten besser ersichtlich. Dem Wert kann entnommen werden, dass sofern das gross domestic product größer ist, dann die infant mortality entsprechend geringer ist.
Für die Modellanpassung werden logarthmische Daten herangezogen.
summary(log.lm)
##
## Call:
## lm(formula = log(df$infantMortality) ~ log(df$ppgdp))
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.16789 -0.36738 -0.02351 0.24544 2.43503
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 8.10377 0.21087 38.43 <2e-16 ***
## log(df$ppgdp) -0.61680 0.02465 -25.02 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.5281 on 191 degrees of freedom
## Multiple R-squared: 0.7662, Adjusted R-squared: 0.765
## F-statistic: 625.9 on 1 and 191 DF, p-value: < 2.2e-16
Folgendes:
H0: es gibt kein linearer Zusammenhang H1: es gibt einen linearer Zusammenhang
H0 kann verworfen werden (f-Statistik: 625.9) und p-Value (< 2.2e-16). Der Adjustet R-Squared beträgt 0.765, daraus lässt sich schließen, dass von den Variablen ca. 76% der Varianz durch dieses vorliegende Modell erläutert werden können.
Um den 0-Wert herum sind die Resiuden zentriert. Demnach lässt sich daraus schließen, dass kein systematischer Fehler vorliegt. Die Residuen beeinflussen sich nicht, keine Korrelation bzw. sie sind unkorreliert.
Man erkennt eine Normalverteilung. Zudem sind Ausreiser auf der rechten Seite zu erkennen, da aber die Datenmenge sehr groß ist, macht das nicht viel aus bzw. so fällt es nicht ins Gewicht.
Nicht erkennbar: Verläufe, nicht heteroskedastisch.
Hier ist kein starker Hebeleffekt zu erkennen bzw. herauszulesen, da die Punkte sich auch in der Cooks distance befinden.
Allgemeine Regressionsgleichung:
y(i) = alpha + beta *x
Modell-Gleichung:
log(infantMortality) = 8.10377 - 0.61680 * log(ppgdp)
Intercept:8.10377 Steigung:-0.61680
Umformen der logarithmischen Daten auf die ursprüngliche Form.
exp(log(infantMortality))= exp(-0.61680 * log(ppgdp) + 8.10377)
infantMortality = ppgdp^{-0.61680}*exp(8.10377)
Funktion/Modell Original-Daten:
ppgdp = 3306.912 * (infantMortality)^{-0.61680}
Hier kann anhand der Daten herausgelesen werden, dass sofern die infant die mortality am sinken ist, das gross domestic product unendlich groß sein würde bzw. werden würde.
Erhöhung der infant mortality um 1 - gross domestic product sinkt um das 3306.912 fache
Verwendet werden die folgenden Variablen: “Fertility”, “Agriculture”, “Education”,“Catholic” und “Infant. Mortality” aus dem R Datensatz swiss des R package utils. Passen Sie für die oben genannten Variablen ein Modell an, das Education durch die übrigen Variablen erklärt, soweit dies zulässig ist.
summary(swiss)
## Fertility Agriculture Examination Education
## Min. :35.00 Min. : 1.20 Min. : 3.00 Min. : 1.00
## 1st Qu.:64.70 1st Qu.:35.90 1st Qu.:12.00 1st Qu.: 6.00
## Median :70.40 Median :54.10 Median :16.00 Median : 8.00
## Mean :70.14 Mean :50.66 Mean :16.49 Mean :10.98
## 3rd Qu.:78.45 3rd Qu.:67.65 3rd Qu.:22.00 3rd Qu.:12.00
## Max. :92.50 Max. :89.70 Max. :37.00 Max. :53.00
## Catholic Infant.Mortality
## Min. : 2.150 Min. :10.80
## 1st Qu.: 5.195 1st Qu.:18.15
## Median : 15.140 Median :20.00
## Mean : 41.144 Mean :19.94
## 3rd Qu.: 93.125 3rd Qu.:21.70
## Max. :100.000 Max. :26.60
>
> Call:
> lm(formula = Education ~ ., data = data)
>
> Residuals:
> Min 1Q Median 3Q Max
> -10.4029 -2.7803 -0.7571 2.4934 12.8590
>
> Coefficients:
> Estimate Std. Error t value Pr(>|t|)
> (Intercept) 49.99303 6.18641 8.081 4.31e-10 ***
> Fertility -0.52070 0.07869 -6.617 5.14e-08 ***
> Agriculture -0.22880 0.03906 -5.857 6.37e-07 ***
> Catholic 0.08333 0.02179 3.825 0.000428 ***
> Infant.Mortality 0.28437 0.30040 0.947 0.349243
> ---
> Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
>
> Residual standard error: 5.224 on 42 degrees of freedom
> Multiple R-squared: 0.7305, Adjusted R-squared: 0.7048
> F-statistic: 28.46 on 4 and 42 DF, p-value: 1.804e-11
> Fertility Agriculture Catholic Infant.Mortality
> Fertility 1.0000000 0.35307918 0.4636847 0.41655603
> Agriculture 0.3530792 1.00000000 0.4010951 -0.06085861
> Catholic 0.4636847 0.40109505 1.0000000 0.17549591
> Infant.Mortality 0.4165560 -0.06085861 0.1754959 1.00000000
Der Residuen Median lässt mit -0,7571 darauf schließen, dass die Residuen um 0 herum zentriert sind. (Voraussetzung für multiple Linearität dadurch gegeben und erfüllt)
Die Plots (Residual vs. Fitted und Scale-Location) lassen darauf schließen, dass die Residuen unkorreliert sind und homoskedastisch.
Der Scatterplot zeigt keine Korrelation zwischen den Variablen. Zudem sind alle Voraussetzungen für eine multiple lineare Regression erfüllt, da die Korrelationskoeffizienten unter 0,5 liegen.
Der Punkt V.De Geneve liegt außerhalb der Hooks Distance, dies lässt sich im Residuals vs Leverage Plot erkennen, daher ist der Punkt V.De Geneve ein Hebelpunkt. Dieser sollte und muss aus den Daten entfernt werden.
Der Q-Q Plot zeigt schwere Ränder. Bei solch einer großen Datenmenge fällt dies aber nicht stark ins Gewicht, sodass von einer Normalverteilung ausgegangen werden kann.
>
> Call:
> lm(formula = Education ~ ., data = x4)
>
> Residuals:
> Min 1Q Median 3Q Max
> -8.8462 -2.3128 -0.2679 1.9182 13.2990
>
> Coefficients:
> Estimate Std. Error t value Pr(>|t|)
> (Intercept) 41.80712 6.09621 6.858 2.62e-08 ***
> Fertility -0.41466 0.07778 -5.331 3.84e-06 ***
> Agriculture -0.19427 0.03668 -5.296 4.30e-06 ***
> Catholic 0.06108 0.02074 2.946 0.00529 **
> Infant.Mortality 0.26016 0.27044 0.962 0.34170
> ---
> Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
>
> Residual standard error: 4.701 on 41 degrees of freedom
> Multiple R-squared: 0.6299, Adjusted R-squared: 0.5938
> F-statistic: 17.45 on 4 and 41 DF, p-value: 1.966e-08
Aufgrund des p-values Summary kann Education nicht durch infant mortality erläutert werden. Dennoch werden alle Variablen die Signifikanz zeigen in das multiple lineare Regressionmodell aufgenommen.
Bestätigt durch die Step-Function:
> Start: AIC=147.11
> Education ~ Fertility + Agriculture + Catholic + Infant.Mortality
>
> Df Sum of Sq RSS AIC
> - Infant.Mortality 1 20.46 926.71 146.14
> <none> 906.25 147.11
> - Catholic 1 191.80 1098.05 153.94
> - Agriculture 1 620.02 1526.27 169.09
> - Fertility 1 628.22 1534.48 169.34
>
> Step: AIC=146.14
> Education ~ Fertility + Agriculture + Catholic
>
> Df Sum of Sq RSS AIC
> <none> 926.71 146.14
> - Catholic 1 197.17 1123.88 153.01
> - Fertility 1 644.05 1570.76 168.41
> - Agriculture 1 710.76 1637.47 170.32
>
> Call:
> lm(formula = Education ~ Fertility + Agriculture + Catholic,
> data = x4)
>
> Coefficients:
> (Intercept) Fertility Agriculture Catholic
> 45.26863 -0.38468 -0.20240 0.06188
Folgendes Regressionsmodell resultiert:
Education_i = alpha + beta_{Fertility} * x_{Fertility,i} + beta_{Agriculture} * x_{Agriculture,i} + beta_{Catholic}* x_{Catholic,i} + epsilon_i
Die Modellgleichung lautet:
Education_i = 45.2686 + -0.3847* x_{Fertility,i} + -0.2024 * x_{Agriculture,i} + 0.0619 * x_{Catholic,i}
Betrachtet man intercept alpha (45.26863), so lässt sich erkennen, dass 45.2686% der Bevölkerung eine höhere Ausbildung als nur die Grundschulausbildung genossen haben, dies gilt, wenn folgenden Voraussetzugen erfüllt wären:
Die Beta-Koeffizienten zeigen, um welchen Prozentsatz der Anteil der Bevölkerung mit einem höheren Abschluss als die Grundschulausbildung steigen würden, wenn das dazugehörige Maß um 1% steigen würde, sofern die anderen Maße aber gleich bleiben.
Es ist erkennbar, dass Murder und Illiteracy und Murder und Life.exp einen linearen Zusammenhang haben.Lineare Modelle werden erstellt.
Keine extreme Werte sind erkennbar. Die Residuen sind um 0 zentriert und homoskedastisch. Die Voraussetzung für ein lineares Modell ist erfüllt, da ein Q-Q-Plot eine Normalverteilung zeigt.
Keine extreme Werte sind erkennbar. Die Residuen sind um 0 zentriert und homoskedastisch. Die Voraussetzung für ein lineares Modell ist erfüllt, da ein Q-Q-Plot eine Normalverteilung zeigt.
lm(Mur ~ Ill)
>
> Call:
> lm(formula = Mur ~ Ill)
>
> Coefficients:
> (Intercept) Ill
> 2.397 4.257
##Regressionsmoell
Murder = a + b(Illiteracy)*Illiteracy + e(i)
Murder = 2.397+ 4.257*Illiteracy
Der Wert a zeigt, wie groß die Menge Murder wäre, wenn Illiteracy 0 wäre (hier 2.397).
Der Wert b gibt zeigt, wie stark der Wert Murder mit der Zunahme an Illiteracy zu- bzw. abnimmt. Murder steigt um 4.257 pro Einheit der Illiteracy.
lm(Mur ~ LifeExp)
>
> Call:
> lm(formula = Mur ~ LifeExp)
>
> Coefficients:
> (Intercept) LifeExp
> 159.576 -2.147
Murder = a + b(Life.exp)*Life.exp + e(i)
Murder = 159.57 + (-2.147)*Life.exp
Der Wert a zeigt, wie groß die Menge Murder wäre, wenn Life.exp 0 wäre (hier 159.57).
Der Wert b gibt zeigt, wie stark der Wert Murder mit der Zunahme an Life.exp zu- bzw. abnimmt. Hier sinkt nimmt Murder um 2.147 pro Einheit der Life.exp ab.
Wir kehren zurück zum Datensatz “LakeHuron”. Passen Sie ein Modell an, das den Zeittrend modelliert. Überprüfen Sie alle erforderlichen statistischen Voraussetzungen für die Gültigkeit dieses Modells mithilfe der quality plots der Residuen.
summary(LakeHuron)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 576.0 578.1 579.1 579.0 579.9 581.9
Es ist eine leicht nach unten gebogene rote Linie zu sehen: Das lässt darauf schließen, dass hier die Schwankungen etwas größer sind. Da jedoch auch vorne und hinten sich die gerade systematisch vom Nullpunkt entfernt gleicht sich das ganze relativ gut aus. Es besteht nur eine leichte Inhomogenität
Hier kann von einer Normalverteilung ausgegangen werden, da sich die Datenpunkte relativ nah bzw. auf der Referenzlinie befinden.
Die Standardabweichung der Residuen zeigt eine relativ konstante rote Linie, somit kann hier von Homoskedastizität ausgegangen werden.
Es liegt kein Hebelpunkt vor, da alle Datenpunkte innerhalb der Cooks Distance liegen.
>
> Call:
> lm(formula = lx ~ time(lx))
>
> Residuals:
> Min 1Q Median 3Q Max
> -2.50997 -0.72726 0.00083 0.74402 2.53565
>
> Coefficients:
> Estimate Std. Error t value Pr(>|t|)
> (Intercept) 625.554918 7.764293 80.568 < 2e-16 ***
> time(lx) -0.024201 0.004036 -5.996 3.55e-08 ***
> ---
> Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
>
> Residual standard error: 1.13 on 96 degrees of freedom
> Multiple R-squared: 0.2725, Adjusted R-squared: 0.2649
> F-statistic: 35.95 on 1 and 96 DF, p-value: 3.545e-08
> Min. 1st Qu. Median Mean 3rd Qu. Max.
> -2.5099700 -0.7272602 0.0008289 0.0000000 0.7440245 2.5356500
Der Median der Residuen liegt bei ca. 0.
Mittelwert der Residuen = 0 => Intercept ist in der Schätzung enthalten (A1 Voraussetzung automatisch erfüllt)
y= 625.55
x= -0.024
N0: Wert ist gleich wie Null
NA: Wert ist ungleich Null
Intercept und Time : p-value < 0.005 => Nullhypothese wird verworfen => Werte sind ungleich Null
Beide Variabelen sind zueinander signifikant
1.13 : Summe der Quadrate der Residuen
96 degrees of freedom: Wir haben 98 Datenpunkte (96+2)
Adjusted R-squared = 0.2649 => sehr schwacher linearer Zusammenhang
Regressionsgleichung:
yreg = 625.554918 - 0.024201 * xreg
Der Wasserspiegel sinkt pro Jahr um den Wert 0.024201 Fuß. Zu Beginn (x=0) lag der Wasserspiegel bei 625.55498 Fuß. Hierbei ist ein negativer Trend über die jahre zu Beobachten. Jedoch schwanken die Werte des Wasserspiegels unterschiedlich stark in den einzelnen Jahren.