Modellanpassning och korrelation

Rasmus Bååth
04/04/2014

Modellanpassning som optimering

  • Vår modelldefinition beskriver en klass av modeller.
    • y ~ 1 ett värde för alla datapunkter
    • y ~ x en linjär trend
  • Vår modelldefinition är inte en komplett modell, den lämnar coefficienterna ospecificerade.
  • Modellanpassning (model fitting) tar model + data och hittar de coefficienter som gör att modellen “bäst” passar data.
  • Ett mer allmänt ord för det vi kallat koefficient är parameter.

plot of chunk unnamed-chunk-2

plot of chunk unnamed-chunk-3

plot of chunk unnamed-chunk-4

"Bäst" behöver defineras

  • Den bästa modellen är den som är minst “fel”.
  • Två möjligheter:
    • 1. Vi mäter felet som summan av residualerna, alltså summan av avstånden från modellen till datan.
    • 2. Vi mäter felet som summan av residualerna² .
  • När vi minimerar (1) och bara har en responsvariabel får vi…
    • medianen
  • När vi minimerar (2) får vi…
    • medelvärdet.

Least Squares

  • Den metod som lm använder sig av.
  • På sätt och vis också mean och mm

Least squares demo

https://raw.githubusercontent.com/rpruim/ mosaicManip/master/R/mLineFit.R

library(mosaic)
# Copy-n-paste scriptet ovan in i terminalen/konsollen i R.
kids = fetchData("kidsfeet.csv")
mLineFit( length ~ width, data=kids )

plot of chunk unnamed-chunk-6

plot of chunk unnamed-chunk-7

Mått på modellpassning

  • Ögonmåttet.

  • Visar hur bra modellen är jämfört med medelvärdet.
  • Korrekt men förvirrande definition i boken.
  • Från wikipedia: \[ R^2 = 1 - \frac{SS_{residuals}}{SS_{totalt}} \]

Testa själv med Least squares demot

library(mosaic)
kids = fetchData("kidsfeet.csv")
mLineFit( length ~ width, data=kids )

Med lm och summary

library(mosaic)
kids = fetchData("kidsfeet.csv")
fit1 <- lm(length ~ width, data=kids)
summary(fit1)

Call:
lm(formula = length ~ width, data = kids)

Residuals:
   Min     1Q Median     3Q    Max 
-1.633 -1.037  0.230  0.713  1.964 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)    9.817      2.938    3.34   0.0019 ** 
width          1.658      0.326    5.08  1.1e-05 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 1.02 on 37 degrees of freedom
Multiple R-squared:  0.411, Adjusted R-squared:  0.395 
F-statistic: 25.8 on 1 and 37 DF,  p-value: 1.1e-05

R² blir alltid bättre

En mer komplex modell kommer alltid ha högre

time ~ year*sex

…har alltid högre R² än…

time ~ year

En övergång

  1. Om vi antar modellen y ~ x för kvantitativa variabler.
  2. Vi räknar ut R²
  3. Vi tar \( \sqrt{R²} \)
  4. Vi sätter på + om det var en uppåtgående trend och - om trenden var nedåtgående.
  5. Vad får vi då?

Korrelation!

  • Specifikt “Pearson product-moment correlation coefficient”.
  • Ett (av många) mått på linjärt samband mellan två kvantitativa variabler.
  • Går att räkna ut med R² från en y ~ x modell.
  • Eller direkt med cor-functionen.
cor(length ~ width, data=kids)
[1] 0.6411

Eller varför inte med ett CI?

samples <- do(1000) * cor(length ~ width, data=resample(kids))
# Coverage interval
confint(samples, method="quantile")
    name  lower  upper level   method
1 result 0.4552 0.7833  0.95 quantile
# baserat på standard error
confint(samples, method="stderr") 
    name lower  upper level method estimate margin.of.error
1 result 0.467 0.8047  0.95 stderr   0.6359          0.1689

Ett exempel från literaturen

  • 2d4d ratio och styrka.

Hone, L. S., & McCullough, M. E. (2012). 2D: 4D ratios predict hand grip strength (but not hand grip endurance) in men (but not in women). Evolution and Human Behavior, 33(6), 780-789.

2D:4D ratios were significant predictors of grip strngth for men (r = -0.35, 95% CI [-0.45, -0.05] ), but not for women (r = -0.15, 95% CI [-0.35, 0.05] ), suggesting that men (but not women) who had had more intrauterine exposure to testosterone were physically stronger than men who had had less intrauterine exposure to testosterone (see Fig. 1 and Fig. 2).

Modifierat från Hone, L. S., & McCullough, M. E. (2012). 2D: 4D ratios predict hand grip strength (but not hand grip endurance) in men (but not in women). Evolution and Human Behavior, 33(6), 780-789.

Guess the Correlation

plot of chunk unnamed-chunk-12

plot of chunk unnamed-chunk-13

plot of chunk unnamed-chunk-14

plot of chunk unnamed-chunk-15

plot of chunk unnamed-chunk-16

plot of chunk unnamed-chunk-17

plot of chunk unnamed-chunk-18

plot of chunk unnamed-chunk-19