Summeringsstatistik och grafer

Rasmus Bååth
27/03/2014

 [1] -0.78650 -1.33004 -0.86463 -0.69212  0.49538  0.35916  0.54304
 [8] -0.52942  1.07282 -1.26249  0.18143 -1.47921 -0.75768  0.73171
[15]  0.10333  1.09986 -0.17017  1.14724 -0.60805 -1.13599 -0.10374
[22] -2.16209 -0.66582 -0.11352 -0.94072 -0.27832  1.01980 -0.65873
[29]  0.19590  0.25158  0.96612  0.78912  0.30938 -0.69714  1.01749
[36] -1.44318 -1.10384 -0.04209 -1.66778  2.16543  0.13860 -1.12797
[43] -0.04633 -0.06393 -0.02672  0.86438 -1.52132  0.07446 -0.35171
[50]  1.37683 -0.02270  1.03367  1.02393  1.21239  0.95452  0.52387
[57] -0.28531  0.49969  0.38407  1.74932

Summeringsstatistik

  • Vad är den generella tendensen? (Central tendency)
  • Hur spridd är data? Spridningsmått.

Mått på "Central tendency"

  • Aritmetiska medelvärdet (mean)
  • Medianen (medianen)
  • Trimmade medelvärden

Aritmetiska medelvärdet (mean)

\[ (1,6,5,9) \]

\[ \frac{1+6+5+9}{4} \]

\[ \frac{\sum_{i=1}^{n} x_i}{n} \]

sum(x) / length(x)

mean(x)

mean(x ~ group, data=d)

  • Balanspunken för en fördelning.

plot of chunk unnamed-chunk-2

plot of chunk unnamed-chunk-3

Medianen (median)

\[ (5,1,6,9,2) \]

\[ (1,2,\underline{\mathbf{5}},6, 9) \]

\[ (1,6,5,9) \]

\[ (1,\underline{\mathbf{5}},\underline{\mathbf{6}},9) \Rightarrow \frac{5+6}{2} \]

median(x)

median(x ~ group, data=d)

  • Mittpunkten för en fördelning.

plot of chunk unnamed-chunk-4

plot of chunk unnamed-chunk-5

plot of chunk unnamed-chunk-6

Trimmat medelvärde

  • Mellan median och medelvärde.

mean(x , data=d, trim=0.2)

Inpass: Statistiska Modeller

  • Vad är en modell?

Inpass: Statistiska Modeller

  • Vad är en modell?
  • Vad är en statistisk modell? En representation för data.

"Central tendency" som modell

  • Typfallet får representera datan.
  • The average man (medelsvensson).
  • Den absolut vanligaste statistiska modellen.
  • Inte nödvändigtvis meningsfull.

plot of chunk unnamed-chunk-7

Spridningsmått

  • Minimum och Maximum
  • Coverage interval
  • Varians
  • Standardavvikelse (standard deviation)

Minimum och Maximum

Minimum och Maximum

min(x)

max(x)

range(x)

Coverage interval

  • Mittintervallet som täcker x % av datan.

95% Coverage interval

plot of chunk unnamed-chunk-8

50% Coverage interval aka Inter Quartile Range

plot of chunk unnamed-chunk-9

Coverage interval

qdata( c(0.025, 0.975), rt, data=d)

IQR(rt ~ group, data=d)

Varians

  • Ett av många mått som summerar avvikelse från en modell, här medelvärdet.
  • Formula: \[ \frac{\sum (x_i - \bar{x})^2}{n} \]
  • Om vi inte mäter hela populationen: \[ \frac{\sum (x_i - \bar{x})^2}{n - 1} \]
  • var(x)
  • Trevliga matematiska egenskaper, dåliga kognitiva.

Standardavvikelse (Standard deviation)

  • \[ x^2 = x \cdot x \]
  • \[ \sqrt{x \cdot x} = \sqrt{x^2} =x \]
  • Variansen är medel av (avvikelsen från medelvärdet)\( ^2 \)
  • Standardavvikelse = \( \sqrt{\mathrm{varians}} \)
  • sd(x)

plot of chunk unnamed-chunk-10

 [1] -0.71041  0.25688 -0.24669 -0.34754 -0.95162 -0.04503 -0.78490
 [8] -1.66794 -0.38023  0.91900 -0.57535  0.60796 -1.61788 -0.05556
[15]  0.51941  0.30115  0.10568 -0.64071 -0.84970 -1.02413  0.11765
[22] -0.94747 -0.49056 -0.25609  1.84386 -0.65195  0.23539  0.07796
[29] -0.96186 -0.07131  1.44455  0.45150  0.04123 -0.42250 -2.05325
[36]  1.13134 -1.46064  0.73995  1.90910 -1.44389  0.70178 -0.26220
[43] -1.57214 -1.51467 -1.60154 -0.53091 -1.46176  0.68792  2.10011
[50] -1.28703  0.78774  0.76904  0.33220 -1.00838 -0.11945 -0.28040
[57]  0.56299 -0.37244  0.97697 -0.37458

Grafer

  • Låter vårt kraftfulla visuella system göra jobbet!

Reaktionstidsdatan

d <- read.csv("../03_25/rt_experiment.csv")

Strip plot

stripplot(~ rt, data=d)

plot of chunk unnamed-chunk-14

Histogram

histogram(~ rt, data=d)

plot of chunk unnamed-chunk-16

Histogram

histogram(~ rt, data=d, breaks=16)

plot of chunk unnamed-chunk-18

Density plot

densityplot(~ rt, data=d)

plot of chunk unnamed-chunk-20

Box plot

bwplot(~ rt, data=d)

plot of chunk unnamed-chunk-22

titanic <- read.csv("http://www.sumsar.net/files/titanic3.csv")
bwplot(~ age, data=titanic)

plot of chunk unnamed-chunk-24

bwplot(age ~ pclass | sex, data=titanic)

plot of chunk unnamed-chunk-26