Density eller histogram

Lad os kigge på et histogram over priser på diamanter. Bruger vi ggplot2’s indbyggede binwidth på range/30 får vi følgende plot

library("ggplot2")
ggplot(diamonds, aes(x = price)) + geom_histogram()

## stat_bin: binwidth defaulted to range/30. Use 'binwidth = x' to adjust this.

Hvis vi ændrer binwidth til et par forskellige værdier kan vi lige pludselig se ny vigtig information i data. Eksempelvis, at der mangler mange værdier ved pris omkring $2000.

ggplot(diamonds, aes(x = price)) + geom_histogram(binwidth = 50)

Denne indsigt misser vi fuldstændig ved et density plot, der smoother den slags missing data væk

ggplot(diamonds, aes(x = price)) + geom_density()

Density plots og histogrammer har hver deres fordele, og det er vigtigt at være skeptisk overfor begge to. Generelt er der ingen let måde at lære sit datasæt at kende. Det kræver at man eksperimenterer og går i dybden, og her er både histogrammer og density plots nyttige - hvis man vel at mærke bruger dem ordentligt.

Density eller histogram

Sebastian Barfort

16 Apr 2015