Asimetria

Una distribució és asimètrica quan té una cua més llarga que l’altra, o sigui, quan hi ha observacions molt més allunyades del centre cap a un costat que cap a l’altre de la distribució. Per exemple, la distribució dels ingressos per sous en una enquesta dels Estats Units del 2017 és molt asimètrica a la dreta, perquè hi ha algunes observacions que són persones que tenen sous molt més alts que la majoria.

load("acs2017.RData")
options(scipen=4)
hist(acs2017$INCWAGE, breaks="scott", xlab="Sous ($)", main="Ingressos per sou")

Asimetria, mitjana i mediana

Ens interessa com l’assimetria de la distribució afecta a les mesures de centralitat que coneixem.

En el càlcul de la mitjana hi intervenen totes les observacions sumades:

\[\bar x = \frac{\sum_{i=1}^{n}x_i}{n}\] Si hi ha algunes observacions amb valors molt més grans que els altres, aquestes observacions faran augmentar molt la suma, i per tant faran augmentar la mitjana. Aleshores, la mitjana es mou cap als valors extrems, o sigui, cap a la banda on hi ha asimetria. Diem que la mitjana és sensible als valors extrems.

En canvi, en el càlcul de la mediana només hi intervé el valor central (o els dos valors centrals si la mida de la mostra és parell). Aleshores no l’afecta gens si les altres observacions estan molt a prop o molt lluny del centre.

Exemple simple

Com a exemple, considerem una mostra amb cinc observacions de valor 8, 9, 10, 11 i 12. Aquesta mostra és simètrica i veiem que la mitjana i la mediana coincideixen:

mostra <- c(8, 9, 10, 11, 12)
summary(mostra)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##       8       9      10      10      11      12
hist(mostra, breaks=-.5:20.5, sub="Mitjana de vermell, mediana de blau",
     main="Simètrica")
abline(v=mean(mostra), col ="red", lwd=2)
abline(v=median(mostra), col ="blue", lty=2, lwd=2)

Si movem l’observació més petita a l’esquerra, passant de 8 a 0, obtenim una distribució asimètrica a l’esquerra. Veiem com canvien mitjana i mediana:

mostra <- c(0, 9, 10, 11, 12)
summary(mostra)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     0.0     9.0    10.0     8.4    11.0    12.0
hist(mostra, breaks=-.5:20.5, sub="Mitjana de vermell, mediana de blau",
     main="Asimètrica a l'esquerra")
abline(v=mean(mostra), col ="red", lwd=2)
abline(v=median(mostra), col ="blue", lty=2, lwd=2)

Podem veure que ara tenim un valor molt allunyat per l’esquerra (molt petit) i la mitjana s’ha desplaçat a l’esquerra (és més petita que abans) influïda per aquest valor. En canvi, la mediana no s’ha mogut.

En canvi, si el valor allunyat el tenim a la dreta (canviant a la mostra original el 12 per un 20), tenim una distribució asimètrica a la dreta i la mitjana, influïda per aquest valor extrem, es desplaça a la dreta (es fa més gran), mentre que la mediana segueix essent la mateixa.

mostra <- c(8, 9, 10, 11, 20)
summary(mostra)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     8.0     9.0    10.0    11.6    11.0    20.0
hist(mostra, breaks=-.5:20.5, sub="Mitjana de vermell, mediana de blau",
     main="Asimètrica a la dreta")
abline(v=mean(mostra), col ="red", lwd=2)
abline(v=median(mostra), col ="blue", lty=2, lwd=2)

Tornant als ingressos

Tornant a la variable dels sous, com que és molt asimètrica a la dreta, esperarem que la mitjana sigui força més gran que la mediana. Comprovem-ho:

summary(acs2017$INCWAGE)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##       0       0   12000   30517   42000  710000   19938
hist(acs2017$INCWAGE, breaks="scott", xlab="Sous ($)", main="Ingressos per sou")
abline(v=mean(acs2017$INCWAGE, na.rm=TRUE), col ="red")
abline(v=median(acs2017$INCWAGE, na.rm=TRUE), col ="blue", lty=2)

Per pensar una mica

n <- 2000
x0 <- 50
mostra1 <- rnorm(n)
mostra2 <- mostra1^2+rev(mostra1^2)
mostra3 <- -mostra2
mostra1 <- mostra1-mean(mostra1)+x0
mostra2 <- mostra2-mean(mostra2)+x0
mostra3 <- mostra3-mean(mostra3)+x0
mostra <- data.frame(x = c(mostra1, mostra2, mostra3),
                     mostra = c(rep(1:3, each=n)))

Tenim una mostra amb mitjana 50 i mediana 50.66. A quin dels següents histogrames correspon?

library(ggplot2)
ggplot(mostra) +
  geom_histogram(aes(x=x), binwidth=.2) +
  facet_grid(mostra~.)