En este artículo reviso brevemente cómo el INE (Instituto Nacional de Estadística) presenta el ingreso monetario de los hogares uruguayos, haciendo notar que la elección del promedio como medida representativa de la población, no es muy afortunada. Alternativamente, considero el uso de la mediana o una moda obtenida “a ojo”, como medidas más confiables de la realidad uruguaya.
En este artículo se afirma que el ingreso promedio de los hogares en mayo (según la ECH) es de $U 49.906,00, lo que representa un aumento de $U 237,00 respecto al mes anterior.
Más allá de que tal vez $U 237,00 esté muy por debajo de la variación que uno esperaría, es necesario cuestionar la utilidad del promedio como media representativa de esta población.
Como cualquiera que haya estudiado un poco de estadística básica sabe, el promedio tiene una molesta tendencia a correrse hacia arriba con la aparición de valores extremos, de forma que no muestra una moda de la distribución. Las distribuciones de cola larga son un caso típico en el que usar el promedio es problemático.
Pero es bastante sabido que los ingresos monetarios suelen tener justamente este tipo de distribuciones (Exponenciales, LogNormales, etc). Entonces, vale la pena tomar datos de ingresos reales y mirar de cerca a ver qué pasa.
Para hacer un análisis modelo, tomé los datos de la Encuesta Continua de Hogares de 2015, específicamente, la columna HSVL de la tabla descargada (“ingreso total del Hogar Sin Valor Locativo sin servicio doméstico”). Así que lo primero que hice fue un histograma de los valores observados…
# Primero que nada, cargar los datos:
hog <- read.delim2("~/Documents/INE_ECH_2015/Hogares_2015_terceros.dat")
hist(hog$YSVL, breaks = 500, border = NA, col = "skyblue", main = "Ingresos $U + 100", xlab = "$U",
ylab = "Frecuencia", xaxt = "n")
grid()
axis(1, at = axTicks(1), labels = format(axTicks(1), digits = 2, big.mark = ".",
big.interval = 3, decimal.mark = ",", scientific = F))
Nota: le sumé 100 para comparar con gráficas posteriores, en las que apliqué logarítmo en base 10. Sin dudas que 100 pesos no debería hacer mella en los datos de ingresos, ¿cierto?
… y como era de esperar, es una clásica distribución de cola larga. Es tan larga que prácticamente no vemos la forma en que se distribuyen los datos (todo gracias a ese puñado de uruguayos que ganan de a millones de pesos).
Pero miremos entonces un resumen de estos datos:
summary(hog$YSVL + 100)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 100 23200 37590 48410 58810 7631000
Como podemos ver aquí, el promedio se parece bastante a lo anunciado por la noticia ($U 48.410,00), lo que me da confianza para suponer que no estoy teniendo errores importantes. Ahora, si miramos el promedio, vemos una diferencia notoria: 38 mil pesos! Nada menos que 10 mil pesos menos que el promedio.
Típicamente, en caso de tener una distribución de cola larg, se hacen histogramas de los datos en escala logarítmica, cosa que inmediatamente hice…
hist(log10(hog$YSVL + 100), breaks = 500, border = NA, col = "skyblue", xlim = c(3, 7), main = "log10(Ingresos + 100)",
xlab = "log10($U)", ylab = "Frecuencia")
grid()
s <- summary(log10(hog$YSVL + 100))
abline(v = s[c(3,4)], lty = c(1, 2), lwd = 2)
legend("right", legend = c("Mediana (4.575 ~ $ 37.583,74)", "Promedio (4.567 ~ $ 36.897,76"), lwd = 2,
lty = c(1, 2), col = 1, bty = "n")
Al ver esta bella forma de campana, me atrevo a diagnosticar una distribución LogNormal (aquella que se ve como una Normal una vez que le aplicamos logaritmo a los valores). Lo más interesante aquí es resaltar cómo los valores del promedio y la mediana son realmente parecidos (y, de hecho, el promedio es ligeramente menor):
summary(log10(hog$YSVL + 100))
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.000 4.365 4.575 4.567 4.769 6.883
Pero más interesante todavía, es que ambos valores están cercanos a la mediana de los datos originales (es decir, antes de aplicar logaritmo). Esto creo que ya habla bastante acerca de la elección de usar el promedio para presentar los datos, en lugar de la mediana, ¿no le parece?
Sin embargo, hay más para escarbar, si miramos más de cerca los datos
Haciendo un Zoom In, podemos ver mejor el primero de los histogramas presentados. Y cuando digo Zoom In, me refiero a acotar los datos, dejando a fuera los valores realmente extremos, que son al fin y al cabo los que me dificultan visualizar bien el asunto.
En este caso, tomé como cota máxima el valor $U 200.000,00, el cual representa el percentil 98.8* (es decir, que el 98.8 % de los ingresos por hogar son menores o iguales a 200 mil pesos). Esto es lo que encontré:
in200k <- hog$YSVL[hog$YSVL <= 10**5 * 2] + 100
h <- hist(in200k, breaks = 500, border = NA, col = "skyblue", main = "Ingresos <= 200k $U + 100", xlab = "$U",
ylab = "Frecuencia", xaxt = "n")
grid()
s <- summary(hog$YSVL + 100)
abline(v = s[c(3,4)], lty = c(1, 2), lwd = 2)
abline(v = 25000, col = 2, lwd = 2)
legend("right", legend = c("Moda ($ 25.000,00)", "Mediana ($ 37.590,00)", "Promedio ($ 48.410,00"), lwd = 2,
lty = c(1, 1, 2), col = c(2, 1, 1), bty = "n")
axis(1, at = axTicks(1), labels = format(axTicks(1), digits = 2, big.mark = ".",
big.interval = 3, decimal.mark = ",", scientific = F))
Nota: la moda en esta gráfica fue calculada a ojo, es decir, probando valores hasta encontrar uno que me dejó razonablemente satisfecho.
A pesar de que la mediana sin dudas es una medida más acertada de los ingresos por hogar, encuentro que de todas formas tampoco es la moda, es decir, allí donde se da el punto máximo de la distribución (como ocurría en la figura anterior). ¿Qué significa esto? Que no es el valor más probable. Me explico mejor: si tomamos hogares al azar dentro de esta población, los valores más frecuentes (y por lo tanto los más probables), estarán alrededor de los 25 mil pesos. Podría decirse que entre 20 y 30 mil pesos están los valores más probables a obtener**.
Tal vez coincidan conmigo en preguntarse el porqué de la elección del INE, para lo cual hay al menos 3 respuestas posibles:
Les dejo a ustedes hacer la lectura que prefieran de la situación.
*: ¿Cómo sé que es el percentil 98.8?
sum(hog$YSVL <= 200000) / length(hog$YSVL)
## [1] 0.9879712
**: ¿Qué tan probable es tomar al azar un hogar que tenga entre 20 y 30 mil pesos de ingresos?…
sum(hog$YSVL <= 3e4 & hog$YSVL >= 2e4) / length(hog$YSVL)
## [1] 0.1849926
… aproximadamente un 18.5 % de probabilidad (un poco menos que 1/5)