Una práctica sobre la binomial y la estimación de proporciones (gracias a la CUP)

Esta es una práctica sobre las propiedades de la distribución binomial que toma como punto de partida el empate en la asamblea de la CUP en una votación de diciembre de 2015.

Un enfoque probabilístico

Para calcular la probabilidad de que en una votación en la que participan 3030 votantes ocurra un empate de 1515 síes y 1515 noes vamos a hacer dos hipótesis:

Lo que vota una persona es independiente de lo que vota el resto.
La probabilidad de que cada persona vote sí o no es \(p=1/2\) (como tirar una moneda y votar sí si sale cara y no en caso contrario).

Bajo estas dos hipótesis, el número de síes es una variable con distribución binomial de parámetros \(n=3030\) y \(p=1/2\). Para calcular la probabilidad de empate con R:

n <- 3030
p <- 1/2
dbinom(1515, n, p)

## [1] 0.01449382

Esta probabilidad es la que ha aparecido en algunos artículos en la prensa de estos días y se ha argumentado que, aunque difícil, no es del todo imposible que ocurra el empate. Pero examinemos brevemente las hipótesis en las que está basado el cálculo:

La hipótesis de independencia dejaría de cumplirse si, por ejemplo, alguien se deja influenciar por sus amigos a la hora de votar. Aunque ocurra en algún caso, no parece muy restrictivo suponer que la mayoría de los votantes tienen la suficiente personalidad como para votar lo que quieren, así que creo que podemos admitir la hipótesis sin grandes problemas.
La hipótesis sobre \(p\) es mucho más discutible. ¿Por qué tiene que ser \(p=1/2\)? De hecho, la probabilidad de empate es muy sensible al valor de \(p\). Veamos lo que ocurre si por ejemplo \(p=0.45\):

p <- 0.45
dbinom(1515, n, p)

## [1] 3.535922e-09

En este caso el empate es virtualmente imposible. Vamos a representar gráficamente la probabilidad de empate en función de los valores de \(p\in [0,1/2]\):

p <- seq(0, 0.5, 0.001)
prob.empate <- dbinom(1515, n, p)
plot(p, prob.empate, t='l', xlab = 'p', ylab = 'Prob. de empate')

Salvo para unos pocos valores de \(p\) muy cercanos a 0.5, el empate es casi imposible.

Un enfoque estadístico

Otro posible enfoque del problema en lugar de calcular la probabilidad de empate para cada valor de \(p\) (enfoque probabilístico) es analizar qué se puede decir de \(p\) dado que ha habido un empate (enfoque estadístico). Los cálculos que hemos hecho antes parecen implicar que el valor de \(p\) debe ser muy cercano a 0.5 pero se puede precisar más esta afirmación.

Supongamos que los 3030 votantes constituyen una muestra representativa de una población más amplia en la que hay una proporción desconocida \(p\) de individuos a favor del sí (por ejemplo, todos los votantes de la CUP en las últimas elecciones autonómicas) sobre la que se quiere tener información. En la votación hemos obtenido una proporción muestral \(\hat{p}=0.5\) de individuos a favor del sí. Esta estimación es el centro de un intervalo de confianza para el valor de \(p\). Para un nivel de confianza del 95 %, el intervalo se puede calcular de la forma siguiente:

prop.test(1515, n)$conf.int

## [1] 0.4822081 0.5177919
## attr(,"conf.level")
## [1] 0.95

Por lo tanto, con un alto grado de seguridad (dado por el nivel de confianza del 95%) podemos decir que el porcentaje poblacional de votantes a favor del sí está entre el 48.22% y el 51.78%.

Un intervalo de confianza del 99.9 % se obtiene de la siguiente forma:

prop.test(1515, n, conf.level = 0.999)$conf.int

## [1] 0.4701641 0.5298359
## attr(,"conf.level")
## [1] 0.999

Relación con la distribución normal

Volvamos a la situación en la que \(n=3030\) y \(p=1/2\). Vamos a calcular y representar gráficamente la probabilidad de todos los resultados posibles de la votación:

n <- 3030
p <- 1/2
k <- 0:n
plot(k, dbinom(k, n, p), t='l', xlab='Votos afirmativos', ylab = 'Probabilidad')

Solo los resultados muy próximos al empate pueden ocurrir. Una ampliación de la parte relevante del gráfico anterior se obtiene si solo consideramos las probabilidades entre 1440 y 1590 votos afirmativos:

k <- 1440:1590
plot(k, dbinom(k, n, p), t='l', xlab='Votos afirmativos', ylab = 'Probabilidad')

Vemos que la curva que da las probabilidades se aproxima a la densidad de una distribución normal, la campana de Gauss, y ello es debido a que cuanto mayor es \(n\) y cuanto más se parece \(p\) a 1/2, más se aproxima la distribución binomial a la normal. De hecho, podríamos calcular la probabilidad de empate usando la distribución normal en lugar de la binomial:

# Calculamos la media y la desv. típica de la binomial
media <- n*p  
sdev <- sqrt(n*p*(1-p))
# Calculamos la probabilidad de que una normal con esa
# media y desv. típica esté entre 1514.5 y 1515.5
pnorm(1515.5, media, sdev) - pnorm(1514.5, media, sdev)

## [1] 0.01449422

El resultado es muy similar al obtenido mediante la distribución binomial. La aproximación de la distribución binomial por la normal se debe a De Moivre (la publicó en el libro The Doctrine of Chances en el siglo XVIII) y constituye la primera aparición de la campana de Gauss en la historia de las matemáticas, mucho antes de que Gauss la redescubriera. Esta aproximación está detrás de las fórmulas de los intervalos de confianza que hemos calculado anteriormente.

Ejercicios

Considera todos los valores pares de \(n\) entre 50 y 5000, y calcula la probabilidad de que ocurran empates en la votación si \(p=1/2\).
Calcula un intervalo de confianza del 95 % para \(p\) si en una votación de 200 personas, 40 lo hicieron afirmativamente. Repite el ejercicio si en una votación de 2000 personas, 400 lo hicieron afirmaticamente. Comenta las semejanzas y diferencias de los resultados obtenidos en ambos casos.
Si \(n=3030\) y \(p=1/4\), representa gráficamente la probabilidad de todos los resultados posibles de la votación. ¿Se parece la curva obtenida a la densidad de una normal? ¿Y si \(n=20\) y \(p=0.01\)?