Esta es una práctica sobre las propiedades de la distribución binomial que toma como punto de partida el empate en la asamblea de la CUP en una votación de diciembre de 2015.
Para calcular la probabilidad de que en una votación en la que participan 3030 votantes ocurra un empate de 1515 síes y 1515 noes vamos a hacer dos hipótesis:
Bajo estas dos hipótesis, el número de síes es una variable con distribución binomial de parámetros \(n=3030\) y \(p=1/2\). Para calcular la probabilidad de empate con R:
n <- 3030
p <- 1/2
dbinom(1515, n, p)
## [1] 0.01449382
Esta probabilidad es la que ha aparecido en algunos artículos en la prensa de estos días y se ha argumentado que, aunque difícil, no es del todo imposible que ocurra el empate. Pero examinemos brevemente las hipótesis en las que está basado el cálculo:
p <- 0.45
dbinom(1515, n, p)
## [1] 3.535922e-09
En este caso el empate es virtualmente imposible. Vamos a representar gráficamente la probabilidad de empate en función de los valores de \(p\in [0,1/2]\):
p <- seq(0, 0.5, 0.001)
prob.empate <- dbinom(1515, n, p)
plot(p, prob.empate, t='l', xlab = 'p', ylab = 'Prob. de empate')
Salvo para unos pocos valores de \(p\) muy cercanos a 0.5, el empate es casi imposible.
Otro posible enfoque del problema en lugar de calcular la probabilidad de empate para cada valor de \(p\) (enfoque probabilístico) es analizar qué se puede decir de \(p\) dado que ha habido un empate (enfoque estadístico). Los cálculos que hemos hecho antes parecen implicar que el valor de \(p\) debe ser muy cercano a 0.5 pero se puede precisar más esta afirmación.
Supongamos que los 3030 votantes constituyen una muestra representativa de una población más amplia en la que hay una proporción desconocida \(p\) de individuos a favor del sí (por ejemplo, todos los votantes de la CUP en las últimas elecciones autonómicas) sobre la que se quiere tener información. En la votación hemos obtenido una proporción muestral \(\hat{p}=0.5\) de individuos a favor del sí. Esta estimación es el centro de un intervalo de confianza para el valor de \(p\). Para un nivel de confianza del 95 %, el intervalo se puede calcular de la forma siguiente:
prop.test(1515, n)$conf.int
## [1] 0.4822081 0.5177919
## attr(,"conf.level")
## [1] 0.95
Por lo tanto, con un alto grado de seguridad (dado por el nivel de confianza del 95%) podemos decir que el porcentaje poblacional de votantes a favor del sí está entre el 48.22% y el 51.78%.
Un intervalo de confianza del 99.9 % se obtiene de la siguiente forma:
prop.test(1515, n, conf.level = 0.999)$conf.int
## [1] 0.4701641 0.5298359
## attr(,"conf.level")
## [1] 0.999
Volvamos a la situación en la que \(n=3030\) y \(p=1/2\). Vamos a calcular y representar gráficamente la probabilidad de todos los resultados posibles de la votación:
n <- 3030
p <- 1/2
k <- 0:n
plot(k, dbinom(k, n, p), t='l', xlab='Votos afirmativos', ylab = 'Probabilidad')
Solo los resultados muy próximos al empate pueden ocurrir. Una ampliación de la parte relevante del gráfico anterior se obtiene si solo consideramos las probabilidades entre 1440 y 1590 votos afirmativos:
k <- 1440:1590
plot(k, dbinom(k, n, p), t='l', xlab='Votos afirmativos', ylab = 'Probabilidad')
Vemos que la curva que da las probabilidades se aproxima a la densidad de una distribución normal, la campana de Gauss, y ello es debido a que cuanto mayor es \(n\) y cuanto más se parece \(p\) a 1/2, más se aproxima la distribución binomial a la normal. De hecho, podríamos calcular la probabilidad de empate usando la distribución normal en lugar de la binomial:
# Calculamos la media y la desv. típica de la binomial
media <- n*p
sdev <- sqrt(n*p*(1-p))
# Calculamos la probabilidad de que una normal con esa
# media y desv. típica esté entre 1514.5 y 1515.5
pnorm(1515.5, media, sdev) - pnorm(1514.5, media, sdev)
## [1] 0.01449422
El resultado es muy similar al obtenido mediante la distribución binomial. La aproximación de la distribución binomial por la normal se debe a De Moivre (la publicó en el libro The Doctrine of Chances en el siglo XVIII) y constituye la primera aparición de la campana de Gauss en la historia de las matemáticas, mucho antes de que Gauss la redescubriera. Esta aproximación está detrás de las fórmulas de los intervalos de confianza que hemos calculado anteriormente.
Considera todos los valores pares de \(n\) entre 50 y 5000, y calcula la probabilidad de que ocurran empates en la votación si \(p=1/2\).
Calcula un intervalo de confianza del 95 % para \(p\) si en una votación de 200 personas, 40 lo hicieron afirmativamente. Repite el ejercicio si en una votación de 2000 personas, 400 lo hicieron afirmaticamente. Comenta las semejanzas y diferencias de los resultados obtenidos en ambos casos.
Si \(n=3030\) y \(p=1/4\), representa gráficamente la probabilidad de todos los resultados posibles de la votación. ¿Se parece la curva obtenida a la densidad de una normal? ¿Y si \(n=20\) y \(p=0.01\)?