Esta clase introduce tres distribuciones de probabilidades para datos categóricos de uso frecuente en estadística aplicada:
El abordaje está orientado a problemas del mercado laboral, de modo a que se pueda reconocer no solo la fórmula matemática, sino también el tipo de fenómeno empírico que modela cada distribución.
Al finalizar la clase, serás capaz de:
R;En el análisis de fenómenos laborales es frecuente trabajar con variables de datos categóricos. Algunas de ellas representan categorías y otras representan conteos de eventos.
Por ejemplo:
Estas situaciones no se modelan todas de la misma forma. La elección de la distribución depende de la naturaleza del problema:
La distribución binomial modela el número de éxitos en una secuencia
de n ensayos independientes, cuando cada ensayo tiene solo
dos resultados posibles.
Si X representa el número de éxitos, entonces:
\[ X \sim Binomial(n,p) \]
donde:
n es el número de ensayos,p es la probabilidad de éxito en cada ensayo,1-p es la probabilidad de fracaso.La función de probabilidad es:
\[ P(X=x)=\binom{n}{x}p^x(1-p)^{n-x}, \qquad x=0,1,2,\dots,n \]
La binomial es apropiada cuando la variable puede expresarse en dos categorías. Por ejemplo:
La esperanza y la varianza son:
\[ E(X)=np \]
\[ Var(X)=np(1-p) \]
En términos sustantivos, E(X) representa el número
promedio esperado de casos exitosos dentro de n
observaciones.
En una oficina de empleo se observa que la probabilidad de que una
nueva colocación corresponda a un empleo formal es
0,35. Se seleccionan 20 personas
colocadas.
Sea X el número de personas que acceden a un empleo
formal.
n <- 20
p <- 0.35
# 1) Probabilidad puntual: P(X = 8)
prob_8 <- dbinom(8, size = n, prob = p)
prob_8
## [1] 0.161351
# 2) Probabilidad acumulada complementaria: P(X >= 10)
prob_al_menos_10 <- 1 - pbinom(9, size = n, prob = p)
prob_al_menos_10
## [1] 0.1217806
# 3) Esperanza y varianza
esperanza_bin <- n * p
varianza_bin <- n * p * (1 - p)
esperanza_bin
## [1] 7
varianza_bin
## [1] 4.55
dbinom() permite
cuantificar qué tan plausible es observar exactamente 8 empleos formales
entre 20 colocaciones.P(X >= 10) indica cuán probable es
alcanzar un desempeño relativamente alto de inserción formal.np = 7 muestra que, en promedio, se
esperarían 7 colocaciones formales entre 20 personas
colocadas.x_bin <- 0:n
fx_bin <- dbinom(x_bin, size = n, prob = p)
barplot(
fx_bin,
names.arg = x_bin,
main = "Distribución binomial: empleos formales entre 20 colocaciones",
xlab = "Número de empleos formales",
ylab = "Probabilidad"
)
En un programa de empleo juvenil, la probabilidad de que una persona
beneficiaria consiga empleo dentro de los tres meses posteriores a la
capacitación es 0,60. Se seleccionan 15
jóvenes.
n2 <- 15
p2 <- 0.60
# 1) Exactamente 10
p_10 <- dbinom(10, size = n2, prob = p2)
p_10
## [1] 0.1859378
# 2) Como máximo 8
p_max_8 <- pbinom(8, size = n2, prob = p2)
p_max_8
## [1] 0.3901868
# 3) Entre 9 y 12
p_9_12 <- pbinom(12, size = n2, prob = p2) - pbinom(8, size = n2, prob = p2)
p_9_12
## [1] 0.5826992
La distribución multinomial extiende la lógica de la binomial a situaciones donde existen más de dos categorías mutuamente excluyentes y exhaustivas.
Si una variable puede tomar k categorías, y las
probabilidades asociadas son p_1, p_2, ..., p_k,
entonces:
\[ (X_1, X_2, \dots, X_k) \sim Multinomial(n; p_1, p_2, \dots, p_k) \]
donde:
\[ \sum_{i=1}^{k} X_i = n \qquad \text{y} \qquad \sum_{i=1}^{k} p_i = 1 \]
La función de probabilidad es:
\[ P(X_1=x_1, X_2=x_2, \dots, X_k=x_k)= \frac{n!}{x_1!x_2!\cdots x_k!}\, p_1^{x_1} p_2^{x_2}\cdots p_k^{x_k} \]
con las restricciones:
\[ x_1+x_2+\cdots+x_k=n \]
\[ p_1+p_2+\cdots+p_k=1 \]
Esta expresión calcula la probabilidad de observar exactamente una determinada combinación de frecuencias en las distintas categorías.
Por ejemplo, si la condición de actividad se clasifica en:
la distribución multinomial permite calcular la probabilidad de que,
en una muestra de tamaño n, se observen exactamente ciertos
conteos en cada una de esas categorías.
La multinomial es útil cuando se trabaja con variables categóricas politómicas, por ejemplo:
Para cada categoría i, el valor esperado es:
\[ E(X_i)=np_i \]
Esto significa que, en promedio, el número esperado de casos en la
categoría i es el tamaño de la muestra multiplicado por la
probabilidad correspondiente.
En una población juvenil urbana, la distribución de la condición de actividad es:
0,500,150,35Se seleccionan 12 jóvenes. Sea
(X_1, X_2, X_3) el número de jóvenes en cada categoría.
n_mult <- 12
prob_mult <- c(0.50, 0.15, 0.35)
conteos <- c(6, 2, 4)
# 1) Probabilidad puntual multinomial
probabilidad_mult <- dmultinom(x = conteos, prob = prob_mult)
probabilidad_mult
## [1] 0.0731203
# 2) Frecuencias esperadas
esperados_mult <- n_mult * prob_mult
esperados_mult
## [1] 6.0 1.8 4.2
Los valores esperados indican que, en una muestra de 12 jóvenes, el promedio esperado sería:
La multinomial no solo describe categorías, sino la probabilidad conjunta de una composición completa de la muestra.
En una muestra de trabajadores ocupados, la distribución por rama de actividad es:
0,300,200,400,10Se seleccionan 10 ocupados.
n_mult2 <- 10
prob_mult2 <- c(0.30, 0.20, 0.40, 0.10)
conteos2 <- c(3, 2, 4, 1)
# 1) Probabilidad puntual
p_puntual <- dmultinom(x = conteos2, prob = prob_mult2)
p_puntual
## [1] 0.03483648
# 2) Simulación de muestras
set.seed(123)
simulaciones <- rmultinom(5, size = n_mult2, prob = prob_mult2)
colnames(simulaciones) <- paste0("Muestra_", 1:5)
rownames(simulaciones) <- c("Comercio", "Industria", "Servicios", "Construccion")
simulaciones
## Muestra_1 Muestra_2 Muestra_3 Muestra_4 Muestra_5
## Comercio 2 5 3 3 4
## Industria 3 3 4 4 2
## Servicios 4 2 2 3 4
## Construccion 1 0 1 0 0
La distribución de Poisson se utiliza para modelar el número de ocurrencias de un evento en un intervalo fijo de tiempo, espacio o unidad de observación.
Si X representa el número de eventos observados,
entonces:
\[ X \sim Poisson(\lambda) \]
donde \lambda es el número promedio de eventos por
intervalo.
La función de probabilidad es:
\[ P(X=x)=\frac{e^{-\lambda}\lambda^x}{x!}, \qquad x=0,1,2,\dots \]
La distribución de Poisson suele emplearse cuando:
Algunos ejemplos muy útiles son:
En la distribución de Poisson se cumple que:
\[ E(X)=\lambda \]
\[ Var(X)=\lambda \]
Esto implica que el promedio y la varianza coinciden teóricamente.
En una dirección de atención laboral se registran, en promedio,
4 denuncias por día. Sea X el número de
denuncias en un día cualquiera.
lambda <- 4
# 1) Exactamente 6
p_6 <- dpois(6, lambda = lambda)
p_6
## [1] 0.1041956
# 2) Como máximo 2
p_max_2 <- ppois(2, lambda = lambda)
p_max_2
## [1] 0.2381033
# 3) Al menos 5
p_al_menos_5 <- 1 - ppois(4, lambda = lambda)
p_al_menos_5
## [1] 0.3711631
La Poisson resulta especialmente útil cuando no estamos clasificando personas en categorías, sino contando cuántas veces ocurre un evento laboral en un período dado.
x_pois <- 0:12
fx_pois <- dpois(x_pois, lambda = lambda)
barplot(
fx_pois,
names.arg = x_pois,
main = "Distribución de Poisson: denuncias laborales por día",
xlab = "Número de denuncias",
ylab = "Probabilidad"
)
En un sector económico se reportan en promedio 2
accidentes laborales por semana.
lambda2 <- 2
# 1) Ningún accidente
p_0 <- dpois(0, lambda = lambda2)
p_0
## [1] 0.1353353
# 2) Exactamente 1
p_1 <- dpois(1, lambda = lambda2)
p_1
## [1] 0.2706706
# 3) Tres o más
p_3omas <- 1 - ppois(2, lambda = lambda2)
p_3omas
## [1] 0.3233236
| Distribución | Tipo de variable | Estructura del problema | Ejemplo laboral |
|---|---|---|---|
| Binomial | Categórica dicotómica | Número de éxitos en n ensayos |
cuántas colocaciones fueron formales |
| Multinomial | Categórica politómica | Frecuencias en varias categorías | cuántos ocupados, desocupados e inactivos hay en una muestra |
| Poisson | Conteo discreto | Número de eventos en un intervalo | cuántas denuncias se reciben por día |
Indique qué distribución usaría en cada caso y justifique brevemente:
Las distribuciones de probabilidad no deben enseñarse como fórmulas
aisladas. En el análisis aplicado, cada distribución responde a una
estructura distinta del problema empírico. Por eso, el paso más
importante no es operar en R, sino reconocer correctamente
qué tipo de variable y qué tipo de fenómeno se desea modelar.
########################################################
# DISTRIBUCIONES DE PROBABILIDAD APLICADAS AL MERCADO LABORAL
########################################################
############################
# 1. BINOMIAL
############################
n_bin <- 20
p_bin <- 0.35
dbinom(8, size = n_bin, prob = p_bin)
1 - pbinom(9, size = n_bin, prob = p_bin)
n_bin * p_bin
n_bin * p_bin * (1 - p_bin)
x_bin <- 0:n_bin
fx_bin <- dbinom(x_bin, size = n_bin, prob = p_bin)
barplot(fx_bin,
names.arg = x_bin,
main = "Binomial: empleos formales entre 20 colocaciones",
xlab = "Número de empleos formales",
ylab = "Probabilidad")
############################
# 2. MULTINOMIAL
############################
n_mult <- 12
prob_mult <- c(0.50, 0.15, 0.35)
dmultinom(c(6, 2, 4), prob = prob_mult)
n_mult * prob_mult
set.seed(123)
rmultinom(5, size = n_mult, prob = prob_mult)
############################
# 3. POISSON
############################
lambda <- 4
dpois(6, lambda = lambda)
ppois(2, lambda = lambda)
1 - ppois(4, lambda = lambda)
x_pois <- 0:12
fx_pois <- dpois(x_pois, lambda = lambda)
barplot(fx_pois,
names.arg = x_pois,
main = "Poisson: denuncias laborales por día",
xlab = "Número de denuncias",
ylab = "Probabilidad")