1 Presentación de la clase

1.1 Propósito

Esta clase introduce tres distribuciones de probabilidades para datos categóricos de uso frecuente en estadística aplicada:

  • la distribución binomial,
  • la distribución multinomial, y
  • la distribución de Poisson.

El abordaje está orientado a problemas del mercado laboral, de modo a que se pueda reconocer no solo la fórmula matemática, sino también el tipo de fenómeno empírico que modela cada distribución.

1.2 Objetivos de aprendizaje

Al finalizar la clase, serás capaz de:

  1. identificar cuándo corresponde aplicar una distribución binomial, multinomial o de Poisson;
  2. interpretar los parámetros de cada distribución en contextos del mercado laboral;
  3. calcular probabilidades puntuales y acumuladas en R;
  4. interpretar resultados probabilísticos en términos sustantivos;
  5. diferenciar variables categóricas dicotómicas, politómicas y variables de conteo.

2 Introducción conceptual

En el análisis de fenómenos laborales es frecuente trabajar con variables de datos categóricos. Algunas de ellas representan categorías y otras representan conteos de eventos.

Por ejemplo:

  • una persona puede estar en empleo formal o informal;
  • una persona puede estar ocupada, desocupada o inactiva;
  • una oficina de empleo puede registrar cierto número de colocaciones por semana;
  • una dirección de trabajo puede recibir cierto número de denuncias laborales por día.

Estas situaciones no se modelan todas de la misma forma. La elección de la distribución depende de la naturaleza del problema:

  • si hay dos categorías, suele ser apropiada la binomial;
  • si hay tres o más categorías, suele ser apropiada la multinomial;
  • si interesa el número de ocurrencias de un evento en un período fijo, suele ser apropiada la Poisson.

3 Distribución binomial

3.1 Idea teórica

La distribución binomial modela el número de éxitos en una secuencia de n ensayos independientes, cuando cada ensayo tiene solo dos resultados posibles.

Si X representa el número de éxitos, entonces:

\[ X \sim Binomial(n,p) \]

donde:

  • n es el número de ensayos,
  • p es la probabilidad de éxito en cada ensayo,
  • 1-p es la probabilidad de fracaso.

La función de probabilidad es:

\[ P(X=x)=\binom{n}{x}p^x(1-p)^{n-x}, \qquad x=0,1,2,\dots,n \]

3.2 Aplicación al mercado laboral

La binomial es apropiada cuando la variable puede expresarse en dos categorías. Por ejemplo:

  • empleo formal / empleo informal,
  • consiguió empleo / no consiguió empleo,
  • cotiza a la seguridad social / no cotiza,
  • participa en capacitación / no participa.

3.3 Parámetros e interpretación

La esperanza y la varianza son:

\[ E(X)=np \]

\[ Var(X)=np(1-p) \]

En términos sustantivos, E(X) representa el número promedio esperado de casos exitosos dentro de n observaciones.

3.4 Ejercicio resuelto 1

En una oficina de empleo se observa que la probabilidad de que una nueva colocación corresponda a un empleo formal es 0,35. Se seleccionan 20 personas colocadas.

Sea X el número de personas que acceden a un empleo formal.

3.4.1 Preguntas

  1. ¿Cuál es la probabilidad de que exactamente 8 accedan a un empleo formal?
  2. ¿Cuál es la probabilidad de que al menos 10 accedan a un empleo formal?
  3. ¿Cuál es el número esperado de colocaciones formales?

3.4.2 Solución en R

n <- 20
p <- 0.35

# 1) Probabilidad puntual: P(X = 8)
prob_8 <- dbinom(8, size = n, prob = p)
prob_8
## [1] 0.161351
# 2) Probabilidad acumulada complementaria: P(X >= 10)
prob_al_menos_10 <- 1 - pbinom(9, size = n, prob = p)
prob_al_menos_10
## [1] 0.1217806
# 3) Esperanza y varianza
esperanza_bin <- n * p
varianza_bin <- n * p * (1 - p)

esperanza_bin
## [1] 7
varianza_bin
## [1] 4.55

3.4.3 Interpretación

  • La probabilidad calculada con dbinom() permite cuantificar qué tan plausible es observar exactamente 8 empleos formales entre 20 colocaciones.
  • La probabilidad P(X >= 10) indica cuán probable es alcanzar un desempeño relativamente alto de inserción formal.
  • La esperanza np = 7 muestra que, en promedio, se esperarían 7 colocaciones formales entre 20 personas colocadas.

3.5 Gráfico de la distribución binomial

x_bin <- 0:n
fx_bin <- dbinom(x_bin, size = n, prob = p)

barplot(
  fx_bin,
  names.arg = x_bin,
  main = "Distribución binomial: empleos formales entre 20 colocaciones",
  xlab = "Número de empleos formales",
  ylab = "Probabilidad"
)

3.6 Ejercicio propuesto 2

En un programa de empleo juvenil, la probabilidad de que una persona beneficiaria consiga empleo dentro de los tres meses posteriores a la capacitación es 0,60. Se seleccionan 15 jóvenes.

3.6.1 Preguntas

  1. ¿Cuál es la probabilidad de que exactamente 10 consigan empleo?
  2. ¿Cuál es la probabilidad de que como máximo 8 consigan empleo?
  3. ¿Cuál es la probabilidad de que entre 9 y 12 consigan empleo?

3.6.2 Solución en R

n2 <- 15
p2 <- 0.60

# 1) Exactamente 10
p_10 <- dbinom(10, size = n2, prob = p2)
p_10
## [1] 0.1859378
# 2) Como máximo 8
p_max_8 <- pbinom(8, size = n2, prob = p2)
p_max_8
## [1] 0.3901868
# 3) Entre 9 y 12
p_9_12 <- pbinom(12, size = n2, prob = p2) - pbinom(8, size = n2, prob = p2)
p_9_12
## [1] 0.5826992

4 Distribución multinomial

4.1 Idea teórica

La distribución multinomial extiende la lógica de la binomial a situaciones donde existen más de dos categorías mutuamente excluyentes y exhaustivas.

Si una variable puede tomar k categorías, y las probabilidades asociadas son p_1, p_2, ..., p_k, entonces:

\[ (X_1, X_2, \dots, X_k) \sim Multinomial(n; p_1, p_2, \dots, p_k) \]

donde:

\[ \sum_{i=1}^{k} X_i = n \qquad \text{y} \qquad \sum_{i=1}^{k} p_i = 1 \]

4.2 Función de probabilidad de la multinomial

La función de probabilidad es:

\[ P(X_1=x_1, X_2=x_2, \dots, X_k=x_k)= \frac{n!}{x_1!x_2!\cdots x_k!}\, p_1^{x_1} p_2^{x_2}\cdots p_k^{x_k} \]

con las restricciones:

\[ x_1+x_2+\cdots+x_k=n \]

\[ p_1+p_2+\cdots+p_k=1 \]

4.3 Interpretación de la función de probabilidad

Esta expresión calcula la probabilidad de observar exactamente una determinada combinación de frecuencias en las distintas categorías.

Por ejemplo, si la condición de actividad se clasifica en:

  • ocupado,
  • desocupado,
  • inactivo,

la distribución multinomial permite calcular la probabilidad de que, en una muestra de tamaño n, se observen exactamente ciertos conteos en cada una de esas categorías.

4.4 Aplicación al mercado laboral

La multinomial es útil cuando se trabaja con variables categóricas politómicas, por ejemplo:

  • condición de actividad: ocupado, desocupado, inactivo;
  • categoría ocupacional: asalariado, empleador, trabajador por cuenta propia, trabajador familiar no remunerado;
  • rama de actividad: comercio, industria, servicios, construcción;
  • nivel educativo: primaria, secundaria, terciaria.

4.5 Valor esperado por categoría

Para cada categoría i, el valor esperado es:

\[ E(X_i)=np_i \]

Esto significa que, en promedio, el número esperado de casos en la categoría i es el tamaño de la muestra multiplicado por la probabilidad correspondiente.

4.6 Ejercicio resuelto 3

En una población juvenil urbana, la distribución de la condición de actividad es:

  • ocupado: 0,50
  • desocupado: 0,15
  • inactivo: 0,35

Se seleccionan 12 jóvenes. Sea (X_1, X_2, X_3) el número de jóvenes en cada categoría.

4.6.1 Preguntas

  1. ¿Cuál es la probabilidad de observar exactamente 6 ocupados, 2 desocupados y 4 inactivos?
  2. ¿Cuál es el vector esperado de frecuencias?

4.6.2 Solución en R

n_mult <- 12
prob_mult <- c(0.50, 0.15, 0.35)
conteos <- c(6, 2, 4)

# 1) Probabilidad puntual multinomial
probabilidad_mult <- dmultinom(x = conteos, prob = prob_mult)
probabilidad_mult
## [1] 0.0731203
# 2) Frecuencias esperadas
esperados_mult <- n_mult * prob_mult
esperados_mult
## [1] 6.0 1.8 4.2

4.6.3 Interpretación

Los valores esperados indican que, en una muestra de 12 jóvenes, el promedio esperado sería:

  • 6 ocupados,
  • 1,8 desocupados,
  • 4,2 inactivos.

La multinomial no solo describe categorías, sino la probabilidad conjunta de una composición completa de la muestra.

4.7 Ejercicio resuelto 4

En una muestra de trabajadores ocupados, la distribución por rama de actividad es:

  • comercio: 0,30
  • industria: 0,20
  • servicios: 0,40
  • construcción: 0,10

Se seleccionan 10 ocupados.

4.7.1 Preguntas

  1. ¿Cuál es la probabilidad de obtener exactamente 3 en comercio, 2 en industria, 4 en servicios y 1 en construcción?
  2. Simule 5 posibles muestras con esa distribución.

4.7.2 Solución en R

n_mult2 <- 10
prob_mult2 <- c(0.30, 0.20, 0.40, 0.10)
conteos2 <- c(3, 2, 4, 1)

# 1) Probabilidad puntual
p_puntual <- dmultinom(x = conteos2, prob = prob_mult2)
p_puntual
## [1] 0.03483648
# 2) Simulación de muestras
set.seed(123)
simulaciones <- rmultinom(5, size = n_mult2, prob = prob_mult2)
colnames(simulaciones) <- paste0("Muestra_", 1:5)
rownames(simulaciones) <- c("Comercio", "Industria", "Servicios", "Construccion")
simulaciones
##              Muestra_1 Muestra_2 Muestra_3 Muestra_4 Muestra_5
## Comercio             2         5         3         3         4
## Industria            3         3         4         4         2
## Servicios            4         2         2         3         4
## Construccion         1         0         1         0         0

5 Distribución de Poisson

5.1 Idea teórica

La distribución de Poisson se utiliza para modelar el número de ocurrencias de un evento en un intervalo fijo de tiempo, espacio o unidad de observación.

Si X representa el número de eventos observados, entonces:

\[ X \sim Poisson(\lambda) \]

donde \lambda es el número promedio de eventos por intervalo.

La función de probabilidad es:

\[ P(X=x)=\frac{e^{-\lambda}\lambda^x}{x!}, \qquad x=0,1,2,\dots \]

5.2 Supuestos habituales

La distribución de Poisson suele emplearse cuando:

  1. los eventos ocurren de manera independiente,
  2. la tasa media de ocurrencia es aproximadamente constante,
  3. interesa contar cuántas veces ocurre un evento en un intervalo.

5.3 Aplicación al mercado laboral

Algunos ejemplos muy útiles son:

  • número diario de denuncias laborales,
  • cantidad semanal de accidentes laborales,
  • número de vacancias captadas por una oficina de empleo,
  • cantidad mensual de despidos reportados,
  • número de inspecciones con hallazgos en una región.

5.4 Esperanza y varianza

En la distribución de Poisson se cumple que:

\[ E(X)=\lambda \]

\[ Var(X)=\lambda \]

Esto implica que el promedio y la varianza coinciden teóricamente.

5.5 Ejercicio resuelto 5

En una dirección de atención laboral se registran, en promedio, 4 denuncias por día. Sea X el número de denuncias en un día cualquiera.

5.5.1 Preguntas

  1. ¿Cuál es la probabilidad de recibir exactamente 6 denuncias en un día?
  2. ¿Cuál es la probabilidad de recibir como máximo 2 denuncias?
  3. ¿Cuál es la probabilidad de recibir al menos 5 denuncias?

5.5.2 Solución en R

lambda <- 4

# 1) Exactamente 6
p_6 <- dpois(6, lambda = lambda)
p_6
## [1] 0.1041956
# 2) Como máximo 2
p_max_2 <- ppois(2, lambda = lambda)
p_max_2
## [1] 0.2381033
# 3) Al menos 5
p_al_menos_5 <- 1 - ppois(4, lambda = lambda)
p_al_menos_5
## [1] 0.3711631

5.5.3 Interpretación

La Poisson resulta especialmente útil cuando no estamos clasificando personas en categorías, sino contando cuántas veces ocurre un evento laboral en un período dado.

5.6 Gráfico de la distribución de Poisson

x_pois <- 0:12
fx_pois <- dpois(x_pois, lambda = lambda)

barplot(
  fx_pois,
  names.arg = x_pois,
  main = "Distribución de Poisson: denuncias laborales por día",
  xlab = "Número de denuncias",
  ylab = "Probabilidad"
)

5.7 Ejercicio propuesto 6

En un sector económico se reportan en promedio 2 accidentes laborales por semana.

5.7.1 Preguntas

  1. ¿Cuál es la probabilidad de no registrar accidentes en una semana?
  2. ¿Cuál es la probabilidad de registrar exactamente 1 accidente?
  3. ¿Cuál es la probabilidad de registrar 3 o más accidentes?

5.7.2 Solución en R

lambda2 <- 2

# 1) Ningún accidente
p_0 <- dpois(0, lambda = lambda2)
p_0
## [1] 0.1353353
# 2) Exactamente 1
p_1 <- dpois(1, lambda = lambda2)
p_1
## [1] 0.2706706
# 3) Tres o más
p_3omas <- 1 - ppois(2, lambda = lambda2)
p_3omas
## [1] 0.3233236

6 Comparación de las tres distribuciones

6.1 Cuadro comparativo

Distribución Tipo de variable Estructura del problema Ejemplo laboral
Binomial Categórica dicotómica Número de éxitos en n ensayos cuántas colocaciones fueron formales
Multinomial Categórica politómica Frecuencias en varias categorías cuántos ocupados, desocupados e inactivos hay en una muestra
Poisson Conteo discreto Número de eventos en un intervalo cuántas denuncias se reciben por día

7 Actividad de cierre

7.1 Ejercicio integrador breve

Indique qué distribución usaría en cada caso y justifique brevemente:

  1. De 25 jóvenes capacitados, ¿cuántos logran empleo formal?
  2. En una encuesta, ¿cuántas personas están ocupadas, desocupadas e inactivas?
  3. ¿Cuántas denuncias laborales recibe una oficina regional durante una semana?
  4. De 30 trabajadores, ¿cuántos cotizan a la seguridad social?
  5. En una muestra de ocupados, ¿cuántos pertenecen a comercio, industria, servicios y construcción?

7.2 Respuestas esperadas

  1. Binomial.
  2. Multinomial.
  3. Poisson.
  4. Binomial.
  5. Multinomial.

8 Sugerencia

Las distribuciones de probabilidad no deben enseñarse como fórmulas aisladas. En el análisis aplicado, cada distribución responde a una estructura distinta del problema empírico. Por eso, el paso más importante no es operar en R, sino reconocer correctamente qué tipo de variable y qué tipo de fenómeno se desea modelar.

9 Script integrado para uso rápido en clase

########################################################
# DISTRIBUCIONES DE PROBABILIDAD APLICADAS AL MERCADO LABORAL
########################################################

############################
# 1. BINOMIAL
############################
n_bin <- 20
p_bin <- 0.35

dbinom(8, size = n_bin, prob = p_bin)
1 - pbinom(9, size = n_bin, prob = p_bin)
n_bin * p_bin
n_bin * p_bin * (1 - p_bin)

x_bin <- 0:n_bin
fx_bin <- dbinom(x_bin, size = n_bin, prob = p_bin)
barplot(fx_bin,
        names.arg = x_bin,
        main = "Binomial: empleos formales entre 20 colocaciones",
        xlab = "Número de empleos formales",
        ylab = "Probabilidad")

############################
# 2. MULTINOMIAL
############################
n_mult <- 12
prob_mult <- c(0.50, 0.15, 0.35)
dmultinom(c(6, 2, 4), prob = prob_mult)
n_mult * prob_mult

set.seed(123)
rmultinom(5, size = n_mult, prob = prob_mult)

############################
# 3. POISSON
############################
lambda <- 4

dpois(6, lambda = lambda)
ppois(2, lambda = lambda)
1 - ppois(4, lambda = lambda)

x_pois <- 0:12
fx_pois <- dpois(x_pois, lambda = lambda)
barplot(fx_pois,
        names.arg = x_pois,
        main = "Poisson: denuncias laborales por día",
        xlab = "Número de denuncias",
        ylab = "Probabilidad")

10 Bibliografía breve sugerida

  • Agresti, A. (2018). An Introduction to Categorical Data Analysis.
  • Ross, S. (2014). A First Course in Probability.
  • James, G., Witten, D., Hastie, T. y Tibshirani, R. (2021). An Introduction to Statistical Learning.