Distribuciones de Probabilidad Relevantes para los Modelos Lineales Generalizados (GLM)

EP7120-Modelos Lineales Generalizados Aplicados

Enver Gerald Tarazona Vargas

etarazona@lamolina.edu.pe

Universidad Nacional Agraria La Molina (UNALM), Perú

Introducción

Motivación

En los modelos lineales generalizados, la elección de la distribución de la variable respuesta es un componente fundamental del modelo.

Según la naturaleza de la respuesta, pueden surgir situaciones como las siguientes:

respuestas binarias, como aprobar o no aprobar;
conteos, como número de eventos o llegadas;
tiempos o cantidades positivas;
respuestas continuas aproximadamente normales.

Por ello, antes de estudiar la formulación general de un modelo lineal generalizado, es necesario revisar algunas distribuciones de probabilidad que servirán como base para su construcción e interpretación.

En esta presentación se revisarán distribuciones discretas y continuas de especial interés, con énfasis en aquellas que luego aparecerán en el marco de la familia exponencial.

Distribuciones a revisar

En esta presentación se revisarán algunas distribuciones de probabilidad que resultan especialmente útiles como base para los modelos lineales generalizados.

Distribuciones discretas

Bernoulli
Binomial
Geométrica / Binomial negativa
Poisson

Distribuciones continuas

Exponencial
Gamma
Normal

En cada caso se pondrá atención en:

su función de probabilidad o densidad;
sus parámetros;
su esperanza y varianza.

Distribuciones Discretas

Experimento de Bernoulli

Un experimento de Bernoulli es un experimento aleatorio que cumple las siguientes condiciones:

tiene únicamente dos resultados posibles;
dichos resultados son mutuamente excluyentes y exhaustivos;
uno de los resultados se denomina éxito y el otro fracaso;
la probabilidad de éxito permanece constante en cada realización del experimento;
independencia entre distintas realizaciones del experimento

Si denotamos por \(p\) la probabilidad de éxito, entonces

\[ P(\text{éxito})=p, \qquad P(\text{fracaso})=1-p, \qquad 0<p<1. \]

Ejemplos

Un estudiante aprueba o no aprueba un examen.
Una pieza seleccionada resulta defectuosa o no defectuosa.
Un paciente responde o no responde a un tratamiento.

Este experimento constituye la base para varias distribuciones discretas, como la Bernoulli, la Binomial, la Geométrica y la Binomial negativa.

Distribución Bernoulli

Sea \(X\) una variable aleatoria asociada a un experimento de Bernoulli, definida por

\[ X = \begin{cases} 1, & \text{si ocurre éxito},\\ 0, & \text{si ocurre fracaso}. \end{cases} \]

Se dice que \(X\) sigue una distribución Bernoulli con parámetro \(p\), y se denota por

\[ X \sim \operatorname{Bernoulli}(p), \qquad 0<p<1. \]

Aquí, \(p\) representa la probabilidad de éxito del experimento; es decir,

\[ p=P(X=1). \]

Su función de probabilidad es

\[ P(X=x)= \begin{cases} p^x(1-p)^{1-x}, & x=0,1,\\ 0, & \text{en otro caso.} \end{cases} \]

Además,

\[ E(X)=p \qquad\text{y}\qquad \operatorname{Var}(X)=p(1-p). \]

Distribución Binomial

Sea \(X\) una variable aleatoria que representa el número de éxitos en \(n\) ensayos de Bernoulli independientes, cada uno con probabilidad de éxito \(p\).

Se dice que \(X\) sigue una distribución Binomial con parámetros \(n\) y \(p\), y se denota por

\[ X \sim \operatorname{Binomial}(n,p), \]

donde

\(n \in \mathbb{N}\) representa el número fijo de ensayos;
\(p\), con \(0<p<1\), representa la probabilidad de éxito en cada ensayo.

Su función de probabilidad es

\[ P(X=x)= \begin{cases} \binom{n}{x}p^x(1-p)^{n-x}, & x=0,1,\dots,n,\\ 0, & \text{en otro caso.} \end{cases} \]

Además,

\[ E(X)=np \qquad\text{y}\qquad \operatorname{Var}(X)=np(1-p). \]

Efecto del parámetro \(p\) en la distribución Binomial

Con \(n\) fijo, el parámetro \(p\) modifica la localización y la forma de la distribución.

Caso 1: \(X \sim \operatorname{Binomial}(20,0.2)\)

La probabilidad se concentra en valores bajos de éxitos.

Caso 2: \(X \sim \operatorname{Binomial}(20,0.5)\)

La distribución es más simétrica y se centra alrededor de \(np=10\).

Caso 3: \(X \sim \operatorname{Binomial}(20,0.8)\)

La probabilidad se desplaza hacia valores altos de éxitos.

Conclusión: con \(n\) fijo, al aumentar \(p\), la distribución se desplaza hacia la derecha; además, su forma cambia según la cercanía de \(p\) a 0.5.

Cálculo de probabilidades para la distribución Binomial en R

Para una variable aleatoria con distribución binomial, en R se utilizan las siguientes funciones:

dbinom(x, size = n, prob = p) : calcula \(P(X=x)\)
pbinom(q, size = n, prob = p) : calcula \(P(X\le q)\)
qbinom(a, size = n, prob = p) : devuelve el cuantil de orden \(a\)
rbinom(N, size = n, prob = p) : genera una muestra aleatoria de tamaño \(N\)

En esta implementación,

x y q representan valores de la variable aleatoria;
a representa una probabilidad acumulada;
n representa el número de ensayos;
p representa la probabilidad de éxito en cada ensayo;
N representa el tamaño de la muestra aleatoria.

Importante: en R, la distribución binomial modela el número de éxitos en \(n\) ensayos de Bernoulli independientes.

Cálculo de probabilidades para la distribución Binomial en Python

Para una variable aleatoria con distribución binomial, en Python (mediante scipy.stats) se utilizan las siguientes funciones:

from scipy.stats import binom

binom.pmf(x, n, p) : calcula \(P(X=x)\)
binom.cdf(q, n, p) : calcula \(P(X\le q)\)
binom.ppf(a, n, p) : devuelve el cuantil de orden \(a\)
binom.rvs(n, p, size=N) : genera una muestra aleatoria de tamaño \(N\)

En esta implementación,

x y q representan valores de la variable aleatoria;
a representa una probabilidad acumulada;
n representa el número de ensayos;
p representa la probabilidad de éxito en cada ensayo;
N representa el tamaño de la muestra aleatoria.

Importante: en Python (scipy.stats.binom), la distribución binomial modela el número de éxitos en \(n\) ensayos de Bernoulli independientes.

Reparametrización de la distribución Binomial en términos de la media

Sea \(Y^*\) la proporción de éxitos en \(n\) ensayos de Bernoulli independientes, cada uno con probabilidad de éxito \(\mu\). Entonces,

\[ nY^* \sim \operatorname{Binomial}(n,\mu). \]

La función de probabilidad de \(Y^*\) puede escribirse como

\[ P(Y^*=y^*)= \begin{cases} \binom{n}{ny^*}\mu^{ny^*}(1-\mu)^{n-ny^*}, & y^* \in \left\{0,\frac{1}{n},\frac{2}{n},\dots,1\right\},\\ 0, & \text{en otro caso.} \end{cases} \]

con

\[ 0<\mu<1. \]

Además,

\[ E(Y^*)=\mu \qquad\text{y}\qquad \operatorname{Var}(Y^*)=\frac{\mu(1-\mu)}{n}. \]

¿Por qué esta reparametrización?

porque permite expresar la distribución directamente en términos de su media;
porque hace más natural la interpretación del parámetro;
porque facilita desarrollos teóricos posteriores.

Distribución Geométrica

Sea \(X\) una variable aleatoria que representa el número de fracasos antes del primer éxito en una secuencia de ensayos de Bernoulli independientes, cada uno con probabilidad de éxito \(p\).

Se dice que \(X\) sigue una distribución Geométrica con parámetro \(p\), y se denota por

\[ X \sim \operatorname{Geom}(p), \qquad 0<p<1. \]

Aquí, \(p\) representa la probabilidad de éxito en cada ensayo.

Su función de probabilidad es

\[ P(X=x)= \begin{cases} (1-p)^x p, & x=0,1,2,\dots,\\ 0, & \text{en otro caso.} \end{cases} \]

Además,

\[ E(X)=\frac{1-p}{p} \qquad\text{y}\qquad \operatorname{Var}(X)=\frac{1-p}{p^2}. \]

Interpretación de los parámetros de la Geométrica

En la distribución Geométrica, el parámetro \(p\) representa la probabilidad de éxito en cada ensayo de Bernoulli.

Este parámetro determina tanto la localización como la dispersión de la distribución:

si \(p\) es pequeño, tiende a observarse un mayor número de fracasos antes del primer éxito;
si \(p\) aumenta, la distribución se concentra en valores pequeños de \(X\);
al aumentar \(p\), disminuye la esperanza \[ E(X)=\frac{1-p}{p}; \]
y también disminuye la varianza \[ \operatorname{Var}(X)=\frac{1-p}{p^2}. \]

Por tanto, valores grandes de \(p\) describen situaciones en las que el primer éxito suele ocurrir rápidamente, mientras que valores pequeños de \(p\) indican una espera más prolongada.

Efecto del parámetro \(p\) en la distribución Geométrica

Con distintos valores de \(p\), cambia la forma de la distribución y la rapidez con la que ocurre el primer éxito.

Caso 1: \(X \sim \operatorname{Geom}(0.01)\)

El primer éxito suele tardar más.

Caso 2: \(X \sim \operatorname{Geom}(0.5)\)

La probabilidad se concentra en pocos ensayos.

Caso 3: \(X \sim \operatorname{Geom}(0.99)\)

El primer éxito ocurre muy rápidamente.

Conclusión: al aumentar \(p\), la distribución se concentra en valores pequeños y disminuyen tanto la media como la dispersión.

Función de distribución acumulada y propiedad de falta de memoria de la Geométrica

Si \(X \sim \operatorname{Geom}(p)\), entonces su función de distribución acumulada está dada por

\[ F_X(x)=P(X\le x)= \begin{cases} 0, & x<0,\\[0.4em] 1-(1-p)^{x +1}, & x\ge 0. \end{cases} \]

En particular, si \(x=0,1,2,\dots\), entonces

\[ F_X(x)=1-(1-p)^{x+1}. \]

Propiedad de falta de memoria

Si \(X \sim \operatorname{Geom}(p)\), entonces para cualesquiera enteros \(s,t\ge 0\) se cumple

\[ P(X>s+t \mid X>s)=P(X>t). \]

Esta propiedad se conoce como falta de memoria.

Interpretación

Dado que ya se han observado \(s\) fracasos sin éxito, la probabilidad de necesitar todavía más de \(t\) fracasos adicionales no depende de \(s\), sino solo de \(t\).

Es decir, una vez transcurridos varios ensayos sin éxito, la distribución del número de fracasos restantes hasta el primer éxito sigue siendo geométrica con el mismo parámetro \(p\).

Cálculo de probabilidades para la distribución Geométrica en R

Para una variable aleatoria con distribución geométrica, en R se utilizan las siguientes funciones:

dgeom(x, prob = p) : calcula \(P(X=x)\)
pgeom(q, prob = p) : calcula \(P(X\le q)\)
qgeom(a, prob = p) : devuelve el cuantil de orden \(a\)
rgeom(n, prob = p) : genera una muestra aleatoria de tamaño \(n\)

En esta implementación,

x y q representan valores de la variable aleatoria;
a representa una probabilidad acumulada;
p representa la probabilidad de éxito;
n representa el tamaño de la muestra aleatoria.

Importante: en R, la distribución geométrica modela el número de fracasos antes del primer éxito.

Cálculo de probabilidades para la distribución Geométrica en Python

Para una variable aleatoria con distribución geométrica, en Python (mediante scipy.stats) se utilizan las siguientes funciones:

from scipy.stats import geom

geom.pmf(x, p) : calcula \(P(X=x)\)
geom.cdf(q, p) : calcula \(P(X\le q)\)
geom.ppf(a, p) : devuelve el cuantil de orden \(a\)
geom.rvs(p, size=n) : genera una muestra aleatoria de tamaño \(n\)

En esta implementación,

x y q representan valores de la variable aleatoria;
a representa una probabilidad acumulada;
p representa la probabilidad de éxito;
n representa el tamaño de la muestra aleatoria.

Importante: en Python (scipy.stats.geom), la distribución geométrica modela el número de ensayos hasta el primer éxito.

Distribución Binomial negativa

Sea \(X\) una variable aleatoria que representa el número de fracasos antes de alcanzar el \(r\)-ésimo éxito en una secuencia de ensayos de Bernoulli independientes, cada uno con probabilidad de éxito \(p\). Se dice que \(X\) sigue una distribución Binomial negativa con parámetros \(r\) y \(p\), y se denota por

\[ X \sim \operatorname{BN}(r,p), \]

donde

\(r \in \mathbb{N}\) representa el número fijo de éxitos que se desea alcanzar;
\(0<p<1\) representa la probabilidad de éxito en cada ensayo.

Su función de probabilidad es

\[ P(X=x)= \begin{cases} \binom{x+r-1}{r-1}p^r(1-p)^x, & x=0,1,2,\dots,\\ 0, & \text{en otro caso.} \end{cases} \]

Además,

\[ E(X)=\frac{r(1-p)}{p} \qquad\text{y}\qquad \operatorname{Var}(X)=\frac{r(1-p)}{p^2}. \]

Interpretación de los parámetros de la Binomial negativa

En la distribución Binomial negativa, los parámetros cumplen papeles distintos:

\(r\) representa el número fijo de éxitos que se desea alcanzar;
\(p\) representa la probabilidad de éxito en cada ensayo.

Estos parámetros determinan la localización y la dispersión de la distribución:

si \(r\) aumenta, el número esperado de fracasos antes de alcanzar el objetivo también aumenta;
si \(p\) aumenta, los éxitos ocurren con mayor facilidad y la distribución se concentra en valores más pequeños de \(X\);
al aumentar \(p\), disminuyen tanto la esperanza \(E(X)=\frac{r(1-p)}{p}\) como la varianza \(\operatorname{Var}(X)=\frac{r(1-p)}{p^2}.\)

Por tanto, valores grandes de \(r\) desplazan la distribución hacia la derecha, mientras que valores grandes de \(p\) concentran la masa de probabilidad en valores bajos de \(X\).

Efecto del parámetro \(p\) en la distribución Binomial negativa

Con \(r\) fijo, el parámetro \(p\) modifica la localización y la dispersión de la distribución.

Caso 1: \(X \sim \operatorname{BN}(3,0.01)\)

Se requieren muchos ensayos para alcanzar 3 éxitos.

Caso 2: \(X \sim \operatorname{BN}(3,0.5)\)

La masa se concentra en valores intermedios.

Caso 3: \(X \sim \operatorname{BN}(3,0.99)\)

Los 3 éxitos se alcanzan rápidamente.

Conclusión: con \(r\) fijo, al aumentar \(p\), la distribución se concentra en valores pequeños y disminuye su dispersión.

Cálculo de probabilidades para la distribución Binomial negativa en R

Para una variable aleatoria con distribución binomial negativa, en R se utilizan las siguientes funciones:

dnbinom(x, size = r, prob = p) : calcula \(P(X=x)\)
pnbinom(q, size = r, prob = p) : calcula \(P(X\le q)\)
qnbinom(a, size = r, prob = p) : devuelve el cuantil de orden \(a\)
rnbinom(n, size = r, prob = p) : genera una muestra aleatoria de tamaño \(n\)

En esta implementación,

x y q representan valores de la variable aleatoria;
a representa una probabilidad acumulada;
r representa el número fijo de éxitos;
p representa la probabilidad de éxito;
n representa el tamaño de la muestra aleatoria.

Importante: en R, la distribución binomial negativa modela el número de fracasos antes de alcanzar el \(r\)-ésimo éxito.

Cálculo de probabilidades para la distribución Binomial negativa en Python

Para una variable aleatoria con distribución binomial negativa, en Python (mediante scipy.stats) se utilizan las siguientes funciones:

from scipy.stats import nbinom

nbinom.pmf(x, r, p) : calcula \(P(X=x)\)
nbinom.cdf(q, r, p) : calcula \(P(X\le q)\)
nbinom.ppf(a, r, p) : devuelve el cuantil de orden \(a\)
nbinom.rvs(r, p, size=n) : genera una muestra aleatoria de tamaño \(n\)

En esta implementación,

x y q representan valores de la variable aleatoria;
a representa una probabilidad acumulada;
r representa el número fijo de éxitos;
p representa la probabilidad de éxito;
n representa el tamaño de la muestra aleatoria.

Importante: en Python (scipy.stats.nbinom), la distribución binomial negativa modela el número de fracasos antes de alcanzar el \(r\)-ésimo éxito.

Reparametrización de la Binomial negativa

Sea \(Y\) una variable aleatoria con distribución Binomial negativa en su parametrización original, \(Y \sim \operatorname{BN}(r,p)\)

donde

\(r \in \mathbb{N}\) representa el número fijo de éxitos;
\(0<p<1\) representa la probabilidad de éxito en cada ensayo.

En esta parametrización,

\[ E(Y)=\frac{r(1-p)}{p}. \]

Ahora definimos los nuevos parámetros

\[ \phi=r \qquad\text{y}\qquad \mu=\frac{r(1-p)}{p}. \]

De esta manera, \(\phi\) pasa a ser un parámetro de precisión y \(\mu\) coincide con la media.

Despeje de la nueva parametrización

A partir de \(\mu=\frac{\phi(1-p)}{p}\) se obtiene

\[ \mu p=\phi(1-p)=\phi-\phi p. \]

y, agrupando los términos con \(p\),

\[ \mu p+\phi p=\phi. \]

Por tanto,

\[ p(\mu+\phi)=\phi \]

y finalmente

\[ p=\frac{\phi}{\mu+\phi}. \]

Así,

\[ 1-p=1-\frac{\phi}{\mu+\phi} =\frac{\mu+\phi-\phi}{\mu+\phi} =\frac{\mu}{\mu+\phi}. \]

Sustitución de los nuevos parámetros

Partimos de la función de probabilidad original de la Binomial negativa:

\[ P(Y=y)= \binom{y+r-1}{r-1}p^r(1-p)^y, \qquad y=0,1,2,\dots \]

Sustituyendo

\[ r=\phi, \qquad p=\frac{\phi}{\mu+\phi}, \qquad 1-p=\frac{\mu}{\mu+\phi}, \]

se obtiene

\[ P(Y=y)= \binom{y+\phi-1}{\phi-1} \left(\frac{\phi}{\mu+\phi}\right)^\phi \left(\frac{\mu}{\mu+\phi}\right)^y, \qquad y=0,1,2,\dots \]

Función de probabilidad reparametrizada

Usando la forma factorial del coeficiente combinatorio,

\[ \binom{y+\phi-1}{\phi-1} = \frac{(y+\phi-1)!}{y!(\phi-1)!}. \]

Además, para enteros positivos, es posible definir el factorial de un número en términos de la función Gamma \(\Gamma(.)\)

\[ n! = \Gamma(n+1). \]

Por tanto,

\[ \frac{(y+\phi-1)!}{y!(\phi-1)!} = \frac{\Gamma(\phi + y)}{\Gamma(y+1)\Gamma(\phi)}. \]

Finalmente,

\[ f(y;\mu,\phi)= \frac{\Gamma(\phi + y)}{\Gamma(y+1)\Gamma(\phi)} \left(\frac{\phi}{\mu+\phi}\right)^\phi \left(\frac{\mu}{\mu+\phi}\right)^y, \qquad y=0,1,2,\dots \]

con

\[ \mu>0, \qquad \phi>0. \]

Media y varianza en la nueva parametrización

La nueva parametrización es más conveniente para desarrollos posteriores del modelo. Bajo esta parametrización,

\[ E(Y)=\mu \]

\[ \operatorname{Var}(Y)=\mu+\frac{\mu^2}{\phi}. \]

Interpretación

\(\mu\) representa la media de la variable respuesta;
\(\phi\) es un parámetro de precisión;
al aumentar \(\phi\), disminuye el término \(\mu^2/\phi\) y la variabilidad se reduce.

Ejercicio 1

Una empresa de mensajería registra el tiempo de entrega de un paquete dentro de una misma ciudad. Sea \(T\) la variable aleatoria continua, medida en horas, que representa dicho tiempo. Suponga que su función de distribución acumulada está dada por

\[ F_T(t)= \begin{cases} 0, & t\le 0,\\[0.4em] 1-e^{-t/2}, & t>0. \end{cases} \]

La empresa considera que una entrega es exitosa si el paquete llega en menos de 3 horas.

Calcule la probabilidad de éxito en una entrega.
Si en un día se realizan 12 entregas independientes, halle la probabilidad de que exactamente 9 sean exitosas.
Suponiendo entregas independientes, halle la probabilidad de que el primer éxito ocurra en la cuarta entrega.
Suponiendo entregas independientes, halle la probabilidad de que el tercer éxito ocurra recién en la séptima entrega.

Proceso de Poisson

Un proceso de Poisson con tasa \(\lambda>0\) es un proceso estocástico \(\{N(t),\, t\ge 0\}\) que describe el número de eventos ocurridos hasta el instante \(t\) y que satisface las siguientes condiciones:

\(N(0)=0\).
El número de eventos en intervalos disjuntos es independiente.
El número de eventos en un intervalo depende solo de la longitud del intervalo.
Aquí, \(\lambda\) representa la tasa media de ocurrencia de eventos por unidad de tiempo o espacio.

Ejemplos

número de llamadas que llegan a una central telefónica en un intervalo de tiempo;
número de clientes que ingresan a un banco durante una hora;
número de accidentes en una carretera durante un día;
número de defectos en una lámina de material por metro cuadrado.

Distribución de Poisson

Sea \(X\) una variable aleatoria que representa el número de eventos que ocurren en un intervalo de tiempo, una región o una unidad de observación.

Se dice que \(X\) sigue una distribución de Poisson con parámetro \(\lambda\), y se denota por

\[ X \sim \operatorname{Poisson}(\lambda), \qquad \lambda>0. \]

Aquí, \(\lambda\) representa la media o tasa promedio de ocurrencia de eventos en la unidad de observación considerada.

Su función de probabilidad es

\[ P(X=x)= \begin{cases} \dfrac{e^{-\lambda}\lambda^x}{x!}, & x=0,1,2,\dots,\\ 0, & \text{en otro caso.} \end{cases} \]

Además,

\[ E(X)=\lambda \qquad\text{y}\qquad \operatorname{Var}(X)=\lambda. \]

Interpretación del parámetro de la Poisson

En la distribución de Poisson, el parámetro \(\lambda\) representa la media o tasa promedio de ocurrencia de eventos en la unidad de observación considerada.

Este parámetro determina tanto la localización como la dispersión de la distribución:

si \(\lambda\) es pequeño, la distribución se concentra en conteos bajos;
si \(\lambda\) aumenta, la distribución se desplaza hacia valores mayores;
al aumentar \(\lambda\), la distribución tiende a volverse más simétrica.

Además,

\[ E(X)=\lambda \qquad\text{y}\qquad \operatorname{Var}(X)=\lambda. \]

Por tanto, en la distribución de Poisson la media y la varianza coinciden.

Efecto del parámetro \(\lambda\) en la distribución de Poisson

Con distintos valores de \(\lambda\), cambia la localización y la dispersión de la distribución.

Caso 1: \(X \sim \operatorname{Poisson}(1)\)

La probabilidad se concentra en valores muy bajos.

Caso 2: \(X \sim \operatorname{Poisson}(4)\)

La distribución se desplaza hacia la derecha.

Caso 3: \(X \sim \operatorname{Poisson}(10)\)

La distribución es más extendida y más simétrica.

Conclusión: al aumentar \(\lambda\), la distribución se desplaza hacia la derecha, aumenta su dispersión y tiende a perder asimetría.

Cálculo de probabilidades para la distribución de Poisson en R

Para una variable aleatoria con distribución de Poisson, en R se utilizan las siguientes funciones:

dpois(x, lambda = λ) : calcula \(P(X=x)\)
ppois(q, lambda = λ) : calcula \(P(X\le q)\)
qpois(a, lambda = λ) : devuelve el cuantil de orden \(a\)
rpois(n, lambda = λ) : genera una muestra aleatoria de tamaño \(n\)

En esta implementación,

x y q representan valores de la variable aleatoria;
a representa una probabilidad acumulada;
\(\lambda\) representa la tasa media de ocurrencia;
n representa el tamaño de la muestra aleatoria.

Importante: en R, la distribución de Poisson modela el número de eventos que ocurren en una unidad de observación.

Cálculo de probabilidades para la distribución de Poisson en Python

Para una variable aleatoria con distribución de Poisson, en Python (mediante scipy.stats) se utilizan las siguientes funciones:

from scipy.stats import poisson

poisson.pmf(x, mu) : calcula \(P(X=x)\)
poisson.cdf(q, mu) : calcula \(P(X\le q)\)
poisson.ppf(a, mu) : devuelve el cuantil de orden \(a\)
poisson.rvs(mu, size=n) : genera una muestra aleatoria de tamaño \(n\)

En esta implementación,

x y q representan valores de la variable aleatoria;
a representa una probabilidad acumulada;
mu representa la media o tasa media de ocurrencia;
n representa el tamaño de la muestra aleatoria.

Importante: en Python (scipy.stats.poisson), la distribución de Poisson modela el número de eventos que ocurren en una unidad de observación.

Ejercicio 2

Se asume que la ocurrencia de sismos de magnitud moderada o mayor en una determinada región del Perú sigue un proceso de Poisson en el tiempo. De acuerdo con registros históricos, en promedio ocurre un sismo de este tipo cada 20 años.

Calcule el número esperado de sismos en un período de 100 años.
Calcule la probabilidad de que ocurran más de tres sismos en un período de 50 años.
¿Cuán largo debe ser un período de tiempo para que la probabilidad de que no ocurra ningún sismo durante ese lapso sea mayor que 0.90?

Distribuciones Continuas

Distribución Exponencial

Sea \(X\) una variable aleatoria continua, no negativa, que puede utilizarse para modelar tiempos de espera, tiempos de vida o, en general, cantidades positivas.

Se dice que \(X\) sigue una distribución Exponencial con parámetro \(\lambda\), y se denota por

\[ X \sim \operatorname{Exp}(\lambda), \qquad \lambda>0. \]

Aquí, \(\lambda\) representa un parámetro de tasa (rate), es decir, la rapidez promedio con la que ocurre el evento por unidad de tiempo o espacio.

Su función de densidad es

\[ f_X(x)= \begin{cases} \lambda e^{-\lambda x}, & x\ge 0,\\ 0, & \text{en otro caso.} \end{cases} \]

Además,

\[ E(X)=\frac{1}{\lambda} \qquad\text{y}\qquad \operatorname{Var}(X)=\frac{1}{\lambda^2}. \]

Parametrización alternativa de la Exponencial

También es común parametrizar la distribución exponencial en términos de

\[ \theta=\frac{1}{\lambda}, \]

donde \(\theta\) representa un parámetro de escala (scale), es decir, una medida del orden de magnitud o duración típica de la variable aleatoria.

En esta parametrización,

\[ X \sim \operatorname{Exp}(\theta), \qquad \theta>0, \]

y la función de densidad puede escribirse como

\[ f_X(x)= \begin{cases} \dfrac{1}{\theta}e^{-x/\theta}, & x\ge 0,\\ 0, & \text{en otro caso.} \end{cases} \]

En particular,

\[ E(X)=\theta \qquad\text{y}\qquad \operatorname{Var}(X)=\theta^2. \]

Función de distribución acumulada de la Exponencial

Si \(X \sim \operatorname{Exp}(\lambda)\), con \(\lambda>0\), entonces su función de distribución acumulada es

\[ F_X(x)=P(X\le x)= \begin{cases} 0, & x<0,\\[0.4em] 1-e^{-\lambda x}, & x\ge 0. \end{cases} \]

En consecuencia,

\[ P(X>x)=1-F_X(x)=e^{-\lambda x}, \qquad x\ge 0. \]

Relación con procesos de Poisson

Si \(\{N(t),\, t\ge 0\}\) es un proceso de Poisson con tasa \(\lambda\), entonces el tiempo de espera hasta la ocurrencia del primer evento sigue una distribución exponencial de parámetro \(\lambda\).

En efecto, si \(X\) representa dicho tiempo de espera, entonces

\[ P(X>x)=P(N(x)=0)=e^{-\lambda x}, \]

ya que en un proceso de Poisson

\[ N(x)\sim \operatorname{Poisson}(\lambda x). \]

Por tanto, la distribución exponencial surge naturalmente como distribución de tiempos de espera entre eventos consecutivos en un proceso de Poisson.

Interpretación de los parámetros de la Exponencial

En la distribución Exponencial, el parámetro \(\lambda\) representa una tasa (rate), es decir, la rapidez promedio con la que ocurre el evento por unidad de tiempo o espacio.

Este parámetro determina tanto la localización como la dispersión de la distribución:

si \(\lambda\) es pequeño, la variable tiende a tomar valores mayores;
si \(\lambda\) aumenta, la densidad se concentra en valores pequeños de \(X\);
al aumentar \(\lambda\), disminuye la esperanza \[ E(X)=\frac{1}{\lambda}; \]
y también disminuye la varianza \[ \operatorname{Var}(X)=\frac{1}{\lambda^2}. \]

Por tanto, valores grandes de \(\lambda\) se asocian con tiempos de espera más cortos, mientras que valores pequeños de \(\lambda\) corresponden a tiempos de espera más prolongados.

Efecto del parámetro \(\lambda\) en la distribución Exponencial

Con distintos valores de \(\lambda\), cambia la forma de la distribución y la rapidez con la que decrece la densidad.

Caso 1: \(X \sim \operatorname{Exp}(0.5)\)

La densidad decrece lentamente y la variable tiende a tomar valores mayores.

Caso 2: \(X \sim \operatorname{Exp}(1)\)

La densidad decrece con mayor rapidez.

Caso 3: \(X \sim \operatorname{Exp}(2)\)

La densidad se concentra cerca de 0 y cae muy rápidamente.

Conclusión: al aumentar \(\lambda\), la distribución se concentra en valores pequeños y disminuyen tanto la media como la dispersión.

Cálculo de probabilidades para la distribución Exponencial en R

Para una variable aleatoria con distribución exponencial, en R se utilizan las siguientes funciones:

dexp(x, rate = lambda) : calcula la densidad en \(x\)
pexp(q, rate = lambda) : calcula \(P(X\le q)\)
qexp(a, rate = lambda) : devuelve el cuantil de orden \(a\)
rexp(n, rate = lambda) : genera una muestra aleatoria de tamaño \(n\)

En esta implementación,

x y q representan valores de la variable aleatoria;
a representa una probabilidad acumulada;
lambda representa el parámetro de tasa;
n representa el tamaño de la muestra aleatoria.

Importante: en la distribución exponencial, dexp devuelve una densidad, no una probabilidad puntual.

Cálculo de probabilidades para la distribución Exponencial en Python

Para una variable aleatoria con distribución exponencial, en Python (mediante scipy.stats) se utilizan las siguientes funciones:

from scipy.stats import expon

expon.pdf(x, scale=theta) : calcula la densidad en \(x\)
expon.cdf(q, scale=theta) : calcula \(P(X\le q)\)
expon.ppf(a, scale=theta) : devuelve el cuantil de orden \(a\)
expon.rvs(scale=theta, size=n) : genera una muestra aleatoria de tamaño \(n\)

En esta implementación,

x y q representan valores de la variable aleatoria;
a representa una probabilidad acumulada;
theta representa el parámetro de escala;
n representa el tamaño de la muestra aleatoria.

Si la distribución se expresa con parámetro de tasa \(\lambda\), entonces

\[ \theta=\frac{1}{\lambda}. \]

Distribución Gamma

Sea \(X\) una variable aleatoria continua, no negativa, que puede utilizarse para modelar tiempos de espera, tiempos de vida o, en general, cantidades positivas.

Se dice que \(X\) sigue una distribución Gamma con parámetros \(\alpha\) y \(\lambda\), y se denota por

\[ X \sim \operatorname{Gamma}(\alpha,\lambda), \qquad \alpha>0,\ \lambda>0. \]

Aquí,

\(\alpha\) representa un parámetro de forma (shape);
\(\lambda\) representa un parámetro de tasa (rate).

Su función de densidad es

\[ f_X(x)= \begin{cases} \dfrac{\lambda^\alpha}{\Gamma(\alpha)}\,x^{\alpha-1}e^{-\lambda x}, & x>0,\\[0.8em] 0, & \text{en otro caso.} \end{cases} \]

Además,

\[ E(X)=\frac{\alpha}{\lambda} \qquad\text{y}\qquad \operatorname{Var}(X)=\frac{\alpha}{\lambda^2}. \]

Reparametrización de la distribución Gamma

Sea \(Y\) una variable aleatoria con distribución Gamma en su parametrización original \(Y \sim \operatorname{Gamma}(\alpha,\lambda)\), donde \(\alpha>0\) es un parámetro de forma y \(\lambda >0\) es un parámetro de tasa.

Definimos ahora

\[ \mu=\frac{\alpha}{\lambda} \qquad\text{y}\qquad \phi=\alpha. \]

Así,

\(\mu\) coincide con la media;
\(\phi\) será el nuevo parámetro de precisión.

A partir de

\[ \mu=\frac{\phi}{\lambda}, \]

se obtiene

\[ \lambda=\frac{\phi}{\mu}. \]

Sustitución en la densidad

Sustituyendo

\[ \alpha=\phi \qquad\text{y}\qquad \lambda=\frac{\phi}{\mu}, \]

en la densidad original, se obtiene

\[ f(y;\mu,\phi)= \frac{\left(\frac{\phi}{\mu}\right)^\phi}{\Gamma(\phi)} \,y^{\phi-1}e^{-\phi y/\mu}, \qquad y>0. \]

Equivalentemente,

\[ f(y;\mu,\phi)= \frac{1}{\Gamma(\phi)} \left(\frac{\phi}{\mu}\right)^\phi y^{\phi-1}e^{-\phi y/\mu}, \qquad y>0. \]

Forma alternativa de la densidad

Como

\[ y^{\phi-1}=\frac{y^\phi}{y}, \]

la densidad también puede escribirse como

\[ f(y;\mu,\phi)= \frac{1}{\Gamma(\phi)} \left(\frac{\phi y}{\mu}\right)^\phi e^{-\phi y/\mu}\frac{1}{y}, \qquad y>0. \]

y, usando que

\[ d(\log y)=\frac{1}{y}\,dy, \]

puede expresarse en la forma

\[ f(y;\mu,\phi)= \frac{1}{\Gamma(\phi)} \left(\frac{\phi y}{\mu}\right)^\phi e^{-\phi y/\mu}\,d(\log y). \]

Media, varianza y coeficiente de variación

Bajo esta reparametrización,

\[ E(Y)=\mu \]

\[ \operatorname{Var}(Y)=\frac{\alpha}{\lambda^2} =\frac{\phi}{(\phi/\mu)^2} =\frac{\mu^2}{\phi}. \]

Por tanto, el coeficiente de variación es

\[ CV(Y)=\frac{\sqrt{\operatorname{Var}(Y)}}{E(Y)} =\frac{\sqrt{\mu^2/\phi}}{\mu} =\phi^{-1/2}. \]

Función de distribución acumulada de la Gamma

Si \(X \sim \operatorname{Gamma}(\alpha,\lambda)\), con \(\alpha>0\) y \(\lambda>0\), entonces su función de distribución acumulada es

\[ F_X(x)=P(X\le x)= \begin{cases} 0, & x\le 0,\\[0.4em] \displaystyle \int_0^x \frac{\lambda^\alpha}{\Gamma(\alpha)}\,t^{\alpha-1}e^{-\lambda t}\,dt, & x>0. \end{cases} \]

Cuando \(\alpha\) es un entero positivo, se tiene la forma conocida

\[ F_X(x)= \begin{cases} 0, & x\le 0,\\[0.6em] \displaystyle 1-e^{-\lambda x}\sum_{j=0}^{\alpha-1}\frac{(\lambda x)^j}{j!}, & x>0. \end{cases} \]

Efecto del parámetro \(\alpha\) en la distribución Gamma

Con \(\lambda\) fijo, el parámetro \(\alpha\) modifica la forma de la distribución.

Caso 1: \(X \sim \operatorname{Gamma}(1,1)\)

Corresponde al caso exponencial.

Caso 2: \(X \sim \operatorname{Gamma}(3,1)\)

La distribución presenta un máximo interior.

Caso 3: \(X \sim \operatorname{Gamma}(6,1)\)

La distribución se desplaza a la derecha y pierde asimetría.

Conclusión: con \(\lambda\) fijo, al aumentar \(\alpha\) la distribución tiende a desplazarse hacia la derecha y a volverse menos asimétrica.

Efecto del parámetro \(\lambda\) en la distribución Gamma

Con \(\alpha\) fijo, el parámetro \(\lambda\) modifica la escala de la distribución.

Caso 1: \(X \sim \operatorname{Gamma}(3,0.5)\)

La densidad se extiende sobre valores mayores.

Caso 2: \(X \sim \operatorname{Gamma}(3,1)\)

La distribución se concentra en una zona intermedia.

Caso 3: \(X \sim \operatorname{Gamma}(3,2)\)

La densidad se concentra en valores pequeños.

Conclusión: con \(\alpha\) fijo, al aumentar \(\lambda\) la distribución se concentra en valores más pequeños y disminuyen tanto la media como la varianza.

Cálculo de probabilidades para la distribución Gamma en R

Para una variable aleatoria con distribución Gamma, en R se utilizan las siguientes funciones:

dgamma(x, shape = alpha, rate = lambda) : calcula la densidad en \(x\)
pgamma(q, shape = alpha, rate = lambda) : calcula \(P(X\le q)\)
qgamma(a, shape = alpha, rate = lambda) : devuelve el cuantil de orden \(a\)
rgamma(n, shape = alpha, rate = lambda) : genera una muestra aleatoria de tamaño \(n\)

En esta implementación,

x y q representan valores de la variable aleatoria;
a representa una probabilidad acumulada;
alpha representa el parámetro de forma;
lambda representa el parámetro de tasa;
n representa el tamaño de la muestra aleatoria.

Importante: en la distribución Gamma, dgamma devuelve una densidad, no una probabilidad puntual.

Cálculo de probabilidades para la distribución Gamma en Python

Para una variable aleatoria con distribución Gamma, en Python (mediante scipy.stats) se utilizan las siguientes funciones:

from scipy.stats import gamma

gamma.pdf(x, a=alpha, scale=theta) : calcula la densidad en \(x\)
gamma.cdf(q, a=alpha, scale=theta) : calcula \(P(X\le q)\)
gamma.ppf(a, a=alpha, scale=theta) : devuelve el cuantil de orden \(a\)
gamma.rvs(a=alpha, scale=theta, size=n) : genera una muestra aleatoria de tamaño \(n\)

En esta implementación,

x y q representan valores de la variable aleatoria;
a representa una probabilidad acumulada;
alpha representa el parámetro de forma;
theta representa el parámetro de escala;
n representa el tamaño de la muestra aleatoria.

Si la distribución se expresa con parámetro de tasa \(\lambda\), entonces

\[ \theta=\frac{1}{\lambda}. \]

Casos particulares de la distribución Gamma

La distribución Gamma incluye como casos particulares a varias distribuciones conocidas.

1. Distribución Exponencial

\[ \alpha=1, \]

entonces

\[ X \sim \operatorname{Gamma}(1,\lambda) \quad \Longrightarrow \quad X \sim \operatorname{Exp}(\lambda). \]

2. Distribución Chi-cuadrado

\[ \alpha=\frac{\nu}{2} \qquad\text{y}\qquad \lambda=\frac{1}{2}, \]

entonces

\[ X \sim \operatorname{Gamma}\left(\frac{\nu}{2},\frac{1}{2}\right) \quad \Longrightarrow \quad X \sim \chi^2_\nu. \]

Comentario sobre los casos particulares

Estos casos muestran que la distribución Gamma constituye una familia amplia y flexible:

con \(\alpha=1\), se obtiene la distribución Exponencial;
con \(\alpha=\nu/2\) y \(\lambda=1/2\), se obtiene la distribución Chi-cuadrado con \(\nu\) grados de libertad.

Por ello, muchas propiedades de estas distribuciones pueden entenderse como casos particulares de propiedades más generales de la Gamma.

Relación de la distribución Gamma con procesos de Poisson

Sea \(\{N(t),\, t\ge 0\}\) un proceso de Poisson con tasa \(\lambda>0\).

Si \(T_r\) representa el tiempo de espera hasta la ocurrencia del \(r\)-ésimo evento, entonces

\[ T_r \sim \operatorname{Gamma}(r,\lambda), \qquad r=1,2,3,\dots \]

donde \(r\) actúa como parámetro de forma y \(\lambda\) como parámetro de tasa.

En particular,

si \(r=1\), el tiempo hasta el primer evento tiene distribución exponencial;
si \(r>1\), el tiempo hasta el \(r\)-ésimo evento tiene distribución Gamma.

Así, la distribución Gamma puede interpretarse como la distribución del tiempo de espera acumulado hasta observar varios eventos en un proceso de Poisson.

Ejercicio 3

Las fallas que presenta un tipo de máquina ocurren según un proceso de Poisson con una tasa de 3 fallas por mes (de 30 días).

Si se alquilan 12 máquinas por una semana, ¿con qué probabilidad solo 5 de estas presentarán exactamente dos fallas en la semana?
Halle la probabilidad de que, en una máquina, el tiempo hasta la primera falla sea menor que 10 días.
Halle la probabilidad de que ocurra una cuarta falla en una máquina antes de que se cumpla un mes.
Una empresa decide observar máquinas iguales semana a semana. Se considera “éxito” que durante una semana completa una máquina no presente ninguna falla. ¿Cuál es la probabilidad de que la primera semana sin fallas aparezca recién en la cuarta semana observada?
Suponga que una empresa le alquila a una minera una de estas máquinas por \(t\) días y por un precio de 100 soles por día. La empresa alquila a su vez esta máquina a un fabricante pagándole en efectivo 60\(t\) soles. Si la máquina rentada a la minera falla, la empresa garantiza otorgarle, solo por la primera falla, una nueva máquina hasta el término del contrato. Para esto, la empresa devolverá la máquina fallada al fabricante, sin derecho a reembolso, y deberá alquilarle una nueva máquina para transferírsela a la minera por el tiempo que reste del contrato y por el mismo precio de 60 soles por día. Si una vez terminado el contrato, la empresa devuelve inmediatamente la última máquina que alquiló, ¿qué valor de \(t\) hace que se maximice la utilidad esperada de la empresa?

Distribución Normal

Sea \(X\) una variable aleatoria continua que puede utilizarse para modelar fenómenos cuantitativos aproximadamente simétricos alrededor de un valor central.

Se dice que \(X\) sigue una distribución Normal con parámetros \(\mu\) y \(\sigma^2\), y se denota por

\[ X \sim N(\mu,\sigma^2), \qquad -\infty<\mu<\infty,\ \sigma^2>0. \]

Aquí,

\(\mu\) representa un parámetro de localización;
\(\sigma^2\) representa un parámetro de escala o dispersión.

Su función de densidad es

\[ f_X(x)= \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left\{-\frac{(x-\mu)^2}{2\sigma^2}\right\}, \qquad -\infty<x<\infty. \]

Además,

\[ E(X)=\mu \qquad\text{y}\qquad \operatorname{Var}(X)=\sigma^2. \]

Interpretación de los parámetros de la Normal

En la distribución Normal, los parámetros cumplen papeles distintos:

\(\mu\) es un parámetro de localización;
\(\sigma^2\) es un parámetro de dispersión.

En particular:

si \(\mu\) cambia y \(\sigma^2\) permanece fijo, la distribución se desplaza horizontalmente;
si \(\sigma^2\) aumenta, la distribución se vuelve más extendida;
si \(\sigma^2\) disminuye, la distribución se concentra más alrededor de \(\mu\).

Además,

\[ E(X)=\mu \qquad\text{y}\qquad \operatorname{Var}(X)=\sigma^2. \]

Efecto del parámetro \(\mu\) en la distribución Normal

Con \(\sigma^2\) fijo, el parámetro \(\mu\) desplaza la distribución sin alterar su forma.

Caso 1: \(X \sim N(-2,1)\)

La distribución se centra en valores menores.

Caso 2: \(X \sim N(0,1)\)

La distribución se centra en 0.

Caso 3: \(X \sim N(2,1)\)

La distribución se desplaza hacia la derecha.

Conclusión: con varianza fija, cambiar \(\mu\) solo modifica la posición de la distribución.

Efecto del parámetro \(\sigma^2\) en la distribución Normal

Con \(\mu\) fijo, el parámetro \(\sigma^2\) modifica la dispersión de la distribución.

Caso 1: \(X \sim N(0,0.5)\)

La distribución es más concentrada.

Caso 2: \(X \sim N(0,1)\)

La distribución presenta dispersión intermedia.

Caso 3: \(X \sim N(0,4)\)

La distribución es más extendida.

Conclusión: con media fija, al aumentar \(\sigma^2\) la distribución se vuelve más dispersa y menos concentrada.

Propiedades principales de la Normal

Sea \(X \sim N(\mu,\sigma^2)\).

La distribución Normal satisface, entre otras, las siguientes propiedades:

Transformación lineal Si \(Y=aX+b\), con \(a,b\in\mathbb{R}\), entonces \[ Y \sim N(a\mu+b,\; a^2\sigma^2). \]
Estandarización Si \[ Z=\frac{X-\mu}{\sigma}, \] entonces \[ Z \sim N(0,1). \]
Propiedad reproductiva La suma de variables aleatorias normales independientes sigue una distribución normal.

Estandarización y Normal estándar

Si \(X \sim N(\mu,\sigma^2)\), se define la variable estandarizada

\[ Z=\frac{X-\mu}{\sigma}. \]

Entonces,

\[ Z \sim N(0,1). \]

La distribución \(N(0,1)\) se denomina Normal estándar.

Su función de distribución acumulada suele denotarse por

\[ \Phi(z)=P(Z\le z). \]

La estandarización permite transformar probabilidades sobre una normal general en probabilidades sobre la normal estándar.

Propiedad reproductiva de la Normal

Sean \(X_1,\dots,X_n\) variables aleatorias normales independientes tales que

\[ X_i \sim N(\mu_i,\sigma_i^2), \qquad i=1,\dots,n. \]

Entonces, la suma

\[ S=\sum_{i=1}^n X_i \]

también sigue una distribución normal, y se cumple que

\[ S \sim N\left(\sum_{i=1}^n \mu_i,\; \sum_{i=1}^n \sigma_i^2\right). \]

Más generalmente, para constantes \(a_1,\dots,a_n \in \mathbb{R}\),

\[ \sum_{i=1}^n a_iX_i \sim N\left(\sum_{i=1}^n a_i\mu_i,\; \sum_{i=1}^n a_i^2\sigma_i^2\right). \]

Otras propiedades de la Normal

Sea \(X \sim N(\mu,\sigma^2)\).

Además de las propiedades anteriores, la distribución Normal cumple que:

su densidad es simétrica respecto de \(\mu\);
la media, la mediana y la moda coinciden: \[ \text{media}=\text{mediana}=\text{moda}=\mu; \]
su soporte es todo \(\mathbb{R}\);
su forma queda completamente determinada por dos parámetros: \(\mu\) y \(\sigma^2\).

Estas propiedades explican por qué la distribución Normal ocupa un lugar central en la teoría estadística.

Cálculo de probabilidades para la distribución Normal en R

Para una variable aleatoria con distribución normal, en R se utilizan las siguientes funciones:

dnorm(x, mean = mu, sd = sigma) : calcula la densidad en \(x\)
pnorm(q, mean = mu, sd = sigma) : calcula \(P(X\le q)\)
qnorm(a, mean = mu, sd = sigma) : devuelve el cuantil de orden \(a\)
rnorm(n, mean = mu, sd = sigma) : genera una muestra aleatoria de tamaño \(n\)

En esta implementación,

x y q representan valores de la variable aleatoria;
a representa una probabilidad acumulada;
mu representa la media;
sigma representa la desviación estándar;
n representa el tamaño de la muestra aleatoria.

Importante: en la distribución Normal, dnorm devuelve una densidad, no una probabilidad puntual.

Cálculo de probabilidades para la distribución Normal en Python

Para una variable aleatoria con distribución normal, en Python (mediante scipy.stats) se utilizan las siguientes funciones:

from scipy.stats import norm

norm.pdf(x, loc=mu, scale=sigma) : calcula la densidad en \(x\)
norm.cdf(q, loc=mu, scale=sigma) : calcula \(P(X\le q)\)
norm.ppf(a, loc=mu, scale=sigma) : devuelve el cuantil de orden \(a\)
norm.rvs(loc=mu, scale=sigma, size=n) : genera una muestra aleatoria de tamaño \(n\)

En esta implementación,

x y q representan valores de la variable aleatoria;
a representa una probabilidad acumulada;
mu representa la media;
sigma representa la desviación estándar;
n representa el tamaño de la muestra aleatoria.

Importante: en la distribución Normal, norm.pdf devuelve una densidad, no una probabilidad puntual.

Ejercicio 4

Se asume que el peso de adultos peruanos puede modelarse mediante una distribución normal. En una determinada población, el peso de los varones se distribuye como \(N(72,8^2)\), mientras que el de las mujeres se distribuye como \(N(64,4^2)\).

Si se elige al azar a un varón y a una mujer, calcule la probabilidad de que la mujer pese más que el varón.
Si se elige a dos varones y a dos mujeres, calcule la probabilidad de que la suma total de sus pesos supere los 260 kilogramos.
En un grupo de adultos peruanos, el 60% son varones y el 40% son mujeres. Si se selecciona a una persona al azar, calcule la probabilidad de que su peso se encuentre entre 65 y 72 kilogramos.

Distribución Normal inversa

Sea \(Y\) una variable aleatoria continua, positiva, que sigue una distribución Normal inversa con media \(\mu\) y parámetro de precisión \(\phi\), y se denota por

\[ Y \sim \operatorname{NI}(\mu,\phi), \qquad \mu>0,\ \phi>0. \]

Aquí,

\(\mu\) representa la media de la distribución;
\(\phi\) representa un parámetro de precisión.

Su función de densidad es

\[ f_Y(y)= \begin{cases} \left(\dfrac{\phi}{2\pi y^3}\right)^{1/2} \exp\left\{ -\dfrac{\phi(y-\mu)^2}{2\mu^2 y} \right\}, & y>0,\\[1em] 0, & \text{en otro caso.} \end{cases} \]

Además,

\[ E(Y)=\mu \qquad\text{y}\qquad \operatorname{Var}(Y)=\frac{\mu^3}{\phi}. \]

Interpretación de los parámetros de la Normal inversa

```markdown id=“48295” ## Interpretación de los parámetros de la Normal inversa

En la distribución Normal inversa, los parámetros cumplen papeles distintos:

\(\mu\) representa la media de la distribución;
\(\phi\) representa un parámetro de precisión.

En particular:

si \(\mu\) cambia y \(\phi\) permanece fijo, la distribución se desplaza horizontalmente;
si \(\phi\) aumenta, la distribución se concentra más alrededor de \(\mu\);
si \(\phi\) disminuye, la distribución se vuelve más dispersa y más asimétrica.

Además,

\[ E(Y)=\mu \qquad\text{y}\qquad \operatorname{Var}(Y)=\frac{\mu^3}{\phi}. \]

Por tanto, valores grandes de \(\phi\) se asocian con menor variabilidad, mientras que valores grandes de \(\mu\) desplazan la distribución hacia la derecha.

Efecto del parámetro \(\mu\) en la distribución Normal inversa

Con \(\phi\) fijo, el parámetro \(\mu\) modifica la posición de la distribución.

Caso 1: \(Y \sim \operatorname{NI}(1,3)\)

La distribución se concentra en valores pequeños.

Caso 2: \(Y \sim \operatorname{NI}(2,3)\)

La distribución se desplaza hacia la derecha.

Caso 3: \(Y \sim \operatorname{NI}(3,3)\)

La distribución sigue desplazándose hacia valores mayores.

Conclusión: con \(\phi\) fijo, al aumentar \(\mu\), la distribución se desplaza hacia la derecha.

Efecto del parámetro \(\phi\) en la distribución Normal inversa

Con \(\mu\) fijo, el parámetro \(\phi\) modifica la dispersión de la distribución.

Caso 1: \(Y \sim \operatorname{NI}(2,1)\)

La distribución es más dispersa y asimétrica.

Caso 2: \(Y \sim \operatorname{NI}(2,3)\)

La distribución presenta menor dispersión.

Caso 3: \(Y \sim \operatorname{NI}(2,8)\)

La distribución se concentra más alrededor de \(\mu\).

Conclusión: con \(\mu\) fijo, al aumentar \(\phi\), la distribución se vuelve menos dispersa.

Cálculo de probabilidades para la distribución Normal inversa en R

Para una variable aleatoria con distribución Normal inversa, en R pueden utilizarse las funciones del paquete statmod:

library(statmod)

dinvgauss(x, mean = mu, shape = phi) : calcula la densidad en \(x\)
pinvgauss(q, mean = mu, shape = phi) : calcula \(P(Y\le q)\)
qinvgauss(a, mean = mu, shape = phi) : devuelve el cuantil de orden \(a\)
rinvgauss(n, mean = mu, shape = phi) : genera una muestra aleatoria de tamaño \(n\)

En esta implementación,

x y q representan valores de la variable aleatoria;
a representa una probabilidad acumulada;
mu representa la media;
phi representa el parámetro de precisión;
n representa el tamaño de la muestra aleatoria.

Importante: dinvgauss devuelve una densidad, no una probabilidad puntual.

Cálculo de probabilidades para la distribución Normal inversa en Python

Para una variable aleatoria con distribución Normal inversa, en Python (mediante scipy.stats) se utilizan las siguientes funciones:

from scipy.stats import invgauss

invgauss.pdf(x, mu, scale=s) : calcula la densidad en \(x\)
invgauss.cdf(q, mu, scale=s) : calcula \(P(Y\le q)\)
invgauss.ppf(a, mu, scale=s) : devuelve el cuantil de orden \(a\)
invgauss.rvs(mu, scale=s, size=n) : genera una muestra aleatoria de tamaño \(n\)

En esta implementación, la parametrización de scipy.stats.invgauss no coincide directamente con la forma (NI(,)), por lo que debe tenerse cuidado al relacionar los parámetros teóricos con los argumentos de la función.

x y q representan valores de la variable aleatoria;
a representa una probabilidad acumulada;
n representa el tamaño de la muestra aleatoria.

Importante: invgauss.pdf devuelve una densidad, no una probabilidad puntual.

La familia Exponencial de Distribuciones

¿Qué es una familia de distribuciones?

En probabilidad y estadística, una familia de distribuciones es un conjunto de modelos probabilísticos que comparten una misma estructura matemática, pero que cambian según el valor de uno o más parámetros.

Por ejemplo:

la familia Normal cambia según \(\mu\) y \(\sigma^2\);
la familia Binomial cambia según \(n\) y \(p\);
la familia Poisson cambia según \(\lambda\).

Estudiar una familia permite analizar de manera conjunta propiedades comunes de varias distribuciones.

¿Por qué interesa una familia especial?

Muchas distribuciones usadas en estadística aplicada, como la:

Normal,
Binomial,
Poisson,
Gamma,
Normal inversa,

pueden escribirse bajo una forma algebraica común.

Esa forma común permite:

estudiar propiedades generales en un solo marco;
unificar procedimientos de estimación e inferencia;
construir la base teórica de los modelos lineales generalizados.

Contexto histórico e importancia

La importancia de esta familia se consolidó con el desarrollo de los modelos lineales generalizados, al observarse que muchas distribuciones de uso frecuente podían tratarse de manera unificada.

Esto permitió extender la lógica de la regresión lineal normal a situaciones con:

respuestas binarias;
conteos;
variables positivas asimétricas.

Por ello, la familia exponencial constituye el punto de partida natural para definir formalmente los modelos lineales generalizados.

Familia exponencial

Una variable aleatoria \(Y\) pertenece a la familia exponencial si su función de densidad o su función de probabilidad puede escribirse en la forma

\[ f(y;\theta,\phi)=\exp\left\{\phi\,[y\theta-b(\theta)]+c(y,\phi)\right\}. \]

donde:

\(\theta\) es el parámetro canónico;
\(\phi>0\) es un parámetro de precisión;
\(b(\theta)\) es una función conocida, denominada función cumulante;
\(c(y,\phi)\) es una función conocida que recoge los términos restantes de la distribución.

Aclaración sobre la notación de derivadas

En estas notas usaremos tres formas de notación para derivadas:

\(b'(\theta)\) y \(b''(\theta)\): primera y segunda derivadas de una función de una sola variable;
\(\dfrac{d\mu}{d\theta}\): derivada ordinaria, escrita de forma explícita;
\(\dfrac{\partial}{\partial\theta}\log f(y;\theta,\phi)\): derivada parcial, usada cuando la función depende de varias variables.

En particular,

\[ b'(\theta)=\frac{db(\theta)}{d\theta}, \qquad b''(\theta)=\frac{d^2 b(\theta)}{d\theta^2}. \]

La diferencia principal es que la derivada parcial se usa cuando la expresión depende de más de una variable.

Propiedades básicas

Si \(Y\) pertenece a la familia exponencial, entonces se cumple que

\[ E(Y)=\mu=b'(\theta) \]

\[ \operatorname{Var}(Y)=\phi^{-1}b''(\theta)=\phi^{-1}V(\mu), \]

donde

\[ V(\mu)=\frac{d\mu}{d\theta}. \]

La función \(V(\mu)\) se denomina función de varianza.

Resultados adicionales

Bajo condiciones usuales de regularidad, se tiene que

\[ E\left[\frac{\partial}{\partial\theta}\log f(Y;\theta,\phi)\right]=0 \]

\[ E\left[\frac{\partial^2}{\partial\theta^2}\log f(Y;\theta,\phi)\right] = -\,E\left[\left\{\frac{\partial}{\partial\theta}\log f(Y;\theta,\phi)\right\}^2\right]. \]

Estos resultados serán útiles más adelante para definir la función escore y la información de Fisher.

Función generadora de momentos

Si \(Y\) pertenece a la familia exponencial, su función generadora de momentos puede escribirse como

\[ M_Y(t)=\exp\left[\phi\left\{b\left(\theta+\frac{t}{\phi}\right)-b(\theta)\right\}\right]. \]

Esta expresión permite derivar momentos de la distribución y verificar, en particular, que

\[ E(Y)=b'(\theta) \qquad\text{y}\qquad \operatorname{Var}(Y)=\phi^{-1}b''(\theta). \]

Ejercicio 5

Para cada una de las siguientes distribuciones:

Bernoulli\((\mu)\)
Poisson\((\mu)\)
Exponencial\((\mu)\), con media \(\mu\)
Normal\((\mu,\sigma^2)\), con \(\sigma^2\) conocida

realice lo siguiente:

Escriba su función de probabilidad o densidad en la forma

\[ f(y;\theta,\phi)=\exp\left\{\phi\,[y\theta-b(\theta)]+c(y,\phi)\right\}. \]

Identifique, en cada caso, el parámetro canónico \(\theta\), la función cumulante \(b(\theta)\) y la función \(c(y,\phi)\).
A partir de \(b(\theta)\), obtenga la media y la varianza de la distribución.
Compare los resultados obtenidos y comente qué tienen en común estas distribuciones dentro del marco de la familia exponencial.

Ejercicio 6

Sea \(Y\) una variable aleatoria que representa el número de ensayos independientes necesarios hasta alcanzar el \(r\)-ésimo éxito, donde \(\pi\) es la probabilidad de éxito en cada ensayo. Suponga que

\[ Y \sim \operatorname{Pascal}(r,\pi), \]

con función de probabilidad

\[ f(y;r,\pi)= \binom{y-1}{r-1}\pi^r(1-\pi)^{y-r}, \qquad y=r,r+1,\dots,\quad 0<\pi<1. \]

Defina

\[ Y^*=\frac{Y}{r}. \]

Muestre que \(Y^*\) pertenece a la familia exponencial de distribuciones.
Identifique el parámetro canónico, la función cumulante y la función restante.
Determine la media de \(Y^*\) y obtenga la función de varianza \(V(\mu)\).
Particularice los resultados obtenidos para \(r=1\) e interprete el caso resultante.

Referencias

Agresti, A. (2015). Foundations of linear and generalized linear models. Wiley.

Blitzstein, J. K., & Hwang, J. (2019). Introduction to probability (2nd ed.). Chapman; Hall/CRC.

Casella, G., & Berger, R. L. (2002). Statistical inference (2nd ed.). Duxbury.

DeGroot, M. H., & Schervish, M. J. (2012). Probability and statistics (4th ed.). Pearson.

Dobson, A. J., & Barnett, A. G. (2018). An introduction to generalized linear models (4th ed.). Chapman; Hall/CRC.

Faraway, J. J. (2016). Extending the linear model with R: Generalized linear, mixed effects and nonparametric regression models (2nd ed.). Chapman; Hall/CRC.

Hogg, R. V., McKean, J. W., & Craig, A. T. (2019). Introduction to mathematical statistics (8th ed.). Pearson.

Larsen, R. J., & Marx, M. L. (2008). An introduction to mathematical statistics and its applications (4th ed.). Pearson.

McCullagh, P., & Nelder, J. A. (1989). Generalized linear models (2nd ed.). Chapman; Hall.

Pawitan, Y. (2001). In all likelihood: Statistical modelling and inference using likelihood. Oxford University Press.

Pitman, J. (1993). Probability. Springer.

Rice, J. A. (2006). Mathematical statistics and data analysis (3rd ed.). Duxbury Press.

Ross, S. (2014). A first course in probability (9th ed.). Pearson.

Wackerly, D. D., Mendenhall, W., & Scheaffer, R. L. (2008). Mathematical statistics with applications (7th ed.). Thomson Brooks/Cole.

Weisberg, S. (2014). Applied linear regression (4th ed.). Wiley.