Distribución lognormal

¿Qué es la distribución lognormal?

La distribución lognormal, o distribución normal logarítmica, es una distribución de probabilidad que define una variable aleatoria cuyo logaritmo sigue una distribución normal.

Por lo tanto, si la variable X tiene una distribución normal, entonces la función exponencial ex tiene una distribución lognormal.

\[ X \sim \text{Lognormal}(\mu, \sigma^2) \]

Entre la diferentes aplicaciones de la distribución lognormal, en estadística destaca el uso de esta distribución para analizar inversiones financieras y para hacer análisis de fiabilidad.

La distribución lognormal también se conoce como distribución de Tinaut, asimismo, a veces se escribe distribución log normal o distribución log-normal.

Gráfica de la distribución lognormal

La gráfica de la función de densidad de la distribución lognormal es la siguiente:

Por otro lado, la gráfica de la probabilidad acumulada de la distribución lognormal es la siguiente:

Características de la distribución lognormal

La distribución lognormal tiene las siguientes características:

  • La distribución lognormal queda definida por el valor de dos parámetros, su media aritmética μ y su varianza \(\sigma ^{2}\).

\[ X\sim \text{Lognormal}(\mu,\sigma^2) \]

  • El dominio de la distribución lognormal son todos los números reales positivos, pues el logaritmo no acepta valores negativos o nulos.

\[ x\in (0,+\infty) \]

  • La esperanza matemática de una distribución lognormal es igual al número e elevado a la suma de la media más la varianza partido por dos.

\[ \displaystyle E[X]=e^{\mu+\frac{\sigma^2}{2}} \]

  • Por otro lado, la varianza de una distribución lognormal se puede calcular con la siguiente expresión:

\[ Var(X) = \left(e^{\sigma^2} - 1\right) \cdot e^{2\mu + \sigma^2} \]

  • La moda de la distribución lognormal es equivalente al número e elevado a la media de la distribución.

\[ Mo=e^\mu \]

  • El coeficiente de asimetría de la distribución lognormal se puede determinar aplicando la siguiente fórmula:

\[ \displaystyle A=\left(e^{\sigma^2}+2\right)\cdot\sqrt{e^{\sigma^2}-1} \]

  • La fórmula de la función de densidad de la distribución lognormal es la siguiente:

\[ \displaystyle P[X=x]=\frac{1}{\sigma \cdot x\cdot \sqrt{2 \pi}}\cdot \exp\left(-\frac{(\ln x-\mu)^2}{2\sigma^2}\right) \]

  • La fórmula de la función de probabilidad acumulada de la distribución lognormal es la siguiente:

\[ \displaystyle P[X\leq x]=\Phi\left(\frac{\ln x-\mu}{\sigma}\right) \]

  • La media aritmética de una distribución lognormal es mayor que el valor de su mediana.

\[ \mu > Me \]

Para ilustrar la aplicación de la distribución lognormal, utilizaremos el conjunto de datos airquality incluido en R, que contiene mediciones de la calidad del aire en Nueva York de mayo a septiembre de 1973.

## Estadísticas descriptivas de Wind:
## Media: 9.96 mph
## Desviación estándar: 3.52 mph
## Mínimo: 1.7 mph
## Máximo: 20.7 mph

Distribución Normal o Gaussiana

¿Qué es la distribución normal?

La distribución normal es una distribución de probabilidad continua cuya gráfica tiene forma de campana y es simétrica respecto a su media. En estadística, la distribución normal sirve para modelizar fenómenos de características muy diferentes, por eso es tan importante esta distribución.

El símbolo de la distribución normal es la letra mayúscula N. Así pues, para indicar que una variable sigue una distribución normal se indica con la letra N y se añade entre paréntesis los valores de su media aritmética y su desviación estándar.

\[ X\sim N(\mu,\sigma) \]

Ejemplos de distribuciones normales

  1. La estatura de los alumnos de un curso.
  2. El coeficiente intelectual de los trabajadores de una empresa.
  3. El número de piezas defectuosas producidas en una fábrica durante un día.
  4. Las notas obtenidas en un examen por los alumnos de un curso.
  5. La rentabilidad de las acciones de las empresas que cotizan en bolsa.

Gráfica de la distribución normal

En el siguiente gráfico puedes ver cómo varia la función de densidad de la distribución normal dependiendo de los valores de su media aritmética y de su desviación típica.

Por otro lado, la gráfica de la función de probabilidad acumulada de la distribución normal también depende de los valores de su media aritmética y su desviación típica, tal y como puedes ver en la siguiente imagen:

Características de la distribución normal

La distribución normal tiene las siguientes características:

  • La distribución normal depende de dos parámetros característicos que son su media aritmética (μ) y su desviación típica (σ).

\[ X\sim N(\mu,\sigma) \] - La distribución normal puede tomar tanto valores positivos como negativos, por lo tanto, el dominio de la distribución normal son todos los números reales.

\[ x\in \mathbb{R} \] - La mediana y la moda de la distribución normal son iguales a la media aritmética de la distribución.

\[ Me=Mo=\mu \] - El coeficiente de asimetría y el coeficiente de curtosis de la distribución normal son nulos.

\[ \begin{array}{c}A=0\\[2ex]C=0\end{array} \] - La fórmula de la función de densidad de la distribución normal es la siguiente:

\[ \displaystyle P[X=x]=\frac1{\sigma\sqrt{2\pi}}\; e^{ - \frac{(x-\mu)^2}{2\sigma^2}} \]

  • Asimismo, la fórmula de la función de probabilidad acumulada de la distribución normal es la siguiente:

\[ \displaystyle P[X\leq x]=\frac{1}{\sigma\sqrt{2\pi}}\int_{-\infty}^x e^{-\frac{(x - \mu)^2}{2\sigma^2}}\, dx ,\quad x\in\mathbb{R} \]

La distribución normal y la regla empírica

En estadística, la regla empírica, también llamada regla 68-95-99,7, es una regla que define el porcentaje de valores de una distribución normal que se encuentran a tres desviaciones estándar de la media.

En concreto, la regla empírica establece lo siguiente:

  • El 68% de los valores de una distribución normal se encuentran a una desviación estándar de la media.
  • El 95% de los valores de una distribución normal se encuentran a dos desviaciones estándar de la media.
  • El 99,7% de los valores de una distribución normal se encuentran a tres desviaciones estándar de la media.

Ejemplo práctico: conjunto de datos faithful

Se va a utilizar el conjunto de datos faithful que viene incluido en R, específicamente la variable waiting (tiempo de espera entre erupciones del géiser Old Faithful), que sigue aproximadamente una distribución normal.

## Estadísticas descriptivas de waiting:
## Media: 70.9 minutos
## Desviación estándar: 13.59 minutos
## Mínimo: 43 minutos
## Máximo: 96 minutos

## PROBABILIDADES PRÁCTICAS:
## P(Tiempo < 70 min) = 0.4737
## P(65 < Tiempo < 75 min) = 0.2864
## P(Tiempo > 80 min) = 0.2516
## 
## CUANTILES:
## Percentil 25%: 61.73 minutos
## Mediana (50%): 70.9 minutos
## Percentil 75%: 80.07 minutos
## 
## REGLA EMPÍRICA APLICADA:
## 68% de los tiempos entre: 57.3 y 84.49 minutos
## 95% de los tiempos entre: 43.71 y 98.09 minutos
## 99.7% de los tiempos entre: 30.11 y 111.68 minutos

Distribución chi-cuadrado

¿Qué es la distribución chi-cuadrado?

La distribución chi-cuadrado es una distribución de probabilidad cuyo símbolo es χ². En concreto, la distribución chi-cuadrado es la suma del cuadrado de k variables aleatorias independientes con distribución normal.

Así pues, la distribución chi-cuadrado tiene k grados de libertad. Por lo tanto, una distribución chi-cuadrada tiene tantos grados de libertad como la suma de los cuadrados de variables con distribución normal que representa.

\[ \displaystyle X\sim\chi^2_k \ \color{orange}{\longrightarrow}\color{black}\ \begin{array}{l}\text{Distribución chi-cuadrado}\\[2ex]\text{con k grados de libertad}\end{array} \]

La distribución chi-cuadrado también se conoce como distribución de Pearson.

Gráfica de la distribución chi-cuadrado

A continuación se puede ver cómo varia la gráfica de probabilidad de la distribución-chi cuadrado según los grados de libertad.

Por otro lado, la gráfica de la función de distribución de probabilidad acumulada de la chi-cuadrado es la siguiente:

Características de la distribución chi-cuadrado

  • La media de una distribución chi-cuadrado es igual a sus grados de libertad.

\[ \begin{array}{c}X\sim\chi^2_k\\[2ex] E[X]=k\end{array} \]

  • La varianza de una distribución chi-cuadrado es equivalente al doble de los grados de libertad de la distribución.

\[ \begin{array}{c}X\sim\chi^2_k\\[2ex] Var(X)=2\cdot k\end{array} \]

  • La moda de una distribución chi-cuadrada es dos unidades menos que sus grados de libertad, siempre y cuando la distribución tenga más de un grado de libertad.

\[Mo=k-2 \qquad \text{si } k\geq 2\]

  • La función de densidad de la distribución chi-cuadrado es nula si x=0. No obstante, para valores de x mayores que 0, la función de densidad de una distribución chi-cuadrado se define mediante la siguiente fórmula:

\[\displaystyle P[X=x]= \frac{(1/2)^{k/2}}{\Gamma(k/2)} x^{k/2 - 1} e^{-x/2}\]

  • La función de distribución acumulada de la distribución chi-cuadrado está regida por la siguiente fórmula:

\[ \displaystyle P[X\leq x]=\frac{\gamma(k/2,x/2)}{\Gamma(k/2)} \]

  • El coeficiente de asimetría de la distribución chi-cuadrado es la raíz cuadrada del cociente de ocho entre el número de grados de libertad de la distribución.

\[\displaystyle A=\sqrt{\frac{8}{k}}\]

  • La curtosis de la distribución chi-cuadrado se calcula mediante la siguiente expresión:

\[ C=3+\cfrac{12}{k} \]

  • Como consecuencia del teorema del límite central, la distribución chi-cuadrado puede aproximarse por una distribución normal si k es suficientemente gradne.

\[\displaystyle\lim_{k \to \infty} \frac{\chi^2_k (x)}{ k } = N_{\left(1,\sqrt{2/k}\right)} (x)\]

Aplicaciones de la distribución chi-cuadrado

La distribución chi-cuadrado tiene muchas aplicaciones diferentes en estadística. De hecho, hasta existe la prueba de chi-cuadrado que sirve para comprobar la independencia entre variables y la bondad de ajuste a una distribución teórica. Por ejemplo, se puede usar la prueba de chi-cuadrado para determinar si los datos de una muestra se ajustan a una distribución de Poisson.

En el análisis de una regresión lineal, la distribución chi-cuadrado también se utiliza para estimar la media de una población normalmente distribuida y para estimar la pendiente de la recta del estudio de regresión lineal.

Por último, la distribución chi-cuadrado también participa en el análisis de varianza, debido a su relación con la distribución F de Snedecor.

## Estadísticas de residuos al cuadrado:
## Media: 1.0159
## Varianza: 2.1026
## Mínimo: 3e-04
## Máximo: 5.4518
## Grados de libertad estimados (k): 1.02

## PROBABILIDADES PRÁCTICAS:
## P(Residuo² < 1) = 0.6775
## P(Residuo² < 2) = 0.8396
## P(Residuo² > 4) = 0.0466
## 
## CUANTILES TEÓRICOS:
## Percentil 25%: 0.11
## Mediana (50%): 0.47
## Percentil 75%: 1.35
## Percentil 95%: 3.88
## 
## BONDAD DE AJUSTE:
## Media empírica: 1.0159
## Media teórica (k): 1.0159
## Varianza empírica: 2.1026
## Varianza teórica (2k): 2.0318

Distribución de Poisson

¿Qué es la distribución de Poisson?

La distribución de Poisson es una distribución de probabilidad que define la probabilidad de que ocurra un determinado número de eventos durante un período de tiempo.

Es decir, la distribución de Poisson sirve para modelizar variables aleatorias que describen el número de veces que se repite un fenómeno en un intervalo de tiempo.

La distribución de Poisson tiene un parámetro característico, que se representa con la letra griega λ e indica el número de veces que se espera que ocurra el evento estudiado durante un intervalo dado.

\[ X\sim \text{Poisson}(\lambda) \]

En general, la distribución de Poisson se usa para modelizar estadísticamente sucesos cuya probabilidad de ocurrencia es muy baja. Más abajo puedes ver varios ejemplos de este tipo de distribución de probabilidad.

Ejemplos de la distribución de Poisson

  1. El número de personas que entran en una tienda en una hora.

  2. El número de vehículos que pasan la frontera entre dos países durante un mes.

  3. El número de usuarios que entran en una página web durante un día.

  4. El número de piezas defectuosas producidas por una fábrica durante un día.

  5. El número de llamadas que recibe una central telefónica por minuto.

Fórmula de la distribución de Poisson

En una distribución de Poisson, la probabilidad de que ocurran x eventos es igual al número e elevado a -λ multiplicado por λ elevada a x y dividido por el factorial de x.

\[ X \sim \text{Poisson}(\lambda)\]

\[ P[X = x] = \frac{e^{-\lambda} \cdot \lambda^x}{x!} \]

\[ x! = 1 \cdot 2 \cdot 3 \cdot \ldots \cdot x \]

Características de la distribución de Poisson

  • La distribución de Poisson queda definida por un único parámetro característico, λ, que indica el número de veces que se espera que ocurra el evento estudiado durante un determinado periodo de tiempo.

\[ X\sim \text{Poisson}(\lambda) \]

  • La media de una distribución de Poisson es igual a su parámetro característico λ.

\[ E[X]=\lambda \]

  • Asimismo, la varianza de una distribución de Poisson es equivalente a su parámetro característico λ.

\[ Var(X)=\lambda \]

  • Si λ es un número entero, la moda de la distribución de Poisson es bimodal y sus valores son λ y λ-1. En cambio, si λ no es un número entero, la moda de la distribución de Poisson es el entero más grande menor o igual que λ.

\[ \[ \begin{array}{l} \lambda \in \mathbb{Z} \ \color{orange}{\longrightarrow}\color{black}\ Mo=\{\lambda, \lambda-1\} \\[2ex] \lambda \notin \mathbb{Z} \ \color{orange}{\longrightarrow}\color{black}\ Mo=\lfloor\lambda\rfloor \end{array} \]

  • No hay una fórmula concreta para determinar la mediana de una distribución de Poisson, pero se puede saber su intervalo:

\[ \lambda-\ln 2\leq Me < \lambda +\cfrac{1}{3} \]

  • La función de probabilidad de la distribución de Poisson es la siguiente:

\[ P[X=x]=\cfrac{e^{-\lambda}\cdot \lambda^x}{x!} \]

  • La suma de variables aleatorias de Poisson independientes da como resultado otra variable aleatoria de Poisson cuyo parámetro característico es la suma de los parámetros de las variables originales.

\[ \begin{array}{c}X_i\sim \text{Poisson}(\lambda_i) \quad i=1,\ldots,N\\[2ex] \displaystyle Y=\sum_{i=1}^N X_i\sim \text{Poisson}\left(\sum_{i=1}^N \lambda_i\right)\end{array} \]

  • Una distribución binomial puede aproximarse como una distribución de Poisson si el número total de observaciones es suficientemente grande (n≥100), siendo λ el producto de los dos parámetros característicos de la distribución binomial.

\[ X\sim \text{Bin}(n,p)\ \color{orange}{\longrightarrow}\color{black}\ X\sim \text{Poisson}(n\cdot p) \]

Ejemplo práctico

## ESTADÍSTICAS DE ESTACIONES SÍSMICAS:
## Total de terremotos: 1000
## Media (λ estimado): 33.42
## Varianza: 479.63
## Mínimo: 10
## Máximo: 132
## 
## PROPIEDAD POISSON (media ≈ varianza):
## Media: 33.42
## Varianza: 479.63
## Razón varianza/media: 14.35

## PROBABILIDADES PRÁCTICAS:
## P(X = 10 estaciones) = 0
## P(X ≤ 15 estaciones) = 3e-04
## P(X > 20 estaciones) = 0.9913
## P(10 ≤ X ≤ 20) = 0.0087
## 
## CUANTILES:
## Percentil 25%: 29 estaciones
## Mediana (50%): 33 estaciones
## Percentil 75%: 37 estaciones
## Percentil 95%: 43 estaciones
## 
## INTERVALO TÍPICO (μ ± σ):
## Desde: 27.6
## Hasta: 39.2

Distribución exponencial

¿Qué es la distribución exponencial?

La distribución exponencial es una distribución de probabilidad continua que sirve para modelizar el tiempo de espera para la ocurrencia de un fenómeno aleatorio.

En concreto, la distribución exponencial permite describir el tiempo de espera entre dos fenómenos que siguen una distribución de Poisson. Por lo tanto, la distribución exponencial está estrechamente relacionada con la distribución de Poisson.

La distribución exponencial tiene un parámetro característico, que se representa con la letra griega λ e indica el número de veces que se espera que ocurra el evento estudiado durante un periodo de tiempo determinado.

\[ X\sim \text{Exp}(\lambda) \]

Asimismo, la distribución exponencial también se usa para modelizar el tiempo que transcurre hasta que se produce un fallo. De modo que la distribución exponencial tiene varias aplicaciones en fiabilidad y en la teoría de la supervivencia.

Ejemplos de distribuciones exponenciales

  1. El tiempo transcurrido entre dos llamadas en un centro de atención de llamadas.
  2. El tiempo que debe esperar una persona hasta que pasa un taxi libre por una calle concreta.
  3. El tiempo de espera hasta que entra un nuevo cliente en una tienda.
  4. El tiempo que transcurre entre la entrada de dos usuarios diferentes en una página web.
  5. El tiempo que transcurre en un aeropuerto desde que despega un avión hasta que sale otro.

Fórmula de la distribución exponencial

La fórmula de la función de densidad que define el cálculo de una probabilidad de la distribución exponencial es igual a λ multiplicado por el número e elevado a menos λ por x.

\[ X \sim \text{Exp}(\lambda) \]

\[ P[X=x]=\lambda e^{-\lambda x}\]

Gráfica de la distribución exponencial

A continuación se puede ver cómo varia la gráfica de la función de densidad de la distribución exponencial según el valor del parámetro λ.

Asimismo, la función de probabilidad acumulada de la distribución exponencial también depende del valor del parámetro λ, tal y como puedes ver en el siguiente gráfico:

Características de la distribución exponencial

La distribución exponencial cumple con las siguientes características:

  • La distribución exponencial tiene un parámetro característico, λ, que indica el número de veces que se espera que ocurra el fenómeno estudiado durante un periodo de tiempo determinado.

\[ X\sim \text{Exp}(\lambda) \]

  • La distribución exponencial no puede tomar un valor negativo, por lo que el dominio de la distribución exponencial son todos los números reales mayores o igual que cero.

\[ x\in [0,+\infty) \]

  • La media de la distribución exponencial es igual a uno partido por el parámetro característico λ.

\[ E[X]=\cfrac{1}{\lambda} \]

  • La varianza de la distribución exponencial es el cuadrado de su media, por lo tanto, la varianza de la distribución exponencial es equivalente a uno partido por el coeficiente λ al cuadrado.

\[ Var(X)=\cfrac{1}{\lambda^2 } \]

  • Independientemente del valor de λ, el coeficiente de asimetría de la distribución exponencial siempre es igual a 2.

\[ A=2 \]

  • Asimismo, el coeficiente de curtosis de cualquier distribución exponencial siempre es equivalente a 9.

\[ C=9 \]

  • La fórmula de la función de densidad de la distribución exponencial es la siguiente:

\[ P[X=x]=\lambda e^{-\lambda x} \]

  • Mientras que la fórmula de la función de probabilidad acumulada de la distribución exponencial es la siguiente:

\[ P[X\leq x]=1-e^{-\lambda x} \]

  • La distribución exponencial es una de las pocas distribuciones de probabilidad que tienen la propiedad de falta de memoria. Esta propiedad significa que la ocurrencia de un evento anterior no afecta a la probabilidad de que suceda ese evento en el futuro. Por ejemplo, en una distribución exponencial la probabilidad de que un nuevo usuario entre en una página web en menos de un minuto no depende de si justo acaba de entrar un usuario o si hace más de diez minutos que no entra ningún usuario.

\[ P[X>x+y|X>y]=P[X>x] \]

Bibliografía