Distribuciones de Probabilidad

Author

Juan José Arteaga, Mathias Rivas, Laura Liliana Sánchez Hernández

1 Introducción

Las distribuciones de probabilidad permiten describir y analizar matemáticamente la incertidumbre asociada a fenómenos aleatorios. A través de ellas se determina la probabilidad de ocurrencia de distintos eventos, facilitando la interpretación y predicción de comportamientos en contextos reales.

Estas distribuciones se clasifican en discretas y continuas según el tipo de variable. Las discretas, como la Bernoulli, Binomial o Poisson, modelan conteos o eventos específicos; mientras que las continuas, como la Normal, Exponencial o Weibull, representan variables medibles dentro de un rango continuo.

El estudio de estas distribuciones resulta esencial en áreas como la ingeniería, la economía o la simulación, ya que permite realizar estimaciones, pronósticos y análisis de riesgo. En este trabajo se presentan las principales distribuciones discretas y continuas, sus funciones características y la estimación de parámetros mediante el método de máxima verosimilitud, junto con una aplicación práctica para reforzar su comprensión teórica y su utilidad en el análisis de datos.


2 Distribuciones Discretas

2.1 Distribución Bernoulli

La distribución de Bernoulli representa experimentos que solo pueden tener dos resultados posibles: éxito o fracaso, codificados usualmente como 1 y 0. Se utiliza para modelar situaciones simples donde se desea conocer la probabilidad de que ocurra un evento, como lanzar una moneda o determinar si una máquina funciona correctamente.

Función de probabilidad: La función de probabilidad describe la probabilidad de obtener un valor específico x, que puede ser 0 o 1, es decir, fracaso o éxito. Para la distribución de Bernoulli, la fórmula es la siguiente: \[f(x) = \begin{cases} p, & \text{si } x = 1, \\ 1 - p, & \text{si } x = 0, \\ 0, & \text{en otro caso.} \end{cases}\]

  • Si x=1 (es decir, el resultado es un éxito), la probabilidad es𝑝, que es la probabilidad de que ocurra un éxito.

  • Si x=0 (es decir, el resultado es un fracaso), la probabilidad es 1−𝑝, ya que es la probabilidad complementaria de que ocurra un éxito.

  • Fuera de estos dos valores, la probabilidad es cero porque𝑋solo puede ser 0 o 1.

Función acumulada: La función acumulada o CDF nos da la probabilidad acumulada de que la variable aleatoria𝑋sea menor o igual que un valor x: \[F(x) = \begin{cases} 0, & x < 0, \\ 1 - p, & 0 \le x < 1, \\ 1, & x \ge 1 \end{cases}\]

Media: La media o valor esperado de una distribución de Bernoulli es la probabilidad de éxito𝑝. Esto se debe a que𝑋= 1 con probabilidad𝑝y𝑋= 0 con probabilidad 1−𝑝. \[\mathbb{E}[X] = p\] La media de una distribución Bernoulli refleja el valor esperado del experimento, que es simplemente la probabilidad de éxito 𝑝. Esto significa que, si realizamos muchos experimentos de Bernoulli, la proporción de éxitos en promedio se acercará a 𝑝.

Varianza: La varianza de una distribución de Bernoulli mide la dispersión de los resultados con respecto a la media. En este caso, se calcula como: \[\mathrm{Var}(X) = p(1 - p)\] La varianza refleja cuán dispersos están los valores 0 y 1 alrededor de la media 𝑝. La varianza es máxima cuando 𝑝= 0.5, es decir, cuando las probabilidades de éxito y fracaso son iguales.

MLE: La función de verosimilitud describe la probabilidad de observar un conjunto de datos dado un valor de \(p\). Para \(n\) observaciones \(x_1, x_2, \dots, x_n\) de una variable aleatoria \(X\) que sigue una distribución Bernoulli, la función de verosimilitud es:

\[ L(p) = \prod_{i=1}^n p^{x_i}(1-p)^{1-x_i} \]

La verosimilitud es el producto de las probabilidades de los valores observados \(x_i\), donde cada valor \(x_i\) puede ser 0 o 1. Este producto nos da la probabilidad de observar los datos dados los valores de \(p\). Para estimar \(p\), buscamos el valor que maximice esta verosimilitud.

Para facilitar el cálculo, tomamos el logaritmo de la función de verosimilitud (log-verosimilitud), ya que el logaritmo de un producto se convierte en una suma, lo que simplifica la derivación:

\[ \log L(p) = \sum_{i=1}^n \left[ x_i \log(p) + (1 - x_i) \log(1 - p) \right] \]

El siguiente paso es derivar la log-verosimilitud con respecto a \(p\) y igualar a cero para encontrar el estimador de máxima verosimilitud. Derivando:

\[ \frac{d}{dp} \log L(p) = \sum_{i=1}^n \left[ \frac{x_i}{p} - \frac{1 - x_i}{1 - p} \right] \]

Igualamos la derivada a cero para maximizar la función de verosimilitud:

\[ \sum_{i=1}^n \left[ \frac{x_i}{p} - \frac{1 - x_i}{1 - p} \right] = 0 \]

Resolviendo para \(p\), obtenemos el estimador de máxima verosimilitud \(\hat{p}\):

\[ \hat{p} = \frac{\sum_{i=1}^n x_i}{n} \]

Esto es simplemente la proporción de éxitos en la muestra, lo cual es intuitivo, ya que \(\hat{p}\) es el valor que maximiza la probabilidad de observar los datos.


2.2 Distribución Binomial

La distribución binomial extiende el caso de Bernoulli a múltiples ensayos independientes, cada uno con igual probabilidad de éxito \(p\). Modela el número de éxitos en un número fijo de repeticiones, siendo útil en contextos donde se repite un experimento varias veces, como el número de piezas defectuosas en un lote o el número de encuestas positivas entre un grupo de personas.

Función de probabilidad: La función de probabilidad de la distribución binomial describe la probabilidad de obtener exactamente 𝑘 éxitos en 𝑛 ensayos. Se calcula mediante el coeficiente binomial:

\[ P(X = k) = \binom{n}{k} p^k (1 - p)^{n - k}, \quad k = 0, 1, \dots, n \]

  • \(\binom{n}{k}\) es el coeficiente binomial, que representa el número de formas diferentes en las que se pueden seleccionar 𝑘 éxitos entre 𝑛 ensayos.

  • \(p^k\) es la probabilidad de obtener 𝑘 éxitos.

  • \((1 - p)^{n - k}\) es la probabilidad de obtener 𝑛−𝑘 fracasos.

Función Acumulada: La función acumulada o CDF de la distribución binomial es la probabilidad de obtener 𝑘 o menos éxitos en 𝑛 ensayos. Se calcula como la suma de las probabilidades para 𝑘= 0,1,…:

\[F(k) = \sum_{i=0}^{\lfloor k \rfloor} \binom{n}{i} p^i (1 - p)^{n - i}\]

  • Esta fórmula nos da la probabilidad acumulada de obtener 𝑘 o menos éxitos. En otras palabras, es la probabilidad de que la variable aleatoria 𝑋 tome un valor menor o igual a 𝑘.

  • Se obtiene sumando las probabilidades de obtener 0,1,2,…,𝑘 éxitos.

Media: La media o valor esperado de la distribución binomial es el número esperado de éxitos en 𝑛 ensayos:

\[\mathbb{E}[X] = np\] La media es el valor esperado o promedio de la variable aleatoria 𝑋, que representa el número de éxitos. Como 𝑝 es la probabilidad de éxito en un ensayo y hay 𝑛 ensayos, la media es simplemente 𝑛𝑝.

Varianza: La varianza mide la dispersión de los posibles resultados respecto a la media. En una distribución binomial, la varianza se calcula como: \[\mathrm{Var}(X) = np(1 - p)\]

  • La varianza refleja cuánto se desvían los resultados posibles del valor esperado 𝑛𝑝.

  • La varianza es máxima cuando 𝑝= 0.5, lo que significa que la probabilidad de éxito y fracaso son iguales, lo que genera la mayor incertidumbre o variabilidad en los resultados.

MLE: Para la distribución binomial, la función de verosimilitud también se puede expresar como un producto de probabilidades, pero ahora para un número fijo de ensayos \(n\) y un número variable de éxitos \(k\):

\[ L(p) = \prod_{i=1}^n \binom{n}{x_i} p^{x_i} (1-p)^{n - x_i} \]

  • \(\binom{n}{x_i}\) es el coeficiente binomial que representa el número de formas en que se pueden seleccionar \(x_i\) éxitos de entre \(n\) ensayos.

  • La probabilidad de obtener \(x_i\) éxitos es \(p^{x_i}\) y la probabilidad de fracaso es \((1-p)^{n - x_i}\).

Al igual que con la distribución Bernoulli, para encontrar el estimador de máxima verosimilitud \(\hat{p}\), tomamos el logaritmo de la función de verosimilitud y derivamos. Esto nos lleva a la siguiente fórmula para \(\hat{p}\):

\[ \hat{p} = \frac{\sum x_i}{n \cdot m} \]

  • \(\sum x_i\) es la suma de los éxitos observados en los ensayos.
  • \(n\) es el número de ensayos, y \(m\) es el número de repeticiones de la muestra.

El MLE nos proporciona la mejor estimación de la probabilidad de éxito en función de los datos observados.


2.3 Distribución Geométrica

La distribución geométrica describe el número de ensayos necesarios hasta obtener el primer éxito en una secuencia de ensayos de tipo Bernoulli. Es útil para analizar tiempos o intentos requeridos hasta que ocurra un evento, como el número de llamadas necesarias hasta lograr una venta o el número de veces que debe encenderse una máquina hasta que funcione.

Función de probabilidad:
La función de probabilidad de la distribución geométrica nos da la probabilidad de que se necesiten exactamente \(k\) intentos hasta que ocurra el primer éxito. La fórmula es la siguiente:

\[ P(X = k) = (1 - p)^{k - 1} p, \quad k = 1, 2, \dots \]

  • \(p\) es la probabilidad de éxito en un solo intento.
  • \((1 - p)^{k - 1}\) es la probabilidad de que los primeros \(k - 1\) intentos sean fracasos.
  • \(p\) es la probabilidad de que el \(k\)-ésimo intento sea un éxito.

La distribución geométrica tiene la propiedad de que cada intento es independiente, y la probabilidad de éxito en cada intento es la misma.

Función Acumulada:
La función acumulada o CDF de la distribución geométrica describe la probabilidad de obtener un éxito en un número de intentos menor o igual a \(k\). Se expresa como la suma de las probabilidades desde 1 hasta \(k\), y se calcula de la siguiente manera:

\[ F(k) = 1 - (1 - p)^{\lfloor k \rfloor}, \quad k \ge 1 \]

La función acumulada nos da la probabilidad de que el número de intentos hasta el primer éxito sea menor o igual a \(k\). Para \(k\) intentos, la probabilidad de que el primer éxito ocurra en alguno de estos intentos es simplemente \((1 - p)^{k}\).

La fórmula refleja que si no se ha obtenido un éxito hasta el \(k\)-ésimo intento, la probabilidad acumulada será más grande.

Media:
La media o valor esperado de la distribución geométrica nos da el número esperado de intentos necesarios para obtener el primer éxito. Se calcula como:

\[ \mathbb{E}[X] = \frac{1}{p} \]

La media de la distribución geométrica representa el número esperado de intentos hasta obtener el primer éxito. Como la probabilidad de éxito en cada intento es \(p\), el valor esperado es simplemente el inverso de \(p\). Esto implica que si \(p = 0.1\) (es decir, hay un 10% de probabilidad de éxito), entonces el número esperado de intentos hasta obtener un éxito es \(1/0.1 = 10\).

Varianza:
La varianza mide la dispersión de los valores posibles alrededor de la media. En una distribución geométrica, la varianza se calcula como:

\[ \mathrm{Var}(X) = \frac{1 - p}{p^2} \]

La varianza refleja cuán dispersos están los resultados posibles respecto a la media. Cuanto más pequeña es la probabilidad de éxito \(p\), mayor es la varianza, ya que los intentos hasta obtener un éxito pueden ser muy variables.

La fórmula muestra que la varianza es inversamente proporcional a \(p^2\), lo que implica que a medida que la probabilidad de éxito aumenta, la dispersión en el número de intentos disminuye.

MLE:
El estimador de máxima verosimilitud (MLE) busca encontrar el valor de \(p\) que maximiza la probabilidad de observar los datos que tenemos. Para la distribución geométrica, si tenemos \(n\) observaciones \(x_1, x_2, \dots, x_n\) del número de intentos hasta el primer éxito, la función de verosimilitud es el producto de las probabilidades de los datos observados:

\[ L(p) = \prod_{i=1}^{n} (1 - p)^{x_i - 1} p \]

  • Cada \(x_i\) es el número de intentos necesarios hasta el primer éxito.
  • \((1 - p)^{x_i - 1}\) es la probabilidad de que los primeros \(x_i - 1\) intentos sean fracasos, y \(p\) es la probabilidad de éxito en el \(x_i\)-ésimo intento.

Para maximizar la función de verosimilitud, tomamos el logaritmo de la función de verosimilitud (log-verosimilitud), lo cual simplifica los cálculos, y derivamos con respecto a \(p\). La log-verosimilitud es:

\[ \log L(p) = \sum_{i=1}^{n} \left[ (x_i - 1) \log(1 - p) + \log(p) \right] \]

Ahora derivamos con respecto a \(p\):

\[ \frac{d}{dp} \log L(p) = \sum_{i=1}^{n} \left[ \frac{x_i - 1}{1 - p} - \frac{1}{p} \right] \]

Igualamos la derivada a cero para maximizar la función de verosimilitud:

\[ \sum_{i=1}^{n} \left[ \frac{x_i - 1}{1 - p} - \frac{1}{p} \right] = 0 \]

Finalmente, el estimador de máxima verosimilitud \(\hat{p}\) es:

\[ \hat{p} = \frac{1}{\bar{X}} \]

Donde \(\bar{X}\) es la media muestral de los datos observados, es decir, el promedio del número de intentos hasta el primer éxito.

El MLE nos dice que la mejor estimación de la probabilidad de éxito \(p\) es simplemente el inverso de la media muestral de los intentos. Esto tiene sentido porque si en promedio necesitamos \(\bar{X}\) intentos hasta un éxito, la probabilidad de éxito es \(1/\bar{X}\).


2.4 Distribución Poisson

La distribución de Poisson modela el número de veces que ocurre un evento dentro de un intervalo de tiempo o espacio determinado, bajo la suposición de que los eventos son independientes y ocurren a una tasa constante. Es común en el estudio de fenómenos aleatorios raros o esporádicos, como la cantidad de llegadas de clientes por hora, los accidentes en una carretera o los defectos por metro cuadrado en un material.

Función de probabilidad: La función de probabilidad de la distribución de Poisson describe la probabilidad de que el número de eventos 𝑋 en un intervalo de tiempo o espacio dado sea igual a 𝑥, y se calcula mediante la siguiente fórmula:

\[ P(X=x) = \frac{e^{-\lambda} \lambda^x}{x!} \]

  • 𝜆 es la tasa promedio de ocurrencia del evento (la media de la distribución de Poisson).

  • 𝑥 es el número de eventos que ocurren en el intervalo.

  • \(e^{-\lambda}\) es el factor de normalización que asegura que la suma de todas las probabilidades sea igual a 1.

La fórmula refleja que el número de eventos sigue una distribución que depende de la tasa de ocurrencia 𝜆, y la probabilidad disminuye rápidamente para valores grandes de 𝑥 (la cola de la distribución es exponencial).

Función Acumulada: La función acumulada de la distribución de Poisson nos da la probabilidad de que el número de eventos 𝑋 sea menor o igual a 𝑘. Se expresa como la suma de las probabilidades desde 0 hasta𝑘, de la siguiente manera:

\[F(k) = \sum_{i=0}^{\lfloor k \rfloor} e^{-\lambda} \frac{\lambda^i}{i!}\] Esta fórmula calcula la probabilidad acumulada de que ocurra un número de eventos 𝑋 menor o igual a 𝑘. Es la suma de las probabilidades de que ocurran 0,1,2,…,𝑘 eventos.

La función acumulada es útil para calcular probabilidades de intervalos en la distribución de Poisson.

Media: La media o valor esperado de la distribución de Poisson es igual a 𝜆, que es la tasa promedio de ocurrencia de los eventos. Es una propiedad clave de esta distribución:

\[\mathbb{E}[X] = \lambda \] La media de la distribución de Poisson es igual a 𝜆, lo que significa que, en promedio, el número de eventos que ocurrirán en un intervalo será 𝜆. Esta propiedad es una característica distintiva de la distribución de Poisson.

Varianza: La varianza mide la dispersión de los resultados posibles alrededor de la media. En el caso de la distribución de Poisson, la varianza también es igual a 𝜆:

\[\mathrm{Var}(X) = \lambda\] La varianza de la distribución de Poisson es igual a 𝜆, lo que implica que la dispersión en el número de eventos es proporcional a la tasa de ocurrencia. Esto significa que, cuanto mayor sea 𝜆, más variable será el número de eventos observados.

MLE: El estimador de máxima verosimilitud (MLE) es el valor del parámetro que maximiza la probabilidad de observar los datos que tenemos. En el caso de la distribución de Poisson, si tenemos una muestra \(x_1, x_2, \dots, x_n\) de tamaño \(n\), la función de verosimilitud es el producto de las probabilidades de los datos observados:

\[ L(\lambda) = \prod_{i=1}^{n} \frac{e^{-\lambda} \lambda^{x_i}}{x_i!} \]

  • Cada \(x_i\) es el número de eventos observados en un intervalo de tiempo o espacio.
  • La verosimilitud nos da la probabilidad de observar estos datos dados un valor de \(\lambda\), y se expresa como el producto de las probabilidades de cada observación.

Para encontrar el estimador de máxima verosimilitud \(\hat{\lambda}\), tomamos el logaritmo de la función de verosimilitud (log-verosimilitud):

\[ \log L(\lambda) = \sum_{i=1}^{n} \left[ -\lambda + x_i \log(\lambda) - \log(x_i!) \right] \]

Derivamos con respecto a \(\lambda\):

\[ \frac{d}{d\lambda} \log L(\lambda) = \sum_{i=1}^{n} \left[ -1 + \frac{x_i}{\lambda} \right] \]

Igualamos la derivada a cero para maximizar la función de verosimilitud:

\[ \sum_{i=1}^{n} \left[ -1 + \frac{x_i}{\lambda} \right] = 0 \]

Resolviendo para \(\lambda\), obtenemos el estimador de máxima verosimilitud \(\hat{\lambda}\):

\[ \hat{\lambda} = \bar{X} \]

El MLE es el valor de \(\lambda\) que maximiza la probabilidad de observar los datos. En la distribución de Poisson, el estimador de \(\lambda\) es simplemente la media muestral de los datos observados.

  • \(\bar{X}\) es la media de las observaciones \(x_1, x_2, \dots, x_n\), y es el mejor estimador de \(\lambda\), ya que la media de una distribución de Poisson es \(\lambda\).

3 Distribuciones Continuas

3.1 Distribución Uniforme

la distribución uniforme asigna igual probabilidad a todos los valores dentro de un intervalo \([a,b]\). Se emplea cuando no existe preferencia o información que indique que un valor sea más probable que otro dentro del rango, como el momento de llegada de un bus dentro de un intervalo de tiempo.

Función densidad de probabilidad: La función de densidad de probabilidad (PDF) describe cómo se distribuye la probabilidad a lo largo del intervalo [a,b]. En el caso de la distribución uniforme, la probabilidad está distribuida de manera uniforme a lo largo del intervalo: \[ f(x) = \begin{cases} \dfrac{1}{b - a}, & a \le x \le b, \\ 0, & \text{en otro caso.} \end{cases} \]

  • f(x) es la densidad de probabilidad en el punto x.

  • La densidad de probabilidad es constante a lo largo del intervalo [a,b] y toma el valor \(\dfrac{1}{b - a}\) Esto asegura que la integral de la función de densidad sobre el intervalo sea igual a 1, lo cual es una propiedad fundamental de todas las distribuciones de probabilidad.

  • Fuera del intervalo [a,b], la probabilidad es 0, ya que no se puede observar valores fuera de este rango.

Funcion Acumulada: La función acumulada o CDF de una distribución describe la probabilidad acumulada de que una variable aleatoria 𝑋 tome un valor menor o igual a x. Para la distribución uniforme, se tiene la siguiente expresión: \[ F(x) = \begin{cases} 0, & x < a, \\ \dfrac{x - a}{b - a}, & a \le x \le b, \\ 1, & x > b \end{cases}\]

  • Para x<𝑎, la probabilidad acumulada es 0, ya que no puede ocurrir ningún valor menor que 𝑎.
  • Para 𝑎≤𝑥≤𝑏, la función acumulada crece linealmente desde 0 hasta 1. La probabilidad acumulada de observar un valor menor o igual a x es proporcional a la distancia de x respecto𝑎, con una pendiente de \(\dfrac{1}{b - a}\)
  • Para x>b, la probabilidad acumulada es 1, ya que todos los valores posibles ya han sido observados.

Media: La media o valor esperado de la distribución uniforme es simplemente el punto medio del intervalo [𝑎,𝑏]. Esto se debe a que todos los valores dentro del intervalo son igualmente probables:

\[\mathbb{E}[X] = \dfrac{a + b}{2} \]

  • La media es el valor esperado de la variable aleatoria 𝑋, y en el caso de la distribución uniforme, es simplemente el punto medio del intervalo. Esto refleja la simetría de la distribución uniforme, donde todos los valores dentro del intervalo tienen la misma probabilidad de ocurrir.

Varianza: La varianza mide la dispersión de los valores respecto a la media. Para la distribución uniforme, la varianza se calcula como: \[\mathrm{Var}(X) = \dfrac{(b - a)^2}{12}\]

  • La varianza de la distribución uniforme depende de la longitud del intervalo [𝑎,𝑏]. Cuanto más grande es el intervalo, mayor es la dispersión de los valores posibles, lo que aumenta la varianza.

  • La fórmula refleja que la varianza es proporcional al cuadrado de la longitud del intervalo,\((b - a)^2\) , y se divide por 12 para normalizar la dispersión en el rango [𝑎,𝑏].

MLE: El estimador de máxima verosimilitud (MLE) es el valor del parámetro que maximiza la probabilidad de observar los datos que tenemos. En el caso de la distribución uniforme, si tenemos una muestra \(X_1, X_2, \dots, X_n\) de tamaño \(n\), la función de verosimilitud es:

\[ L(a, b) = \prod_{i=1}^{n} \frac{1}{b - a}, \quad \text{para } a \le X_i \le b \]

  • Cada \(X_i\) debe estar en el intervalo \([a, b]\), por lo que la probabilidad de que cada observación ocurra dentro del intervalo es \(\frac{1}{b - a}\).

  • La función de verosimilitud es el producto de las probabilidades de todas las observaciones.

El estimador de máxima verosimilitud ( ) y ( ) es el mínimo y el máximo de las observaciones, respectivamente:

\[ \hat{a} = \min(X_i), \quad \hat{b} = \max(X_i) \]

  • El MLE para \(a\) es el valor mínimo observado en los datos, ya que \(a\) es el menor valor posible en el intervalo.

  • El MLE para \(b\) es el valor máximo observado en los datos, ya que \(b\) es el mayor valor posible en el intervalo.


3.2 Distribución Exponencial

La distribución exponencial modela el tiempo entre ocurrencias de eventos que siguen un proceso de Poisson. Es ampliamente utilizada para describir tiempos de espera o de vida útil, como el tiempo entre la llegada de clientes a un servicio o el tiempo hasta que un componente electrónico falla.

Función de Densidad:
La función de densidad de probabilidad (PDF) de la distribución exponencial describe la probabilidad de que el tiempo hasta el siguiente evento sea \(x\). Se expresa como:

\[ f(x) = \lambda e^{-\lambda x}, \quad x \ge 0 \]

  • \(f(x)\) es la densidad de probabilidad en el punto \(x\), que representa la probabilidad de que el tiempo hasta el próximo evento sea igual a \(x\).
  • \(\lambda\) es el parámetro de la distribución, que es la tasa de ocurrencia de eventos. Cuanto mayor sea \(\lambda\), más frecuente es la ocurrencia del evento, lo que significa que los tiempos entre eventos serán más cortos.
  • La función de densidad es decreciente y tiene una cola en el infinito, ya que la probabilidad de tiempos de espera más largos disminuye exponencialmente.

Función Acumulada (CDF):
La función acumulada o CDF de una distribución describe la probabilidad acumulada de que una variable aleatoria \(X\) tome un valor menor o igual a \(x\). En el caso de la distribución exponencial, la CDF es:

\[ F(x) = 1 - e^{-\lambda x}, \quad x \ge 0 \]

  • Para \(x \ge 0\), la función acumulada crece desde 0 hasta 1, lo que indica que con el tiempo, la probabilidad de que ocurra un evento aumenta.
  • La CDF describe la probabilidad acumulada de que el tiempo hasta el siguiente evento sea menor o igual a \(x\), lo que muestra que es más probable que ocurran eventos en tiempos más cortos cuando \(\lambda\) es grande.

Media (Esperanza):
La media o valor esperado de la distribución exponencial es el tiempo promedio que se espera hasta que ocurra el primer evento. Se calcula como:

\[ \mathbb{E}[X] = \frac{1}{\lambda} \]

  • La media es el valor esperado de la variable aleatoria \(X\), y en el caso de la distribución exponencial, es el inverso de \(\lambda\). Esto significa que, a medida que la tasa de ocurrencia de eventos (\(\lambda\)) aumenta, el tiempo promedio hasta el siguiente evento disminuye.

Varianza:
La varianza mide la dispersión de los tiempos de espera alrededor de la media. Para la distribución exponencial, la varianza se calcula como:

\[ \mathrm{Var}(X) = \frac{1}{\lambda^2} \]

  • La varianza refleja la dispersión de los tiempos de espera. Cuanto mayor es \(\lambda\), menor es la variabilidad de los tiempos de espera, ya que los eventos ocurren con mayor frecuencia y los tiempos entre ellos son más predecibles.

MLE:
El estimador de máxima verosimilitud (MLE) es el valor de \(\lambda\) que maximiza la probabilidad de observar los datos. Para la distribución exponencial, si tenemos una muestra de \(n\) observaciones \(x_1, x_2, \dots, x_n\), la función de verosimilitud es:

\[ L(\lambda) = \prod_{i=1}^{n} \lambda e^{-\lambda x_i} \]

  • Cada \(x_i\) es el tiempo entre eventos observado en los datos.
  • La función de verosimilitud es el producto de las probabilidades de todas las observaciones.

El estimador de máxima verosimilitud \(\hat{\lambda}\) se obtiene tomando el logaritmo de la función de verosimilitud y derivando:

\[ \log L(\lambda) = n \log(\lambda) - \lambda \sum_{i=1}^{n} x_i \]

Derivando con respecto a \(\lambda\) y igualando a cero, obtenemos:

\[ \hat{\lambda} = \frac{1}{\bar{X}} \]

  • El MLE para \(\lambda\) es simplemente el inverso de la media muestral \(\bar{X}\), ya que la media de una distribución exponencial es \(\frac{1}{\lambda}\).

3.3 Distribución Normal

La distribución normal o gaussiana es una de las más importantes en estadística. Tiene forma simétrica de campana y se caracteriza por su media y desviación estándar. Modela muchos fenómenos naturales y sociales que tienden a agruparse alrededor de un valor promedio, como la altura, el peso, los errores de medición o el rendimiento académico.

Función de Densidad:
La función de densidad de probabilidad (PDF) de la distribución exponencial describe la probabilidad de que el tiempo hasta el siguiente evento sea \(x\). Se expresa como:

\[ f(x) = \lambda e^{-\lambda x}, \quad x \ge 0 \]

  • \(f(x)\) es la densidad de probabilidad en el punto \(x\), que representa la probabilidad de que el tiempo hasta el próximo evento sea igual a \(x\).
  • \(\lambda\) es el parámetro de la distribución, que es la tasa de ocurrencia de eventos. Cuanto mayor sea \(\lambda\), más frecuente es la ocurrencia del evento, lo que significa que los tiempos entre eventos serán más cortos.
  • La función de densidad es decreciente y tiene una cola en el infinito, ya que la probabilidad de tiempos de espera más largos disminuye exponencialmente.

Función Acumulada:
La función acumulada o CDF de una distribución describe la probabilidad acumulada de que una variable aleatoria \(X\) tome un valor menor o igual a \(x\). En el caso de la distribución exponencial, la CDF es:

\[ F(x) = 1 - e^{-\lambda x}, \quad x \ge 0 \]

  • Para \(x \ge 0\), la función acumulada crece desde 0 hasta 1, lo que indica que con el tiempo, la probabilidad de que ocurra un evento aumenta.
  • La CDF describe la probabilidad acumulada de que el tiempo hasta el siguiente evento sea menor o igual a \(x\), lo que muestra que es más probable que ocurran eventos en tiempos más cortos cuando \(\lambda\) es grande.

Media:
La media o valor esperado de la distribución exponencial es el tiempo promedio que se espera hasta que ocurra el primer evento. Se calcula como:

\[ \mathbb{E}[X] = \frac{1}{\lambda} \]

  • La media es el valor esperado de la variable aleatoria \(X\), y en el caso de la distribución exponencial, es el inverso de \(\lambda\). Esto significa que, a medida que la tasa de ocurrencia de eventos (\(\lambda\)) aumenta, el tiempo promedio hasta el siguiente evento disminuye.

Varianza:
La varianza mide la dispersión de los tiempos de espera alrededor de la media. Para la distribución exponencial, la varianza se calcula como:

\[ \mathrm{Var}(X) = \frac{1}{\lambda^2} \]

  • La varianza refleja la dispersión de los tiempos de espera. Cuanto mayor es \(\lambda\), menor es la variabilidad de los tiempos de espera, ya que los eventos ocurren con mayor frecuencia y los tiempos entre ellos son más predecibles.

MLE:
El estimador de máxima verosimilitud (MLE) es el valor de \(\lambda\) que maximiza la probabilidad de observar los datos. Para la distribución exponencial, si tenemos una muestra de \(n\) observaciones \(x_1, x_2, \dots, x_n\), la función de verosimilitud es:

\[ L(\lambda) = \prod_{i=1}^{n} \lambda e^{-\lambda x_i} \]

  • Cada \(x_i\) es el tiempo entre eventos observado en los datos.
  • La función de verosimilitud es el producto de las probabilidades de todas las observaciones.

El estimador de máxima verosimilitud \(\hat{\lambda}\) se obtiene tomando el logaritmo de la función de verosimilitud y derivando:

\[ \log L(\lambda) = n \log(\lambda) - \lambda \sum_{i=1}^{n} x_i \]

Derivando con respecto a \(\lambda\) y igualando a cero, obtenemos:

\[ \hat{\lambda} = \frac{1}{\bar{X}} \]

  • El MLE para \(\lambda\) es simplemente el inverso de la media muestral \(\bar{X}\), ya que la media de una distribución exponencial es \(\frac{1}{\lambda}\).

3.4 Distribución Triangular

La distribución triangular se define por un valor mínimo, un máximo y un valor más probable, formando una figura de triángulo. Se usa con frecuencia en simulaciones y estimaciones cuando no se dispone de suficientes datos, pero se conocen los límites y el valor más común. Es útil, por ejemplo, para estimar tiempos de ejecución de tareas en proyectos.

Función de Densidad:
La función de densidad de probabilidad (PDF) de la distribución triangular describe cómo se distribuye la probabilidad a lo largo del intervalo \([a, b]\). Se expresa como:

\[ f(x) = \begin{cases} \frac{2(x - a)}{(b - a)(c - a)}, & a \le x < c \\ \frac{2(b - x)}{(b - a)(b - c)}, & c \le x \le b \\ 0, & \text{en otro caso} \end{cases} \]

  • \(f(x)\) es la densidad de probabilidad en el punto \(x\).
  • La función tiene forma triangular, con una pendiente positiva hasta \(c\) y luego una pendiente negativa después de \(c\), lo que indica que los valores cercanos a \(c\) son más probables.

Función Acumulada (CDF):
La función acumulada (CDF) describe la probabilidad acumulada de que la variable aleatoria \(X\) tome un valor menor o igual a \(x\). Para la distribución triangular, la CDF se expresa como:

\[ F(x) = \begin{cases} 0, & x < a \\ \frac{(x - a)^2}{(b - a)(c - a)}, & a \le x < c \\ 1 - \frac{(b - x)^2}{(b - a)(b - c)}, & c \le x \le b \\ 1, & x > b \end{cases} \]

  • Para \(x < a\), la probabilidad acumulada es 0, ya que no puede ocurrir ningún valor menor que \(a\).
  • Para \(a \le x < c\), la probabilidad acumulada crece cuadráticamente, reflejando la forma ascendente de la distribución triangular.
  • Para \(c \le x \le b\), la probabilidad acumulada disminuye cuadráticamente, reflejando la forma descendente de la distribución triangular.
  • Para \(x > b\), la probabilidad acumulada es 1, ya que todos los valores posibles ya han sido observados.

Media (Esperanza):
La media o valor esperado de la distribución triangular es el promedio ponderado de los tres parámetros \(a\), \(b\) y \(c\), y se calcula como:

\[ \mathbb{E}[X] = \frac{a + b + c}{3} \]

  • La media está en el centro del intervalo, pero ajustada por el valor más probable \(c\), que tiene el mayor peso en la distribución.

Varianza:
La varianza mide la dispersión de los valores respecto a la media. Para la distribución triangular, la varianza se calcula como:

\[ \text{Var}(X) = \frac{a^2 + b^2 + c^2 - ab - ac - bc}{18} \]

  • La varianza refleja la dispersión de los valores posibles en torno a la media. La fórmula depende de los tres parámetros \(a\), \(b\) y \(c\), y cuanto más grande sea la diferencia entre \(a\), \(b\) y \(c\), mayor será la dispersión.

MLE:
El estimador de máxima verosimilitud (MLE) para los parámetros de la distribución triangular, dada una muestra de datos \(x_1, x_2, \dots, x_n\), es:

\[ \hat{a} = \min(x_i), \quad \hat{b} = \max(x_i), \quad \hat{c} = \text{modo observado} \]

  • \(\hat{a} = \min(x_i)\) es el mínimo valor observado en la muestra, que estima el valor mínimo \(a\).
  • \(\hat{b} = \max(x_i)\) es el máximo valor observado en la muestra, que estima el valor máximo \(b\).
  • \(\hat{c}\) es el modo observado, es decir, el valor que ocurre con mayor frecuencia en la muestra, que estima el valor más probable \(c\).

3.5 Distribución de Pareto

La distribución de Pareto describe fenómenos donde una pequeña proporción de causas genera la mayoría de los efectos, mostrando una “cola larga”. Es útil en economía y análisis de riesgos, representando situaciones como la distribución de la riqueza o el principio del 80/20, donde el 20% de los clientes genera el 80% de los ingresos.

Función de Densidad:
La función de densidad de probabilidad (PDF) de la distribución de Pareto describe cómo se distribuyen los valores a lo largo del intervalo \([x_m, \infty)\). Se expresa como:

\[ f(x) = \frac{\alpha x_m^\alpha}{x^{\alpha + 1}}, \quad x \ge x_m \]

  • \(f(x)\) es la densidad de probabilidad en el punto \(x\).
  • \(\alpha\) es el parámetro de forma de la distribución de Pareto, que controla la “agudeza” de la cola larga.
  • \(x_m\) es el valor mínimo a partir del cual los datos pueden observarse. Para \(x \ge x_m\), la probabilidad se distribuye de acuerdo con la fórmula dada.

Función Acumulada (CDF):
La función acumulada (CDF) describe la probabilidad acumulada de que la variable aleatoria \(X\) tome un valor menor o igual a \(x\). Para la distribución de Pareto, se expresa como:

\[ F(x) = 1 - \left( \frac{x_m}{x} \right)^{\alpha}, \quad x \ge x_m \]

  • Para \(x \ge x_m\), la función acumulada aumenta de 0 a 1, lo que refleja el crecimiento de la probabilidad acumulada conforme aumentan los valores de \(x\).
  • Para \(x < x_m\), \(F(x) = 0\), ya que no se pueden observar valores menores que \(x_m\).

Media (Esperanza):
La media de la distribución de Pareto es el valor esperado de la variable aleatoria \(X\), y se calcula como:

\[ \mathbb{E}[X] = \frac{\alpha x_m}{\alpha - 1}, \quad \alpha > 1 \]

  • La media depende de \(\alpha\) y \(x_m\). Si \(\alpha\) es mayor que 1, la media existe, pero si \(\alpha\) es menor o igual a 1, la media no está definida porque la distribución tiene una cola larga que hace que los valores más grandes no tengan una esperanza finita.

Varianza:
La varianza mide la dispersión de los datos respecto a la media. Para la distribución de Pareto, la varianza se calcula como:

\[ \text{Var}[X] = \frac{\alpha x_m^2}{(\alpha - 1)^2 (\alpha - 2)}, \quad \alpha > 2 \]

  • La varianza también depende de \(\alpha\) y \(x_m\). La distribución de Pareto tiene una varianza infinita si \(\alpha \le 2\), ya que la cola larga de la distribución provoca una alta dispersión en los valores.

MLE:
El estimador de máxima verosimilitud (MLE) es el valor de \(\alpha\) que maximiza la probabilidad de observar los datos dados un valor de \(\alpha\). Para una muestra \(x_1, x_2, \dots, x_n\), el estimador de máxima verosimilitud de \(\alpha\) es:

\[ \hat{\alpha} = \frac{n}{\sum \ln(x_i / x_m)} \]

  • \(\hat{\alpha}\) es el estimador de máxima verosimilitud para el parámetro de forma \(\alpha\), y se calcula como el inverso de la media de los logaritmos de los valores \(x_i\) divididos por \(x_m\).
  • \(x_m\) es el valor mínimo observado en los datos, y \(x_i\) son los datos muestrales.

3.6 Distribución Beta

La distribución beta está definida en el intervalo [0,1] y depende de dos parámetros que controlan su forma. Su versatilidad permite modelar proporciones, probabilidades o fracciones de éxito, especialmente cuando se trabaja con información incierta o incompleta. Se utiliza ampliamente en simulaciones y en inferencia bayesiana para representar la probabilidad de éxito de un proceso.

Función de Densidad:
La función de densidad de probabilidad (PDF) de la distribución beta describe cómo se distribuye la probabilidad a lo largo del intervalo \([0, 1]\). Se expresa como:

\[ f(x) = \frac{1}{B(\alpha, \beta)} x^{\alpha - 1}(1 - x)^{\beta - 1}, \quad 0 < x < 1 \]

  • \(f(x)\) es la densidad de probabilidad en el punto \(x\).
  • \(\alpha\) y \(\beta\) son los parámetros de forma de la distribución. Estos parámetros determinan la forma de la distribución, controlando la asimetría y anchura de la función de densidad.
  • \(B(\alpha, \beta)\) es la función beta que actúa como un factor de normalización, asegurando que la integral de la densidad sobre el intervalo \([0, 1]\) sea igual a 1.

Media:
La media de la distribución beta se calcula como:

\[ E[X] = \frac{\alpha}{\alpha + \beta} \]

  • La media de la distribución beta es simplemente la proporción de \(\alpha\) respecto al total \(\alpha + \beta\), lo que refleja el balance entre los dos parámetros de forma.

Varianza:
La varianza mide la dispersión de los datos respecto a la media. Para la distribución beta, la varianza se calcula como:

\[ \text{Var}[X] = \frac{\alpha \beta}{(\alpha + \beta)^2 (\alpha + \beta + 1)} \]

  • La varianza depende de los parámetros \(\alpha\) y \(\beta\), y cuanto más grande es la diferencia entre \(\alpha\) y \(\beta\), mayor es la dispersión de los datos en torno a la media.

MLE:
La distribución beta no tiene una fórmula cerrada para el estimador de máxima verosimilitud (MLE) de los parámetros \(\alpha\) y \(\beta\). Sin embargo, el MLE se puede obtener numéricamente a partir de los datos observados, utilizando métodos como el máximo de verosimilitud numérico o métodos de optimización como el método de Newton-Raphson.

  • El MLE de \(\alpha\) y \(\beta\) se estima a partir de la proporción de éxitos y fracasos observados, ajustando los parámetros para maximizar la verosimilitud de los datos.

3.7 Distribución Erlang

La distribución Erlang es un caso particular de la distribución gamma donde el parámetro de forma es un número entero. Modela el tiempo total necesario para que ocurran varios eventos de un proceso de Poisson, siendo útil en el análisis de colas o tiempos de servicio acumulados. Por ejemplo, puede representar el tiempo total de espera hasta que lleguen cinco clientes a una ventanilla.

Función de Densidad:
La función de densidad de probabilidad (PDF) de la distribución Erlang describe cómo se distribuye la probabilidad del tiempo hasta que ocurran \(k\) eventos de Poisson. Se expresa como:

\[ f(x) = \frac{\lambda^k x^{k-1} e^{-\lambda x}}{(k-1)!}, \quad x > 0 \]

  • \(f(x)\) es la densidad de probabilidad en el punto \(x\), es decir, la probabilidad de que el tiempo hasta que ocurran \(k\) eventos sea exactamente \(x\).
  • \(\lambda\) es la tasa de ocurrencia de los eventos, y \(k\) es el número total de eventos que estamos esperando.
  • La distribución Erlang se utiliza para modelar tiempos de espera hasta que se hayan completado \(k\) eventos de un proceso de Poisson.

Media:
La media de la distribución Erlang, que es el valor esperado de \(X\), se calcula como:

\[ E[X] = \frac{k}{\lambda} \]

  • La media refleja el tiempo promedio que se espera hasta que ocurran \(k\) eventos de Poisson. Dado que \(\lambda\) es la tasa de ocurrencia de eventos, un valor más alto de \(\lambda\) lleva a una media más baja (es decir, los eventos ocurren más rápidamente).

Varianza:
La varianza de la distribución Erlang mide la dispersión de los tiempos de espera con respecto a la media. Se calcula como:

\[ \text{Var}[X] = \frac{k}{\lambda^2} \]

  • La varianza depende de \(k\) y \(\lambda\). Cuanto mayor sea \(k\), mayor será la dispersión de los tiempos de espera, ya que se requieren más eventos para que se complete el proceso.

MLE:
El estimador de máxima verosimilitud (MLE) para \(\lambda\) en la distribución Erlang se obtiene tomando el valor que maximiza la probabilidad de observar los datos. Dado que la media de la distribución es \(\frac{k}{\lambda}\), el estimador de máxima verosimilitud para \(\lambda\) es:

\[ \hat{\lambda} = \frac{k}{\bar{X}} \]

  • \(\hat{\lambda}\) es el estimador de máxima verosimilitud para la tasa de ocurrencia de eventos \(\lambda\), y se calcula como el número de eventos \(k\) dividido por la media muestral \(\bar{X}\) de los tiempos de espera observados.

Función de Densidad:
La función de densidad de probabilidad (PDF) de la distribución de Weibull describe cómo se distribuye la probabilidad a lo largo del intervalo \([0, \infty)\). Se expresa como:

\[ f(x) = \frac{k}{\lambda} \left(\frac{x}{\lambda}\right)^{k-1} e^{-(x/\lambda)^k}, \quad x > 0 \]

  • \(f(x)\) es la densidad de probabilidad en el punto \(x\).
  • \(k\) es el parámetro de forma de la distribución, que controla la forma de la distribución. Si \(k = 1\), la distribución Weibull se convierte en una distribución exponencial, mientras que si \(k > 1\), la tasa de falla aumenta con el tiempo, y si \(k < 1\), la tasa de falla disminuye con el tiempo.
  • \(\lambda\) es el parámetro de escala, que controla el rango de la distribución. A mayor \(\lambda\), mayor será el valor esperado de la variable aleatoria.

Media:
La media de la distribución Weibull se calcula como:

\[ \mathbb{E}[X] = \lambda \Gamma\left(1 + \frac{1}{k}\right) \]

  • La media depende tanto de \(k\) como de \(\lambda\). Cuando \(k = 1\), la media se reduce a \(\lambda\), lo que corresponde a la media de la distribución exponencial. A medida que \(k\) aumenta, la media también aumenta.

Varianza:
La varianza mide la dispersión de los tiempos hasta la falla respecto a la media. Se calcula como:

\[ \text{Var}[X] = \lambda^2 \left[\Gamma\left(1 + \frac{2}{k}\right) - \Gamma^2\left(1 + \frac{1}{k}\right)\right] \]

  • La varianza depende de \(k\) y \(\lambda\), y su valor crece a medida que \(k\) aumenta. Al igual que la media, la varianza refleja la dispersión de los tiempos de vida, lo que es crucial en el análisis de confiabilidad.

MLE:
La distribución de Weibull no tiene una fórmula cerrada para el estimador de máxima verosimilitud (MLE). El MLE de los parámetros \(\lambda\) y \(k\) se obtiene numéricamente, generalmente utilizando métodos de optimización como el método de Newton-Raphson o algoritmos de máxima verosimilitud basados en la probabilidad de observar los datos dados estos parámetros.

  • Para obtener el MLE de \(\lambda\) y \(k\), se utiliza el método de máxima verosimilitud numérica para ajustar los parámetros que maximizan la verosimilitud de observar los datos de fallas observados.

4 Análisis con Datos

Ejercicio 28. Simulacion y analisis de sistemas con promodel

library(ggplot2)
library(dplyr)
library(echarts4r)
library(plotly)
library(gt)
x <- c(  4, 5, 3, 5, 5, 4, 3, 2, 4, 3,
         4, 6, 4, 3, 5, 2, 2, 3, 3, 4,
         4, 4, 3, 3, 3, 2, 2, 3, 2, 3,
         3, 4, 5, 2, 3, 4, 3, 3, 5, 3,
         2, 5, 3, 4, 4, 1, 4, 5, 4, 5,
         7, 2, 4, 4, 2, 4, 1, 5, 4, 4,
         5, 5, 5, 2, 4, 4, 5, 4, 4, 1,
         1, 6, 4, 6, 6, 2, 4, 4, 2, 2,
         2, 3, 3, 2, 5, 3, 5, 1, 3, 2,
         4, 4, 1, 2, 5, 2, 3, 1, 5, 3)

data <- tibble(x = x)

4.1 Ajuste a Binomial

Se ajustan los datos a una distribución binomial y luego aplicar la prueba Chi-cuadrado con nivel de confianza del 95%.

minimo <- min(x)
maximo <- max(x)
rango <- maximo - minimo
media <- mean(x)
varianza <- var(x)
desviacion <- sqrt(varianza)
resumen <- tibble(
  "Mínimo" = minimo,
  "Máximo" = maximo,
  "Rango" = rango,
  "Promedio" = media,
  "Varianza" = varianza,
  "Desviación" = desviacion
)
resumen |> gt()
Mínimo Máximo Rango Promedio Varianza Desviación
1 7 6 3.47 1.78697 1.336776

Histograma

fig1<- data |> ggplot(aes(x=x)) + 
  geom_histogram(fill="darkblue", color= "white", bins= 9) + 
  labs(
    tittle = "Histograma" ,
    x= "x",
    y= "Frecuencia",
    
  ) + theme_minimal()
ggplotly(fig1)
fig2 <- data |> ggplot(aes(x=x)) + 
  geom_density( color="blue", fill= "skyblue", alpha=0.6 ) + 
  labs(
    tittle = "Gráfico de densidad" ,
    x= "x",
    y= "Densidad",
    
  ) + theme_minimal()
ggplotly(fig2)

A partir del histograma presentado, se observa que los datos se concentran principalmente entre los valores 2 y 4, siendo este el rango donde ocurre la mayor frecuencia. La distribución presenta una ligera asimetría hacia la derecha, ya que existen algunos valores más altos (como 6 y 7) que aparecen con menor frecuencia.

Esto indica que la mayoría de las observaciones se agrupan en valores relativamente bajos, mientras que hay pocos casos con valores altos. El promedio \(≈3.47\) y la desviación estándar \(≈1.34\) confirman esta dispersión moderada y la tendencia central en torno a valores bajos.

mediante la prueba Chi-cuadrado de bondad de ajuste, qué tipo de distribución siguen los datos proporcionados.
Se considerarán dos posibles distribuciones: Binomial y Poisson, con un nivel de confianza del 95%.

5 Datos

Los datos corresponden a observaciones enteras en el rango de 1 a 6.

Valor Frecuencia observada ((O_i))
1 10
2 14
3 19
4 24
5 17
6 6
Total 90

a prueba de bondad de ajuste Chi-cuadrado se basa en el estadístico:

\[ \chi^2 = \sum_{i=1}^{k} \frac{(O_i - E_i)^2}{E_i} \]

donde:

  • (O_i): frecuencia observada

  • (E_i): frecuencia esperada bajo la hipótesis nula

  • (k): número de categorías

La hipótesis nula y alternativa se formulan como:

\[ H_0: \text{Los datos siguen la distribución Binomial} \] \[ H_1: \text{Los datos no siguen la distribución Binomial} \]

El criterio de decisión es: \[ \text{Rechazar } H_0 \text{ si } \chi^2_{calc} > \chi^2_{\alpha, gl}. \]

Se asume \[X \sim Binomial(n_b=6, p)\].

La media muestral es:

\[ \bar{x} = \frac{\sum x_i O_i}{n} = \frac{345}{90} = 3.83 \]

Por tanto:

\[ \hat{p} = \frac{\bar{x}}{n_b} = 0.638 \]

Las frecuencias esperadas son:

(x_i) (P(X=x_i)) (E_i=90P(X=x_i)) (O_i)
1 0.021 1.89 10
2 0.097 8.73 14
3 0.214 19.26 19
4 0.287 25.83 24
5 0.229 20.61 17
6 0.103 9.27 6

\[ \chi^2_{calc} = 39.89, \quad gl = 4, \quad \chi^2_{0.05,4} = 9.49 \]

\(\chi^2_{calc} = 39.89 > \chi^2_{0.05,4}\)Se rechaza \(H_0\). Los datos no siguen una distribución binomial.

5.1 Distribución Poisson

\[ X \sim Poisson(\lambda = \bar{x} = 3.83) \]

\(x_i\) \(P(X=x_i)\) \(E_i=90P(X=x_i)\) \(O_i\)
1 0.082 7.38 10
2 0.157 14.13 14
3 0.200 18.00 19
4 0.191 17.19 24
5 0.146 13.14 17
6 0.093 8.37 6

\[\chi^2_{calc} = 5.50, \quad gl = 4, \quad \chi^2_{0.05,4} = 9.49\]

No se rechaza \(H_0\).Los datos pueden considerarse provenientes de una distribución Poisson.


5.2 Conclusion distribuciones discretas

Distribución (^2_{calc}) Valor crítico Decisión Ajuste
Binomial 39.89 9.49 Rechaza X
Poisson 5.50 9.49 No rechaza \(\checkmark\)

Conclusión: Con un nivel de confianza del 95%, los datos se ajustan mejor a una distribución de Poisson con \[\lambda = 3.83\].


6 Distribuciones Continuas

En esta sección , el objetivo principal es determinar cuál de las distribuciones de probabilidad continuas (Normal, Exponencial, Uniforme y Erlang) ofrece el mejor ajuste para el conjunto de datos analizado. Para lograr esto, primero se realizan gráficas y estadísticos descriptivos para entender la forma de la distribución (unimodal, asimétrica). Luego, se estiman los parámetros de cada modelo candidato utilizando el Método de Máxima Verosimilitud (MLE). Finalmente, se aplica la Prueba de Kolmogorov-Smirnov (KS), que compara cada distribución teórica con los datos empíricos, para validar la hipótesis nula de buen ajuste.

# Datos
x <- c(2.865,4.419,3.681,6.502,1.141,2.773,2.299,4.589,7.142,1.783,
       2.336,2.201,1.186,3.610,0.753,2.653,3.574,3.588,3.128,3.100,
       3.420,1.123,3.264,2.219,1.962,2.915,4.282,4.835,3.057,1.000,
       1.242,3.725,4.317,1.694,3.286,3.698,3.208,1.628,3.704,1.020,
       3.117,1.283,3.821,0.943,1.713,4.715,1.740,2.769,2.877,3.956)

data <- tibble(x = x)
# Estadística descriptiva
minimo <- min(x)
maximo <- max(x)
rango <- maximo - minimo
media <- mean(x)
varianza <- var(x)
desviacion <- sqrt(varianza)

resumen <- tibble(
  "Mínimo" = minimo,
  "Máximo" = maximo,
  "Rango" = rango,
  "Promedio" = media,
  "Varianza" = varianza,
  "Desviación" = desviacion
)
resumen |> gt() |> tab_header(title = "Estadísticos descriptivos")
Estadísticos descriptivos
Mínimo Máximo Rango Promedio Varianza Desviación
0.753 7.142 6.389 2.91712 1.911625 1.382615

Aquí se calcula un resumen de los datos para comprender su comportamiento general (rango, media, varianza y desviación estándar).

6.0.1 Graficos

fig1<- data |> ggplot(aes(x=x)) + 
  geom_histogram(fill="darkblue", color= "white", bins= 9) + 
  labs(
    tittle = "Histograma" ,
    x= "x",
    y= "Frecuencia",
    
  ) + theme_minimal()
ggplotly(fig1)
fig2 <- data |> ggplot(aes(x=x)) + 
  geom_density( color="blue", fill= "skyblue", alpha=0.6 ) + 
  labs(
    tittle = "Gráfico de densidad" ,
    x= "x",
    y= "Densidad",
    
  ) + theme_minimal()
ggplotly(fig2)

Ambos gráficos muestran que la distribución de la variable \(x\) es unimodal, con un pico de frecuencia y densidad máxima que ocurre aproximadamente entre \(x=3\) y \(x=4\). La distribución es claramente sesgada a la derecha (o asimétrica positiva), lo que significa que la mayoría de los valores se agrupan en el lado izquierdo (valores más bajos), y la distribución se extiende con una cola más larga hacia la derecha (valores más altos). El histograma refleja que la barra más alta, que representa la mayor frecuencia de datos, se encuentra en el intervalo centrado cerca de 3.5. La gráfica de densidad suaviza esta forma, confirmando el máximo cerca de \(3.5\) y la cola larga. Además, el histograma y la gráfica de densidad indican la presencia de unos pocos valores dispersos o potencialmente atípicos en el extremo derecho, en la región cercana a \(x=6\) a \(x=7\), donde la frecuencia y la densidad son muy bajas.

6.1 3. Estimación de parámetros (Método de Máxima Verosimilitud - MLE)

El método de Máxima Verosimilitud (MLE) busca los valores de los parámetros que maximizan la probabilidad de que los datos observados provengan de una determinada distribución.

# Estimación de parámetros por Máxima Verosimilitud (MLE)


n <- length(x)
Dcrit <- 1.36 / sqrt(n) # valor crítico aproximado para KS con α=0.05

# Normal
mu_mle <- mean(x)
sigma_mle <- sqrt(sum((x - mu_mle)^2) / n)

# Exponencial
lambda_mle <- 1 / mean(x)

# Uniforme
a_mle <- min(x)
b_mle <- max(x)

# Gamma (Erlang)
gamma_fit <- fitdistr(x, densfun = "gamma")
Warning in densfun(x, parm[1], parm[2], ...): Se han producido NaNs
shape_mle <- gamma_fit$estimate["shape"]
rate_mle <- gamma_fit$estimate["rate"]

parametros <- tibble(
  Distribución = c("Normal", "Exponencial", "Uniforme", "Gamma (Erlang)"),
  Parámetros = c(
    paste0("μ = ", round(mu_mle,3), ", σ = ", round(sigma_mle,3)),
    paste0("λ = ", round(lambda_mle,3)),
    paste0("a = ", round(a_mle,3), ", b = ", round(b_mle,3)),
    paste0("k = ", round(shape_mle,3), ", rate = ", round(rate_mle,3))
  )
)
parametros |> gt() |> tab_header(title = "Estimación de parámetros (MLE)")
Estimación de parámetros (MLE)
Distribución Parámetros
Normal μ = 2.917, σ = 1.369
Exponencial λ = 0.343
Uniforme a = 0.753, b = 7.142
Gamma (Erlang) k = 4.206, rate = 1.442

Descripción:

  • Para la distribución , se estima la media y la desviación estándar.
  • Para la , se estima la tasa \(\lambda = 1/\mu\).
  • En la , los parámetros son los límites inferior y superior (\(a\) y \(b\)).
  • Para la , se estiman los parámetros (\(k\)) y (\(\lambda\)) usando del paquete .

6.2 4. Prueba de Kolmogorov–Smirnov (KS)

6.2.1 Hipotesis

  • Exponencial

\[ \begin{cases} H_0: \text{Los datos provienen de una distribución Exponencial }( \lambda = \hat{\lambda} ) \\ H_1: \text{Los datos no provienen de una distribución Exponencial} \end{cases} \]

  • Normal

\[ \begin{cases} H_0: \text{Los datos provienen de una distribución Normal } N(\mu = \hat{\mu}, \sigma = \hat{\sigma}) \\ H_1: \text{Los datos no provienen de una distribución Normal} \end{cases} \]

  • Unifrome

\[ \begin{cases} H_0: \text{Los datos provienen de una distribución Uniforme } U(a = \hat{a}, b = \hat{b}) \\ H_1: \text{Los datos no provienen de una distribución Uniforme} \end{cases} \]

  • Erlang

\[ \begin{cases} H_0: \text{Los datos provienen de una distribución Erlang }(\,k = \hat{k},\ \lambda = \hat{\lambda}\,) \\ H_1: \text{Los datos no provienen de una distribución Erlang} \end{cases} \]

La prueba KS compara la con la .

La hipótesis nula \(\mathcal{H}_0\) indica que los datos siguen la distribución propuesta.

# Prueba de Kolmogorov–Smirnov (KS)
#---------------------------------------------------------------

ks_norm <- ks.test(x, "pnorm", mean = mu_mle, sd = sigma_mle)
ks_exp  <- ks.test(x, "pexp", rate = lambda_mle)
ks_unif <- ks.test(x, "punif", min = a_mle, max = b_mle)
ks_gamma <- ks.test(x, "pgamma", shape = shape_mle, rate = rate_mle)

resumen_ks <- tibble(
  Distribución = c("Normal", "Exponencial", "Uniforme", "Gamma (Erlang)"),
  D_empírico = c(ks_norm$statistic, ks_exp$statistic, ks_unif$statistic, ks_gamma$statistic),
  D_crítico = rep(Dcrit, 4),
  P_valor = c(ks_norm$p.value, ks_exp$p.value, ks_unif$p.value, ks_gamma$p.value),
  Conclusión = ifelse(c(ks_norm$p.value, ks_exp$p.value, ks_unif$p.value, ks_gamma$p.value) > 0.05,
                      "No se rechaza H₀ (buen ajuste)", 
                      "Se rechaza H₀ (mal ajuste)")
)
resumen_ks |> 
  mutate(across(where(is.numeric), round, 4)) |> 
  gt() |> 
  tab_header(title = "Prueba de Kolmogorov–Smirnov (α = 0.05)")
Prueba de Kolmogorov–Smirnov (α = 0.05)
Distribución D_empírico D_crítico P_valor Conclusión
Normal 0.0775 0.1923 0.9019 No se rechaza H₀ (buen ajuste)
Exponencial 0.2562 0.1923 0.0022 Se rechaza H₀ (mal ajuste)
Uniforme 0.3398 0.1923 0.0000 Se rechaza H₀ (mal ajuste)
Gamma (Erlang) 0.1232 0.1923 0.4017 No se rechaza H₀ (buen ajuste)

Interpretación de resultados:

# Identificar mejor ajuste
#---------------------------------------------------------------
mejor_ajuste <- resumen_ks |> arrange(D_empírico) |> slice(1) |> pull(Distribución)

cat("\n La distribución con mejor ajuste (menor D) es:", mejor_ajuste, "\n")

 La distribución con mejor ajuste (menor D) es: Normal 

6.2.2 Conclusiones generales:

  • De acuerdo con la prueba de Kolmogorov–Smirnov, las distribuciones y presentan los mejores ajustes, ya que sus valores de \(p\) son mayores que \(0.05\).
  • Las distribuciones y se descartan, ya que presentan valores de \(p\) muy pequeños (menores que \(0.05\)), indicando un mal ajuste. -En particular, la distribución muestra el valor de \(D\) más pequeño y un \(p\text{-valor} = 0.9019\), lo que sugiere que los datos se comportan aproximadamente de forma normal.
  • Por lo tanto, se concluye que la es la que mejor representa los datos.

7 Referencias

  • Ross, S. M. (2014). Introduction to Probability and Statistics for Engineers and Scientists (5th ed.). Elsevier.

  • Devore, J. L. (2012). Probability and Statistics for Engineering and the Sciences (8th ed.). Cengage Learning.

  • Casella, G., & Berger, R. L. (2002). Statistical Inference (2nd ed.). Duxbury.