Función de Distribución

Definición

Una función de distribución acumulada (FDA), \(F_X(x)\), de una variable aleatoria \(X\) es una función que proporciona la probabilidad de que \(X\) tome un valor menor o igual a \(x\). Matemáticamente se define como:

\[ F_X(x) = P(X \leq x) \]

Ejemplo

Considera una variable aleatoria \(X\) que representa el resultado de lanzar un dado justo. La función de distribución acumulada \(F_X(x)\) sería:

\[ F_X(x) = \begin{cases} 0 & \text{si } x < 1 \\ \frac{1}{6} & \text{si } 1 \leq x < 2 \\ \frac{2}{6} & \text{si } 2 \leq x < 3 \\ \frac{3}{6} & \text{si } 3 \leq x < 4 \\ \frac{4}{6} & \text{si } 4 \leq x < 5 \\ \frac{5}{6} & \text{si } 5 \leq x < 6 \\ 1 & \text{si } x \geq 6 \end{cases} \]

library(ggplot2)
library(plotly)
## 
## Attaching package: 'plotly'
## The following object is masked from 'package:ggplot2':
## 
##     last_plot
## The following object is masked from 'package:stats':
## 
##     filter
## The following object is masked from 'package:graphics':
## 
##     layout
# Crear un data frame para la función de distribución
dados <- data.frame(
  x = c(0, 1, 2, 3, 4, 5, 6),
  F_X = c(0, 1/6, 2/6, 3/6, 4/6, 5/6, 1)
)

# Graficar la función de distribución
g<-ggplot(dados, aes(x = x, y = F_X)) +
  geom_step() +
  scale_x_continuous(breaks = 0:6) +
  scale_y_continuous(breaks = seq(0, 1, by = 0.2)) +
  labs(title = "Función de Distribución Acumulada para el Dado Justo",
       x = "Valor de x",
       y = "F_X(x)") +
  theme_minimal()

ggplotly(g)

Ejercicio

Problema: Encuentra la función de distribución acumulada \(F_X(x)\) para una variable aleatoria \(X\) que representa el resultado de lanzar una moneda justa dos veces y contar el número de caras obtenidas.

Solución:

Los posibles valores de \(X\) son 0, 1 y 2.

\[ F_X(x) = \begin{cases} 0 & \text{si } x < 0 \\ \frac{1}{4} & \text{si } 0 \leq x < 1 \\ \frac{3}{4} & \text{si } 1 \leq x < 2 \\ 1 & \text{si } x \geq 2 \end{cases} \]

library(ggplot2)
library(plotly)
# Crear un data frame para la función de distribución de la moneda
moneda <- data.frame(
  x = c(-0.5, 0, 1, 2, 2.5),
  F_X = c(0, 1/4, 3/4, 1, 1)
)

# Graficar la función de distribución
g<-ggplot(moneda, aes(x = x, y = F_X)) +
  geom_step() +
  scale_x_continuous(breaks = 0:2) +
  scale_y_continuous(breaks = seq(0, 1, by = 0.25)) +
  labs(title = "Función de Distribución Acumulada para el Lanzamiento de Moneda",
       x = "Número de Caras",
       y = "F_X(x)") +
  theme_minimal()

ggplotly(g)

Función de Densidad

Definición

Una función de densidad de probabilidad (FDP), \(f_X(x)\), de una variable aleatoria continua \(X\) es una función que describe la densidad de probabilidad en cada punto. La probabilidad de que \(X\) caiga dentro de un intervalo \([a, b]\) se calcula integrando la FDP sobre ese intervalo:

\[ P(a \leq X \leq b) = \int_a^b f_X(x) \, dx \]

Ejemplo

Considera una variable aleatoria continua \(X\) que se distribuye uniformemente entre 0 y 1. La función de densidad de probabilidad \(f_X(x)\) sería:

\[ f_X(x) = \begin{cases} 1 & \text{si } 0 \leq x \leq 1 \\ 0 & \text{en otro caso} \end{cases} \]

# Crear un data frame para la función de densidad
uniforme <- data.frame(
  x = c(-0.1, 0, 0.5, 1, 1.1),
  f_X = c(0, 1, 1, 0, 0)
)

# Graficar la función de densidad
g<-ggplot(uniforme, aes(x = x, y = f_X)) +
  geom_step() +
  scale_x_continuous(breaks = seq(0, 1, by = 0.5)) +
  scale_y_continuous(breaks = c(0, 1)) +
  labs(title = "Función de Densidad de Probabilidad Uniforme entre 0 y 1",
       x = "Valor de x",
       y = "f_X(x)") +
  theme_minimal()
ggplotly(g)

Ejercicio

Problema: Encuentra la función de densidad de probabilidad \(f_X(x)\) para una variable aleatoria \(X\) que se distribuye uniformemente entre 2 y 5.

Solución:

\[ f_X(x) = \begin{cases} \frac{1}{3} & \text{si } 2 \leq x \leq 5 \\ 0 & \text{en otro caso} \end{cases} \]

# Crear un data frame para la función de densidad entre 2 y 5
uniforme_2_5 <- data.frame(
  x = c(1.5, 2, 3, 4, 5, 5.5),
  f_X = c(0, 1/3, 1/3, 1/3, 0, 0)
)

# Graficar la función de densidad
g<-ggplot(uniforme_2_5, aes(x = x, y = f_X)) +
  geom_step() +
  scale_x_continuous(breaks = seq(2, 5, by = 1)) +
  scale_y_continuous(breaks = c(0, 1/3)) +
  labs(title = "Función de Densidad de Probabilidad Uniforme entre 2 y 5",
       x = "Valor de x",
       y = "f_X(x)") +
  theme_minimal()

ggplotly(g)

Generar Función de Distribución a partir de la Función de Densidad y Viceversa

Problema: Dada la función de densidad de probabilidad \(f_X(x) = \frac{1}{4}\) para \(2 \leq x \leq 6\), encuentra la función de distribución acumulada \(F_X(x)\).

Solución:

Para encontrar \(F_X(x)\), integramos \(f_X(x)\) desde el límite inferior hasta \(x\):

\[ F_X(x) = \int_{-\infty}^x f_X(t) \, dt \]

\[ F_X(x) = \begin{cases} 0 & \text{si } x < 2 \\ \frac{x - 2}{4} & \text{si } 2 \leq x \leq 6 \\ 1 & \text{si } x > 6 \end{cases} \]

# Crear un data frame para la función de distribución derivada de la densidad
integral <- data.frame(
  x = c(1, 2, 4, 6, 7),
  F_X = c(0, (2 - 2)/4, (4 - 2)/4, (6 - 2)/4, 1)
)

# Graficar la función de distribución
g<-ggplot(integral, aes(x = x, y = F_X)) +
  geom_step() +
  scale_x_continuous(breaks = c(2, 4, 6)) +
  scale_y_continuous(breaks = seq(0, 1, by = 0.25)) +
  labs(title = "Función de Distribución Acumulada Generada de la Función de Densidad",
       x = "Valor de x",
       y = "F_X(x)") +
  theme_minimal()
ggplotly(g)

Problema Inverso: Dada la función de distribución acumulada

\[ F_X(x) = \begin{cases} 0 & \text{si } x < 0 \\ \frac{x}{2} & \text{si } 0 \leq x < 2 \\ 1 & \text{si } x \geq 2 \end{cases} \]

encuentra la función de densidad de probabilidad \(f_X(x)\).

Solución:

Para encontrar \(f_X(x)\), derivamos \(F_X(x)\) con respecto a \(x\):

\[ f_X(x) = \frac{d}{dx} F_X(x) \]

\[ f_X(x) = \begin{cases} 0 & \text{si } x < 0 \\ \frac{1}{2} & \text{si } 0 \leq x < 2 \\ 0 & \text{si } x \geq 2 \end{cases} \]

# Crear un data frame para la función de densidad derivada de la distribución
derivada <- data.frame(
  x = c(-1, 0, 1, 2, 3),
  f_X = c(0, 0.5, 0.5, 0, 0)
)

# Graficar la función de densidad
g<-ggplot(derivada, aes(x = x, y = f_X)) +
  geom_step() +
  scale_x_continuous(breaks = c(0, 2)) +
  scale_y_continuous(breaks = c(0, 0.5)) +
  labs(title = "Función de Densidad de Probabilidad Derivada de la Distribución Acumulada",
       x = "Valor de x",
       y = "f_X(x)") +
  theme_minimal()
ggplotly(g)

Propiedades de la Función de Distribución Acumulada (FDA)

  1. No Decreciente: La función de distribución acumulada \(F_X(x)\) es una función no decreciente. Esto significa que si \(x_1 < x_2\), entonces \(F_X(x_1) \leq F_X(x_2)\).

  2. Límites en los Extremos:

    • \(\lim_{x \to -\infty} F_X(x) = 0\)
    • \(\lim_{x \to \infty} F_X(x) = 1\)
  3. Derecha Continua: La función de distribución acumulada \(F_X(x)\) es continua por la derecha. Esto significa que para cualquier \(x\), \[ \lim_{x \to x_0^+} F_X(x) = F_X(x_0) \]

  4. Propiedad de la Probabilidad: La probabilidad de que la variable aleatoria \(X\) tome un valor dentro del intervalo \([a, b]\) se calcula como \[ P(a \leq X \leq b) = F_X(b) - F_X(a) \]

  5. Jump Discontinuity: En el caso de variables aleatorias discretas, \(F_X(x)\) puede tener saltos en los puntos donde \(X\) tiene probabilidades positivas. La magnitud del salto en \(x\) es \(P(X = x)\).

Ejemplo de FDA

Considera una variable aleatoria \(X\) que representa el resultado de lanzar un dado justo. La función de distribución acumulada \(F_X(x)\) sería:

\[ F_X(x) = \begin{cases} 0 & \text{si } x < 1 \\ \frac{1}{6} & \text{si } 1 \leq x < 2 \\ \frac{2}{6} & \text{si } 2 \leq x < 3 \\ \frac{3}{6} & \text{si } 3 \leq x < 4 \\ \frac{4}{6} & \text{si } 4 \leq x < 5 \\ \frac{5}{6} & \text{si } 5 \leq x < 6 \\ 1 & \text{si } x \geq 6 \end{cases} \]

# Cargar librerías necesarias
library(ggplot2)

# Definir la función de distribución acumulada F_X(x) para el dado
fda_dado <- function(x) {
  if (x < 1) return(0)
  if (x < 2) return(1/6)
  if (x < 3) return(2/6)
  if (x < 4) return(3/6)
  if (x < 5) return(4/6)
  if (x < 6) return(5/6)
  return(1)
}

# Crear un data frame para graficar
x_vals <- seq(0, 7, by = 0.1)
y_vals <- sapply(x_vals, fda_dado)
data <- data.frame(x = x_vals, F_X = y_vals)

# Graficar la función de distribución acumulada
g<-ggplot(data, aes(x = x, y = F_X)) +
  geom_step() +
  labs(title = "Función de Distribución Acumulada para un Dado",
       x = "x", y = "F_X(x)") +
  theme_minimal()

ggplotly(g)

Propiedades de la Función de Densidad de Probabilidad (FDP)

  1. No Negatividad: La función de densidad de probabilidad \(f_X(x)\) siempre es no negativa: \[ f_X(x) \geq 0 \]

  2. Normalización: La integral de la función de densidad de probabilidad sobre todo el espacio de definición es igual a 1: \[ \int_{-\infty}^{\infty} f_X(x) \, dx = 1 \]

  3. Probabilidad en Intervalos: La probabilidad de que la variable aleatoria \(X\) caiga dentro de un intervalo \([a, b]\) se calcula integrando la FDP sobre ese intervalo: \[ P(a \leq X \leq b) = \int_a^b f_X(x) \, dx \]

  4. Integral de la FDP: La función de distribución acumulada puede ser obtenida integrando la función de densidad: \[ F_X(x) = \int_{-\infty}^x f_X(t) \, dt \]

Ejemplo de FDP

Considera una variable aleatoria continua \(X\) que se distribuye uniformemente entre 0 y 1. La función de densidad de probabilidad \(f_X(x)\) sería:

\[ f_X(x) = \begin{cases} 1 & \text{si } 0 \leq x \leq 1 \\ 0 & \text{en otro caso} \end{cases} \]

# Definir la función de densidad de probabilidad f_X(x) para la distribución uniforme
pdf_uniform <- function(x) {
  if (x >= 0 && x <= 1) return(1)
  return(0)
}

# Crear un data frame para graficar
x_vals <- seq(-0.1, 1.1, by = 0.01)
y_vals <- sapply(x_vals, pdf_uniform)
data <- data.frame(x = x_vals, f_X = y_vals)

# Graficar la función de densidad de probabilidad
g<-ggplot(data, aes(x = x, y = f_X)) +
  geom_line() +
  labs(title = "Función de Densidad de Probabilidad Uniforme entre 0 y 1",
       x = "x", y = "f_X(x)") +
  theme_minimal()

ggplotly(g)

Valor Esperado y Varianza

Valor Esperado

Definición Formal

El valor esperado (o media) de una variable aleatoria \(X\) se define como la suma ponderada de todos los posibles valores que puede tomar la variable, ponderada por sus probabilidades.

Para una variable aleatoria discreta \(X\) con función de masa de probabilidad \(P(X = x)\), el valor esperado \(E[X]\) se calcula como:

\[ E[X] = \sum_{x} x \cdot P(X = x) \]

Para una variable aleatoria continua \(X\) con función de densidad de probabilidad \(f_X(x)\), el valor esperado \(E[X]\) se calcula como:

\[ E[X] = \int_{-\infty}^{\infty} x \cdot f_X(x) \, dx \]

Teoremas Conocidos

  1. Propiedad Linealidad: Si \(X\) y \(Y\) son variables aleatorias y \(a\) y \(b\) son constantes, entonces: \[ E[aX + bY] = aE[X] + bE[Y] \]

  2. Valor Esperado de una Función de \(X\): Si \(g(X)\) es una función de \(X\), entonces: \[ E[g(X)] = \int_{-\infty}^{\infty} g(x) \cdot f_X(x) \, dx \]

Varianza

Definición Formal

La varianza de una variable aleatoria \(X\) mide la dispersión de los valores de \(X\) alrededor de su valor esperado \(E[X]\). Se define como:

\[ \text{Var}(X) = E[(X - E[X])^2] \]

Para una variable aleatoria discreta:

\[ \text{Var}(X) = \sum_{x} (x - E[X])^2 \cdot P(X = x) \]

Para una variable aleatoria continua:

\[ \text{Var}(X) = \int_{-\infty}^{\infty} (x - E[X])^2 \cdot f_X(x) \, dx \]

Teoremas Conocidos

  1. Propiedad de la Varianza: Si \(X\) es una variable aleatoria y \(a\) y \(b\) son constantes, entonces: \[ \text{Var}(aX + b) = a^2 \text{Var}(X) \]

  2. Varianza en Términos de Esperanza: La varianza también puede ser calculada usando la esperanza del cuadrado de \(X\): \[ \text{Var}(X) = E[X^2] - (E[X])^2 \]

Ejemplos

Ejemplo 1: Valor Esperado y Varianza para el lanzamiento de un dado

Para una variable aleatoria discreta \(X\) que representa el resultado de lanzar un dado justo, el valor esperado \(E[X]\) se calcula como:

\[ E[X] = \sum_{x=1}^{6} x \cdot \frac{1}{6} = \frac{1+2+3+4+5+6}{6} = 3.5 \]

La varianza se calcula como:

\[ \text{Var}(X) = E[X^2] - (E[X])^2 \]

Primero, calculamos \(E[X^2]\):

\[ E[X^2] = \sum_{x=1}^{6} x^2 \cdot \frac{1}{6} = \frac{1^2 + 2^2 + 3^2 + 4^2 + 5^2 + 6^2}{6} = \frac{91}{6} \approx 15.17 \]

Entonces:

\[ \text{Var}(X) = E[X^2] - (E[X])^2 = \frac{91}{6} - (3.5)^2 = \frac{91}{6} - 12.25 = 2.92 \]

Ejemplo 2: Valor Esperado y Varianza para una distribución uniforme entre 0 y 1

Para una variable aleatoria continua \(X\) distribuida uniformemente entre 0 y 1, la función de densidad es:

\[ f_X(x) = \begin{cases} 1 & \text{si } 0 \leq x \leq 1 \\ 0 & \text{en otro caso} \end{cases} \]

El valor esperado \(E[X]\) se calcula como:

\[ E[X] = \int_{0}^{1} x \cdot 1 \, dx = \left[ \frac{x^2}{2} \right]_{0}^{1} = \frac{1}{2} \]

La varianza se calcula como:

\[ E[X^2] = \int_{0}^{1} x^2 \cdot 1 \, dx = \left[ \frac{x^3}{3} \right]_{0}^{1} = \frac{1}{3} \]

Entonces:

\[ \text{Var}(X) = E[X^2] - (E[X])^2 = \frac{1}{3} - \left(\frac{1}{2}\right)^2 = \frac{1}{3} - \frac{1}{4} = \frac{1}{12} \approx 0.0833 \]

Ejemplo 3: Valor Esperado y Varianza para una distribución uniforme entre 2 y 6

Para una variable aleatoria continua \(X\) distribuida uniformemente entre 2 y 6, la función de densidad es:

\[ f_X(x) = \begin{cases} \frac{1}{4} & \text{si } 2 \leq x \leq 6 \\ 0 & \text{en otro caso} \end{cases} \]

El valor esperado \(E[X]\) se calcula como:

\[ E[X] = \int_{2}^{6} x \cdot \frac{1}{4} \, dx = \frac{1}{4} \left[ \frac{x^2}{2} \right]_{2}^{6} = \frac{1}{4} \left( \frac{36 - 4}{2} \right) = \frac{16}{4} = 4 \]

La varianza se calcula como:

\[ E[X^2] = \int_{2}^{6} x^2 \cdot \frac{1}{4} \, dx = \frac{1}{4} \left[ \frac{x^3}{3} \right]_{2}^{6} = \frac{1}{4} \left( \frac{216 - 8}{3} \right) = \frac{52}{3} \approx 17.33 \]

Entonces:

\[ \text{Var}(X) = E[X^2] - (E[X])^2 = \frac{52}{3} - 4^2 = \frac{52}{3} - 16 = \frac{4}{3} \approx 1.33 \]

Distribución Binomial

Problema inicial

Considera un experimento donde lanzamos una moneda justa 10 veces y contamos el número de caras obtenidas.

# Número de lanzamientos
n <- 10

# Número de simulaciones
simulaciones <- 6

# Generar los resultados
resultados <- replicate(simulaciones, paste(sample(c("c", "s"), n, replace = TRUE), collapse = ""))

# Mostrar los resultados
resultados
## [1] "ssccccccss" "csscccscss" "ccccccsssc" "scccccsccc" "ssssccccsc"
## [6] "csssscsscs"

Queremos encontrar la función de distribución acumulada para el número de caras obtenidas. Para ello pensemos en contar los éxitos y fracasos, es decir:

\[\begin{align*} \underbrace{ccc}&...\underbrace{sss}\\ x \text{éxitos}&... 10-x \text{ fracasos} \end{align*}\]

si pensamos en la probabilidad de éxito \(\displaystyle p=\frac{1}{2}\) y fracaso \(\displaystyle q=1-p=1-\frac{1}{2}=\frac{1}{2}\), tenemos que:

\[\begin{align*} \underbrace{ppp}&...\underbrace{qqq}\\ p^x \text{ éxitos}&... q^{10-x } \text{ fracasos} \end{align*}\]

entonces, ya tenemos la idea general para definir la distribución binomial.

Definición Formal

La distribución binomial es una distribución de probabilidad discreta que describe el número de éxitos en una secuencia de \(n\) experimentos de Bernoulli independientes con probabilidad de éxito \(p\).

Una variable aleatoria \(X\) sigue una distribución binomial con parámetros \(n\) y \(p\) (denotada como \(X \sim \text{Binomial}(n, p)\)) si su función de masa de probabilidad es:

\[ P(X = k) = \binom{n}{k} p^k (1 - p)^{n - k} \]

donde \(\binom{n}{k}\) es el coeficiente binomial, que se calcula como:

\[ \binom{n}{k} = \frac{n!}{k!(n - k)!} \]

Ejemplos

Ejemplo 1: Lanzamiento de una moneda justa

En el problema planteado, lanzamos una moneda justa (es decir, \(p = 0.5\)) 10 veces (es decir, \(n = 10\)).

La función de masa de probabilidad para obtener \(k\) caras es:

\[ P(X = k) = \binom{10}{k} (0.5)^k (0.5)^{10 - k} = \binom{10}{k} (0.5)^{10} \]

Por ejemplo, la probabilidad de obtener exactamente 3 caras es:

\[ P(X = 3) = \binom{10}{3} (0.5)^{10} = \frac{10!}{3!7!} (0.5)^{10} = 120 \cdot (0.5)^{10} = 0.1172 \]

# Cargar la librería ggplot2
library(ggplot2)

# Ejemplo 1: Función de masa de probabilidad para el lanzamiento de una moneda justa
n <- 10
p <- 0.5
x <- 0:n
pmf <- dbinom(x, size = n, prob = p)

# Crear un data frame para ggplot
df1 <- data.frame(x = x, pmf = pmf)

# Graficar usando ggplot2
g<-ggplot(df1, aes(x = factor(x), y = pmf)) +
  geom_bar(stat = "identity", fill = "lightblue") +
  labs(title = "Distribución Binomial (n = 10, p = 0.5)",
       x = "Número de éxitos (caras)",
       y = "Probabilidad") +
  theme_minimal()
ggplotly(g)

Ejemplo 2: Lanzamiento de un dado con éxito en el número 6

Supongamos que lanzamos un dado 15 veces y definimos un éxito como obtener un 6 (es decir, \(p = \frac{1}{6}\)).

La función de masa de probabilidad para obtener \(k\) éxitos es:

\[ P(X = k) = \binom{15}{k} \left(\frac{1}{6}\right)^k \left(\frac{5}{6}\right)^{15 - k} \]

Por ejemplo, la probabilidad de obtener exactamente 2 éxitos es:

\[ P(X = 2) = \binom{15}{2} \left(\frac{1}{6}\right)^2 \left(\frac{5}{6}\right)^{13} = \frac{15!}{2!13!} \left(\frac{1}{6}\right)^2 \left(\frac{5}{6}\right)^{13} = 105 \cdot \left(\frac{1}{6}\right)^2 \cdot \left(\frac{5}{6}\right)^{13} \approx 0.2835 \]

# Cargar la librería ggplot2
library(ggplot2)

# Ejemplo 2: Función de masa de probabilidad para el lanzamiento de un dado
n <- 15
p <- 1/6
x <- 0:n
pmf <- dbinom(x, size = n, prob = p)

# Crear un data frame para ggplot
df2 <- data.frame(x = x, pmf = pmf)

# Graficar usando ggplot2
g<-ggplot(df2, aes(x = factor(x), y = pmf)) +
  geom_bar(stat = "identity", fill = "lightblue") +
  labs(title = "Distribución Binomial (n = 15, p = 1/6)",
       x = "Número de éxitos (seis)",
       y = "Probabilidad") +
  theme_minimal()
ggplotly(g)

Valor Esperado y Varianza

Valor Esperado

El valor esperado de una variable aleatoria \(X\) que sigue una distribución binomial \(X \sim \text{Binomial}(n, p)\) es:

\[ E[X] = np \]

Demostración:

Consideramos la variable aleatoria \(X\) como la suma de \(n\) variables aleatorias de Bernoulli independientes \(X_i\), cada una con valor esperado \(p\):

\[ E[X] = E\left[\sum_{i=1}^{n} X_i\right] = \sum_{i=1}^{n} E[X_i] = \sum_{i=1}^{n} p = np \]

Varianza

La varianza de una variable aleatoria \(X\) que sigue una distribución binomial \(X \sim \text{Binomial}(n, p)\) es:

\[ \text{Var}(X) = np(1 - p) \]

Demostración:

Consideramos la variable aleatoria \(X\) como la suma de \(n\) variables aleatorias de Bernoulli independientes \(X_i\), cada una con varianza \(p(1 - p)\):

\[ \text{Var}(X) = \text{Var}\left(\sum_{i=1}^{n} X_i\right) = \sum_{i=1}^{n} \text{Var}(X_i) = \sum_{i=1}^{n} p(1 - p) = np(1 - p) \]

Cálculo para los Ejemplos

  1. Ejemplo 1: Lanzamiento de una moneda justa

    Para \(n = 10\) y \(p = 0.5\):

    \[ E[X] = 10 \cdot 0.5 = 5 \] \[ \text{Var}(X) = 10 \cdot 0.5 \cdot (1 - 0.5) = 2.5 \]

  2. Ejemplo 2: Lanzamiento de un dado con éxito en el número 6

    Para \(n = 15\) y \(p = \frac{1}{6}\):

    \[ E[X] = 15 \cdot \frac{1}{6} = 2.5 \] \[ \text{Var}(X) = 15 \cdot \frac{1}{6} \cdot \left(1 - \frac{1}{6}\right) = 15 \cdot \frac{1}{6} \cdot \frac{5}{6} = \frac{75}{36} \approx 2.08 \]

Ejercicio

Consideremos una moneda trucada, de manera que la probabilidad de cara \(P(\text{cara}) = 0.3\), y por lo tanto \(P(\text{cruz}) = 0.7\). Calcula la probabilidad de obtener 3 caras en 5 lanzamientos al aire de dicha moneda. ¿Por qué no puedes utilizar la fórmula de Laplace?

Solución

La probabilidad de obtener \(k\) éxitos (caras) en \(n\) lanzamientos (experimentos de Bernoulli) sigue una distribución binomial. En este caso, tenemos \(n = 5\), \(k = 3\), y la probabilidad de éxito en cada lanzamiento \(p = 0.3\).

La fórmula de la probabilidad de obtener \(k\) éxitos en \(n\) ensayos es:

\[ P(X = k) = \binom{n}{k} p^k (1 - p)^{n - k} \]

Para este problema, la probabilidad se calcula como:

\[ P(X = 3) = \binom{5}{3} (0.3)^3 (0.7)^{2} \]

Calculamos esta probabilidad en R:

# Parámetros del problema
n <- 5
k <- 3
p <- 0.3

# Calcular la probabilidad
probabilidad <- dbinom(k, size = n, prob = p)
probabilidad
## [1] 0.1323

Vamos a graficar la función de probabilidad para este problema.

# Cargar la librería ggplot2
library(ggplot2)

# Crear un data frame para ggplot
x <- 0:n
pmf <- dbinom(x, size = n, prob = p)
df <- data.frame(x = x, pmf = pmf)

# Graficar usando ggplot2
g<-ggplot(df, aes(x = factor(x), y = pmf)) +
  geom_bar(stat = "identity", fill = "lightblue") +
  geom_text(aes(label = round(pmf, 3)), vjust = -0.3) +
  labs(title = "Distribución Binomial (n = 5, p = 0.3)",
       x = "Número de éxitos (caras)",
       y = "Probabilidad") +
  theme_minimal()
ggplotly(g)

¿Por qué no puedes utilizar la fórmula de Laplace?

La fórmula de Laplace se utiliza para calcular probabilidades en experimentos donde todos los resultados posibles son igualmente probables. La fórmula de Laplace es:

\[ P(A) = \frac{\text{Número de casos favorables}}{\text{Número de casos posibles}} \]

En el caso de una moneda trucada, los resultados de cada lanzamiento no son igualmente probables. Específicamente, la probabilidad de obtener cara es \(P(\text{cara}) = 0.3\) y la probabilidad de obtener cruz es \(P(\text{cruz}) = 0.7\). Dado que las probabilidades no son iguales, los eventos no son equiprobables.

Por lo tanto, la fórmula de Laplace no es aplicable porque asume que todos los eventos tienen la misma probabilidad. En lugar de usar la fórmula de Laplace, debemos recurrir a la distribución binomial para calcular la probabilidad correcta, que toma en cuenta las probabilidades individuales de cada resultado en los experimentos.

Distribución Geométrica

Introducción

Imagina que estás jugando a un juego en el que lanzas un dado justo y sigues lanzándolo hasta que obtienes un seis. Queremos determinar la probabilidad de que necesites exactamente \(k\) lanzamientos para obtener el primer seis.

# Número de secuencias que deseas generar
num_secuencias <- 10

# Número máximo de lanzamientos por secuencia
max_lanzamientos <- 16

# Función para simular una secuencia de lanzamientos hasta obtener un seis
simular_secuencia <- function(max_lanzamientos) {
  lanzamientos <- numeric()  # Crear un vector vacío para los lanzamientos
  while (TRUE) {
    lanzamiento <- sample(1:6, 1)  # Lanzar el dado
    lanzamientos <- c(lanzamientos, lanzamiento)  # Agregar el resultado al vector
    if (lanzamiento == 6 || length(lanzamientos) >= max_lanzamientos) {
      break  # Detener el bucle si obtenemos un 6 o alcanzamos el número máximo de lanzamientos
    }
  }
  return(paste(lanzamientos, collapse = ""))  # Convertir el vector a una cadena de texto
}

# Generar y mostrar las secuencias
secuencias <- replicate(num_secuencias, simular_secuencia(max_lanzamientos))
print(secuencias)
##  [1] "21542136"        "324345255533126" "6"               "6"              
##  [5] "13356"           "36"              "6"               "332546"         
##  [9] "22345352414316"  "4526"

Como observamos, se detiene hasta que salga el èxito \(p\), queremos ver como calcular la probabilidad dicha sitaución, para ello pensemos:

\[\begin{align*} \underbrace{qqqq}&...\underbrace{p}\\ k-1 &...\text{ el primer}\\ \text{fracasos}&... \text{éxito} \end{align*}\]

Definición Formal

La distribución geométrica modela el número de ensayos necesarios para obtener el primer éxito en una serie de ensayos independientes, donde cada ensayo tiene una probabilidad constante \(p\) de éxito.

Formalmente, si \(X\) es una variable aleatoria que sigue una distribución geométrica con parámetro \(p\) (la probabilidad de éxito en cada ensayo), entonces la función de masa de probabilidad (pmf) es:

\[ P(X = k) = (1 - p)^{k - 1} p \]

para \(k = 1, 2, 3, \ldots\).

Ejemplos

Ejemplo 1

Supongamos que lanzas una moneda justa (donde la probabilidad de éxito, \(p\), es 0.5) hasta que salga cara. La probabilidad de obtener la primera cara en el tercer lanzamiento es:

\[ P(X = 3) = (1 - 0.5)^{3 - 1} \times 0.5 = 0.5^2 \times 0.5 = 0.125 \]

# Parámetro de la distribución geométrica
p1 <- 0.5

# Generación de datos
k1 <- 1:10
prob1 <- dgeom(k1 - 1, p1)

# Crear el data frame para ggplot
df1 <- data.frame(k = k1, Probability = prob1)

# Crear la gráfica
g<-ggplot(df1, aes(x = k, y = Probability)) +
  geom_bar(stat = "identity", fill = "skyblue") +
  labs(title = "Distribución Geométrica con p = 0.5",
       x = "Número de Ensayos (k)",
       y = "Probabilidad") +
  theme_minimal() +
  scale_x_continuous(breaks = k1)

ggplotly(g)

Ejemplo 2

Si lanzas un dado justo (donde la probabilidad de éxito, \(p\), es \(\frac{1}{6}\)) hasta obtener un seis, la probabilidad de obtener el primer seis en el cuarto lanzamiento es:

\[ P(X = 4) = \left(1 - \frac{1}{6}\right)^{4 - 1} \times \frac{1}{6} = \left(\frac{5}{6}\right)^3 \times \frac{1}{6} \approx 0.0926 \]

# Parámetro de la distribución geométrica
p2 <- 1/6

# Generación de datos
k2 <- 1:10
prob2 <- dgeom(k2 - 1, p2)

# Crear el data frame para ggplot
df2 <- data.frame(k = k2, Probability = prob2)

# Crear la gráfica
g<-ggplot(df2, aes(x = k, y = Probability)) +
  geom_bar(stat = "identity", fill = "salmon") +
  labs(title = "Distribución Geométrica con p = 1/6",
       x = "Número de Ensayos (k)",
       y = "Probabilidad") +
  theme_minimal() +
  scale_x_continuous(breaks = k2)
ggplotly(g)

Valor Esperado

Para una variable aleatoria \(X\) que sigue una distribución geométrica con parámetro \(p\), el valor esperado se calcula como:

\[ E[X] = \frac{1}{p} \]

Demostración del Valor Esperado

Para demostrar esto, usamos la fórmula:

\[ E[X] = \sum_{k=1}^{\infty} k \cdot P(X = k) = \sum_{k=1}^{\infty} k \cdot (1 - p)^{k - 1} p \]

Usamos la identidad:

\[ \sum_{k=1}^{\infty} k \cdot x^{k - 1} = \frac{1}{(1 - x)^2} \]

donde \(x = 1 - p\). Luego:

\[ \sum_{k=1}^{\infty} k \cdot (1 - p)^{k - 1} = \frac{1}{p^2} \]

Multiplicando por \(p\):

\[ E[X] = p \cdot \frac{1}{p^2} = \frac{1}{p} \]

Varianza

Para una variable aleatoria \(X\) que sigue una distribución geométrica con parámetro \(p\), la varianza se calcula como:

\[ \text{Var}[X] = \frac{1 - p}{p^2} \]

Demostración de la Varianza

Para demostrar esto, calculamos \(E[X^2]\):

\[ E[X^2] = \sum_{k=1}^{\infty} k^2 \cdot P(X = k) = \sum_{k=1}^{\infty} k^2 \cdot (1 - p)^{k - 1} p \]

Usamos la identidad:

\[ \sum_{k=1}^{\infty} k^2 \cdot x^{k - 1} = \frac{1 + x}{(1 - x)^3} \]

donde \(x = 1 - p\). Luego:

\[ \sum_{k=1}^{\infty} k^2 \cdot (1 - p)^{k - 1} = \frac{2 - p}{p^3} \]

Multiplicando por \(p\):

\[ E[X^2] = p \cdot \frac{2 - p}{p^3} = \frac{2 - p}{p^2} \]

Finalmente:

\[ \text{Var}[X] = E[X^2] - (E[X])^2 = \frac{2 - p}{p^2} - \frac{1}{p^2} = \frac{1 - p}{p^2} \]

Ejemplos

Ejemplo 1: Moneda Justa

Para una moneda justa (\(p = 0.5\)):

  • La probabilidad de obtener la primera cara en el \(k\)-ésimo lanzamiento se calcula usando la función de masa de probabilidad de la distribución geométrica:

\[ P(X = k) = (1 - 0.5)^{k - 1} \times 0.5 \]

  • Valor Esperado:

El valor esperado de una variable aleatoria \(X\) con distribución geométrica y parámetro \(p = 0.5\) es:

\[ E[X] = \frac{1}{p} = \frac{1}{0.5} = 2 \]

  • Varianza:

La varianza de una variable aleatoria \(X\) con distribución geométrica y parámetro \(p = 0.5\) es:

\[ \text{Var}[X] = \frac{1 - p}{p^2} = \frac{1 - 0.5}{0.5^2} = \frac{0.5}{0.25} = 2 \]

Ejemplo 2: Dado Justo

Para un dado justo (\(p = \frac{1}{6}\)):

  • La probabilidad de obtener el primer seis en el \(k\)-ésimo lanzamiento se calcula usando la función de masa de probabilidad de la distribución geométrica:

\[ P(X = k) = \left(1 - \frac{1}{6}\right)^{k - 1} \times \frac{1}{6} \]

  • Valor Esperado:

El valor esperado de una variable aleatoria \(X\) con distribución geométrica y parámetro \(p = \frac{1}{6}\) es:

\[ E[X] = \frac{1}{p} = \frac{1}{\frac{1}{6}} = 6 \]

  • Varianza:

La varianza de una variable aleatoria \(X\) con distribución geométrica y parámetro \(p = \frac{1}{6}\) es:

\[ \text{Var}[X] = \frac{1 - p}{p^2} = \frac{1 - \frac{1}{6}}{\left(\frac{1}{6}\right)^2} = \frac{\frac{5}{6}}{\frac{1}{36}} = 30 \]

Distribución Binomial Negativa

La distribución binomial negativa modela el número de ensayos necesarios para obtener un número fijo de éxitos en una serie de ensayos de Bernoulli independientes, cada uno con una probabilidad constante de éxito \(p\).

Formalmente, si se realizan ensayos hasta obtener el \(r\)-ésimo éxito, donde \(r\) es un número positivo entero, la probabilidad de que se necesiten exactamente \(k\) ensayos para obtener el \(r\)-ésimo éxito está dada por la función de masa de probabilidad:

\[ P(X = k) = \binom{k-1}{r-1} p^r (1-p)^{k-r} \]

donde: - \(X\) es la variable aleatoria que representa el número total de ensayos hasta obtener el \(r\)-ésimo éxito. - \(k\) es el número total de ensayos realizados. - \(p\) es la probabilidad de éxito en cada ensayo. - \((1-p)\) es la probabilidad de fracaso en cada ensayo. - \(\binom{k-1}{r-1}\) es el coeficiente binomial.

Ejemplos

Ejemplo 1

Supongamos que lanzas un dado justo hasta obtener el tercer 6. La probabilidad de que necesites exactamente 10 lanzamientos para obtener el tercer 6 se puede calcular utilizando la distribución binomial negativa con \(r = 3\), \(p = \frac{1}{6}\) y \(k = 10\).

library(ggplot2)
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
# Parámetros
r <- 3
p <- 1/6
k <- 0:20  # Rango de posibles valores de k

# Calcular las probabilidades
prob <- dnbinom(k - 1, size = r - 1, prob = p)  # Nota: k-1 porque dnbinom espera k-1

# Crear un dataframe para ggplot
df <- data.frame(k = k, prob = prob)

# Gráfico
g<-ggplot(df, aes(x = k, y = prob)) +
  geom_bar(stat = "identity", fill = "skyblue") +
  labs(title = "Distribución Binomial Negativa (Dado Justo)",
       x = "Número de Ensayos",
       y = "Probabilidad") +
  theme_minimal()

ggplotly(g)

Ejemplo 2

Imagina que estás lanzando una moneda sesgada con una probabilidad de 0.4 de salir cara. Si deseas saber cuántos lanzamientos se necesitan para obtener el quinto “cara”, puedes usar la distribución binomial negativa con \(r = 5\) y \(p = 0.4\).

# Parámetros
r <- 5
p <- 0.4
k <- 0:30  # Rango de posibles valores de k

# Calcular las probabilidades
prob <- dnbinom(k - 1, size = r - 1, prob = p)  # Nota: k-1 porque dnbinom espera k-1

# Crear un dataframe para ggplot
df <- data.frame(k = k, prob = prob)

# Gráfico
g<-ggplot(df, aes(x = k, y = prob)) +
  geom_bar(stat = "identity", fill = "lightgreen") +
  labs(title = "Distribución Binomial Negativa (Moneda Sesgada)",
       x = "Número de Ensayos",
       y = "Probabilidad") +
  theme_minimal()

ggplotly(g)

Valor Esperado y Varianza

Para la distribución binomial negativa con parámetros \(r\) y \(p\):

  • Valor Esperado:

\[ E(X) = \frac{r}{p} \]

  • Varianza:

\[ \text{Var}(X) = \frac{r(1-p)}{p^2} \]

donde \(r\) es el número de éxitos deseados y \(p\) es la probabilidad de éxito en cada ensayo.

Cálculo en Ejemplos

Ejemplo 1

Si lanzas un dado justo hasta obtener el tercer 6, el valor esperado de lanzamientos necesarios es:

\[ E(X) = \frac{3}{\frac{1}{6}} = 18 \]

y la varianza es:

\[ \text{Var}(X) = \frac{3 \cdot \left(1 - \frac{1}{6}\right)}{\left(\frac{1}{6}\right)^2} = \frac{3 \cdot \frac{5}{6}}{\frac{1}{36}} = 180 \]

Ejemplo 2

Si lanzas una moneda con \(p = 0.4\) hasta obtener 5 caras, el valor esperado de lanzamientos necesarios es:

\[ E(X) = \frac{5}{0.4} = 12.5 \]

y la varianza es:

\[ \text{Var}(X) = \frac{5 \cdot (1 - 0.4)}{0.4^2} = \frac{5 \cdot 0.6}{0.16} = 18.75 \]

Distribución de Probabilidad Hipergeométrica

La distribución hipergeométrica describe la probabilidad de obtener un número específico de éxitos en una muestra de tamaño \(n\) extraída sin reemplazo de una población finita de tamaño \(N\) que contiene exactamente \(K\) éxitos.

La función de distribución hipergeométrica está dada por:

\[ P(X = k) = \frac{\binom{K}{k} \binom{N-K}{n-k}}{\binom{N}{n}} \]

donde: - \(X\) es el número de éxitos en la muestra. - \(k\) es el número específico de éxitos que deseamos. - \(N\) es el tamaño total de la población. - \(K\) es el número total de éxitos en la población. - \(n\) es el tamaño de la muestra. - \(\binom{a}{b}\) es el coeficiente binomial, que se calcula como \(\frac{a!}{b!(a-b)!}\).

Ejemplo 1

Supongamos que en una urna hay 10 bolas, de las cuales 4 son rojas y 6 son azules. Queremos encontrar la probabilidad de que, al seleccionar 3 bolas al azar sin reemplazo, exactamente 2 de ellas sean rojas.

Aquí: - \(N = 10\) (total de bolas), - \(K = 4\) (bolas rojas), - \(n = 3\) (bolas seleccionadas), - \(k = 2\) (bolas rojas en la muestra).

La probabilidad se calcula como:

# Parámetros
N <- 10
K <- 4
n <- 3
k <- 2

# Probabilidad
probabilidad <- (choose(K, k) * choose(N - K, n - k)) / choose(N, n)
probabilidad
## [1] 0.3

Valor Esperado y Varianza

Para la distribución hipergeométrica, el valor esperado \(E[X]\) y la varianza \(\text{Var}(X)\) se calculan como sigue:

  • Valor Esperado:

\[ E[X] = n \frac{K}{N} \]

  • Varianza:

\[ \text{Var}(X) = n \frac{K}{N} \left(1 - \frac{K}{N}\right) \frac{N - n}{N - 1} \]

Ejemplo 2

Supongamos que en una caja hay 15 bombillas, de las cuales 7 están defectuosas y 8 están en buen estado. Si seleccionamos 5 bombillas al azar sin reemplazo, ¿cuál es la probabilidad de que exactamente 3 de ellas estén defectuosas?

Aquí: - \(N = 15\) (total de bombillas), - \(K = 7\) (bombillas defectuosas), - \(n = 5\) (bombillas seleccionadas), - \(k = 3\) (bombillas defectuosas en la muestra).

La probabilidad se calcula como:

# Parámetros
N <- 15
K <- 7
n <- 5
k <- 3

# Probabilidad
probabilidad <- (choose(K, k) * choose(N - K, n - k)) / choose(N, n)
probabilidad
## [1] 0.3263403

Cálculo del Valor Esperado y la Varianza

Para el segundo ejemplo:

  • Valor esperado:
# Valor esperado
E_X <- n * (K / N)
E_X
## [1] 2.333333
  • Varianza:
# Varianza
Var_X <- n * (K / N) * (1 - (K / N)) * ((N - n) / (N - 1))
Var_X
## [1] 0.8888889
library(ggplot2)

# Parámetros
N <- 15
K <- 7
n <- 5

# Número de bombillas defectuosas en la muestra (0 a 5)
k_values <- 0:5

# Calcular probabilidades
probabilidades <- sapply(k_values, function(k) {
  (choose(K, k) * choose(N - K, n - k)) / choose(N, n)
})

# Crear un data frame para ggplot
df <- data.frame(
  Bombillas_Defectuosas = k_values,
  Probabilidad = probabilidades
)

# Crear gráfico
g<-ggplot(df, aes(x = Bombillas_Defectuosas, y = Probabilidad)) +
  geom_bar(stat = "identity", fill = "skyblue", color = "black") +
  labs(title = "Distribución de Probabilidad de Bombillas Defectuosas",
       x = "Número de Bombillas Defectuosas",
       y = "Probabilidad") +
  theme_minimal()

ggplotly(g)

Distribución de Poisson

Derivación de la Distribución de Poisson a partir de la Binomial

Consideremos una variable aleatoria binomial \(Y\) con parámetros \(n\) (número de ensayos) y \(p\) (probabilidad de éxito en cada ensayo). La función de probabilidad de la distribución binomial es:

\[ P(Y = k) = \binom{n}{k} p^k (1 - p)^{n - k} \]

donde:

  • \(\binom{n}{k} = \frac{n!}{k!(n - k)!}\) es el número de combinaciones de \(n\) ensayos tomados de \(k\) en \(k\).

Para derivar la distribución de Poisson, consideramos un escenario donde \(n\) es muy grande y \(p\) es muy pequeño, de manera que el producto \(\lambda = np\) se mantiene constante. Bajo estas condiciones, la distribución binomial puede aproximarse a una distribución de Poisson.

Primero, reescribimos la función de probabilidad binomial de la siguiente manera:

\[ P(Y = k) = \binom{n}{k} p^k (1 - p)^{n - k} = \frac{n!}{k!(n - k)!} p^k (1 - p)^{n - k} \]

Aproximamos los términos individuales cuando \(n\) es grande y \(p\) es pequeño:

  1. Aproximación del coeficiente binomial: \[ \binom{n}{k} = \frac{n!}{k!(n - k)!} \approx \frac{n^k}{k!} \]

  2. Aproximación de \(p^k\): \[ p^k = \left(\frac{\lambda}{n}\right)^k \]

  3. Aproximación de \((1 - p)^{n - k}\): \[ (1 - p)^{n - k} \approx (1 - p)^n \approx e^{-np} = e^{-\lambda} \]

Juntando todas estas aproximaciones:

\[ P(Y = k) = \frac{n^k}{k!} \left(\frac{\lambda}{n}\right)^k e^{-\lambda} = \frac{(\lambda)^k}{k!} e^{-\lambda} \]

Por lo tanto, en el límite cuando \(n \to \infty\) y \(p \to 0\) tal que \(\lambda = np\) es constante, la distribución binomial \(\text{Bin}(n, p)\) se convierte en una distribución de Poisson con parámetro \(\lambda\):

\[ P(Y = k) = \frac{\lambda^k e^{-\lambda}}{k!} \]

Definición Formal de la Distribución de Poisson

Una variable aleatoria \(X\) sigue una distribución de Poisson con parámetro \(\lambda\) (la tasa promedio de ocurrencia de eventos en el intervalo) si su función de probabilidad está dada por:

\[ P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!} \]

donde: - \(k\) es el número de eventos en el intervalo. - \(\lambda\) es el número promedio de eventos en el intervalo. - \(e\) es la base del logaritmo natural (aproximadamente 2.71828).

Valor Esperado de la Distribución de Poisson

Para una variable aleatoria \(X\) con distribución de Poisson con parámetro \(\lambda\), el valor esperado \(E(X)\) es \(\lambda\).

Demostración del Valor Esperado

El valor esperado se define como:

\[ E(X) = \sum_{k=0}^{\infty} k \cdot P(X = k) = \sum_{k=0}^{\infty} k \cdot \frac{\lambda^k e^{-\lambda}}{k!} \]

Podemos reescribir la serie sumando desde \(k = 1\) en lugar de \(k = 0\), ya que cuando \(k = 0\), el término es cero:

\[ E(X) = \sum_{k=1}^{\infty} k \cdot \frac{\lambda^k e^{-\lambda}}{k!} \]

Reescribimos \(k\) como \(k = k \cdot \frac{\lambda}{\lambda}\):

\[ E(X) = \sum_{k=1}^{\infty} k \cdot \frac{\lambda}{\lambda} \cdot \frac{\lambda^{k-1} e^{-\lambda}}{(k-1)!} \]

Simplificamos el término:

\[ E(X) = \lambda \sum_{k=1}^{\infty} \frac{\lambda^{k-1} e^{-\lambda}}{(k-1)!} \]

Realizamos un cambio de variable \(j = k - 1\):

\[ E(X) = \lambda \sum_{j=0}^{\infty} \frac{\lambda^j e^{-\lambda}}{j!} \]

Observamos que esta es la serie de la función exponencial \(e^{\lambda} e^{-\lambda} = 1\):

\[ E(X) = \lambda \cdot 1 = \lambda \]

Por lo tanto, el valor esperado de una variable aleatoria Poisson es \(E(X) = \lambda\).

Varianza de la Distribución de Poisson

Para una variable aleatoria \(X\) con distribución de Poisson con parámetro \(\lambda\), la varianza \(\text{Var}(X)\) es \(\lambda\).

Demostración de la Varianza

La varianza se define como:

\[ \text{Var}(X) = E(X^2) - (E(X))^2 \]

Sabemos que \(E(X) = \lambda\). Ahora calculamos \(E(X^2)\):

\[ E(X^2) = \sum_{k=0}^{\infty} k^2 \cdot P(X = k) = \sum_{k=0}^{\infty} k^2 \cdot \frac{\lambda^k e^{-\lambda}}{k!} \]

Podemos reescribir \(k^2\) como \(k(k-1) + k\):

\[ E(X^2) = \sum_{k=0}^{\infty} (k(k-1) + k) \cdot \frac{\lambda^k e^{-\lambda}}{k!} \]

Separando la suma:

\[ E(X^2) = \sum_{k=0}^{\infty} k(k-1) \cdot \frac{\lambda^k e^{-\lambda}}{k!} + \sum_{k=0}^{\infty} k \cdot \frac{\lambda^k e^{-\lambda}}{k!} \]

La primera suma:

\[ \sum_{k=0}^{\infty} k(k-1) \cdot \frac{\lambda^k e^{-\lambda}}{k!} = \lambda^2 \sum_{k=2}^{\infty} \frac{\lambda^{k-2} e^{-\lambda}}{(k-2)!} = \lambda^2 \]

La segunda suma es el valor esperado \(\lambda\):

\[ \sum_{k=0}^{\infty} k \cdot \frac{\lambda^k e^{-\lambda}}{k!} = \lambda \]

Por lo tanto:

\[ E(X^2) = \lambda^2 + \lambda \]

Entonces, la varianza es:

\[ \text{Var}(X) = E(X^2) - (E(X))^2 = (\lambda^2 + \lambda) - \lambda^2 = \lambda \]

Por lo tanto, la varianza de una variable aleatoria Poisson es \(\text{Var}(X) = \lambda\).

Aplicación: Ejemplo de Accidentes

Considera que el número promedio de accidentes por semana en un crucero particular es \(\lambda\). La probabilidad de que ocurran \(k\) accidentes en una semana sigue una distribución de Poisson con parámetro \(\lambda\):

\[ P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!} \]

Si, por ejemplo, \(\lambda = 3\) accidentes por semana, la probabilidad de que ocurran exactamente 2 accidentes en una semana es:

\[ P(X = 2) = \frac{3^2 e^{-3}}{2!} = \frac{9 e^{-3}}{2} \approx 0.224 \]

# Cargar la librería ggplot2 y plotly
library(ggplot2)
library(plotly)
# Parámetro lambda
lambda <- 3

# Crear un data frame con los valores de la distribución de Poisson
k <- 0:10  # Valores posibles de la variable aleatoria
prob <- dpois(k, lambda)  # Probabilidades correspondientes

df <- data.frame(k = k, prob = prob)

# Crear el gráfico
g<-ggplot(df, aes(x = k, y = prob)) +
  geom_bar(stat = "identity", fill = "skyblue", color = "black") +
  geom_text(aes(label = round(prob, 3)), vjust = -0.5) +
  labs(title = "Distribución de Poisson con lambda = 3",
       x = "Número de Accidentes (k)",
       y = "Probabilidad P(X = k)") +
  theme_minimal()
ggplotly(g)

Ejemplo: Reclamaciones de Seguros de Vida

Enunciado

Supongamos que una compañía de seguros recibe un promedio de 5 reclamaciones de seguros de vida por mes. Queremos modelar el número de reclamaciones recibidas en un mes como una variable aleatoria que sigue una distribución de Poisson. Vamos a calcular las probabilidades correspondientes y graficar la distribución de Poisson para visualizar la probabilidad de recibir diferentes cantidades de reclamaciones en un mes.

Solución

La distribución de Poisson con parámetro \(\lambda = 5\) nos permite calcular la probabilidad de recibir \(k\) reclamaciones en un mes usando la fórmula:

\[ P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!} \]

donde \(\lambda = 5\) es el número promedio de reclamaciones por mes.

Código en R para Generar el Gráfico

# Cargar la librería ggplot2
library(ggplot2)

# Parámetro lambda para el ejemplo de reclamaciones de seguros de vida
lambda <- 5  # Promedio de 5 reclamaciones por mes

# Crear un data frame con los valores de la distribución de Poisson
k <- 0:15  # Valores posibles de la variable aleatoria
prob <- dpois(k, lambda)  # Probabilidades correspondientes

df <- data.frame(k = k, prob = prob)

# Crear el gráfico
g<-ggplot(df, aes(x = k, y = prob)) +
  geom_bar(stat = "identity", fill = "skyblue", color = "black") +
  geom_text(aes(label = round(prob, 3)), vjust = -0.5) +
  labs(title = "Distribución de Poisson con lambda = 5",
       x = "Número de Reclamaciones (k)",
       y = "Probabilidad P(X = k)") +
  theme_minimal()

ggplotly(g)

El gráfico de barras muestra la probabilidad de recibir diferentes números de reclamaciones en un mes. Por ejemplo, la probabilidad de recibir exactamente 5 reclamaciones en un mes se puede leer directamente del gráfico. Este tipo de visualización es útil para entender la distribución de eventos raros, como las reclamaciones de seguros de vida en este caso.

Momentos de una Variable Aleatoria

Definición de Momento

El \(k\)-ésimo momento de una variable aleatoria \(X\) es definido como:

\[ \mu'_k = \mathbb{E}[X^k] \]

donde \(\mathbb{E}[X^k]\) representa el valor esperado de \(X^k\).

Momento de una Variable Aleatoria \(X\) Tomado Alrededor de su Media

El \(k\)-ésimo momento de una variable aleatoria \(X\) tomado alrededor de su media, también conocido como momento central, es definido como:

\[ \mu_k = \mathbb{E}[(X - \mu)^k] \]

donde \(\mu = \mathbb{E}[X]\) es la media de \(X\).

Funciones Generadoras de Momentos

Definición de Función Generadora de Momentos

La función generadora de momentos (MGF, por sus siglas en inglés) de una variable aleatoria \(X\) es definida como:

\[ M_X(t) = \mathbb{E}[e^{tX}] \]

para valores de \(t\) tales que la expectativa existe.

Teorema

Si \(M_X(t)\) existe, entonces para cualquier entero positivo \(k\),

\[ \frac{d^k M_X(t)}{dt^k} \Bigg|_{t=0} = \mu'_k \]

En otras palabras, si se encuentra la \(k\)-ésima derivada de \(M_X(t)\) con respecto a \(t\) y luego se evalúa en \(t = 0\), el resultado será el \(k\)-ésimo momento de \(X\).

Demostración

Para demostrar este teorema, consideremos la función generadora de momentos \(M_X(t)\):

\[ M_X(t) = \mathbb{E}[e^{tX}] \]

Derivamos \(M_X(t)\) con respecto a \(t\):

\[ \frac{d M_X(t)}{dt} = \mathbb{E}[X e^{tX}] \]

La \(k\)-ésima derivada de \(M_X(t)\) con respecto a \(t\) es:

\[ \frac{d^k M_X(t)}{dt^k} = \mathbb{E}[X^k e^{tX}] \]

Evaluando esta derivada en \(t = 0\):

\[ \frac{d^k M_X(t)}{dt^k} \Bigg|_{t=0} = \mathbb{E}[X^k e^{0}] = \mathbb{E}[X^k] = \mu'_k \]

Esto completa la demostración de que:

\[ \frac{d^k M_X(t)}{dt^k} \Bigg|_{t=0} = \mu'_k \]

Problema 1: Función Generadora de Momentos para una Variable Aleatoria de Poisson

Enunciado

Encuentre la función generadora de momentos \(M_X(t)\) para una variable aleatoria \(X\) con distribución de Poisson y media \(\lambda\).

Solución

Para una variable aleatoria \(X\) que sigue una distribución de Poisson con parámetro \(\lambda\), la función generadora de momentos está dada por:

\[ M_X(t) = \mathbb{E}[e^{tX}] \]

Sabemos que para una variable Poisson con parámetro \(\lambda\):

\[ P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!} \]

Entonces:

\[ M_X(t) = \sum_{k=0}^{\infty} e^{tk} \cdot \frac{\lambda^k e^{-\lambda}}{k!} \]

Reorganizamos la serie:

\[ M_X(t) = e^{-\lambda} \sum_{k=0}^{\infty} \frac{(\lambda e^t)^k}{k!} \]

La suma en la serie es la expansión de Taylor de \(e^{\lambda e^t}\):

\[ M_X(t) = e^{-\lambda} \cdot e^{\lambda e^t} = e^{\lambda (e^t - 1)} \]

Por lo tanto, la función generadora de momentos para una variable aleatoria de Poisson con parámetro \(\lambda\) es:

\[ M_X(t) = e^{\lambda (e^t - 1)} \]

Problema 2: Media y Varianza de una Variable Aleatoria de Poisson

Enunciado

Use la función generadora de momentos del Ejemplo para hallar la media \(\mu\) y la varianza \(\sigma^2\) para una variable aleatoria de Poisson.

Solución

Para encontrar la media y la varianza, usaremos la función generadora de momentos \(M_X(t) = e^{\lambda (e^t - 1)}\) y el teorema sobre la derivada de la MGF.

  1. Media

    La media \(\mu\) es el primer momento de la variable aleatoria, que se obtiene derivando \(M_X(t)\) con respecto a \(t\) y evaluando en \(t = 0\):

    \[ \mu = \frac{d M_X(t)}{dt} \Bigg|_{t=0} \]

    Derivamos \(M_X(t)\) con respecto a \(t\):

    \[ \frac{d M_X(t)}{dt} = \lambda e^t \cdot e^{\lambda (e^t - 1)} \]

    Evaluamos en \(t = 0\):

    \[ \frac{d M_X(t)}{dt} \Bigg|_{t=0} = \lambda e^0 \cdot e^{\lambda (e^0 - 1)} = \lambda \]

    Así, la media \(\mu\) de una variable Poisson es \(\lambda\).

  2. Varianza

    La varianza \(\sigma^2\) se obtiene a partir del segundo momento central. Primero, calculamos el segundo momento \(\mathbb{E}[X^2]\):

    Derivamos la MGF dos veces:

    \[ \frac{d^2 M_X(t)}{dt^2} = \lambda e^t \cdot e^{\lambda (e^t - 1)} + \lambda^2 e^{2t} \cdot e^{\lambda (e^t - 1)} \]

    Evaluamos en \(t = 0\):

    \[ \frac{d^2 M_X(t)}{dt^2} \Bigg|_{t=0} = \lambda + \lambda^2 \]

    El segundo momento \(\mathbb{E}[X^2]\) es \(\lambda + \lambda^2\). La varianza es:

    \[ \sigma^2 = \mathbb{E}[X^2] - (\mathbb{E}[X])^2 \]

    \[ \sigma^2 = (\lambda + \lambda^2) - \lambda^2 = \lambda \]

    Así, la varianza \(\sigma^2\) de una variable Poisson es también \(\lambda\).

Resumen Distribuciones Discretas

Distribución Función.de.probabilidad Comando.R E.X. Comando.E.X. V.X. Comando.V.X.
Binomial \(P(X = k) = \binom{n}{k} p^k (1-p)^{n-k}\) dbinom(k, size = n, prob = p) \(E(X) = np\) n * p \(V(X) = np(1-p)\) n * p * (1 - p)
Binomial Negativa \(P(X = k) = \binom{k+r-1}{k} (1-p)^r p^k\) dnbinom(k, size = r, prob = p) \(E(X) = \frac{r}{p}\) r / p \(V(X) = \frac{r(1-p)}{p^2}\) r * (1 - p) / p^2
Geométrica \(P(X = k) = (1-p)^{k-1} p\) dgeom(k - 1, prob = p) \(E(X) = \frac{1}{p}\) 1 / p \(V(X) = \frac{1-p}{p^2}\) (1 - p) / p^2
Hipergeométrica \(P(X = k) = \frac{\binom{K}{k}\binom{N-K}{n-k}}{\binom{N}{n}}\) dhyper(k, m = K, n = N - K, k = n) \(E(X) = n \frac{K}{N}\) n * (K / N) \(V(X) = n \frac{K}{N} \frac{N-K}{N} \frac{N-n}{N-1}\) n * (K / N) * ((N - K) / N) * ((N - n) / (N - 1))
Poisson \(P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}\) dpois(k, lambda = lambda) \(E(X) = \lambda\) lambda \(V(X) = \lambda\) lambda

Distribución de Probabilidad para una Variable Aleatoria Continua

Definición

Una distribución de probabilidad para una variable aleatoria continua describe la probabilidad de que una variable continua tome valores en un intervalo específico. En lugar de asignar probabilidades a valores individuales, la probabilidad se distribuye a lo largo de un rango de valores. La función de distribución acumulativa (FDA) y la función de densidad de probabilidad (FDP) son herramientas fundamentales para describir estas distribuciones.

Denote con \(X\) cualquier variable aleatoria. La función de distribución de \(X\), denotada por \(F(X)\), es tal que \(F(x) = P(X \leq x)\) para \(– \infty < x < \infty\).

Ejemplo

Consideremos una variable aleatoria continua \(X\) que sigue una distribución:

\[p(x) = \binom{2}{x} \left(\frac{1}{2}\right)^x \left(\frac{1}{2}\right)^{2-x} \] para $x=0,1,2 y se obtiene:

\[\begin{align*} p(0)&=\frac{1}{4}\\ p(1)&=\frac{1}{2}\\ p(2)&=\frac{1}{4}\\ \end{align*}\]

¿Cuál es \(F(-2) = P(X \leq -2)\)? Como los únicos valores de \(X\) a los que se asignan probabilidades positivas son 0, 1 y 2, y ninguno de estos valores es menor o igual a \(-2\), \(F(-2) = 0\). Si usamos una lógica similar, \(F(X) = 0\) para toda \(x < 0\).

¿Cuál es \(F(1.5)\)? Los únicos valores de \(X\) que son menores o iguales a \(1.5\) y tienen probabilidades diferentes de cero son los valores 0 y 1. Por lo que,

\[ F(1.5) = P(X \leq 1.5) = P(X = 0) + P(X = 1) = \frac{1}{4} + \frac{1}{2} = \frac{3}{4}. \]

Una gráfica de \(F(X)\) se da en la siguente figura.

En general,

\[ F(X) = P(X \leq x) = \begin{cases} 0, & \text{para } x < 0, \\ \frac{1}{4}, & \text{para } 0 \leq x < 1, \\ \frac{3}{4}, & \text{para } 1 \leq x < 2, \\ 1, & \text{para } x \geq 2. \end{cases} \]

# Cargar la librería ggplot2
library(ggplot2)

# Crear un data frame con los puntos de la función de distribución acumulativa
df <- data.frame(
  y = c(-3, 0, 0, 1, 1, 2, 2, 3),
  F_y = c(0, 0, 1/4, 1/4, 3/4, 3/4, 1, 1)
)

# Crear la gráfica con ggplot2
g<-ggplot(df, aes(x = y, y = F_y)) +
  geom_step(direction = "hv", color = "blue", size = 1.2) + 
  labs(x = "Y", y = "F(Y)", title = "Función de Distribución Acumulativa F(Y)") +
  theme_minimal() +
  scale_y_continuous(breaks = c(0, 1/4, 3/4, 1), limits = c(0, 1)) +
  scale_x_continuous(breaks = c(-2, 0, 1, 2))
ggplotly(g)

Propiedades de una Función de Distribución

Si \(F(x)\) es una función de distribución, entonces:

  1. \(F(-\infty) \equiv \lim_{x \to -\infty} F(x) = 0\).
  2. \(F(\infty) \equiv \lim_{x \to \infty} F(x) = 1\).
  3. \(F(x)\) es una función no decreciente de \(x\).
    • Si \(x_1\) y \(x_2\) son cualesquiera valores de manera que \(x_1 < x_2\), entonces \(F(x_1) \leq F(x_2)\).

Ejemplo:

Suponga que

\[ F(x) = \begin{cases} 0, & \text{para } x < 0, \\ x, & \text{para } 0 \leq x \leq 1, \\ 1, & \text{para } x > 1. \end{cases} \]

# Cargar librerías necesarias
library(ggplot2)
library(dplyr)

# Definir los datos para la gráfica
data <- tibble(
  x = c(seq(-0.5, 1.5, length.out = 1000)),
  F_x = case_when(
    x < 0 ~ 0,
    x >= 0 & x <= 1 ~ x,
    x > 1 ~ 1
  )
)

# Crear el gráfico
g<-ggplot(data, aes(x = x, y = F_x)) +
  geom_step() +
  labs(
    title = "Función de Distribución Acumulada F(x)",
    x = "x",
    y = "F(x)"
  ) +
  theme_minimal()
ggplotly(g)

Encuentre la función de densidad de probabilidad para \(X\) y grafíquela.

Solución:

Para encontrar la función de densidad de probabilidad \(f(x)\), derivamos \(F(x)\) respecto a \(x\):

  1. Para \(x < 0\): \[ F(x) = 0 \implies f(x) = \frac{d}{dx} F(x) = \frac{d}{dx} 0 = 0 \]

  2. Para \(0 \leq x \leq 1\): \[ F(x) = x \implies f(x) = \frac{d}{dx} F(x) = \frac{d}{dx} x = 1 \]

  3. Para \(x > 1\): \[ F(x) = 1 \implies f(x) = \frac{d}{dx} F(x) = \frac{d}{dx} 1 = 0 \]

Por lo tanto, la función de densidad de probabilidad \(f(x)\) es:

\[ f(x) = \begin{cases} 0, & \text{para } x < 0, \\ 1, & \text{para } 0 \leq x \leq 1, \\ 0, & \text{para } x > 1. \end{cases} \]

# Cargar la librería ggplot2
library(ggplot2)

# Crear un data frame con los puntos de la función de densidad
df <- data.frame(
  x = c(-1, 0, 0, 1, 1, 2),
  f_x = c(0, 0, 1, 1, 0, 0)
)

# Crear la gráfica con ggplot2
g<-ggplot(df, aes(x = x, y = f_x)) +
  geom_step(direction = "hv", color = "blue", size = 1.2) + 
  labs(x = "X", y = "f(X)", title = "Función de Densidad de Probabilidad f(X)") +
  theme_minimal() +
  scale_y_continuous(breaks = c(0, 1), limits = c(0, 1.1)) +
  scale_x_continuous(breaks = c(-1, 0, 1, 2))
ggplotly(g)

Ejemplo:

Sea \(X\) una variable aleatoria continua con función de densidad de probabilidad dada por:

\[ f(x) = \begin{cases} 3x^2, & \text{para } 0 \leq x \leq 1, \\ 0, & \text{en cualquier otro punto}. \end{cases} \]

Encuentre la función de distribución acumulada \(F(x)\). Grafique \(f(x)\) y \(F(x)\).

Solución

Primero, encontramos la función de distribución acumulada \(F(x)\), que se define como:

\[ F(x) = \int_{-\infty}^x f(t) \, dt \]

Para \(0 \leq x \leq 1\):

\[ F(x) = \int_{0}^x 3t^2 \, dt \]

Calculemos esta integral:

\[ F(x) = \left[ t^3 \right]_{0}^{x} = x^3 \]

Entonces, la función de distribución acumulada es:

\[ F(x) = \begin{cases} 0, & \text{para } x < 0, \\ x^3, & \text{para } 0 \leq x \leq 1, \\ 1, & \text{para } x > 1. \end{cases} \]

A continuación, graficamos \(f(x)\) y \(F(x)\) usando ggplot2 en R.

# Cargar librerías necesarias
library(ggplot2)
library(dplyr)

# Definir los datos para las gráficas
data <- tibble(
  x = seq(-0.5, 1.5, length.out = 100),
  f_x = case_when(
    x < 0 ~ 0,
    x >= 0 & x <= 1 ~ 3 * x^2,
    x > 1 ~ 0
  ),
  F_x = case_when(
    x < 0 ~ 0,
    x >= 0 & x <= 1 ~ x^3,
    x > 1 ~ 1
  )
)

# Crear las gráficas
g<-ggplot(data) +
  geom_line(aes(x = x, y = f_x), color = "blue", size = 1) +
  geom_line(aes(x = x, y = F_x), color = "red", size = 1) +
  labs(
    title = "Función de Densidad de Probabilidad y Función de Distribución Acumulada",
    x = "x",
    y = "Valor",
    color = "Función"
  ) +
  scale_color_manual(values = c("blue", "red"), labels = c("f(x)", "F(x)")) +
  theme_minimal() +
  theme(legend.position = "bottom") +
  scale_y_continuous(sec.axis = sec_axis(~ ., name = "F(x)")) +
  scale_color_manual(values = c("blue", "red")) +
  theme(legend.position = "bottom")

ggplotly(g)

Definición

La función de distribución acumulativa \(F(x)\) se dice que es continua si no presenta saltos en ningún punto del dominio. Es decir, para cada punto \(x\) en el dominio de \(F\), los límites laterales coinciden:

\[ \lim_{t \to x^-} F(t) = \lim_{t \to x^+} F(t) = F(x) \]

Función de Densidad de Probabilidad

La función de densidad de probabilidad \(f(x)\) es la derivada de la función de distribución acumulativa \(F(x)\):

\[ f(x) = \frac{dF(x)}{dx} \]

La función de densidad de probabilidad tiene las siguientes propiedades:

  1. \(f(x) \ge 0\) para todo \(x\).

  2. La integral de \(f(x)\) sobre todo el espacio de la variable aleatoria es 1:

    \[ \int_{-\infty}^{\infty} f(x) \, dx = 1 \]

Propiedades de una Función de Densidad

  1. La probabilidad de que la variable aleatoria \(X\) tome un valor en el intervalo \([a, b]\) se obtiene integrando la función de densidad:

    \[ P(a \le X \le b) = \int_a^b f(x) \, dx \]

  2. La función de densidad es siempre no negativa:

    \[ f(x) \ge 0 \]

  3. La integral de la función de densidad sobre todo el dominio es igual a 1:

    \[ \int_{-\infty}^{\infty} f(x) \, dx = 1 \]

P–ésimo Cuantil de una Función

Denotemos con \(X\) cualquier variable aleatoria. Si \(0 < p < 1\), el \(p\)-ésimo cuantil de \(X\), denotado por \(f_p\), es el mínimo valor tal que \(P(X \leq f_p) = F(f_p) \geq p\). Si \(X\) es continua, \(f_p\) es el mínimo valor tal que \(F(f_p) = P(X \leq f_p) = p\). Algunos prefieren llamar \(f_p\) al \(100p\)-ésimo percentil de \(X\).

Ejemplo

Supongamos que tenemos una variable aleatoria continua \(X\) con una distribución uniforme en el intervalo \([0, 1]\). La función de distribución acumulativa es:

\[ F(x) = \begin{cases} 0, & \text{si } x < 0, \\ x, & \text{si } 0 \le x \le 1, \\ 1, & \text{si } x > 1. \end{cases} \]

Para encontrar el 0.25-ésimo cuantil, resolvemos \(F(x) = 0.25\):

\[ x_{0.25} = 0.25 \]

La probabilidad de que \(X\) caiga en el intervalo \([a, b]\) se calcula como:

\[ P(a \le X \le b) = F(b) - F(a) \]

Por ejemplo, para \(a = 0.2\) y \(b = 0.8\):

\[ P(0.2 \le X \le 0.8) = F(0.8) - F(0.2) = 0.8 - 0.2 = 0.6 \]

TEOREMA: Si la variable aleatoria \(X\) tiene función de densidad \(f(x)\) y \(a < b\), entonces la probabilidad de que \(X\) caiga en el intervalo \([a, b]\) es

\[ P(a \leq X \leq b) = \int_{a}^{b} f(x) \, dx \]

Ejemplo

Supongamos que \(X\) es una variable aleatoria continua con una función de densidad de probabilidad \(f(x) = 2x\) para \(0 \leq x \leq 1\) y \(f(x) = 0\) en cualquier otro punto.

Queremos encontrar la probabilidad de que \(X\) caiga en el intervalo \([0.2, 0.5]\).

Usando el teorema, tenemos:

\[ P(0.2 \leq X \leq 0.5) = \int_{0.2}^{0.5} 2x \, dx \]

Calculemos esta integral:

\[ \int 2x \, dx = x^2 + C \]

Ahora, evaluamos la integral en los límites de \(0.2\) a \(0.5\):

\[ P(0.2 \leq X \leq 0.5) = \left[ x^2 \right]_{0.2}^{0.5} = (0.5)^2 - (0.2)^2 = 0.25 - 0.04 = 0.21 \]

Por lo tanto, la probabilidad de que \(X\) esté en el intervalo \([0.2, 0.5]\) es \(0.21\).

library(ggplot2)

# Definir la función de densidad
f_x <- function(x) {
  ifelse(x >= 0 & x <= 1, 2 * x, 0)
}

# Crear un data frame para la gráfica
data <- data.frame(x = seq(0, 1, length.out = 100))
data$y <- f_x(data$x)

# Graficar la función de densidad
p <- ggplot(data, aes(x = x, y = y)) +
  geom_line(color = "blue", size = 1) +
  geom_area(data = subset(data, x >= 0.2 & x <= 0.5), aes(y = y), fill = "lightblue", alpha = 0.5) +
  geom_vline(xintercept = c(0.2, 0.5), linetype = "dashed", color = "red") +
  labs(
    title = "Función de Densidad de Probabilidad y Área Bajo la Curva",
    x = "x",
    y = "f(x)"
  ) +
  theme_minimal()
ggplotly(p)

Valores esperados para variables aleatorias continuas

DEFINICIÓN

El valor esperado de una variable aleatoria continua \(X\) es

\[ E[X] = \int_{-\infty}^{\infty} x \, f(x) \, dx \]

siempre que exista la integral.

TEOREMA 1

Teorema: Sea \(g(x)\) una función de \(X\); entonces el valor esperado de \(g(X)\) está dado por

\[ E[g(X)] = \int_{-\infty}^{\infty} g(x) \, f(x) \, dx \]

Demostración:

El valor esperado de \(g(X)\) se define como

\[ E[g(X)] = \int_{-\infty}^{\infty} g(x) \, f(x) \, dx \]

Esto se sigue directamente de la definición del valor esperado para una variable aleatoria continua, donde sustituimos \(x\) por \(g(x)\) en la fórmula de la integral.

TEOREMA 2

Teorema: Sea \(c\) una constante y sean \(g(X)\), \(g_1(X)\), \(g_2(X)\), , \(g_k(X)\) funciones de una variable aleatoria continua \(X\). Entonces se cumplen los siguientes resultados:

  1. \(E(c) = c\).
  2. \(E[c \cdot g(X)] = c \cdot E[g(X)]\).
  3. \(E[g_1(X) + g_2(X) + \cdots + g_k(X)] = E[g_1(X)] + E[g_2(X)] + \cdots + E[g_k(X)]\).

Demostración:

  1. \(E(c) = c\):

    Para una constante \(c\), la función de densidad \(f(x)\) no afecta el resultado, por lo que:

    \[ E[c] = \int_{-\infty}^{\infty} c \cdot f(x) \, dx \]

    La integral de \(f(x)\) sobre todo su dominio es 1 (es decir, \(\int_{-\infty}^{\infty} f(x) \, dx = 1\)), así que:

    \[ E[c] = c \cdot \int_{-\infty}^{\infty} f(x) \, dx = c \cdot 1 = c \]

  2. \(E[c \cdot g(X)] = c \cdot E[g(X)]\):

    Consideramos:

    \[ E[c \cdot g(X)] = \int_{-\infty}^{\infty} c \cdot g(x) \cdot f(x) \, dx \]

    Podemos sacar la constante \(c\) fuera de la integral:

    \[ E[c \cdot g(X)] = c \cdot \int_{-\infty}^{\infty} g(x) \cdot f(x) \, dx = c \cdot E[g(X)] \]

  3. \(E[g_1(X) + g_2(X) + \cdots + g_k(X)] = E[g_1(X)] + E[g_2(X)] + \cdots + E[g_k(X)]\):

    Utilizamos la linealidad de la integral:

    \[ E[g_1(X) + g_2(X) + \cdots + g_k(X)] = \int_{-\infty}^{\infty} \left(g_1(x) + g_2(x) + \cdots + g_k(x)\right) \cdot f(x) \, dx \]

    Separando la integral en sumas:

    \[ E[g_1(X) + g_2(X) + \cdots + g_k(X)] = \int_{-\infty}^{\infty} g_1(x) \cdot f(x) \, dx + \int_{-\infty}^{\infty} g_2(x) \cdot f(x) \, dx + \cdots + \int_{-\infty}^{\infty} g_k(x) \cdot f(x) \, dx \]

    Así que:

    \[ E[g_1(X) + g_2(X) + \cdots + g_k(X)] = E[g_1(X)] + E[g_2(X)] + \cdots + E[g_k(X)] \]

Ejemplo de Función de Densidad y Valor Esperado

Determinamos que \(f(x) = \frac{3}{8}x^2\) para \(0 \leq x \leq 2\), y \(f(x) = 0\) en cualquier otro punto, es una función de densidad válida. Si la variable aleatoria \(X\) tiene esta función de densidad, encuentre \(m = E(X)\) y \(s^2 = V(X)\).

Solución

  1. Verificación de la Función de Densidad:

    Para verificar que \(f(x)\) es una función de densidad válida, debemos comprobar que cumple con las dos condiciones:

    • \(f(x) \geq 0\) para todo \(x\).

    • La integral de \(f(x)\) sobre todo el dominio es igual a 1:

      \[ \int_{-\infty}^{\infty} f(x) \, dx = \int_{0}^{2} \frac{3}{8}x^2 \, dx \]

      Evaluamos esta integral:

      \[ \int_{0}^{2} \frac{3}{8}x^2 \, dx = \frac{3}{8} \int_{0}^{2} x^2 \, dx = \frac{3}{8} \left[ \frac{x^3}{3} \right]_{0}^{2} = \frac{3}{8} \cdot \frac{8}{3} = 1 \]

    Como la integral es igual a 1, \(f(x)\) es una función de densidad válida.

  2. Cálculo del Valor Esperado \(m = E(X)\):

    El valor esperado \(E(X)\) se calcula como:

    \[ E(X) = \int_{-\infty}^{\infty} x \, f(x) \, dx = \int_{0}^{2} x \cdot \frac{3}{8}x^2 \, dx \]

    Evaluamos esta integral:

    \[ E(X) = \frac{3}{8} \int_{0}^{2} x^3 \, dx = \frac{3}{8} \left[ \frac{x^4}{4} \right]_{0}^{2} = \frac{3}{8} \cdot \frac{16}{4} = \frac{3}{8} \cdot 4 = 1.5 \]

    Por lo tanto, \(m = E(X) = 1.5\).

  3. Cálculo de la Varianza \(s^2 = V(X)\):

    La varianza \(V(X)\) se calcula usando la fórmula:

    \[ V(X) = E[X^2] - (E[X])^2 \]

    Primero, calculamos \(E[X^2]\):

    \[ E[X^2] = \int_{-\infty}^{\infty} x^2 \, f(x) \, dx = \int_{0}^{2} x^2 \cdot \frac{3}{8}x^2 \, dx = \frac{3}{8} \int_{0}^{2} x^4 \, dx \]

    Evaluamos esta integral:

    \[ E[X^2] = \frac{3}{8} \left[ \frac{x^5}{5} \right]_{0}^{2} = \frac{3}{8} \cdot \frac{32}{5} = \frac{96}{40} = 2.4 \]

    Ahora, calculamos la varianza:

    \[ V(X) = E[X^2] - (E[X])^2 = 2.4 - (1.5)^2 = 2.4 - 2.25 = 0.15 \]

    Por lo tanto, \(s^2 = V(X) = 0.15\).

library(ggplot2)

# Definir la función de densidad
f_x <- function(x) {
  ifelse(x >= 0 & x <= 2, (3/8) * x^2, 0)
}

# Crear un data frame para la gráfica
data <- data.frame(x = seq(0, 2, length.out = 100))
data$y <- f_x(data$x)

# Graficar la función de densidad
g<-ggplot(data, aes(x = x, y = y)) +
  geom_line(color = "blue", size = 1) +
  geom_area(fill = "lightblue", alpha = 0.5) +
  labs(
    title = "Función de Densidad de Probabilidad f(x)",
    x = "x",
    y = "f(x)"
  ) +
  theme_minimal()

ggplotly(g)

Distribución de Probabilidad Uniforme

DEFINICIÓN

Si \(u_1 < u_2\), se dice que una variable aleatoria \(X\) tiene distribución de probabilidad uniforme en el intervalo \((u_1, u_2)\) si y sólo si la función de densidad \(f(x)\) de \(X\) es:

\[ f(x) = \begin{cases} \frac{1}{u_2 - u_1}, & \text{si } u_1 \leq x \leq u_2, \\ 0, & \text{en cualquier otro punto}. \end{cases} \]

DEFINICIÓN

Las constantes que determinan la forma específica de una función de densidad se denominan parámetros de la función de densidad.

TEOREMA

Si \(u_1 < u_2\) y \(X\) es una variable aleatoria uniformemente distribuida en el intervalo \((u_1, u_2)\), entonces:

1. Valor Esperado

El valor esperado \(E(X)\) está dado por:

\[ E(X) = \frac{u_1 + u_2}{2} \]

Demostración:

El valor esperado de \(X\) se calcula mediante:

\[ E(X) = \int_{-\infty}^{\infty} x \, f(x) \, dx \]

Dado que \(f(x)\) es \(\frac{1}{u_2 - u_1}\) en el intervalo \([u_1, u_2]\) y 0 en otro punto, la integral se reduce a:

\[ E(X) = \int_{u_1}^{u_2} x \cdot \frac{1}{u_2 - u_1} \, dx \]

Evaluamos esta integral:

\[ E(X) = \frac{1}{u_2 - u_1} \int_{u_1}^{u_2} x \, dx \]

\[ E(X) = \frac{1}{u_2 - u_1} \left[ \frac{x^2}{2} \right]_{u_1}^{u_2} \]

\[ E(X) = \frac{1}{u_2 - u_1} \left( \frac{u_2^2}{2} - \frac{u_1^2}{2} \right) \]

\[ E(X) = \frac{u_2^2 - u_1^2}{2(u_2 - u_1)} \]

\[ E(X) = \frac{(u_2 + u_1)(u_2 - u_1)}{2(u_2 - u_1)} = \frac{u_1 + u_2}{2} \]

2. Varianza

La varianza \(V(X)\) está dada por:

\[ V(X) = \frac{(u_2 - u_1)^2}{12} \]

Demostración:

Para calcular la varianza, primero encontramos \(E[X^2]\):

\[ E[X^2] = \int_{-\infty}^{\infty} x^2 \, f(x) \, dx \]

De manera similar a la integral anterior:

\[ E[X^2] = \int_{u_1}^{u_2} x^2 \cdot \frac{1}{u_2 - u_1} \, dx \]

Evaluamos esta integral:

\[ E[X^2] = \frac{1}{u_2 - u_1} \int_{u_1}^{u_2} x^2 \, dx \]

\[ E[X^2] = \frac{1}{u_2 - u_1} \left[ \frac{x^3}{3} \right]_{u_1}^{u_2} \]

\[ E[X^2] = \frac{1}{u_2 - u_1} \left( \frac{u_2^3}{3} - \frac{u_1^3}{3} \right) \]

\[ E[X^2] = \frac{u_2^3 - u_1^3}{3(u_2 - u_1)} \]

Utilizamos la identidad:

\[ u_2^3 - u_1^3 = (u_2 - u_1)(u_2^2 + u_2 u_1 + u_1^2) \]

Entonces:

\[ E[X^2] = \frac{u_2^2 + u_2 u_1 + u_1^2}{3} \]

La varianza se calcula como:

\[ V(X) = E[X^2] - (E[X])^2 \]

\[ V(X) = \frac{u_2^2 + u_2 u_1 + u_1^2}{3} - \left(\frac{u_1 + u_2}{2}\right)^2 \]

\[ V(X) = \frac{u_2^2 + u_2 u_1 + u_1^2}{3} - \frac{u_1^2 + 2u_1 u_2 + u_2^2}{4} \]

Simplificando, obtenemos:

\[ V(X) = \frac{(u_2 - u_1)^2}{12} \]

Ejemplo de Distribución Uniforme

Supongamos que la llegada de clientes a una caja en un establecimiento es uniformemente distribuida durante un periodo de 30 minutos. Es decir, el tiempo de llegada de un cliente se distribuye uniformemente entre 0 y 30 minutos. Queremos encontrar la probabilidad de que un cliente llegue durante los últimos 5 minutos del periodo de 30 minutos. Además, calcule el valor esperado y la varianza para este problema.

1. Probabilidad de Llegada en los Últimos 5 Minutos

Sea \(X\) el tiempo de llegada de un cliente en minutos, donde \(X\) está distribuido uniformemente en el intervalo \([0, 30]\). Queremos encontrar la probabilidad de que \(X\) caiga en el intervalo \([25, 30]\).

Para una distribución uniforme en el intervalo \([a, b]\), la función de densidad de probabilidad es:

\[ f(x) = \begin{cases} \frac{1}{b - a}, & \text{si } a \leq x \leq b, \\ 0, & \text{en cualquier otro punto}. \end{cases} \]

En este caso, \(a = 0\) y \(b = 30\). La probabilidad de que el cliente llegue durante los últimos 5 minutos se calcula como el área bajo la curva de la densidad en el intervalo \([25, 30]\):

\[ P(25 \leq X \leq 30) = \int_{25}^{30} \frac{1}{30 - 0} \, dx \]

Evaluamos esta integral:

\[ P(25 \leq X \leq 30) = \frac{1}{30} \cdot (30 - 25) = \frac{5}{30} = \frac{1}{6} \]

# Cargar librerías
library(ggplot2)

# Definir el intervalo de la distribución uniforme
a <- 0
b <- 30

# Crear un data frame para la gráfica
x <- seq(a - 1, b + 1, length.out = 1000)  # Rango extendido para mostrar el límite
y <- ifelse(x >= a & x <= b, 1 / (b - a), 0)  # Función de densidad

data <- data.frame(x = x, y = y)

# Graficar la función de densidad
ggplot(data, aes(x = x, y = y)) +
  geom_line(color = "blue", size = 1) +
  geom_area(data = subset(data, x >= a & x <= b), fill = "lightblue", alpha = 0.5) +
  labs(title = "Función de Densidad de la Distribución Uniforme",
       x = "x",
       y = "f(x)") +
  theme_minimal()

2. Valor Esperado y Varianza

Valor Esperado

Para una variable aleatoria uniformemente distribuida en el intervalo \([a, b]\), el valor esperado \(E(X)\) es:

\[ E(X) = \frac{a + b}{2} \]

En este caso, \(a = 0\) y \(b = 30\):

\[ E(X) = \frac{0 + 30}{2} = 15 \]

Varianza

La varianza \(V(X)\) de una variable aleatoria uniformemente distribuida en el intervalo \([a, b]\) es:

\[ V(X) = \frac{(b - a)^2}{12} \]

En este caso:

\[ V(X) = \frac{(30 - 0)^2}{12} = \frac{900}{12} = 75 \]

Distribución Normal

La distribución de probabilidad continua que más se utiliza es la distribución normal, con la conocida forma de campana que estudiamos en relación con la regla empírica. Los ejemplos y ejercicios de esta sección ilustran algunas de las numerosas variables aleatorias que tienen distribuciones que se calculan en forma muy cercana por medio de una distribución de probabilidad normal.

Definición

Una variable aleatoria \(X\) tiene una distribución normal con parámetros \(\mu\) (media) y \(\sigma^2\) (varianza) si su función de densidad de probabilidad está dada por:

\[ f(x) = \frac{1}{\sqrt{2 \pi \sigma^2}} \exp\left(-\frac{(x - \mu)^2}{2 \sigma^2}\right) \]

donde \(\mu\) es la media de la distribución y \(\sigma^2\) es la varianza.

Teoremas

Teorema 1: Valor Esperado

Si \(X\) es una variable aleatoria normalmente distribuida con parámetros \(\mu\) y \(\sigma^2\), entonces el valor esperado de \(X\) es:

\[ E(X) = \mu \]

Demostración:

El valor esperado de \(X\) se define como:

\[ E(X) = \int_{-\infty}^{\infty} x \cdot f(x) \, dx \]

Sustituyendo la función de densidad de probabilidad de la distribución normal:

\[ E(X) = \int_{-\infty}^{\infty} x \cdot \frac{1}{\sqrt{2 \pi \sigma^2}} \exp\left(-\frac{(x - \mu)^2}{2 \sigma^2}\right) \, dx \]

Para resolver esta integral, realizamos un cambio de variable. Sea \(z = \frac{x - \mu}{\sigma}\), entonces \(x = \mu + \sigma z\) y \(dx = \sigma \, dz\). La integral se convierte en:

\[ E(X) = \int_{-\infty}^{\infty} (\mu + \sigma z) \cdot \frac{1}{\sqrt{2 \pi \sigma^2}} \exp\left(-\frac{z^2}{2}\right) \cdot \sigma \, dz \]

Separando la integral:

\[ E(X) = \mu \int_{-\infty}^{\infty} \frac{1}{\sqrt{2 \pi}} \exp\left(-\frac{z^2}{2}\right) \, dz + \sigma \int_{-\infty}^{\infty} z \cdot \frac{1}{\sqrt{2 \pi}} \exp\left(-\frac{z^2}{2}\right) \, dz \]

La primera integral es la integral de la función de densidad de una distribución normal estándar, que es 1. La segunda integral es la integral de una función impar sobre el intervalo simétrico, que es 0. Por lo tanto:

\[ E(X) = \mu \]

Teorema 2: Varianza

Si \(X\) es una variable aleatoria normalmente distribuida con parámetros \(\mu\) y \(\sigma^2\), entonces la varianza de \(X\) es:

\[ V(X) = \sigma^2 \]

Demostración:

La varianza de \(X\) se define como:

\[ V(X) = E[(X - \mu)^2] \]

Expresamos esto como:

\[ V(X) = \int_{-\infty}^{\infty} (x - \mu)^2 \cdot f(x) \, dx \]

Sustituyendo la función de densidad de probabilidad de la distribución normal:

\[ V(X) = \int_{-\infty}^{\infty} (x - \mu)^2 \cdot \frac{1}{\sqrt{2 \pi \sigma^2}} \exp\left(-\frac{(x - \mu)^2}{2 \sigma^2}\right) \, dx \]

Hacemos el mismo cambio de variable \(z = \frac{x - \mu}{\sigma}\), entonces \(x - \mu = \sigma z\) y \(dx = \sigma \, dz\). La integral se convierte en:

\[ V(X) = \int_{-\infty}^{\infty} (\sigma z)^2 \cdot \frac{1}{\sqrt{2 \pi}} \exp\left(-\frac{z^2}{2}\right) \cdot \sigma \, dz \]

Simplificando:

\[ V(X) = \sigma^2 \int_{-\infty}^{\infty} z^2 \cdot \frac{1}{\sqrt{2 \pi}} \exp\left(-\frac{z^2}{2}\right) \, dz \]

La integral de \(z^2\) multiplicada por la función de densidad de una distribución normal estándar se puede calcular usando propiedades de la distribución normal. Se sabe que:

\[ \int_{-\infty}^{\infty} z^2 \cdot \frac{1}{\sqrt{2 \pi}} \exp\left(-\frac{z^2}{2}\right) \, dz = 1 \]

Por lo tanto:

\[ V(X) = \sigma^2 \]

Estos teoremas son fundamentales en estadística y probabilidad, ya que la distribución normal es una de las más importantes y ampliamente usadas en la práctica.

Ejemplo de Distribución Normal

Supongamos que los tiempos de espera para ser atendido en un centro de atención al cliente siguen una distribución normal. Imaginemos que el tiempo promedio de espera es de 20 minutos con una desviación estándar de 5 minutos. Queremos analizar esta distribución normal para encontrar el valor esperado, la varianza y visualizar la función de densidad de probabilidad.

Parámetros de la Distribución

  • Media (\(\mu\)): 20 minutos
  • Desviación estándar (\(\sigma\)): 5 minutos
  • Varianza (\(\sigma^2\)): \(5^2 = 25\) minutos^2

Valor Esperado y Varianza

Para una variable aleatoria normalmente distribuida \(X\) con parámetros \(\mu\) y \(\sigma\):

  • Valor esperado (E(X)): \(\mu = 20\) minutos
  • Varianza (V(X)): \(\sigma^2 = 25\) minutos^2

Gráfico de la Función de Densidad

Vamos a graficar la función de densidad de la distribución normal con los parámetros dados.

# Cargar librerías
library(ggplot2)

# Parámetros de la distribución normal
mu <- 20
sigma <- 5

# Crear una secuencia de valores x
x <- seq(mu - 4 * sigma, mu + 4 * sigma, length.out = 1000)

# Calcular la función de densidad de la distribución normal
y <- dnorm(x, mean = mu, sd = sigma)

# Crear un data frame para la gráfica
data <- data.frame(x = x, y = y)

# Graficar la función de densidad
g<-ggplot(data, aes(x = x, y = y)) +
  geom_line(color = "blue", size = 1) +
  geom_area(data = subset(data, x >= mu - 4 * sigma & x <= mu + 4 * sigma), 
            fill = "lightblue", alpha = 0.5) +
  labs(title = "Función de Densidad de la Distribución Normal",
       x = "Tiempo de Espera (minutos)",
       y = "Densidad de Probabilidad") +
  theme_minimal() +
  theme(panel.grid = element_blank())
ggplotly(g)

La distribución de probabilidad gamma

Algunas variables aleatorias son siempre no negativas y, por diversas razones, presentan distribuciones de datos sesgadas a la derecha. Esto significa que la mayor parte del área bajo la función de densidad está concentrada cerca del origen, y la función de densidad disminuye gradualmente a medida que el valor de la variable aumenta.

Ejemplos de variables que pueden tener una distribución de probabilidad gamma incluyen los intervalos de tiempo entre fallos de motores de aviones y los intervalos de llegada en una fila de espera en un supermercado. De manera similar, los tiempos requeridos para completar una revisión de mantenimiento para motores de automóviles o aviones también suelen seguir una distribución de frecuencia sesgada. En estos casos, las funciones de densidad de estas variables aleatorias son modeladas adecuadamente por la distribución gamma.

Definición:Distribución Gamma

La distribución gamma es una distribución de probabilidad continua que generaliza la distribución exponencial. Se utiliza en diversos contextos, como en el modelado de tiempos de espera y en teoría de colas.

Definición Formal

Una variable aleatoria \(X\) sigue una distribución gamma con parámetros \(\alpha\) (forma) y \(\beta\) (escala) si su función de densidad de probabilidad (PDF) está dada por:

\[ f(x; \alpha, \beta) = \frac{x^{\alpha-1} e^{-\frac{x}{\beta}}}{\beta^{\alpha} \Gamma(\alpha)}, \quad x > 0, \]

donde: - \(\alpha > 0\) es el parámetro de forma, - \(\beta > 0\) es el parámetro de escala, - \(\Gamma(\alpha)\) es la función gamma, definida como:

\[ \Gamma(\alpha) = \int_0^\infty t^{\alpha-1} e^{-t} \, dt. \]

Propiedades

  1. Valor Esperado: \[ \mathbb{E}[X] = \alpha \beta. \]

  2. Varianza: \[ \text{Var}(X) = \alpha \beta^2. \]

  3. Cuando \(\alpha\) es un entero positivo \(k\), la distribución gamma se convierte en una distribución Erlang con parámetros \(k\) y \(\beta\).

  4. Cuando \(\beta = 1\), la distribución gamma se reduce a la distribución chi-cuadrado con \(2\alpha\) grados de libertad.

La cantidad \(\Gamma(a)\) se conoce como la función gamma. La integración directa muestra que \(\Gamma(1) = 1\). La integración por partes confirma que \(\Gamma(a) = (a - 1) \Gamma(a - 1)\) para cualquier \(a > 1\) y que \(\Gamma(n) = (n - 1)!\), siempre que \(n\) sea un entero.

La forma de la densidad gamma varía para diferentes valores de \(a\), lo cual se refleja en las gráficas de funciones de densidad gamma para \(a = 1\), 2 y 4, y \(b = 1\). Por esta razón, \(a\) a veces se denomina parámetro de forma asociado con la distribución gamma. El parámetro \(b\) generalmente se llama parámetro de escala, ya que multiplicar una variable aleatoria con distribución gamma por una constante positiva cambia la escala de medición, pero la distribución sigue siendo gamma con el mismo valor de \(a\) y un valor alterado de \(b\).

# Cargar librerías
library(ggplot2)
library(dplyr)

# Definir los parámetros
a_values <- c(1, 2, 4)
b_value <- 1

# Crear una secuencia de valores x
x <- seq(0, 10, length.out = 100)

# Generar los datos para las diferentes distribuciones gamma
data <- data.frame(
  x = rep(x, times = length(a_values)),
  a = factor(rep(a_values, each = length(x))),
  density = unlist(lapply(a_values, function(a) dgamma(x, shape = a, scale = b_value)))
)

# Crear el gráfico
ggplot(data, aes(x = x, y = density, color = a, linetype = a)) +
  geom_line(size = 1) +
  labs(
    title = "Función de Densidad Gamma para Diferentes Valores de a",
    x = "x",
    y = "Densidad",
    color = "Parámetro a",
    linetype = "Parámetro a"
  ) +
  theme_minimal()

Cuando \(a\) es un entero, la función de distribución de una variable aleatoria con distribución gamma puede expresarse como una suma de ciertas probabilidades de Poisson. Sin embargo, si \(a\) no es un entero y \(0 < c < d < q\), es imposible obtener una expresión cerrada para la integral de la forma

\[ \int_{c}^{d} y^{a-1} e^{-y/b} \, dy. \]

Por lo tanto, excepto cuando \(a = 1\) (en el caso de una distribución exponencial), es difícil calcular áreas bajo la función de densidad gamma mediante integración directa. En su lugar, se utilizan tablas para estas integrales. La forma más sencilla de calcular probabilidades asociadas con variables aleatorias de distribución gamma es mediante software estadístico. Por ejemplo, en R (o S-Plus), el comando pgamma(y0, a, 1/b) genera \(P(Y \leq y0)\), mientras que qgamma(q, a, 1/b) da el cuantil \(p\) tal que \(P(Y \leq fp) = p\). Además, aplicaciones en línea permiten visualizar y comparar funciones de densidad gamma con diferentes valores de \(a\) y/o \(b\). Estas herramientas son útiles para resolver algunos ejercicios en esta sección.

Ejemplo de Distribución Gamma en Seguros

Contexto:

Supongamos que una compañía de seguros está interesada en modelar el tiempo hasta que se produzca un determinado número de reclamaciones en una póliza de seguros. En este caso, la distribución gamma puede ser útil para modelar el tiempo total hasta que ocurran varias reclamaciones, especialmente si los tiempos entre reclamaciones siguen una distribución exponencial, que es un caso particular de la distribución gamma.

Ejemplo:

Imaginemos que una compañía de seguros quiere modelar el tiempo hasta que ocurran 5 reclamaciones (es decir, \(\alpha = 5\)) en una póliza de seguros. Supongamos que el tiempo entre cada reclamación sigue una distribución exponencial con una tasa de \(\lambda = 1/2\) (lo que implica una escala de \(\beta = 2\)).

Para este caso, la distribución gamma para el tiempo hasta que ocurran 5 reclamaciones tiene los siguientes parámetros: - Parámetro de forma (\(\alpha\)) = 5 - Parámetro de escala (\(\beta\)) = 2

Función de Densidad:

La función de densidad de la distribución gamma es:

\[ f(t; \alpha, \beta) = \frac{t^{\alpha-1} e^{-\frac{t}{\beta}}}{\beta^{\alpha} \Gamma(\alpha)} \]

Donde: - \(\alpha = 5\) (número de reclamaciones), - \(\beta = 2\) (tasa de ocurrencia).

Interpretación:

  • La media del tiempo hasta que ocurren 5 reclamaciones es \(\alpha \beta = 5 \times 2 = 10\) unidades de tiempo.
  • La varianza del tiempo es \(\alpha \beta^2 = 5 \times 2^2 = 20\) unidades de tiempo al cuadrado.

Esto significa que, en promedio, la compañía de seguros puede esperar que pasen 10 unidades de tiempo hasta que ocurran 5 reclamaciones. La variabilidad en el tiempo es medida por la varianza de 20 unidades de tiempo al cuadrado.

Aplicación en el Sector de Seguros:

Este modelo puede ayudar a la compañía de seguros a estimar el tiempo esperado hasta que se produzcan una cantidad específica de reclamaciones, lo cual es útil para la planificación financiera y la gestión de reservas. También puede usarse para estimar el monto total de las reclamaciones acumuladas en un periodo específico.

Visualización en R:

Si deseas visualizar esta distribución en R, puedes usar el siguiente código para graficar la densidad de la distribución gamma con estos parámetros:

# Cargar librerías
library(ggplot2)

# Parámetros de la distribución gamma
alpha <- 5
beta <- 2

# Crear una secuencia de valores t
t <- seq(0, 20, length.out = 100)

# Calcular la densidad de la distribución gamma
density <- dgamma(t, shape = alpha, scale = beta)

# Crear el gráfico
g<-ggplot(data.frame(t = t, density = density), aes(x = t, y = density)) +
  geom_line(size = 1, color = "blue") +
  labs(
    title = "Función de Densidad Gamma para el Tiempo hasta 5 Reclamaciones",
    x = "Tiempo",
    y = "Densidad"
  ) +
  theme_minimal()
ggplotly(g)

Distribución Ji Cuadrada

Sea \(\nu\) un entero positivo. Se dice que una variable aleatoria \(X\) tiene distribución ji cuadrada con \(\nu\) grados de libertad si y sólo si \(X\) es una variable aleatoria con distribución gamma y parámetros \(a = \frac{\nu}{2}\) y \(b = 2\).

Una variable aleatoria con distribución ji cuadrada se denota como \(\chi^2(\nu)\), donde \(\nu\) representa los grados de libertad. Estas variables aleatorias son fundamentales en teoría estadística, apareciendo con frecuencia en pruebas de hipótesis y en el análisis de varianza.

Generación de la Variable Aleatoria \(\chi^2\)

Una de las formas más comunes de generar una variable aleatoria \(\chi^2(\nu)\) es mediante la suma de los cuadrados de \(\nu\) variables aleatorias independientes, cada una con distribución normal estándar \(N(0,1)\). Es decir, si \(Z_1, Z_2, \dots, Z_\nu\) son \(\nu\) variables aleatorias independientes con distribución \(N(0,1)\), entonces:

\[ X = Z_1^2 + Z_2^2 + \dots + Z_\nu^2 \]

tiene una distribución \(\chi^2(\nu)\).

Propiedades

Si \(X\) es una variable aleatoria \(\chi^2(\nu)\) con \(\nu\) grados de libertad, entonces:

  • Esperanza: \(\mathbb{E}(X) = \nu\)
  • Varianza: \(\text{Var}(X) = 2\nu\)
  • Función de Densidad: La función de densidad de probabilidad para \(X\) es:

\[ f_X(x) = \frac{1}{2^{\nu/2}\Gamma(\nu/2)} x^{\nu/2 - 1} e^{-x/2}, \quad x > 0 \]

  • Asimetría: La distribución \(\chi^2(\nu)\) es asimétrica hacia la derecha, y esta asimetría disminuye a medida que \(\nu\) aumenta. Cuando \(\nu\) es grande, la distribución se aproxima a una normal.

Aplicaciones

La distribución \(\chi^2\) es crucial en muchas áreas de la estadística, tales como:

  • Pruebas de bondad de ajuste: En la prueba \(\chi^2\) de Pearson, se usa para evaluar la independencia de dos variables categóricas.
  • Intervalos de confianza: Se utiliza para construir intervalos de confianza para la varianza de una población normal.
  • Análisis de varianza (ANOVA): En ANOVA, se usa para determinar si existen diferencias significativas entre las medias de varios grupos.

Ejemplo: Estimación de la Varianza de una Población

Supongamos que trabajas en una fábrica de componentes electrónicos y deseas estimar la varianza del diámetro de los tornillos producidos. Sabes que los diámetros de los tornillos siguen una distribución normal, pero no conoces la varianza real de la población.

Tomas una muestra aleatoria de \(n = 15\) tornillos y mides sus diámetros, obteniendo las siguientes observaciones (en milímetros):

\[ 2.01, 2.03, 2.00, 1.98, 2.05, 2.02, 2.04, 1.99, 2.01, 2.03, 2.00, 1.97, 2.06, 2.02, 2.04 \]

Calculas la media muestral \(\bar{X}\) y la varianza muestral \(S^2\) utilizando las siguientes fórmulas:

\[ \bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i \]

\[ S^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})^2 \]

Paso 1: Cálculo de la Media Muestral

Calcula la media de los diámetros:

\[ \bar{X} = \frac{2.01 + 2.03 + 2.00 + 1.98 + \dots + 2.04}{15} \approx 2.0167 \, \text{mm} \]

# Datos de los diámetros en milímetros
diametros <- c(2.01, 2.03, 2.00, 1.98, 2.05, 2.02, 2.04, 1.99, 2.01, 2.03, 
               2.00, 1.97, 2.06, 2.02, 2.04)

# Cálculo de la media muestral
media_muestral <- mean(diametros)
media_muestral
## [1] 2.016667

Paso 2: Cálculo de la Varianza Muestral

Luego, calcula la varianza muestral:

\[ S^2 = \frac{(2.01 - 2.0167)^2 + (2.03 - 2.0167)^2 + \dots + (2.04 - 2.0167)^2}{14} \approx 0.000932 \, \text{mm}^2 \]

# Cálculo de la varianza muestral
varianza_muestral <- var(diametros)
varianza_muestral
## [1] 0.0006666667

Paso 3: Relación con la Distribución \(\chi^2\)

Sabemos que si la población sigue una distribución normal \(N(\mu, \sigma^2)\), entonces la estadística:

\[ \chi^2 = \frac{(n-1)S^2}{\sigma^2} \]

sigue una distribución \(\chi^2\) con \(n-1 = 14\) grados de libertad. Esto implica que podemos usar esta estadística para realizar inferencias sobre la varianza poblacional \(\sigma^2\).

# Número de observaciones
n <- length(diametros)

# Estadístico chi-cuadrado
chi_cuadrado <- (n - 1) * varianza_muestral
chi_cuadrado
## [1] 0.009333333

Paso 4: Intervalo de Confianza para la Varianza Poblacional

Si deseas construir un intervalo de confianza del 95% para la varianza poblacional \(\sigma^2\), puedes utilizar la distribución \(\chi^2\). Los límites inferior y superior del intervalo se calculan como:

\[ \left[ \frac{(n-1)S^2}{\chi^2_{1-\alpha/2}}, \frac{(n-1)S^2}{\chi^2_{\alpha/2}} \right] \]

Donde \(\chi^2_{\alpha/2}\) y \(\chi^2_{1-\alpha/2}\) son los valores críticos de la distribución \(\chi^2\) con 14 grados de libertad.

Para un nivel de confianza del 95%, y \(\alpha = 0.05\), estos valores se pueden obtener de una tabla \(\chi^2\). Supongamos que los valores críticos son:

  • \(\chi^2_{0.025, 14} \approx 26.119\)
  • \(\chi^2_{0.975, 14} \approx 5.629\)

El intervalo de confianza para la varianza poblacional sería:

\[ \left[ \frac{14 \times 0.000932}{26.119}, \frac{14 \times 0.000932}{5.629} \right] = \left[ 0.0005, 0.0023 \right] \, \text{mm}^2 \]

# Valores críticos de la distribución chi-cuadrado
chi_critico_inf <- qchisq(0.025, df = n - 1)
chi_critico_sup <- qchisq(0.975, df = n - 1)

# Intervalo de confianza para la varianza poblacional
limite_inf <- (n - 1) * varianza_muestral / chi_critico_sup
limite_sup <- (n - 1) * varianza_muestral / chi_critico_inf

# Resultados del intervalo de confianza
intervalo_confianza <- c(limite_inf, limite_sup)
intervalo_confianza
## [1] 0.0003573396 0.0016581609

Conclusión

Con un 95% de confianza, la varianza real de los diámetros de los tornillos en la población está entre \(0.0005 \, \text{mm}^2\) y \(0.0023 \, \text{mm}^2\). Este ejemplo muestra cómo se usa la distribución \(\chi^2\) para construir un intervalo de confianza para la varianza de una población cuando se parte de una muestra aleatoria y se asume normalidad en los datos.

# Media muestral
print(paste("Media Muestral:", round(media_muestral, 4)))
## [1] "Media Muestral: 2.0167"
# Varianza muestral
print(paste("Varianza Muestral:", round(varianza_muestral, 6)))
## [1] "Varianza Muestral: 0.000667"
# Estadístico chi-cuadrado
print(paste("Estadístico Chi-cuadrado:", round(chi_cuadrado, 4)))
## [1] "Estadístico Chi-cuadrado: 0.0093"
# Intervalo de confianza para la varianza poblacional
print(paste("Intervalo de Confianza para la Varianza:", 
            round(intervalo_confianza[1], 6), "a", round(intervalo_confianza[2], 6)))
## [1] "Intervalo de Confianza para la Varianza: 0.000357 a 0.001658"

Interpretación en R

Al ejecutar este código, obtendrás:

  1. La media muestral de los diámetros.
  2. La varianza muestral de los diámetros.
  3. El valor del estadístico \(\chi^2\).
  4. El intervalo de confianza para la varianza poblacional.

Este conjunto de cálculos en R te permitirá replicar el ejemplo completo y verificar la relación entre la muestra y la distribución \(\chi^2\).

# Cargar las librerías necesarias
library(ggplot2)
library(plotly)

# Parámetros del gráfico
df <- n - 1  # Grados de libertad
chi_values <- seq(0, 30, length.out = 1000)  # Valores para la distribución chi-cuadrado
chi_density <- dchisq(chi_values, df = df)  # Densidad de la distribución chi-cuadrado

# Crear un data frame para ggplot
df_plot <- data.frame(chi_values = chi_values, chi_density = chi_density)

# Crear el gráfico
g<-ggplot(df_plot, aes(x = chi_values, y = chi_density)) +
  geom_line(color = "blue", size = 1) +
  geom_vline(xintercept = chi_critico_inf, color = "red", linetype = "dashed", size = 1) +
  geom_vline(xintercept = chi_critico_sup, color = "red", linetype = "dashed", size = 1) +
  geom_area(data = subset(df_plot, chi_values >= chi_critico_inf & chi_values <= chi_critico_sup),
            aes(x = chi_values, y = chi_density), fill = "red", alpha = 0.3) +
  labs(title = expression(paste("Distribución ", chi^2, " con ", df, " grados de libertad")),
       x = expression(paste(chi^2, " values")),
       y = "Densidad") +
  theme_minimal() +
  annotate("text", x = chi_critico_inf - 2, y = max(chi_density)/2, 
           label = expression(chi[alpha/2]^2), color = "red") +
  annotate("text", x = chi_critico_sup + 2, y = max(chi_density)/2, 
           label = expression(chi[1-alpha/2]^2), color = "red")
g

Explicación del Código:

  • df <- n - 1: Define los grados de libertad para la distribución \(\chi^2\).
  • chi_values: Genera una secuencia de valores para la distribución \(\chi^2\).
  • dchisq: Calcula la densidad de la distribución \(\chi^2\) para cada valor en la secuencia.
  • geom_line: Dibuja la curva de la distribución \(\chi^2\) en el gráfico.
  • geom_vline: Añade líneas verticales en los valores críticos del intervalo de confianza, indicados por las líneas punteadas rojas.
  • geom_area: Sombrea el área bajo la curva que representa el intervalo de confianza, lo que permite visualizar mejor esta región.
  • annotate: Añade anotaciones en el gráfico para indicar los valores críticos en el intervalo de confianza \(\chi^2_{\alpha/2}\) y \(\chi^2_{1-\alpha/2}\).

Este gráfico te permite visualizar la distribución \(\chi^2\) junto con el intervalo de confianza, ayudando a comprender cómo se relacionan los cálculos numéricos con la teoría estadística.

Distribución Exponencial

La función de densidad gamma en la que \(a = 1\) se llama función de densidad exponencial.

Se dice que una variable aleatoria \(X\) tiene una distribución exponencial con parámetro \(b > 0\) si y sólo si la función de densidad de \(X\) es:

\[ f(x) = \begin{cases} \frac{1}{b} e^{-x/b}, & 0 \leq x < \infty, \\ 0, & \text{en cualquier otro punto}. \end{cases} \]

La función de densidad exponencial a menudo es de ayuda para modelar la vida útil de componentes electrónicos. Suponga que el tiempo que ya ha operado un componente no afecta su probabilidad de operar durante al menos \(b\) unidades de tiempo adicionales. Esto es, la probabilidad de que el componente opere durante más de \(a + b\) unidades de tiempo, dado que ya ha operado durante al menos \(a\) unidades de tiempo, es la misma que la probabilidad de que un componente nuevo opere al menos \(b\) unidades de tiempo si el componente nuevo se pone en servicio en el tiempo 0. Un fusible es un ejemplo de un componente para el cual a veces esta suposición es razonable. Veremos en el siguiente ejemplo que la distribución exponencial proporciona un modelo para la distribución de la vida útil de ese componente.

Si \(X\) es una variable aleatoria exponencial con parámetro \(b\), entonces la media y la varianza son:

\[ \text{Media } (m) = E(X) = b \]

\[ \text{Varianza } (s^2) = V(X) = b^2 \]

Ejemplo: Tiempo de Vida de un Fusible

Supongamos que estamos interesados en modelar el tiempo de vida útil de un fusible que sigue una distribución exponencial. Se sabe que el tiempo promedio de vida útil de este tipo de fusible es de 5 años. Queremos responder a las siguientes preguntas:

  1. ¿Cuál es la probabilidad de que un fusible funcione más de 7 años?
  2. ¿Cuál es la probabilidad de que un fusible falle antes de 3 años?
  3. ¿Cuál es la probabilidad de que un fusible funcione entre 4 y 6 años?

Para este ejemplo, el parámetro \(b\) de la distribución exponencial es igual al tiempo promedio de vida útil del fusible, es decir, \(b = 5\) años.

Solución

  1. Probabilidad de que un fusible funcione más de 7 años:

    La probabilidad de que un fusible funcione más de 7 años se puede calcular usando la función de supervivencia de la distribución exponencial, que es complementaria a la función de distribución acumulada (CDF):

    \[ P(X > 7) = 1 - P(X \leq 7) = 1 - F(7) = e^{-7/5} \]

  2. Probabilidad de que un fusible falle antes de 3 años:

    La probabilidad de que un fusible falle antes de 3 años se puede calcular directamente usando la CDF de la distribución exponencial:

    \[ P(X \leq 3) = F(3) = 1 - e^{-3/5} \]

  3. Probabilidad de que un fusible funcione entre 4 y 6 años:

    La probabilidad de que un fusible funcione entre 4 y 6 años se calcula como la diferencia de las probabilidades de fallar antes de 6 años y antes de 4 años:

    \[ P(4 < X \leq 6) = F(6) - F(4) = \left(1 - e^{-6/5}\right) - \left(1 - e^{-4/5}\right) \]

Cálculos en R

Podemos realizar estos cálculos en R de la siguiente manera:

# Parámetro b de la distribución exponencial
b <- 5

# 1. Probabilidad de que un fusible funcione más de 7 años
prob_mas_7 <- exp(-7/b)
prob_mas_7
## [1] 0.246597
# 2. Probabilidad de que un fusible falle antes de 3 años
prob_menos_3 <- 1 - exp(-3/b)
prob_menos_3
## [1] 0.4511884
# 3. Probabilidad de que un fusible funcione entre 4 y 6 años
prob_entre_4_y_6 <- (1 - exp(-6/b)) - (1 - exp(-4/b))
prob_entre_4_y_6
## [1] 0.1481348

Interpretación de Resultados

  • Probabilidad de que el fusible funcione más de 7 años: El valor de \(P(X > 7)\) obtenido en prob_mas_7 nos indica la probabilidad de que el fusible siga funcionando más allá de los 7 años. Dado que la distribución exponencial modela tiempos de vida, un valor alto en esta probabilidad sugiere que el fusible tiene una alta expectativa de vida.

  • Probabilidad de que el fusible falle antes de 3 años: El valor de \(P(X \leq 3)\) obtenido en prob_menos_3 nos proporciona la probabilidad de que el fusible falle antes de cumplir 3 años de uso. Un valor bajo en esta probabilidad indicaría que el fusible es bastante confiable en los primeros años de operación.

  • Probabilidad de que el fusible funcione entre 4 y 6 años: El valor de \(P(4 < X \leq 6)\) calculado en prob_entre_4_y_6 representa la probabilidad de que la vida útil del fusible se encuentre entre 4 y 6 años. Esto es útil para entender la distribución del tiempo de vida en un rango específico, permitiendo planificar reemplazos o mantenimiento.

Este conjunto de resultados ilustra cómo podemos utilizar la distribución exponencial para prever y analizar la durabilidad de componentes electrónicos, como los fusibles, basándonos en su tiempo promedio de vida.

# Cargar la librería necesaria
library(ggplot2)

# Parámetro b de la distribución exponencial
b <- 5

# Crear una secuencia de valores para X
x_values <- seq(0, 15, by = 0.1)

# Función de densidad de la distribución exponencial
density <- dexp(x_values, rate = 1/b)

# Crear un dataframe para ggplot
data <- data.frame(x_values, density)

# Crear el gráfico base
p <- ggplot(data, aes(x = x_values, y = density)) +
  geom_line(color = "blue") +
  labs(title = "Distribución Exponencial", x = "Tiempo (años)", y = "Densidad") +
  theme_minimal()

# Sombrear el área para P(X > 7)
p <- p + geom_area(data = subset(data, x_values > 7), aes(x = x_values, y = density),
                   fill = "red", alpha = 0.3) +
  annotate("text", x = 10, y = 0.05, label = "P(X > 7)", color = "red")

# Sombrear el área para P(X <= 3)
p <- p + geom_area(data = subset(data, x_values <= 3), aes(x = x_values, y = density),
                   fill = "green", alpha = 0.3) +
  annotate("text", x = 1.5, y = 0.08, label = "P(X <= 3)", color = "green")

# Sombrear el área para P(4 < X <= 6)
p <- p + geom_area(data = subset(data, x_values > 4 & x_values <= 6), aes(x = x_values, y = density),
                   fill = "orange", alpha = 0.3) +
  annotate("text", x = 5, y = 0.03, label = "P(4 < X <= 6)", color = "orange")

# Mostrar el gráfico
ggplotly(p)

Interpretación del Código

Este código genera un gráfico que ilustra la función de densidad de la distribución exponencial y las áreas correspondientes a las probabilidades calculadas en el ejemplo.

  1. Línea Azul: La línea azul en el gráfico representa la función de densidad de la distribución exponencial con un parámetro \(b = 5\), que es el tiempo promedio de vida útil del fusible.

  2. Área Roja: Esta área muestra la probabilidad de que el fusible funcione más de 7 años (\(P(X > 7)\)). Esta área se calcula y se sombreada a la derecha del valor 7 en el eje X, resaltando que la probabilidad cubre la cola de la distribución.

  3. Área Verde: El área verde representa la probabilidad de que el fusible falle antes de 3 años (\(P(X \leq 3)\)). Esta área se sombreada a la izquierda del valor 3 en el eje X, lo que ilustra que la probabilidad se concentra en los valores más bajos de la distribución.

  4. Área Naranja: El área naranja corresponde a la probabilidad de que el fusible funcione entre 4 y 6 años (\(P(4 < X \leq 6)\)). Esta área se encuentra entre los valores 4 y 6 en el eje X, destacando el intervalo específico en el que se concentra esta probabilidad.

Este gráfico es una herramienta visual útil para comprender cómo se distribuyen las probabilidades bajo la distribución exponencial y cómo se relacionan con diferentes rangos de tiempo de vida del fusible. Al visualizar estas áreas, es más fácil interpretar y entender las probabilidades calculadas previamente.

Distribución de Probabilidad Beta

Definición

La distribución de probabilidad beta es una distribución continua que se define en el intervalo \(0 \leq x \leq 1\). Es particularmente útil en situaciones donde se desea modelar una variable aleatoria \(X\) que representa proporciones o probabilidades, como la fracción de tiempo que una máquina está en reparación o la proporción de éxito en un experimento.

Formalmente, se dice que una variable aleatoria \(X\) sigue una distribución beta con parámetros \(a > 0\) y \(b > 0\) si su función de densidad de probabilidad está dada por:

\[ f(x) = \frac{x^{a-1}(1-x)^{b-1}}{B(a,b)}, \quad \text{para } 0 \leq x \leq 1 \]

donde \(B(a,b)\) es la función beta, la cual actúa como un factor de normalización para asegurar que el área bajo la curva de la función de densidad sea igual a 1. La función beta está definida como:

\[ B(a,b) = \int_0^1 x^{a-1}(1-x)^{b-1} \, dx \]

La función de densidad es cero en cualquier otro punto fuera del intervalo \([0, 1]\), lo que significa que \(X\) está estrictamente limitada a valores entre 0 y 1.

Función de Distribución Acumulativa

La función de distribución acumulativa (FDA) de la distribución beta, denotada por \(F(x)\), describe la probabilidad de que la variable aleatoria \(X\) tome un valor menor o igual que \(x\). Para una variable aleatoria \(X\) con distribución beta, la FDA está dada por:

\[ F(x) = I_x(a,b) = \frac{1}{B(a,b)} \int_0^x t^{a-1}(1-t)^{b-1} \, dt \]

En esta expresión, \(I_x(a, b)\) se denomina función beta incompleta regularizada. La FDA es útil para determinar la probabilidad acumulada hasta un punto específico en el intervalo \([0, 1]\).

Interpretación y Usos

La flexibilidad de la distribución beta radica en los parámetros \(a\) y \(b\), que permiten modelar una gran variedad de formas de distribución. Por ejemplo:

  • Cuando \(a = b = 1\), la distribución beta se reduce a la distribución uniforme en \([0, 1]\).
  • Si \(a > b\), la distribución está sesgada hacia el extremo derecho, es decir, hacia valores más altos de \(x\).
  • Si \(a < b\), la distribución está sesgada hacia el extremo izquierdo, hacia valores más bajos de \(x\).
  • Si \(a\) y \(b\) son ambos mayores que 1, la distribución es unimodal, con una moda en algún punto intermedio entre 0 y 1.
# Cargar las bibliotecas necesarias
library(ggplot2)

# Definir un conjunto de valores para a y b
params <- data.frame(a = c(0.5, 1,1, 2, 2, 5),
                     b = c(0.5, 1, 2, 1, 5, 2))

# Crear una secuencia de valores de x entre 0 y 1
x <- seq(0, 1, length.out = 100)

# Generar un data frame con las densidades beta para cada combinación de a y b
df <- do.call(rbind, lapply(1:nrow(params), function(i) {
  data.frame(x = x,
             y = dbeta(x, params$a[i], params$b[i]),
             label = paste("a =", params$a[i], ", b =", params$b[i]))
}))

# Graficar usando ggplot2
g<-ggplot(df, aes(x = x, y = y, color = label)) +
  geom_line(size = 1.2) +
  labs(title = "Funciones de Densidad de la Distribución Beta",
       x = "x",
       y = "f(x)",
       color = "Parámetros") +
  theme_minimal()
ggplotly(g)

Debido a esta versatilidad, la distribución beta es comúnmente empleada en la modelación de proporciones en diversas áreas, como en la biología, la economía, y la ingeniería.

Valor Esperado y Varianza

El valor esperado (o media) y la varianza de \(X\) proporcionan información clave sobre la localización y la dispersión de la distribución. Para una variable aleatoria \(X\) con distribución beta, el valor esperado \(E(X)\) y la varianza \(\text{Var}(X)\) se calculan como:

\[ E(X) = \frac{a}{a+b} \]

\[ \text{Var}(X) = \frac{ab}{(a+b)^2(a+b+1)} \]

El valor esperado \(E(X)\) indica el punto central o promedio de la distribución. La varianza \(\text{Var}(X)\), por su parte, mide la dispersión de los valores de \(X\) alrededor del valor esperado. Un valor esperado cercano a \(0.5\) se obtiene cuando \(a\) y \(b\) son iguales, mientras que la varianza disminuye a medida que los parámetros \(a\) y \(b\) aumentan, lo que indica que los valores de \(X\) están más concentrados alrededor del valor esperado.

Extensión a Intervalos Arbitrarios

Aunque la distribución beta está originalmente definida en el intervalo \([0, 1]\), su uso no está limitado a este rango. Si una variable aleatoria \(X\) está definida en un intervalo arbitrario \([c, d]\), podemos transformar \(X\) a una nueva variable \(X^*\) que esté dentro del intervalo \([0, 1]\) utilizando la transformación lineal:

\[ X^* = \frac{X - c}{d - c} \]

Esta transformación permite aplicar la distribución beta a \(X^*\), y por lo tanto, analizar situaciones en intervalos distintos a \([0, 1]\), ampliando aún más la aplicabilidad de la distribución beta en diversas disciplinas.

Ejemplo de Distribución Beta

Modelación de la Proporción de Tiempo que una Máquina Está en Reparación

Supongamos que se quiere modelar la proporción de tiempo que una máquina está en reparación durante un turno de trabajo. Históricamente, se ha observado que la máquina pasa aproximadamente entre el 20% y el 40% del tiempo en reparación. Para capturar esta situación, utilizaremos la distribución beta.

Parámetros

Para este ejemplo, seleccionamos los siguientes parámetros: - \(a = 2\): Este parámetro indica que se espera que la máquina esté en reparación menos del 50% del tiempo, pero más que ocasionalmente. - \(b = 5\): Este parámetro refuerza la idea de que la máquina no debería estar en reparación la mayor parte del tiempo.

Visualización de la Distribución

La función de densidad de la distribución beta con estos parámetros tiene la siguiente forma:

# Instalar y cargar ggplot2 si no está instalado

library(ggplot2)

# Parámetros a y b
a <- 2
b <- 5

# Crear una secuencia de valores de x entre 0 y 1
x <- seq(0, 1, length.out = 100)

# Calcular la densidad beta para cada valor de x
y <- dbeta(x, a, b)

# Crear un data frame para ggplot
df <- data.frame(x = x, y = y)

# Graficar la función de densidad beta
g<-ggplot(df, aes(x = x, y = y)) +
  geom_line(color = "blue", size = 1.2) +
  labs(title = "Función de Densidad de la Distribución Beta",
       subtitle = "a = 2, b = 5",
       x = "Proporción de tiempo en reparación (x)",
       y = "Densidad f(x)") +
  theme_minimal()
ggplotly(g)

Interpretación

  1. Forma de la Distribución: La gráfica muestra que la densidad está más concentrada cerca de valores bajos de \(x\), lo que sugiere que es más probable que la máquina pase una pequeña proporción de tiempo en reparación. Sin embargo, hay una cola en la distribución que indica una probabilidad no despreciable de que la máquina esté en reparación durante una fracción mayor del turno.

  2. Valor Esperado: El valor esperado (o media) de esta distribución es:

    \[ E(X) = \frac{a}{a+b} = \frac{2}{2+5} = \frac{2}{7} \approx 0.2857 \]

    Esto sugiere que, en promedio, la máquina está en reparación el 28.57% del tiempo.

  3. Varianza: La varianza de esta distribución es:

    \[ \text{Var}(X) = \frac{ab}{(a+b)^2(a+b+1)} = \frac{2 \times 5}{(2+5)^2 \times (2+5+1)} = \frac{10}{49 \times 8} \approx 0.0286 \]

    Una varianza baja indica que los valores de \(x\) estarán relativamente cerca de la media.

Aplicación

Este tipo de análisis es útil para predecir el comportamiento futuro de la máquina y planificar el mantenimiento de manera efectiva, minimizando el tiempo de inactividad. La flexibilidad de la distribución beta la hace ideal para modelar proporciones y probabilidades en una amplia gama de aplicaciones industriales y científicas.

Problema

Una distribuidora mayorista de gasolina tiene tanques de almacenamiento a granel que contienen suministros fijos y se llenan cada lunes. De interés para la mayorista es la proporción de este suministro que se vende durante la semana. Durante varias semanas de observación, la distribuidora encontró que esta proporción podría ser modelada por una distribución beta con \(\alpha = 4\) y \(\beta = 2\). Encuentre la probabilidad de que la mayorista venda al menos 90% de su existencia en una semana determinada.

Solución

Para resolver este problema, debemos calcular la probabilidad de que la proporción de suministro vendido sea mayor o igual al 90%. Esta probabilidad se puede obtener utilizando la función de distribución acumulada (CDF) de la distribución beta.

La probabilidad que buscamos es:

\[ P(X \geq 0.9) = 1 - P(X < 0.9) \]

Usando la función de distribución acumulada (CDF) para una distribución beta con parámetros \(\alpha = 4\) y \(\beta = 2\), podemos calcular:

\[ P(X \geq 0.9) = 1 - F(0.9; \alpha = 4, \beta = 2) \]

Donde \(F(0.9; \alpha = 4, \beta = 2)\) es la función de distribución acumulada evaluada en 0.9. Esto se puede calcular utilizando herramientas estadísticas o software especializado.

Resultado:

La probabilidad de que la mayorista venda al menos el 90% de su existencia en una semana determinada es de aproximadamente 0.0081. No es muy probable que el 90% de la existencia se venda en una semana determinada.

# Parámetros de la distribución beta
alpha <- 4
beta <- 2

# Probabilidad de vender al menos el 90% de la existencia
prob <- 1 - pbeta(0.9, alpha, beta)
prob
## [1] 0.08146
# Cargar la librería ggplot2
library(ggplot2)

# Parámetros de la distribución beta
alpha <- 4
beta <- 2

# Generar datos para la distribución beta
x <- seq(0, 1, length.out = 100)
y <- dbeta(x, alpha, beta)
data <- data.frame(x = x, y = y)

# Calcular la probabilidad de vender al menos el 90% de la existencia
prob <- 1 - pbeta(0.9, alpha, beta)

# Crear el gráfico con ggplot2
g<-ggplot(data, aes(x = x, y = y)) +
  geom_line(color = "blue", size = 1) +  # Línea de densidad
  geom_area(data = subset(data, x >= 0.9), aes(x = x, y = y), fill = "lightblue", alpha = 0.5) +  # Sombrear la región de interés
  geom_vline(xintercept = 0.9, linetype = "dashed", color = "red", size = 1) +  # Línea vertical en x = 0.9
  labs(title = "Distribución Beta (alpha = 4, beta = 2)",
       x = "Proporción de suministro vendido",
       y = "Densidad de probabilidad") +
  annotate("text", x = 0.5, y = 2.5, label = paste("P(X >= 0.9) =", round(prob, 4)), size = 5) +
  theme_minimal()
ggplotly(g)

Explicación:

Generación de datos: Se crea una secuencia de valores x entre 0 y 1 y se calcula la densidad de la distribución beta para cada valor de x. Estos datos se almacenan en un data frame.

Cálculo de la probabilidad: Se utiliza pbeta para calcular la probabilidad acumulada hasta 0.9 y se resta de 1 para obtener la probabilidad de interés.

Gráfico con ggplot2:

  • geom_line dibuja la curva de densidad de la distribución beta.
  • geom_area sombrea el área bajo la curva para los valores de x mayores o iguales a 0.9.
  • geom_vline agrega una línea vertical en 0.9 para resaltar el umbral.
  • annotate se utiliza para añadir el valor de la probabilidad calculada en el gráfico.

Resultado:
Este gráfico con ggplot2 te proporciona una visualización clara de la distribución beta y la región de interés, mostrando que no es muy probable que el 90% de la existencia se venda en una semana determinada.

Distribución Weibull

La distribución Weibull es una distribución de probabilidad continua utilizada para modelar el tiempo de vida de productos y sistemas. Es particularmente útil en análisis de supervivencia y confiabilidad. Su función de densidad de probabilidad (PDF) está dada por:

\[ f(x; \lambda, k) = \begin{cases} \frac{k}{\lambda} \left(\frac{x}{\lambda}\right)^{k-1} e^{-(x/\lambda)^k} & x \geq 0, \\ 0 & x < 0, \end{cases} \]

donde \(\lambda > 0\) es el parámetro de escala y \(k > 0\) es el parámetro de forma.

Valor Esperado

El valor esperado de una variable aleatoria \(X\) que sigue una distribución Weibull es:

\[ \mathbb{E}[X] = \lambda \Gamma\left(1 + \frac{1}{k}\right), \]

donde \(\Gamma(\cdot)\) es la función Gamma.

Varianza

La varianza de la distribución Weibull está dada por:

\[ \text{Var}(X) = \lambda^2 \left[\Gamma\left(1 + \frac{2}{k}\right) - \left(\Gamma\left(1 + \frac{1}{k}\right)\right)^2\right]. \]

Aplicaciones y Propiedades

La distribución Weibull es ampliamente utilizada en ingeniería y ciencias para modelar tiempos de falla, análisis de supervivencia y confiabilidad de sistemas. Se aplica en campos como la biología, manufactura y meteorología, entre otros. Una de las propiedades clave de la distribución Weibull es su flexibilidad: dependiendo del valor del parámetro de forma \(k\), puede modelar diferentes comportamientos, desde una distribución exponencial (\(k = 1\)) hasta una distribución con tasas de falla crecientes o decrecientes. Esto la hace muy versátil para distintas aplicaciones prácticas.

Ejemplo de Distribución Weibull

Problema:

Supongamos que una empresa fabrica componentes electrónicos y desea modelar el tiempo hasta la falla de un componente usando la distribución Weibull. Los datos históricos sugieren que la vida útil de estos componentes sigue una distribución Weibull con un parámetro de escala \(\lambda = 1000\) horas y un parámetro de forma \(k = 1.5\).

Queremos calcular el valor esperado y la varianza del tiempo hasta la falla. También queremos determinar la probabilidad de que un componente falle después de 1200 horas.

Solución:

  1. Cálculo del Valor Esperado:

    La fórmula del valor esperado es:

    \[ \mathbb{E}[X] = \lambda \Gamma\left(1 + \frac{1}{k}\right) \]

    Sustituyendo los valores:

    \[ \mathbb{E}[X] = 1000 \cdot \Gamma\left(1 + \frac{1}{1.5}\right) \]

    Usando una calculadora de la función Gamma:

    \[ \mathbb{E}[X] \approx 1000 \cdot \Gamma(1.6667) \approx 1000 \cdot 1.354 \approx 1354 \text{ horas} \]

  2. Cálculo de la Varianza:

    La fórmula de la varianza es:

    \[ \text{Var}(X) = \lambda^2 \left[\Gamma\left(1 + \frac{2}{k}\right) - \left(\Gamma\left(1 + \frac{1}{k}\right)\right)^2\right] \]

    Sustituyendo los valores:

    \[ \text{Var}(X) = 1000^2 \left[\Gamma\left(1 + \frac{2}{1.5}\right) - \left(\Gamma\left(1 + \frac{1}{1.5}\right)\right)^2\right] \]

    Usando una calculadora de la función Gamma:

    \[ \text{Var}(X) \approx 1000^2 \left[\Gamma(2.3333) - \left(\Gamma(1.6667)\right)^2\right] \approx 1000^2 \left(2.680 - 1.832^2\right) \approx 1000^2 \cdot 0.355 \approx 355000 \text{ horas}^2 \]

  3. Probabilidad de que un componente falle después de 1200 horas:

    Usamos la función de distribución acumulada (CDF) para la distribución Weibull para encontrar:

    \[ P(X > 1200) = 1 - F(1200) = 1 - \left(1 - e^{-(1200/1000)^{1.5}}\right) \]

    Calculando:

    \[ P(X > 1200) = e^{-(1.2)^{1.5}} \approx e^{-1.549} \approx 0.212 \]

    Por lo tanto, la probabilidad de que un componente falle después de 1200 horas es aproximadamente 0.212, o 21.2%.

Este ejemplo ilustra cómo se pueden calcular el valor esperado, la varianza y la probabilidad de fallo utilizando la distribución Weibull en el contexto de la confiabilidad de componentes.

# Parámetros de la distribución Weibull
lambda <- 1000  # Parámetro de escala
k <- 1.5        # Parámetro de forma

# Cálculo del valor esperado
valor_esperado <- lambda * gamma(1 + 1 / k)
cat("Valor esperado:", valor_esperado, "horas\n")
## Valor esperado: 902.7453 horas
# Cálculo de la varianza
varianza <- lambda^2 * (gamma(1 + 2 / k) - (gamma(1 + 1 / k))^2)
cat("Varianza:", varianza, "horas^2\n")
## Varianza: 375690.3 horas^2
# Cálculo de la probabilidad de falla después de 1200 horas
tiempo <- 1200
prob_falla <- 1 - pweibull(tiempo, shape = k, scale = lambda)
cat("Probabilidad de falla después de", tiempo, "horas:", prob_falla, "\n")
## Probabilidad de falla después de 1200 horas: 0.2685994

Explicación del Código

  1. Parámetros de la distribución Weibull:
    • Se definen los parámetros lambda (escala) y k (forma) de la distribución Weibull.
  2. Cálculo del valor esperado:
    • Se utiliza la función gamma() para calcular la función Gamma de los parámetros necesarios.
    • La fórmula para el valor esperado es \(\mathbb{E}[X] = \lambda \cdot \Gamma\left(1 + \frac{1}{k}\right)\).
  3. Cálculo de la varianza:
    • Se calcula la varianza usando la fórmula \(\text{Var}(X) = \lambda^2 \left[\Gamma\left(1 + \frac{2}{k}\right) - \left(\Gamma\left(1 + \frac{1}{k}\right)\right)^2\right]\).
  4. Cálculo de la probabilidad de falla después de 1200 horas:
    • Se utiliza pweibull() para calcular la función de distribución acumulada (CDF) de la distribución Weibull.
    • La probabilidad de que el componente falle después de 1200 horas se calcula como \(1 - \text{CDF}\).
# Cargar la librería ggplot2
library(ggplot2)

# Parámetros de la distribución Weibull
lambda <- 1000
k <- 1.5

# Crear una secuencia de valores de tiempo
tiempo <- seq(0, 2000, length.out = 500)

# Calcular la densidad de la distribución Weibull para estos valores
densidad <- dweibull(tiempo, shape = k, scale = lambda)

# Crear un data frame para ggplot2
data <- data.frame(tiempo, densidad)

# Calcular la probabilidad de falla después de 1200 horas
prob_falla <- 1 - pweibull(1200, shape = k, scale = lambda)

# Crear el gráfico
g<-ggplot(data, aes(x = tiempo, y = densidad)) +
  geom_line(color = "blue") +
  geom_vline(xintercept = 1200, linetype = "dashed", color = "red") +
  geom_area(data = subset(data, tiempo >= 1200), aes(x = tiempo, y = densidad), fill = "red", alpha = 0.3) +
  annotate("text", x = 1500, y = max(densidad) * 0.8, label = sprintf("Probabilidad de falla > 1200 horas: %.2f%%", prob_falla * 100), color = "red") +
  labs(title = "Distribución Weibull", x = "Tiempo (horas)", y = "Densidad") +
  theme_minimal()
ggplotly(g)

Explicación del Código

  1. Parámetros de la distribución Weibull:
    • lambda y k son los parámetros de escala y forma de la distribución Weibull, respectivamente.
  2. Generación de datos:
    • Se crea una secuencia de valores de tiempo desde 0 hasta 2000 horas utilizando seq().
    • La densidad de la distribución Weibull para estos valores se calcula con dweibull() y se almacena en un data frame.
  3. Cálculo de la probabilidad de falla:
    • La probabilidad de que un componente falle después de 1200 horas se obtiene usando pweibull() y se calcula como \(1 - \text{pweibull}(1200)\).
  4. Creación del gráfico con ggplot2:
    • geom_line() dibuja la curva de densidad de la distribución Weibull.
    • geom_vline() añade una línea vertical en 1200 horas para indicar el umbral de interés.
    • geom_area() sombrea el área bajo la curva para tiempos mayores o iguales a 1200 horas.
    • annotate() agrega una etiqueta al gráfico que muestra la probabilidad de falla después de 1200 horas.
    • labs() establece el título del gráfico y las etiquetas de los ejes.
    • theme_minimal() aplica un estilo de gráfico minimalista.

Distribución t de Student

Definición Formal

La distribución t de Student es una distribución de probabilidad crucial en estadística, especialmente cuando se trata de estimar la media de una población con una muestra pequeña. Esta distribución se utiliza cuando la desviación estándar de la población no es conocida y se debe estimar a partir de la muestra. Matemáticamente, su función de densidad de probabilidad (pdf) está definida por:

\[ f(t; \nu) = \frac{\Gamma\left(\frac{\nu + 1}{2}\right)}{\sqrt{\nu \pi} \, \Gamma\left(\frac{\nu}{2}\right)} \left(1 + \frac{t^2}{\nu}\right)^{-\frac{\nu + 1}{2}} \]

donde \(\nu\) representa los grados de libertad y \(\Gamma(\cdot)\) es la función gamma.

Valor Esperado y Varianza

En términos de expectativas, la media de la distribución t de Student es bastante intuitiva. Para cualquier número de grados de libertad \(\nu\) mayor que 1, la media es 0. Esto significa que la distribución es simétrica alrededor del valor 0.

Por otro lado, la varianza de la distribución t se calcula de la siguiente manera:

\[ \text{Var}(T) = \frac{\nu}{\nu - 2} \]

Es importante destacar que esta fórmula solo es válida cuando \(\nu\) es mayor que 2. Si el número de grados de libertad es menor o igual a 2, la varianza no está definida, lo que implica que la distribución tiene colas demasiado pesadas para ser cuantificadas de manera simple.

Propiedades

  1. Simetría: La distribución t es simétrica en torno a cero, lo que significa que la forma de la distribución es idéntica a ambos lados del eje vertical que pasa por el cero.

  2. Colas Pesadas: A diferencia de la distribución normal, la distribución t tiene colas más pesadas. Esto indica que es más probable observar valores extremos en comparación con la distribución normal.

  3. Convergencia a la Normalidad: A medida que el número de grados de libertad aumenta, la distribución t se aproxima cada vez más a la distribución normal estándar. En esencia, para muestras grandes, la diferencia entre ambas distribuciones se vuelve insignificante.

  4. Aplicaciones en Inferencia Estadística: La distribución t es fundamental en la inferencia estadística. Se utiliza en pruebas de hipótesis y en la construcción de intervalos de confianza cuando se trata de muestras pequeñas y la desviación estándar poblacional es desconocida.

Aplicaciones

  1. Pruebas de Hipótesis: La distribución t es utilizada para realizar pruebas de hipótesis sobre la media de una población, especialmente en situaciones donde el tamaño de la muestra es reducido y no se conoce la desviación estándar de la población. Un ejemplo típico es la prueba t de Student para una muestra.

  2. Intervalos de Confianza: En la estimación de la media de una población, la distribución t permite calcular intervalos de confianza en muestras pequeñas, proporcionando una forma de evaluar la precisión de las estimaciones hechas a partir de los datos muestrales.

  3. Regresión Lineal: En el análisis de regresión lineal, la distribución t juega un rol crucial en la evaluación de la significancia de los coeficientes de regresión. Esto ayuda a determinar si las relaciones entre variables en un modelo de regresión son estadísticamente significativas.

  4. Comparación de Medias: La distribución t también es utilizada en la comparación de medias entre dos grupos. La prueba t de dos muestras, por ejemplo, permite evaluar si las diferencias observadas entre dos grupos son estadísticamente significativas.

En resumen, la distribución t de Student es una herramienta estadística versátil y esencial, particularmente valiosa cuando se trabaja con muestras pequeñas y se busca hacer inferencias sobre la media poblacional.

Ejemplo de la Distribución t de Student

Contexto del Problema

Supongamos que eres un investigador que trabaja en una empresa de productos de consumo, y estás interesado en evaluar si una nueva fórmula de un producto de limpieza es significativamente más eficaz que la fórmula actual. Para hacerlo, decides realizar un experimento controlado en el que comparas la eficacia de ambas fórmulas.

Datos del Experimento

  • Grupo Control (Fórmula Actual): Se toma una muestra de 8 productos, y se mide su eficacia en una escala de 0 a 100. Los resultados obtenidos son: 45, 50, 52, 48, 49, 47, 51, 46.

  • Grupo Experimental (Nueva Fórmula): Se toma una muestra de 10 productos con la nueva fórmula, y se mide su eficacia en la misma escala. Los resultados obtenidos son: 55, 58, 57, 60, 62, 59, 56, 61, 64, 63.

Objetivo

Queremos determinar si hay una diferencia significativa en la eficacia media entre las dos fórmulas, utilizando un nivel de significancia del 5%.

Procedimiento

  1. Calcular la Media y Desviación Estándar para Ambos Grupos:

    • Grupo Control: Media = 49, Desviación Estándar = 2.52
    • Grupo Experimental: Media = 59.5, Desviación Estándar = 3.27
  2. Realizar la Prueba t para Dos Muestras Independientes:

    Utilizamos la prueba t para dos muestras independientes para comparar las medias de los dos grupos. La fórmula para el valor t es:

    \[ t = \frac{\bar{X}_1 - \bar{X}_2}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}} \]

    Donde:

    • \(\bar{X}_1\) y \(\bar{X}_2\) son las medias de los dos grupos,
    • \(s_1^2\) y \(s_2^2\) son las varianzas de los dos grupos,
    • \(n_1\) y \(n_2\) son los tamaños de muestra.

    Para este ejemplo:

    \[ t = \frac{49 - 59.5}{\sqrt{\frac{2.52^2}{8} + \frac{3.27^2}{10}}} = -8.20 \]

  3. Determinar el Valor Crítico y Comparar:

    Con un nivel de significancia del 5% y grados de libertad combinados, calculamos el valor crítico para la distribución t. Si el valor t calculado es menor que el valor crítico (en valor absoluto), rechazamos la hipótesis nula de que no hay diferencia entre las medias.

  4. Conclusión:

    Dado que el valor t calculado es significativamente grande en valor absoluto, se rechaza la hipótesis nula. Esto indica que hay una diferencia significativa en la eficacia media entre las dos fórmulas.

Interpretación

El análisis muestra que la nueva fórmula es significativamente más eficaz que la fórmula actual, con una diferencia en la media que es estadísticamente significativa. Por lo tanto, se puede concluir que la nueva fórmula tiene un efecto positivo en la eficacia del producto.

Este ejemplo ilustra cómo se puede aplicar la distribución t de Student para comparar dos grupos y tomar decisiones basadas en evidencia estadística.

Solución en R

# Paso 1: Definir los datos
grupo_control <- c(45, 50, 52, 48, 49, 47, 51, 46)
grupo_experimental <- c(55, 58, 57, 60, 62, 59, 56, 61, 64, 63)

# Paso 2: Calcular la media y desviación estándar
media_control <- mean(grupo_control)
sd_control <- sd(grupo_control)
media_experimental <- mean(grupo_experimental)
sd_experimental <- sd(grupo_experimental)

# Mostrar medias y desviaciones estándar
cat("Media del Grupo Control:", media_control, "\n")
## Media del Grupo Control: 48.5
cat("Desviación Estándar del Grupo Control:", sd_control, "\n")
## Desviación Estándar del Grupo Control: 2.44949
cat("Media del Grupo Experimental:", media_experimental, "\n")
## Media del Grupo Experimental: 59.5
cat("Desviación Estándar del Grupo Experimental:", sd_experimental, "\n")
## Desviación Estándar del Grupo Experimental: 3.02765
# Paso 3: Realizar la prueba t
resultado_prueba_t <- t.test(grupo_control, grupo_experimental, var.equal = TRUE)

# Mostrar resultados de la prueba t
cat("Valor t:", resultado_prueba_t$statistic, "\n")
## Valor t: -8.313363
cat("Valor p:", resultado_prueba_t$p.value, "\n")
## Valor p: 3.356723e-07
cat("Intervalo de Confianza:", resultado_prueba_t$conf.int, "\n")
## Intervalo de Confianza: -13.805 -8.195003
# Paso 4: Visualizar los resultados
library(ggplot2)

# Crear un data frame para la gráfica
datos <- data.frame(
  Grupo = rep(c("Control", "Experimental"), times = c(length(grupo_control), length(grupo_experimental))),
  Eficacia = c(grupo_control, grupo_experimental)
)

# Gráfico de cajas (boxplot)
g<-ggplot(datos, aes(x = Grupo, y = Eficacia, fill = Grupo)) +
  geom_boxplot() +
  labs(title = "Comparación de la Eficacia entre las Fórmulas",
       x = "Grupo",
       y = "Eficacia") +
  theme_minimal()
ggplotly(g)

Explicación del Código

  1. Definición de Datos: Se definen dos vectores, grupo_control y grupo_experimental, que contienen los datos de eficacia para el grupo control y el grupo experimental, respectivamente.

  2. Cálculo de Media y Desviación Estándar: Utilizamos las funciones mean() y sd() para calcular la media y la desviación estándar de cada grupo. Estos valores se almacenan en las variables media_control, sd_control, media_experimental, y sd_experimental. Luego, se imprimen en la consola para comparar las medidas de centralización y dispersión de ambos grupos.

  3. Prueba t: La función t.test() realiza una prueba t para comparar las medias de dos muestras independientes, asumiendo igualdad de varianzas (var.equal = TRUE). Esta función devuelve un objeto que incluye el valor t, el valor p, y el intervalo de confianza para la diferencia de medias. Estos resultados se imprimen para evaluar si existe una diferencia estadísticamente significativa entre las dos fórmulas.

  4. Visualización: Usamos la librería ggplot2 para crear un gráfico de cajas (boxplot) que muestra la distribución de la eficacia en cada grupo. El data.frame datos se utiliza para almacenar y organizar los datos para la visualización. El gráfico se construye con ggplot(), donde aes(x = Grupo, y = Eficacia, fill = Grupo) define las estéticas del gráfico, geom_boxplot() crea el gráfico de cajas, y labs() agrega títulos y etiquetas. theme_minimal() se utiliza para aplicar un tema visual limpio.

Ejercicios parte 1

Distribución Uniforme Discreta

  • Ejercicio 1: Lanza un dado justo de 6 caras. ¿Cuál es la probabilidad de obtener un número par?

  • Ejercicio 2: Un número se selecciona al azar entre 1 y 10. ¿Cuál es la probabilidad de que el número seleccionado sea mayor que 7?

  • Ejercicio 3: Una urna contiene 10 bolas numeradas del 1 al 10. ¿Cuál es la probabilidad de extraer una bola con un número menor o igual a 4?

  • Ejercicio Actuarial 1: Un asegurador ofrece una póliza con un premio que varía uniformemente entre 200 y 500 unidades monetarias. Calcula la probabilidad de que un cliente pague un premio superior a 400 unidades.

  • Ejercicio Actuarial 2: Supón que el número de eventos de reclamaciones por siniestro sigue una distribución uniforme discreta entre 1 y 10. Calcula la probabilidad de que se presenten entre 4 y 7 reclamaciones.

  • Ejercicio Salud 1: En un estudio, se selecciona aleatoriamente un paciente de un grupo de 15 pacientes con igual probabilidad. ¿Cuál es la probabilidad de seleccionar un paciente que tenga más de 10 años en el estudio si el grupo de estudio tiene edades uniformemente distribuidas entre 5 y 20 años?

Distribución Bernoulli

  • Ejercicio 1: Se lanza una moneda justa. ¿Cuál es la probabilidad de obtener cara?

  • Ejercicio 2: Un test de diagnóstico tiene una tasa de éxito del 85%. ¿Cuál es la probabilidad de que el test resulte exitoso?

  • Ejercicio 3: En un experimento de laboratorio, la probabilidad de que una muestra sea defectuosa es 0.1. ¿Cuál es la probabilidad de que la muestra sea defectuosa?

  • Ejercicio Actuarial 1: En una póliza de seguro, la probabilidad de un evento catastrófico es de 0.1. Si el evento es modelado por una distribución de Bernoulli, ¿cuál es la probabilidad de que el evento ocurra en una póliza dada?

  • Ejercicio Actuarial 2: Supón que un asegurador ofrece un seguro con una probabilidad de siniestro de 0.3. Calcula la probabilidad de que no haya siniestro en un año dado.

  • Ejercicio Salud 1: En un estudio de eficacia de una vacuna, el éxito de la vacunación se modela como una variable de Bernoulli con \(p = 0.9\). ¿Cuál es la probabilidad de que un paciente no esté protegido?

Distribución Geométrica

  • Ejercicio 1: ¿Cuál es la probabilidad de obtener el primer seis en el tercer lanzamiento de un dado justo?

  • Ejercicio 2: Si el tiempo hasta que se presenta un defecto en una producción sigue una distribución geométrica con \(p = 0.2\), ¿cuál es la probabilidad de que el primer defecto ocurra en el cuarto intento?

  • Ejercicio 3: En un proceso de pruebas, la probabilidad de éxito en cada prueba es de 0.4. ¿Cuál es la probabilidad de necesitar exactamente 5 pruebas para tener el primer éxito?

  • Ejercicio Actuarial 1: Un asegurador evalúa el número de años hasta que se presenta el primer siniestro en una póliza de seguro. Si el tiempo hasta el primer siniestro sigue una distribución geométrica con \(p = 0.2\), calcula la probabilidad de que el primer siniestro ocurra en el tercer año.

  • Ejercicio Actuarial 2: En el análisis de riesgo, el tiempo hasta que un cliente realiza una reclamación se modela con una distribución geométrica con \(p = 0.4\). ¿Cuál es la esperanza y la varianza del tiempo esperado hasta la primera reclamación?

  • Ejercicio Salud 1: En un estudio sobre la aparición de efectos secundarios de un tratamiento, se asume que el número de tratamientos hasta observar un efecto secundario sigue una distribución geométrica con \(p = 0.1\). ¿Cuál es la probabilidad de observar el primer efecto secundario en el quinto tratamiento?

Distribución Poisson

  • Ejercicio 1: ¿Cuál es la probabilidad de que ocurran exactamente 3 eventos en un intervalo de tiempo si la tasa de eventos es 2 por intervalo?

  • Ejercicio 2: En una línea de producción, el número de defectos en una hora sigue una distribución de Poisson con una tasa de \(\lambda = 5\). ¿Cuál es la probabilidad de observar exactamente 4 defectos en una hora?

  • Ejercicio 3: Si el número de llamadas a un centro de atención telefónica sigue una distribución Poisson con \(\lambda = 10\) llamadas por hora, ¿cuál es la probabilidad de recibir menos de 8 llamadas en una hora?

  • Ejercicio Actuarial 1: El número de reclamaciones de seguros en una región sigue una distribución de Poisson con una tasa de \(\lambda = 12\) reclamaciones por año. ¿Cuál es la probabilidad de recibir exactamente 10 reclamaciones en un año?

  • Ejercicio Actuarial 2: En un análisis de riesgo de una póliza, se estima que el número de siniestros en un año sigue una distribución de Poisson con \(\lambda = 8\). Calcula la probabilidad de que haya entre 5 y 7 siniestros en un año.

  • Ejercicio Salud 1: El número de hospitalizaciones por una enfermedad rara en una población de 1,000 personas sigue una distribución de Poisson con una tasa de \(\lambda = 2\). ¿Cuál es la probabilidad de observar exactamente 1 hospitalización en esa población?

Distribución Binomial

  • Ejercicio 1: ¿Cuál es la probabilidad de obtener exactamente 3 caras en 5 lanzamientos de una moneda justa?

  • Ejercicio 2: Un test tiene una probabilidad de éxito del 0.7. ¿Cuál es la probabilidad de obtener exactamente 4 éxitos en 6 pruebas?

  • Ejercicio 3: Si un dado se lanza 4 veces, ¿cuál es la probabilidad de obtener al menos un seis?

  • Ejercicio Actuarial 1: Un modelo de riesgo en seguros usa una distribución binomial para representar el número de siniestros en un grupo de 15 pólizas, con una probabilidad de siniestro de 0.2 por póliza. Calcula la probabilidad de tener exactamente 4 siniestros.

  • Ejercicio Actuarial 2: En un estudio actuarial, se estima que la probabilidad de un evento de pérdida en una póliza de seguro es \(p = 0.3\) y el número de pólizas es \(n = 10\). ¿Cuál es la probabilidad de que haya al menos 3 eventos de pérdida?

  • Ejercicio Salud 1: En un estudio de eficacia de un nuevo medicamento, la tasa de éxito en cada paciente sigue una distribución binomial con \(n = 20\) y \(p = 0.8\). ¿Cuál es la probabilidad de que al menos 15 pacientes respondan positivamente al medicamento?

Distribución Binomial Negativa

  • Ejercicio 1: ¿Cuál es la probabilidad de obtener el tercer éxito en el quinto intento, si la probabilidad de éxito en cada intento es 0.4?

  • Ejercicio 2: En un experimento, se necesita 7 intentos para obtener el segundo éxito. Si la probabilidad de éxito en cada intento es 0.5, ¿cuál es la probabilidad de que se necesiten exactamente 7 intentos?

  • Ejercicio 3: Si la probabilidad de éxito en cada intento es 0.3 y se necesitan 4 éxitos, ¿cuál es la probabilidad de obtener el cuarto éxito en el décimo intento?

  • Ejercicio Actuarial 1: Un asegurador modela el número de años hasta que un cliente presenta su tercer siniestro utilizando una distribución binomial negativa con \(r = 3\) y \(p = 0.2\). ¿Cuál es la probabilidad de que el tercer siniestro ocurra en el sexto año?

  • Ejercicio Actuarial 2: En el análisis de riesgos, se modela el número de reclamaciones hasta que un cliente presenta su cuarto siniestro con una distribución binomial negativa con \(r = 4\) y \(p = 0.25\). ¿Cuál es la probabilidad de que se necesiten 10 reclamaciones para que ocurra el cuarto siniestro?

  • Ejercicio Salud 1: En un estudio sobre la recurrencia de una enfermedad, se utiliza una distribución binomial negativa para modelar el número de episodios hasta que un paciente tenga su quinto episodio, con \(p = 0.3\). ¿Cuál es la probabilidad de que un paciente necesite al menos 7 episodios para el quinto?

Distribución Hipergeométrica

  • Ejercicio 1: En una urna con 20 bolas rojas y 30 bolas verdes, se extraen 10 bolas sin reemplazo. ¿Cuál es la probabilidad de que exactamente 4 de las bolas extraídas sean rojas?

  • Ejercicio 2: Se seleccionan 5 cartas de una baraja de 52 cartas sin reemplazo. ¿Cuál es la probabilidad de que exactamente 2 de las cartas sean tréboles?

  • Ejercicio 3: En una fábrica con 50 productos, 10 de los cuales son defectuosos, se seleccionan 8 productos al azar sin reemplazo. ¿Cuál es la probabilidad de que exactamente 3 de los productos seleccionados sean defectuosos?

  • Ejercicio Actuarial 1: Un asegurador selecciona al azar una muestra de 15 pólizas de una cartera de 100 pólizas, de las cuales 20 tienen un siniestro. Calcula la probabilidad de que exactamente 5 de las pólizas seleccionadas tengan un siniestro.

  • Ejercicio Actuarial 2: Supón que en una cartera de 80 pólizas, 25 han tenido reclamaciones. Si se seleccionan 12 pólizas al azar sin reemplazo, ¿cuál es la probabilidad de que exactamente 6 de ellas hayan tenido reclamaciones?

  • Ejercicio Salud 1: En un estudio sobre la prevalencia de una condición médica en una población, se seleccionan 10 pacientes de un grupo de 100 pacientes, 15 de los cuales tienen la condición. ¿Cuál es la probabilidad de que exactamente 4 pacientes seleccionados tengan la condición?

Distribución Uniforme Continua

  • Ejercicio 1: Si una variable aleatoria continua \(X\) sigue una distribución uniforme en el intervalo \([2, 5]\), ¿cuál es la probabilidad de que \(X\) sea menor que 3?

  • Ejercicio 2: Una variable continua sigue una distribución uniforme en el intervalo \([0, 10]\). ¿Cuál es la probabilidad de que el valor esté entre 4 y 6?

  • Ejercicio 3: La duración de un proceso se distribuye uniformemente entre 10 y 20 minutos. ¿Cuál es la probabilidad de que el proceso dure más de 15 minutos?

  • Ejercicio Actuarial 1: Un asegurador estima que el tiempo de resolución de reclamaciones sigue una distribución uniforme continua entre 5 y 15 días. ¿Cuál es la probabilidad de que la resolución de una reclamación tome entre 8 y 12 días?

  • Ejercicio Actuarial 2: Supón que el tiempo hasta el primer siniestro en una póliza sigue una distribución uniforme continua entre 1 y 5 años. ¿Cuál es la esperanza y la varianza del tiempo hasta el primer siniestro?

  • Ejercicio Salud 1: En un estudio sobre la duración de un tratamiento, se asume que el tiempo de tratamiento sigue una distribución uniforme continua entre 3 y 7 semanas. ¿Cuál es la probabilidad de que el tratamiento dure menos de 5 semanas?

Distribución Normal

  • Ejercicio 1: Si una variable aleatoria \(X\) sigue una distribución normal con media 50 y desviación estándar 10, ¿cuál es la probabilidad de que \(X\) sea mayor que 60?

  • Ejercicio 2: La estatura de una población sigue una distribución normal con media 170 cm y desviación estándar 8 cm. ¿Cuál es la probabilidad de que una persona seleccionada al azar tenga una estatura entre 160 y 180 cm?

  • Ejercicio 3: En un test estandarizado con media 100 y desviación estándar 15, ¿cuál es la probabilidad de obtener una puntuación superior a 120?

  • Ejercicio Actuarial 1: Un asegurador utiliza una distribución normal para modelar la pérdida total en una póliza con una media de $100,000 y una desviación estándar de $20,000. ¿Cuál es la probabilidad de que la pérdida total sea menor de $80,000?

  • Ejercicio Actuarial 2: La duración de vida útil de un producto sigue una distribución normal con media de 4 años y desviación estándar de 0.5 años. ¿Cuál es la probabilidad de que el producto dure entre 3.5 y 4.5 años?

  • Ejercicio Salud 1: En un estudio sobre la presión arterial, se asume que las medidas siguen una distribución normal con una media de 120 mmHg y una desviación estándar de 15 mmHg. ¿Cuál es la probabilidad de que la presión arterial de un paciente esté entre 105 y 135 mmHg?

Distribución Ji-Cuadrado

  • Ejercicio 1: Supón que el número de eventos en un intervalo sigue una distribución chi-cuadrado con 10 grados de libertad. ¿Cuál es el valor crítico para un nivel de significancia del 5% en una prueba de una cola?

  • Ejercicio 2: En una prueba de bondad de ajuste, el estadístico de prueba sigue una distribución chi-cuadrado con 5 grados de libertad. ¿Cuál es la probabilidad de obtener un valor de chi-cuadrado mayor que 11.07?

  • Ejercicio 3: Se realiza una prueba de hipótesis con un estadístico chi-cuadrado con 8 grados de libertad. ¿Cuál es la probabilidad de obtener un valor menor que 10.5?

  • Ejercicio Actuarial 1: Un asegurador usa una distribución chi-cuadrado para modelar la variabilidad en la pérdida de una póliza con 15 grados de libertad. ¿Cuál es el valor crítico para un nivel de significancia del 1%?

  • Ejercicio Actuarial 2: En un análisis de la variabilidad de pérdidas en seguros, se utiliza una distribución chi-cuadrado con 12 grados de libertad. Calcula la probabilidad de obtener un valor chi-cuadrado mayor que 20.

  • Ejercicio Salud 1: En un estudio sobre la variabilidad en los niveles de colesterol, se usa una distribución chi-cuadrado con 7 grados de libertad para analizar los datos. ¿Cuál es la probabilidad de obtener un valor chi-cuadrado menor que 9?

Distribución Gamma

  • Ejercicio 1: En una distribución gamma con parámetros \(k = 3\) y \(\theta = 2\), ¿cuál es la probabilidad de que la variable aleatoria sea menor que 5?

  • Ejercicio 2: Supón que una variable aleatoria sigue una distribución gamma con \(k = 4\) y \(\theta = 1\). ¿Cuál es la probabilidad de que la variable aleatoria sea mayor que 3?

  • Ejercicio 3: Una variable sigue una distribución gamma con \(k = 2\) y \(\theta = 5\). ¿Cuál es la probabilidad de que el valor sea menor de 10?

  • Ejercicio Actuarial 1: En la modelación de la duración hasta el colapso de un activo, se asume una distribución gamma con forma \(k = 5\) y escala \(\theta = 3\). Calcula la probabilidad de que el colapso ocurra antes de 10 años.

  • Ejercicio Actuarial 2: En la estimación de la duración de un contrato de seguro, se usa una distribución gamma con \(k = 2\) y \(\theta = 4\). ¿Cuál es la esperanza y la varianza de la duración del contrato?

  • Ejercicio Salud 1: En un estudio sobre la duración de la efectividad de un tratamiento, se asume que el tiempo de efectividad sigue una distribución gamma con \(k = 3\) y \(\theta = 2\). ¿Cuál es la probabilidad de que el tratamiento sea efectivo por más de 5 meses?

Distribución Weibull

  • Ejercicio 1: Supón que el tiempo hasta el fallo de un equipo sigue una distribución Weibull con forma \(\alpha = 1.5\) y escala \(\beta = 2000\). ¿Cuál es la probabilidad de que el equipo falle antes de 1500 horas?

  • Ejercicio 2: Un componente tiene una vida útil que sigue una distribución Weibull con parámetros \(\alpha = 2\) y \(\beta = 5000\). ¿Cuál es la probabilidad de que el componente dure entre 4000 y 6000 horas?

  • Ejercicio 3: Si el tiempo hasta el fallo de un producto sigue una distribución Weibull con forma \(\alpha = 1.2\) y escala \(\beta = 1000\), ¿cuál es la probabilidad de que el producto funcione por más de 1200 horas?

  • Ejercicio Actuarial 1: Supón que el tiempo hasta el fallo de un equipo sigue una distribución Weibull con forma \(\alpha = 1.2\) y escala \(\beta = 5000\). Calcula la probabilidad de que el equipo funcione por más de 6000 horas.

  • Ejercicio Actuarial 2: En el análisis de riesgo, se utiliza una distribución Weibull para modelar la duración de una póliza de seguro con \(\alpha = 2\) y \(\beta = 1000\). ¿Cuál es la esperanza y la varianza del tiempo hasta el fallo?

  • Ejercicio Salud 1: En un estudio sobre la duración de una enfermedad, se usa una distribución Weibull con \(\alpha = 1.5\) y \(\beta = 3\). ¿Cuál es la probabilidad de que un paciente esté enfermo por más de 5 meses?

Distribución Beta

  • Ejercicio 1: ¿Cuál es la probabilidad de que una variable aleatoria con distribución beta \(\text{Beta}(2, 5)\) sea menor que 0.4?

  • Ejercicio 2: Supón que una variable sigue una distribución beta con parámetros \(\alpha = 4\) y \(\beta = 3\). ¿Cuál es la probabilidad de que la variable sea mayor que 0.7?

  • Ejercicio 3: Una variable sigue una distribución beta con \(\alpha = 1\) y \(\beta = 6\). ¿Cuál es la probabilidad de que el valor sea menor de 0.3?

  • Ejercicio Actuarial 1: En el análisis de riesgo, se utiliza una distribución beta con parámetros \(\alpha = 3\) y \(\beta = 5\) para modelar la probabilidad de siniestro en una póliza de seguro. ¿Cuál es la probabilidad de que la probabilidad de siniestro sea menor de 0.4?

  • Ejercicio Actuarial 2: En un estudio actuarial, se usa una distribución beta con \(\alpha = 2\) y \(\beta = 4\) para modelar el tiempo hasta un siniestro. ¿Cuál es la esperanza y la varianza del tiempo hasta el siniestro?

  • Ejercicio Salud 1: En un estudio sobre la efectividad de un tratamiento, se modela la tasa de éxito como una variable beta con \(\alpha = 3\) y \(\beta = 7\). ¿Cuál es la probabilidad de que la tasa de éxito sea mayor de 0.5?

Distribución t

  • Ejercicio 1: En una muestra de 12 observaciones, ¿cuál es el valor crítico de la distribución t con 11 grados de libertad para un nivel de significancia del 5% en una prueba de dos colas?

  • Ejercicio 2: Supón que tienes una muestra de tamaño 25 y quieres calcular un intervalo de confianza del 95% para la media. ¿Cuál es el valor crítico de la distribución t con 24 grados de libertad?

  • Ejercicio 3: Si una muestra de 15 observaciones sigue una distribución t con 14 grados de libertad, ¿cuál es la probabilidad de obtener un valor t mayor que 2.5?

  • Ejercicio Actuarial 1: Un analista de riesgos utiliza una distribución t para modelar las pérdidas en una póliza con una muestra de 20 observaciones. ¿Cuál es el valor crítico para un nivel de confianza del 99% con 19 grados de libertad?

  • Ejercicio Actuarial 2: En un análisis actuarial, la desviación estándar de las pérdidas de una cartera de seguros se estima usando una distribución t con 30 observaciones. ¿Cuál es la probabilidad de que la desviación estándar estimada sea mayor que un valor crítico dado?

  • Ejercicio Salud 1: En un estudio sobre la efectividad de un tratamiento, se utiliza una distribución t con 10 grados de libertad para analizar la diferencia en los resultados del tratamiento. ¿Cuál es la probabilidad de obtener un valor t menor que -2.3?

Distribución F

  • Ejercicio 1: ¿Cuál es el valor crítico de la distribución F con 5 y 10 grados de libertad para un nivel de significancia del 5% en una prueba de una cola?

  • Ejercicio 2: Supón que tienes dos muestras independientes con tamaños 15 y 20. ¿Cuál es el valor crítico de la distribución F con 14 y 19 grados de libertad para un nivel de confianza del 95%?

  • Ejercicio 3: Si la razón de varianzas sigue una distribución F con 8 y 12 grados de libertad, ¿cuál es la probabilidad de obtener un valor F mayor que 3.2?

  • Ejercicio Actuarial 1: En el análisis de varianza de pérdidas en una cartera de seguros, se utiliza una distribución F con 6 y 20 grados de libertad. ¿Cuál es el valor crítico para un nivel de significancia del 1%?

  • Ejercicio Actuarial 2: Un analista usa una distribución F para comparar la varianza de dos tipos de seguros con 12 y 18 grados de libertad. ¿Cuál es la probabilidad de que la razón de varianzas sea menor que 2.5?

  • Ejercicio Salud 1: En un estudio sobre la variabilidad en los tiempos de recuperación de dos tratamientos diferentes, se usa una distribución F con 8 y 15 grados de libertad. ¿Cuál es la probabilidad de que la razón de varianzas sea mayor que 4?

Ejercicios parte 2

Ejercicio 1

Consideremos una moneda trucada, de manera que la probabilidad de cara \(P(\text{cara}) = 0.3\), y por lo tanto \(P(\text{cruz}) = 0.7\). Calcula la probabilidad de obtener 3 caras en 5 lanzamientos al aire de dicha moneda. ¿Por qué no puedes utilizar la fórmula de Laplace?

Ejercicio 2

Una compañía de seguros de automóviles clasifica a sus asegurados en cuatro grupos de edad. La siguiente tabla recoge la proporción de asegurados dentro de cada grupo de edad, junto con la probabilidad de tener un accidente.

Grupo de edad Proporción de asegurados
18-25 0.10
25-45 0.40
45-60 0.30
+60 0.20

Se elige un asegurado al azar de la compañía:

  1. Probabilidad de que tenga un accidente.

  2. Si sabemos que el asegurado ha tenido un accidente, calcule la probabilidad de que pertenezca a cada uno de los grupos.

Ejercicio 3

Una compañía de seguros de automóviles tiene clasificados a sus asegurados en dos grupos de edad. En el grupo de los más jóvenes, \(J\), están el 30% de los clientes, mientras que el 70% restante se encuentra en el grupo \(S\). Los contratos con la compañía tienen una vigencia anual. La probabilidad de que un asegurado del grupo \(J\) tenga un siniestro es del 75%, mientras que esa probabilidad para un asegurado en el grupo \(S\) se reduce a un 32%. La probabilidad de que un cliente de la compañía tenga un primer siniestro es independiente de que tenga un segundo o un tercer siniestro a lo largo del año, tanto para el grupo \(J\) como para el grupo \(S\). Si elegimos a un cliente al azar de la compañía, calcular:

  1. Probabilidad de que tenga exactamente un siniestro.

  2. Si el asegurado ha tenido un siniestro, calcular la probabilidad de que pertenezca al grupo \(J\).

  3. Suponiendo que el asegurado elegido al azar ha dado cuenta de un siniestro, calcular la probabilidad de que tenga un segundo siniestro antes de finalizar el año de contrato. ¡Cuidado!, el resultado de esta cuestión no es evidente, el ser independiente la ocurrencia de posteriores siniestros dado el primero, en cada grupo \(J\) o \(S\) no hace que lo sea para un individuo elegido al azar del total.

  4. ¿Cómo es \(P(A2/A1) =\) probabilidad de un segundo accidente dado un primero, en relación a \(P(A1)\) = probabilidad de un primer accidente? Interpreta la relación de desigualdad entre ambas probabilidades.

Ejercicio 4

De acuerdo con un reciente estudio de mercado, el 40% de los varones mayores de 30 años poseen su propio coche y su propia casa, el 60% su propia casa y el 70% su propio coche.

  1. Calcula la probabilidad de que un varón mayor de 30 años posea al menos casa propia o coche propio.

  2. Calcula la probabilidad de que no posea ninguna de las dos cosas.

  3. Si escogemos dos varones al azar e independientemente, calcula la probabilidad de que ninguno de los dos posea casa ni coche propios.

  4. Si sabemos que un determinado varón dispone de coche propio, calcula la probabilidad de que también posea casa propia.

Ejercicio 5

En una Comunidad Autónoma el 60% de los hogares está asegurado contra incendios. Con objeto de estudiar con detalle la situación de una determinada provincia, se seleccionan al azar e independientemente 10 hogares. Calcular:

  1. Probabilidad de que alguno de los hogares esté asegurado contra incendios.

  2. Probabilidad de que al menos dos hogares estén asegurados contra incendios.

  3. Se define la v.a. \(X\) como el número de hogares entre los 10, que están asegurados contra incendios. Observa que la v.a. \(X\) puede tomar los valores \(\{0, 1, ..., 10\}\). Obten la función de cuantía de \(X\).

Ejercicio 6

De un total de 9872 pólizas de seguros de automóvil contratadas en una compañía de seguros, 1083 presentaron reclamaciones durante el año 2004. Disponemos de la tabla de datos que nos da el número de reclamaciones efectuadas \(X\), así como la cuantía total de las reclamaciones \(Y\) (en euros).

\(X\) \(Y < 1200\) \(Y \geq 1200\)
1 937 28
2 o más 103 15

Si escogemos una póliza al azar entre las 9872, calcula las siguientes probabilidades:

  1. Que haya efectuado una única reclamación.

  2. Si se sabe que ha reclamado, la probabilidad de que la cuantía de dicha reclamación haya sido igual o superior a 1200 euros.

  3. Que haya efectuado más de una reclamación con una cuantía total igual o superior a 1200 euros.

  4. ¿Son independientes el número de reclamaciones y la cuantía total?

Ejercicio 7

Se sabe que el coste total (en cientos de euros) de un determinado tipo de reclamación es una variable aleatoria con función de distribución \(F(y) = 1 - e^{-0,16y}\), \(y \geq 0\).

  1. Obtén la función de densidad de la v.a. \(Y\).

  2. Calcula la probabilidad de que el valor de una reclamación esté comprendido entre 500 y 1000 euros.

  3. Calcula el valor esperado de una reclamación de este tipo.

  4. Si se realizan 5 reclamaciones de forma independiente. Calcula la probabilidad de que ninguna de las cinco supere los 1000 euros. ¿Podrías calcular la probabilidad de que la suma de ellas no supere los 5000 euros? ¿Cuál es la dificultad?

Ejercicio 8

Se sabe que el coste total (en cientos de euros) de un determinado tipo de reclamación es una variable aleatoria, \(Y\), con función de distribución \(N(\mu = 6,25, \sigma^2 = 39,06)\).

  1. Obtén la función de densidad de la v.a. \(Y\).

  2. Calcula la probabilidad de que el valor de una reclamación esté comprendido entre 500 y 1000 euros.

  3. Calcula el valor esperado de una reclamación de este tipo.

  4. Si se realizan 5 reclamaciones de forma independiente. Calcula la probabilidad de que ninguna de las cinco supere los 1000 euros. ¿Podrías calcular la probabilidad de que la suma de ellas no supere los 5000 euros?

Ejercicio 9

Se sabe que el coste total (en euros) de un determinado tipo de reclamación es una variable aleatoria, \(Y\), con distribución \(U(a, b)\) de media 6.25 y varianza 39.06.

  1. Obtén la función de densidad de la v.a. \(Y\).

  2. Calcula la probabilidad de que el valor de una reclamación esté comprendido entre 500 y 1000 euros.

  3. Calcula el valor esperado de una reclamación de este tipo.

  4. Si se realizan 5 reclamaciones de forma independiente. Calcula la probabilidad de que ninguna de las cinco supere los 1000 euros. ¿Podrías calcular la probabilidad de que la suma de ellas no supere los 5000 euros?

Ejercicio 10

Se sabe que el número anual de siniestros en automóvil correspondientes a las pólizas de una determinada compañía, \(X\), sigue una distribución binomial de parámetros \(p = 0,005\) y \(n = 2000\).

  1. Obtén la función de cuantía de \(X\). Calcula las siguientes probabilidades: \(P(X = 0)\), \(P(X = 1)\), \(P(X = 2)\), \(P(X = 3)\), \(P(X = 4)\) y \(P(X = 5)\).

  2. Calcula la probabilidad de que \(X \in [5, 15]\). ¿Cuál es la dificultad?

Ejercicio 11

Se sabe que el número anual de siniestros en automóvil correspondientes a las pólizas de una determinada compañía, \(X\), sigue una distribución de Poisson \(P(\lambda = 10)\).

  1. Obtén la función de cuantía de \(X\). Calcula las siguientes probabilidades: \(P(X = 0)\), \(P(X = 1)\), \(P(X = 2)\), \(P(X = 3)\), \(P(X = 4)\) y \(P(X = 5)\).

  2. Calcula la probabilidad de que \(X \in [5, 15]\).

Ejercicio 12

Se sabe que el número de siniestros en automóvil correspondientes a las pólizas de una determinada compañía, \(X\), sigue una distribución de Poisson de parámetro 10.

  1. Calcular el valor esperado y la varianza de la variable \(X\).

  2. Calcular la probabilidad de que en un año se produzca exactamente un siniestro.

  3. Se ha considerado en los cálculos anteriores el supuesto de que el tiempo entre siniestros es independiente y que la frecuencia de estos sigue un proceso de Poisson. Calcula la probabilidad de que el siguiente siniestro ocurra dentro de los próximos 15 días.

Ejercicio 13

La variable aleatoria \(X\), que describe el número de reclamaciones efectuadas a una compañía de seguros, sigue una distribución de Poisson de parámetro 4.

  1. Obtén la función de cuantía de \(X\).

  2. Calcula \(P(X = 1)\), \(P(X = 2)\), \(P(X = 3)\) y \(P(X = 4)\).

  3. Calcula la probabilidad de que \(X \in [1, 4]\).

Ejercicio 14

La variable aleatoria \(X\), que describe el número de reclamaciones efectuadas a una compañía de seguros, sigue una distribución geométrica de parámetro \(p = 0.2\).

Los ejercicios son tomados de:

  • Ferreira, E., & Garin, M. (2010). Estadística actuarial: modelos estocásticos. Bilbao: Sarriko-On.

  • Mendenhall, W., Wackerly, D. D., & Scheaffer, R. L. (1986). Estadística matemática con aplicaciones.