Funciones de Distribuciones de probabilidad

$$ \[\begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso}& \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array}\]

$$

En teoría de la probabilidad y estadística, la distribución de probabilidad de una variable aleatoria es una función que asigna a cada suceso definido sobre la variable la probabilidad de que dicho suceso ocurra. La distribución de probabilidad está definida sobre el conjunto de todos los sucesos y cada uno de los sucesos es el rango de valores de la variable aleatoria. También puede decirse que tiene una relación estrecha con las distribuciones de frecuencia. De hecho, una distribución de probabilidades puede comprenderse como una frecuencia teórica, ya que describe cómo se espera que varíen los resultados.

La distribución de probabilidad está completamente especificada por la función de distribución, cuyo valor en cada x real es la probabilidad de que la variable aleatoria sea menor o igual que x.

Tipos de variables

  1. aleatoria: Es aquella cuyo valor es el resultado de un evento aleatorio. Lo que quiere decir que son los resultados que se presentan al azar en cualquier evento o experimento.

  2. Variable aleatoria discreta: Es aquella que solo toma ciertos valores (frecuentemente enteros) y que resulta principalmente del conteo realizado.

  3. Variable aleatoria continua: Es aquella que resulta generalmente de la medición y puede tomar cualquier valor dentro de un intervalo dado.1

Distribución normal

Distribución normal, distribución de Gauss, distribución gaussiana o distribución de Laplace-Gauss, a una de las distribuciones de probabilidad de variable continua que con más frecuencia aparece en estadística y en la teoría de probabilidades.1

La gráfica de su función de densidad tiene una forma acampanada y es simétrica respecto de un determinado parámetro estadístico. Esta curva se conoce como campana de Gauss y es el gráfico de una función gaussiana.2

La importancia de esta distribución radica en que permite modelar numerosos fenómenos naturales, sociales y psicológicos. 3 Mientras que los mecanismos que subyacen a gran parte de este tipo de fenómenos son desconocidos, por la enorme cantidad de variables incontrolables que en ellos intervienen, el uso del modelo normal puede justificarse asumiendo que cada observación se obtiene como la suma de unas pocas causas independientes.

1.- Calcular la probabilidad de que \(X\) sea menor o igual a 48. es decir: \[ P(\leq 48) \] Media igual a 50 y varianza igual a 25

pnorm(48, mean = 50, sd = sqrt(25)  )
## [1] 0.3445783

o también la manera corta:

pnorm(48,50,sqrt(25))
## [1] 0.3445783

Se usa la desviación estándar en vez de la varianza

  1. Calcular la probabilidad de que \(X\) sea mayor a 48, \(P(X> 48)\)
pnorm(48, mean = 50, sd = sqrt(25), lower.tail = FALSE )
## [1] 0.6554217
  1. Calcular la probabilidad de que \(X\) sea mayor o igual a 45 y menor que 55, es decir:

\[P(45\leq X < 55)\]

\[ P(45\leq X < 55)=P(X<55)-P(X\leq 45) \]

pnorm(55, 50, sqrt (25)) - pnorm(45, 50, sqrt (25) )
## [1] 0.6826895
  1. ¿Cuál es el valor de \(X\) que deja un 90% por debajo de el?

\[ P(X\leq x_0)=0.90 \]

qnorm (0.90, mean=50, sd = sqrt(25))
## [1] 56.40776
  1. Generar un conjunto de datos aleatorios con distribución normal, media=50, varianza=25.
set.seed(123)

rnorm(10, mean=50, sd= sqrt(25) )
##  [1] 47.19762 48.84911 57.79354 50.35254 50.64644 58.57532 52.30458 43.67469
##  [9] 46.56574 47.77169
  1. Calcular la probabilidad de que \(X\) se encuentre entre 35 y 55
pnorm(55, 50, sqrt (25)) - pnorm(35, 50, sqrt (25) )
## [1] 0.8399948
  1. se puede usar dnorm para construir el gráfico de la distribución de probabilidad de \(X\), usando el comando curve.
curve(dnorm(x, mean=50, sd= sqrt(25)), xlim = c(35,65), xlab="Valores de x", ylab= "Densidad de X")

Distribución Binomial

hay 12 preguntas de selección multiple en un examen. Cada pregunta tiene 5 alternativas y solo 1 es correcta. Calcular la probabilidad de obtener al menos 4 respuestas correctas (se responde completamente al azar)

dbinom(0, size=12, prob=0.2)+
dbinom(1, size=12, prob=0.2)+
dbinom(2, size=12, prob=0.2)+
dbinom(3, size=12, prob=0.2)+ 
dbinom(4, size=12, prob=0.2)
## [1] 0.9274445

#manera más simple

sum(dbinom(x = 0:4, size = 12, prob = 0.2))
## [1] 0.9274445

Método alternativo para usar distribución acumulada

pbinom(4,size = 12, prob = 0.2 )
## [1] 0.9274445

La probabilidad de tener más de 4 buenas

pbinom(4,size = 12, prob = 0.2, lower.tail = FALSE )
## [1] 0.0725555

Ahora viéndolo gráficamente:

barplot(dbinom(x = 0:12, size = 12, prob = 0.2), names.arg = 0:12)

##Distribución de Poisson

Distribución de probabilidad discreta que expresa, a partir de una frecuencia de ocurrencia media, la probabilidad de que ocurra un determinado número de eventos durante cierto período de tiempo. Concretamente, se especializa en la probabilidad de ocurrencia de sucesos con probabilidades muy pequeñas, o sucesos «raros».

Si en promedio hay 12 autos por minuto cruzando un determinado puente, Calcular la probabilidad de que 17 o más autos crucen el puente en un minuto cualquiera.

calcule: \(P(X\geq 17)=1-P(X<17)\)

# Cola izquierda
1-ppois(16, lambda = 12)
## [1] 0.101291
#cola derecha
ppois(16, lambda = 12, lower.tail = FALSE)
## [1] 0.101291
barplot(dpois(x = 0:30, 12), names.arg = 0:30)

Distribución exponencial

A pesar de que la distribución Normal puede utilizarse para resolver muchos problemas en ingeniería y ciencias, existen aún numerosas situaciones que requieren diferentes tipos de funciones de densidad, tales como la exponencial y la gamma y algunas otras como la weibull, etc., etc., de momento solo trataremos sobre el uso de la exponencial.

Resulta que la exponencial es un caso especial de la distribución gamma, ambas tienen un gran número de aplicaciones. Las distribuciones exponencial y gamma juegan un papel importante tanto en teoría de colas como en problemas de confiabilidad. El tiempo entre las llegadas en las instalaciones de servicio y el tiempo de falla de los componentes y sistemas eléctricos, frecuentemente involucran la distribución exponencial. La relación entre la gamma y la exponencial permite que la distribución gamma se utilice en tipos similares de problemas.

Para solucionar este problema debemos considerar que R asume la siguiente forma de la distribución exponencial: \[ f(x)=\lambda e^{-\lambda x},\; x\geq 0,\;\lambda>0 \] Luego, con λ=3 tenemos que

pexp(2, rate = 3)
## [1] 0.9975212
# La probabilidad de demorar entre 5 y 6 minutos, inclusive
# P(X<=6)-P(X<=5)
pexp(6, rate = 3)-pexp(5, rate = 3)
## [1] 2.906723e-07

La función de densidad respectiva posee la siguiente gráfica

curve(dexp(x, rate = 3), xlim = c(0,10), xlab = "Valores de X", ylab = "Densidad de Probabilidad")

Distribución chi cuadrada

la distribución de Pearson, llamada también ji cuadrada(o)La distribución de chi-cuadrada ($ X^2$) es una distribución continua que se especifica por los grados de libertad y el parámetro de no centralidad. La distribución es positivamente asimétrica, pero la asimetría disminuye al aumentar los grados de libertad.

qchisq(0.95, df = 7)
## [1] 14.06714

La función de densidad respectiva posee la siguiente gráfica

curve(dchisq(x, df = 7), xlim = c(0,20), xlab = "Valores de X", ylab = "Densidad de Probabilidad")

Distrubución t de student

Es una distribución de probabilidad que surge del problema de estimar la media de una población normalmente distribuida cuando el tamaño de la muestra es pequeño.

Aparece de manera natural al realizar la prueba t de Student para la determinación de las diferencias entre dos varianzas muestrales y para la construcción del intervalo de confianza para la diferencia entre las partes de dos poblaciones cuando se desconoce la desviación típica de una población y esta debe ser estimada a partir de los datos de una muestra.

Fue desarrollada por William Sealy Gosset, bajo el seudónimo Student.

  1. Encontrar el percentil 2.5 y el percentil 97.5 de una distribución t de Student con 5 grados de libertad.
qt(c(0.025,0.975), df = 5)
## [1] -2.570582  2.570582

Podemos graficar la densidad de esta distribución en particular

curve(dt(x, df = 1000), xlim = c(-3,3), xlab = "Valores de t", ylab = "Densidad de Probabilidad")

Distribución F de Fisher

La distribución F es una distribución continua de muestreo de la relación de dos variables aleatorias independientes con distribuciones de chi-cuadrada, cada una dividida entre sus grados de libertad. La distribución F es asimétrica hacia la derecha y es descrita por los grados de libertad de su numerador (ν1) y denominador (ν2). Las siguientes gráficas muestran el efecto de los diferentes valores de grados de libertad en la forma de la distribución.

  1. Encontrar el percentil 90 de una distribución F de Fisher con 5 grados de libertad en el numerador y 2 grados de libertad en el denominador.
qf(0.90, df1 = 5, df2 = 2)
## [1] 9.292626

Podemos graficar la densidad de esta distribución en particular

curve(df(x, df1 = 5, df2 = 2), xlim = c(0,10), xlab = "Valores de F", ylab = "Densidad de Probabilidad")

Distribución multinomial

En teoría de probabilidad, la distribución multinomial es una generalización de la distribución binomial.

La distribución binomial es la probabilidad de un número de éxitos en N sucesos de Bernoulli independientes, con la misma probabilidad de éxito en cada suceso. En una distribución multinomial, el análogo a la distribución de Bernoulli es la distribución categórica, donde cada suceso concluye en únicamente un resultado de un número finito K de los posibles,

  1. Predicción de juego de ajedrez

Dos jugadores de ajedrez tienen la probabilidad de que el jugador A gane es 0.40, el jugador B gane es 0.35, el juego terminaría en un empate es 0.25.

La distribución multinomial se puede utilizar para responder preguntas como: “Si estos dos jugadores de ajedrez jugaran 12 juegos, ¿cuál es la probabilidad de que el Jugador A gane 7 juegos, el Jugador B gane 2 juegos, los 3 juegos restantes se sortearán?”

dmultinom(x=c(7,2,3), prob = c(0.4,0.35,0.25))
## [1] 0.02483712
  1. Encuestas de opinión sobre elecciones

En una pequeña ciudad, el 40% de los votantes elegibles prefieren al candidato A, el 10% prefiere al candidato B, el 50% no tiene preferencia.

Muestra aleatoriamente 10 votantes elegibles. ¿Cuál es la probabilidad de que 4 prefiera al candidato A, 1 prefiera al candidato B, 5 no tendrá preferencia?

dmultinom(x=c(4,1,5), prob = c(0.4,0.1,0.5))
## [1] 0.1008

Distribución Hipergeométrica

La distribución hipergeométrica es una distribución discreta que modela el número de eventos en una muestra de tamaño fijo cuando usted conoce el número total de elementos en la población de la cual proviene la muestra. Cada elemento de la muestra tiene dos resultados posibles (es un evento o un no evento). Las muestras no tienen reemplazo, por lo que cada elemento de la muestra es diferente. Cuando se elige un elemento de la población, no se puede volver a elegir. Por lo tanto, la probabilidad de que un elemento sea seleccionado aumenta con cada ensayo, presuponiendo que aún no haya sido seleccionado.

  1. Considere una urna con 7 bolas blancas y 5 negras, nuestro experimento consiste en extraer 4 bolas aleatoriamente y sin reemplazamiento (una vez que una bola es extraída no se regresa). Entonces, la probabilidad de tener tres bolas blancas, en consecuencia una negra.

\[ \displaystyle \frac{{7 \choose 3}{5 \choose 1}}{{12 \choose 4}}\]

\[ {\displaystyle P(X=x)={\frac {{d \choose x}{N-d \choose n-x}}{N \choose n}},}\]

donde N es el tamaño de población, n es el tamaño de la muestra extraída, d es el número de elementos en la población original que pertenecen a la categoría deseada y x x es el número de elementos en la muestra que pertenecen a dicha categoría.

Ejemplo una clínica ha adquirido 50 tensiometros digitales, se seleccionan aleatoriamente ocho equipos y se someten a una prueba para encontrar posibles defectos. Si seis de los 50 equipos son defectuosos. ¿Cuál es la probabilidad de que la muestra contenga a lo más dos equipos defectuosos?

Solución: Sea X=número de equipos defectuosos en la muestra, entonces X∼Hg(8,6,50). Por lo tanto:

\[ P(X\leq 2)= P(X= 0)+ P(X= 1)+ P(X= 2) = \left[ \frac{\binom{6}{0}\binom{44}{8}}{\binom{50}{8}} \right] + \left[ \frac{\binom{6}{1}\binom{44}{7}}{\binom{50}{8}} \right] + \left[ \frac{\binom{6}{2}\binom{44}{6}}{\binom{50}{8}} \right] \ \approx 0. 9556\]

Ahora implementado en R:

dhyper(0,6,44,8)+dhyper(1,6,44,8)+dhyper(2,6,44,8)
## [1] 0.9556011
phyper(2,6,44,8)
## [1] 0.9556011