Distribuciones de probabilidad

Funciones de distribución de probabilidad

$$ \[\begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso}& \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array}\]

$$ Distribución Alias Distribución binomial binom Distribución de Poisson pois Distribución normal norm Distribución exponencial exp Distribución t de Student t Distribución Chi2 chisq Distribución F f

En teoría de la probabilidad y estadística, la distribución de probabilidad de una variable aleatoria es una función que asigna a cada suceso definido sobre la variable la probabilidad de que dicho suceso ocurra. La distribución de probabilidad está definida sobre el conjunto de todos los sucesos y cada uno de los sucesos es el rango de valores de la variable aleatoria. También puede decirse que tiene una relación estrecha con las distribuciones de frecuencia. De hecho, una distribución de probabilidades puede comprenderse como una frecuencia teórica, ya que describe cómo se espera que varíen los resultados.

La distribución de probabilidad está completamente especificada por la función de distribución, cuyo valor en cada x real es la probabilidad de que la variable aleatoria sea menor o igual que x.

Tipos de variables

aleatoria: Es aquella cuyo valor es el resultado de un evento aleatorio. Lo que quiere decir que son los resultados que se presentan al azar en cualquier evento o experimento.

Variable aleatoria discreta: Es aquella que solo toma ciertos valores (frecuentemente enteros) y que resulta principalmente del conteo realizado.

Variable aleatoria continua: Es aquella que resulta generalmente de la medición y puede tomar cualquier valor dentro de un intervalo dado.

Distribución normal

Distribución normal, distribución de Gauss, distribución gaussiana o distribución de Laplace-Gauss, a una de las distribuciones de probabilidad de variable continua que con más frecuencia aparece en estadística y en la teoría de probabilidades.

La gráfica de su función de densidad tiene una forma acampanada y es simétrica respecto de un determinado parámetro estadístico. Esta curva se conoce como campana de Gauss y es el gráfico de una función gaussiana.

La importancia de esta distribución radica en que permite modelar numerosos fenómenos naturales, sociales y psicológicos. Mientras que los mecanismos que subyacen a gran parte de este tipo de fenómenos son desconocidos, por la enorme cantidad de variables incontrolables que en ellos intervienen, el uso del modelo normal puede justificarse asumiendo que cada observación se obtiene como la suma de unas pocas causas independientes.

Tomando como ejemplo los datos de temperatura de ALAMOS, SONORA

library(xfun)
## 
## Attaching package: 'xfun'
## The following objects are masked from 'package:base':
## 
##     attr, isFALSE
ALAMOS <- c(18.5,19.1,20.2,22.1,24.7,28.1,28.0,27.6,26.8,24.8,21.6,19.1)

¿Cual es la probabilidad de en un mes determinado tener una temperatura de 25 grados o menos?

media

mean(ALAMOS)
## [1] 23.38333

Desviación estándar

sd(ALAMOS)
## [1] 3.720419
pnorm(25, mean= 23.383, sd=3.720419 )
## [1] 0.6680839

La probabilidad de que tengas un mes una temperatura media de 25 grados o menos es del 66.08%

Distribución binomial

hay 12 preguntas de selección multiple en un examen. Cada pregunta tiene 5 alternativas y solo 1 es correcta. Calcular la probabilidad de obtener al menos 4 respuestas correctas (se responde completamente al azar)

dbinom(0, size =12, prob=0.2) +
dbinom(1, size =12, prob=0.2) +
dbinom(2, size =12, prob=0.2) +
dbinom(3, size =12, prob=0.2) +
dbinom(4, size =12, prob=0.2)
## [1] 0.9274445

Esto se puede hacer de una forma más simple

sum(dbinom(x=0:4, size=12, prob=0.2 ))
## [1] 0.9274445

Ahora, conoceremos la probabilidad de tener más de 4 preguntas buenas

pbinom(4, size=12, prob=0.2, lower.tail = FALSE)
## [1] 0.0725555

Ahora, viendo esto a manera de gráfica

barplot(dbinom(x=0:12, size=12, prob=0.2), names.arg = 0:12)

Distribución de poisson

Distribución de probabilidad discreta que expresa, a partir de una frecuencia de ocurrencia media, la probabilidad de que ocurra un determinado número de eventos durante cierto período de tiempo. Concretamente, se especializa en la probabilidad de ocurrencia de sucesos con probabilidades muy pequeñas, o sucesos «raros».

  • Ejercicio

Si en promedio hay 12 autos por minuto cruzando un determinado puente, Calcular la probabilidad de que 17 o más autos crucen el puente en un minuto cualquiera.

Calcule: \(P(X\geq 17)=1-P(X<17)\)

Cola izquierda

1-ppois(16, lambda = 12)
## [1] 0.101291

Cola derecha

1-ppois(16, lambda = 12, lower.tail = FALSE)
## [1] 0.898709

Veamos esta misma relación de manera gráfica

barplot(dpois(x=0:25, 12), names.arg = 0:25)

## Distribución exponencial

A pesar de que la distribución Normal puede utilizarse para resolver muchos problemas en ingeniería y ciencias, existen aún numerosas situaciones que requieren diferentes tipos de funciones de densidad, tales como la exponencial y la gamma y algunas otras como la weibull, etc., etc., de momento solo trataremos sobre el uso de la exponencial.

Resulta que la exponencial es un caso especial de la distribución gamma, ambas tienen un gran número de aplicaciones. Las distribuciones exponencial y gamma juegan un papel importante tanto en teoría de colas como en problemas de confiabilidad. El tiempo entre las llegadas en las instalaciones de servicio y el tiempo de falla de los componentes y sistemas eléctricos, frecuentemente involucran la distribución exponencial. La relación entre la gamma y la exponencial permite que la distribución gamma se utilice en tipos similares de problemas.

  • El tiempo medio de atención en la caja de un supermercado es de 3 minutos. Encuentre la probabilidad de que un cliente al azar sea atendido en menos de 2 minutos

Para solucionar este problema debemos considerar que R asume la siguiente forma de la distribución exponencial:

\[ f(x)=\lambda e^{-\lambda x},\; x\geq 0,\;\lambda>0 \]

Luego, con λ=3 tenemos que:

pexp(2, rate = 3)
## [1] 0.9975212

Distribución de chi cuadrada

la distribución de Pearson, llamada también ji cuadrada(o)La distribución de chi-cuadrada $ X^2$ es una distribución continua que se especifica por los grados de libertad y el parámetro de no centralidad. La distribución es positivamente asimétrica, pero la asimetría disminuye al aumentar los grados de libertad.

Grados de libertad: Los grados de libertad son la combinación del número de observaciones de un conjunto de datos que varían de manera aleatoria e independiente menos las observaciones que están condicionadas a estos valores arbitrarios.

En otras palabras, los grados de libertad son el número de observaciones puramente libres (que pueden variar) cuando estimamos los parámetros.

qchisq(0.95, df=7)
## [1] 14.06714

La función de densidad correspondiente toma la forma de la siguiente gráfica:

curve(dchisq(x, df=7), xlim= c(0,20), xlab = "Valores de x", ylab= "densidad de probabilidad"  )

## Distrubución t de student

Es una distribución de probabilidad que surge del problema de estimar la media de una población normalmente distribuida cuando el tamaño de la muestra es pequeño.

Aparece de manera natural al realizar la prueba t de Student para la determinación de las diferencias entre dos varianzas muestrales y para la construcción del intervalo de confianza para la diferencia entre las partes de dos poblaciones cuando se desconoce la desviación típica de una población y esta debe ser estimada a partir de los datos de una muestra.

Fue desarrollada por William Sealy Gosset, bajo el seudónimo Student.

  1. Encontrar el percentil 2.5 y el percentil 97.5 de una distribución t de Student con 5 grados de libertad.
qt( c(0.025, 0.975), df=5       )
## [1] -2.570582  2.570582

Podemos graficar la densidad de esta distribución en particular

curve(dt(x, df=1000), xlim = c(-3,3), xlab = "Valores de t", ylab= "Densidad de probabilidad"    )

xfun::embed_file("A9U2.Rmd")

Download A9U2.Rmd