Funciones de distribución de probabilidad
$$ \[\begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso}& \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución especÃfica} & \text{---}\\ \hline \end{array}\]$$ Distribución Alias Distribución binomial binom Distribución de Poisson pois Distribución normal norm Distribución exponencial exp Distribución t de Student t Distribución Chi2 chisq Distribución F f
En teorÃa de la probabilidad y estadÃstica, la distribución de probabilidad de una variable aleatoria es una función que asigna a cada suceso definido sobre la variable la probabilidad de que dicho suceso ocurra. La distribución de probabilidad está definida sobre el conjunto de todos los sucesos y cada uno de los sucesos es el rango de valores de la variable aleatoria. También puede decirse que tiene una relación estrecha con las distribuciones de frecuencia. De hecho, una distribución de probabilidades puede comprenderse como una frecuencia teórica, ya que describe cómo se espera que varÃen los resultados.
La distribución de probabilidad está completamente especificada por la función de distribución, cuyo valor en cada x real es la probabilidad de que la variable aleatoria sea menor o igual que x.
aleatoria: Es aquella cuyo valor es el resultado de un evento aleatorio. Lo que quiere decir que son los resultados que se presentan al azar en cualquier evento o experimento.
Variable aleatoria discreta: Es aquella que solo toma ciertos valores (frecuentemente enteros) y que resulta principalmente del conteo realizado.
Variable aleatoria continua: Es aquella que resulta generalmente de la medición y puede tomar cualquier valor dentro de un intervalo dado.
Distribución normal, distribución de Gauss, distribución gaussiana o distribución de Laplace-Gauss, a una de las distribuciones de probabilidad de variable continua que con más frecuencia aparece en estadÃstica y en la teorÃa de probabilidades.
La gráfica de su función de densidad tiene una forma acampanada y es simétrica respecto de un determinado parámetro estadÃstico. Esta curva se conoce como campana de Gauss y es el gráfico de una función gaussiana.
La importancia de esta distribución radica en que permite modelar numerosos fenómenos naturales, sociales y psicológicos. Mientras que los mecanismos que subyacen a gran parte de este tipo de fenómenos son desconocidos, por la enorme cantidad de variables incontrolables que en ellos intervienen, el uso del modelo normal puede justificarse asumiendo que cada observación se obtiene como la suma de unas pocas causas independientes.
Tomando como ejemplo los datos de temperatura de ALAMOS, SONORA
library(xfun)
##
## Attaching package: 'xfun'
## The following objects are masked from 'package:base':
##
## attr, isFALSE
ALAMOS <- c(18.5,19.1,20.2,22.1,24.7,28.1,28.0,27.6,26.8,24.8,21.6,19.1)
¿Cual es la probabilidad de en un mes determinado tener una temperatura de 25 grados o menos?
media
mean(ALAMOS)
## [1] 23.38333
Desviación estándar
sd(ALAMOS)
## [1] 3.720419
pnorm(25, mean= 23.383, sd=3.720419 )
## [1] 0.6680839
La probabilidad de que tengas un mes una temperatura media de 25 grados o menos es del 66.08%
hay 12 preguntas de selección multiple en un examen. Cada pregunta tiene 5 alternativas y solo 1 es correcta. Calcular la probabilidad de obtener al menos 4 respuestas correctas (se responde completamente al azar)
dbinom(0, size =12, prob=0.2) +
dbinom(1, size =12, prob=0.2) +
dbinom(2, size =12, prob=0.2) +
dbinom(3, size =12, prob=0.2) +
dbinom(4, size =12, prob=0.2)
## [1] 0.9274445
Esto se puede hacer de una forma más simple
sum(dbinom(x=0:4, size=12, prob=0.2 ))
## [1] 0.9274445
Ahora, conoceremos la probabilidad de tener más de 4 preguntas buenas
pbinom(4, size=12, prob=0.2, lower.tail = FALSE)
## [1] 0.0725555
Ahora, viendo esto a manera de gráfica
barplot(dbinom(x=0:12, size=12, prob=0.2), names.arg = 0:12)
Distribución de probabilidad discreta que expresa, a partir de una frecuencia de ocurrencia media, la probabilidad de que ocurra un determinado número de eventos durante cierto perÃodo de tiempo. Concretamente, se especializa en la probabilidad de ocurrencia de sucesos con probabilidades muy pequeñas, o sucesos «raros».
Si en promedio hay 12 autos por minuto cruzando un determinado puente, Calcular la probabilidad de que 17 o más autos crucen el puente en un minuto cualquiera.
Calcule: \(P(X\geq 17)=1-P(X<17)\)
Cola izquierda
1-ppois(16, lambda = 12)
## [1] 0.101291
Cola derecha
1-ppois(16, lambda = 12, lower.tail = FALSE)
## [1] 0.898709
Veamos esta misma relación de manera gráfica
barplot(dpois(x=0:25, 12), names.arg = 0:25)
## Distribución exponencial
A pesar de que la distribución Normal puede utilizarse para resolver muchos problemas en ingenierÃa y ciencias, existen aún numerosas situaciones que requieren diferentes tipos de funciones de densidad, tales como la exponencial y la gamma y algunas otras como la weibull, etc., etc., de momento solo trataremos sobre el uso de la exponencial.
Resulta que la exponencial es un caso especial de la distribución gamma, ambas tienen un gran número de aplicaciones. Las distribuciones exponencial y gamma juegan un papel importante tanto en teorÃa de colas como en problemas de confiabilidad. El tiempo entre las llegadas en las instalaciones de servicio y el tiempo de falla de los componentes y sistemas eléctricos, frecuentemente involucran la distribución exponencial. La relación entre la gamma y la exponencial permite que la distribución gamma se utilice en tipos similares de problemas.
Para solucionar este problema debemos considerar que R asume la siguiente forma de la distribución exponencial:
\[ f(x)=\lambda e^{-\lambda x},\; x\geq 0,\;\lambda>0 \]
Luego, con λ=3 tenemos que:
pexp(2, rate = 3)
## [1] 0.9975212
la distribución de Pearson, llamada también ji cuadrada(o)La distribución de chi-cuadrada $ X^2$ es una distribución continua que se especifica por los grados de libertad y el parámetro de no centralidad. La distribución es positivamente asimétrica, pero la asimetrÃa disminuye al aumentar los grados de libertad.
Grados de libertad: Los grados de libertad son la combinación del número de observaciones de un conjunto de datos que varÃan de manera aleatoria e independiente menos las observaciones que están condicionadas a estos valores arbitrarios.
En otras palabras, los grados de libertad son el número de observaciones puramente libres (que pueden variar) cuando estimamos los parámetros.
qchisq(0.95, df=7)
## [1] 14.06714
La función de densidad correspondiente toma la forma de la siguiente gráfica:
curve(dchisq(x, df=7), xlim= c(0,20), xlab = "Valores de x", ylab= "densidad de probabilidad" )
## Distrubución t de student
Es una distribución de probabilidad que surge del problema de estimar la media de una población normalmente distribuida cuando el tamaño de la muestra es pequeño.
Aparece de manera natural al realizar la prueba t de Student para la determinación de las diferencias entre dos varianzas muestrales y para la construcción del intervalo de confianza para la diferencia entre las partes de dos poblaciones cuando se desconoce la desviación tÃpica de una población y esta debe ser estimada a partir de los datos de una muestra.
Fue desarrollada por William Sealy Gosset, bajo el seudónimo Student.
qt( c(0.025, 0.975), df=5 )
## [1] -2.570582 2.570582
Podemos graficar la densidad de esta distribución en particular
curve(dt(x, df=1000), xlim = c(-3,3), xlab = "Valores de t", ylab= "Densidad de probabilidad" )
xfun::embed_file("A9U2.Rmd")