Las distribuciones de probabilidad sirven para determinar la factibilidad de cada uno de los posibles resultados de un experimento o fenómeno aleatorio. Permiten describir y modelar la incertidumbre, mostrando la probabilidad de que una variable tome un valor específico o caiga dentro de un rango de valores. A continuación, se presentaran brevemente algunas de las distribuciones mas conocidas.
La distribución lognormal es una distribución de probabilidad que describe datos que solo pueden tomar valores positivos y que tienden a crecer de forma multiplicativa (por ejemplo, salarios, precios o tiempos de vida de productos). Se llama así porque si tomas el logaritmo de esos datos, el resultado sigue una distribución normal. En otras palabras, los valores originales no se distribuyen de manera simétrica como una campana normal, sino que tienen una cola larga hacia la derecha, mostrando que hay pocos valores muy grandes y muchos valores pequeños.
\[f(x)=\frac{1}{x\sigma \sqrt{2\pi }}e^{-\frac{(Lnx - \mu )^{2}}{2\sigma^{2} }}, x>0\]
En donde x = Valor de la variable (Solo valores positivos),
μ = media del logaritmo natural de la variable,
σ = desviación estándar del logaritmo natural de la variable,
e = número de euler
Supongamos que el logaritmo natural (ln) de una variable X (por ejemplo, los salarios en millones de pesos) sigue una distribución normal con los siguientes parámetros:
𝜇=1.5 𝜎=0.4
Queremos hallar la densidad cuando x=5 (Cuando una persona gane 5 millones de pesos)
Reemplazando en la formula:
\[f(5)=\frac{1}{5(0,4) \sqrt{2\pi }}e^{-\frac{(Ln5 - (1,5) )^{2}}{2(0,4)^{2} }}\] Lo que nos da \[f(5)=\frac{0,964}{5,012} = 0,192\] El resultado f(5)=0.192 no representa una probabilidad directa, sino la densidad de probabilidad en x=5.
## [1] "Rstudio ya tiene incorporada la función de la distribución lognormal, con el comando dlnorm"
La distribución gaussiana, también llamada distribución normal, es una distribución de probabilidad continua con forma de campana simétrica. Se define por su media (\(\mu\)), que es el centro de la distribución, y su desviación estándar (\(\sigma\)), que mide la dispersión de los datos. La mayoría de los datos se agrupan cerca de la media, y la frecuencia de los valores disminuye a medida que se alejan de ella.
\[f(x)=\frac{1}{\sigma \sqrt{2\pi }}e^{-\frac{(x - \mu )^{2}}{2\sigma^{2} }}\] En donde
x → es el valor de la variable.
μ → es la media (el centro de la campana).
σ → es la desviación estándar, que indica qué tan dispersos están los datos.
e → es el número de Euler
Supongamos que la altura de un grupo de personas sigue una distribución normal con:
μ=170 cm,σ=10 cm
Queremos calcular la densidad de probabilidad para una persona que mide 180 cm.
Reemplazando en la formula tenemos:
\[f(180)=\frac{1}{10 \sqrt{2\pi }}e^{-\frac{(180 - 170 )^{2}}{2(10)^{2} }}\] Lo que nos da
\[f(180)=\frac{0.6065}{25.06 }= 0.0242\] El valor f(180)=0.0242 no es una probabilidad directa, sino la densidad en el punto x=180.
## [1] "Al igual que con la lognormal, la distribución Gaussiana tiene su comando en rstudio, el cual es dnorm"
Es la distribución de la suma del cuadrado de k variables aleatorias independientes con distribución normal estándar. La distribución chi cuadrada es un caso especial de la distribución gamma y se puede extender a un número no natural de grados de libertad.
\[f(x)=\frac{1}{2^{\frac{k}{2}}\Gamma (\frac{k}{2})}x^{\frac{k}{2}-1}e^{\frac{-x}{2}}, x>0\]
En donde:
x → es la variable (solo toma valores positivos).
k → son los grados de libertad (un número entero positivo que determina la forma de la curva).
Γ → es la función gamma, una generalización del factorial
e → es el número de Euler (≈ 2.71828).
Supongamos que tenemos una variable X que sigue una distribución Chi-cuadrado con k = 4 grados de libertad.
Queremos calcular el valor de la función de densidad para x=3.
Sustituyendo en la formula:
\[f(3)=\frac{1}{2^{\frac{4}{2}}\Gamma (\frac{4}{2})}3^{\frac{4}{2}-1}e^{\frac{-3}{2}}\]
Lo que nos da: \[f(3)=\frac{0.6693}{4} = 0.1673\] ## Grafica de la distribucción
## [1] "De igual forma, RStudio cuenta con la respectiva formula para la distribución Chi-Cuadrado, la cual es dchisq"
La distribución de Poisson es una distribución de probabilidad discreta que expresa, a partir de una frecuencia de ocurrencia media, la probabilidad de que ocurra un determinado número de eventos durante cierto período de tiempo.
\[P\left (X = k \right )= \frac{e^{-\lambda }\lambda ^{k}}{k!}\]
En donde
P(X=k) → probabilidad de que ocurran exactamente k eventos.
λ → número promedio de eventos que ocurren en el intervalo (la media de la distribución).
e → número de Euler
k! → factorial de k
k → número de eventos (debe ser un número entero ≥ 0).
Esta fórmula te dice qué tan probable es que algo ocurra k veces, sabiendo que normalmente ocurre λ veces en promedio.
Supongamos que, en promedio, llegan λ = 4 clientes por hora a una tienda. Queremos saber la probabilidad de que lleguen exactamente k = 2 clientes en una hora.
Sustituyendo en la formula
\[P\left (X = 2 \right )= \frac{e^{-4 }4 ^{2}}{2!}\]
Lo que nos da
\[P\left (X = 2 \right )= \frac{0.2928}{2} = 0.1464\] La probabilidad de que lleguen exactamente 2 clientes en una hora es aproximadamente 14.6%.
## [1] "En este caso, el comando para la distribución es dpois"
La distribución exponencial es una distribución de probabilidad continua que modela el tiempo que transcurre hasta que ocurre un evento específico en un proceso donde los eventos ocurren de manera independiente a una tasa constante, se utiliza para modelar tiempos de espera para la ocurrencia de un cierto evento.
\[f(x) = \lambda e^{-\lambda x}, x>0\] En donde
f(x) → densidad de probabilidad en el punto
λ → tasa promedio de ocurrencia (por ejemplo, cuántos eventos ocurren por unidad de tiempo).
e → número de Euler
x → valor del tiempo o distancia (debe ser mayor o igual a 0).
Supongamos que una empresa recibe en promedio 2 llamadas por minuto, es decir λ=2
Queremos calcular la probabilidad de que el tiempo entre dos llamadas sea exactamente x=1 minuto.
Sustituyendo en la formula:
\[f(1) = 2 e^{-2* 1} = 2e^{-2} = 0.2706\]
El valor f(1)=0.2706 representa la densidad de probabilidad de que el tiempo entre dos llamadas sea 1 minuto. Esto no significa que la probabilidad sea 27% exactamente, sino que la altura de la curva en ese punto es 0.2706. Para hallar una probabilidad real, usamos otra formula:
\[f(x)= 1-e^{-\lambda x}, x>0\]
Reemplazando:
\[f(1)= 1-e^{-2*1} = 0.8647\]
Es decir, hay un 86.47% de probabilidad de que llegue una llamada antes de 1 minuto.
## [1] "El comando para esta distribución es dexp"