La distribución lognormal es un modelo estadístico que se usa para describir valores positivos, que pueden variar mucho y donde los valores pequeños son más comunes que los grandes.
Esta distribución es muy útil en la vida real porque muchos fenómenos no crecen de manera constante o sumando cantidades, sino multiplicándose con el tiempo. Por ejemplo, el valor de una inversión que se incrementa cada año según un porcentaje, o el tamaño de una población que crece proporcionalmente.
Para modelar precios de acciones, tasas de retorno o ingresos personales.
Para analizar el tiempo de vida de componentes electrónicos o mecánicos, ya que muchos duran un tiempo normal y unos pocos duran mucho más.
Para describir el tamaño de organismos, partículas, gotas de lluvia o granos de arena, donde la mayoría son pequeños y unos pocos muy grandes.
Para estudiar tiempos de recuperación, crecimiento de bacterias o concentraciones de sustancias.
\[\textit{f(x)} = \frac{1}{x\sigma \sqrt{2 \pi}}e^{-\frac{(lnx \mu )^2}{2\sigma ^2}} ; x>0\]
Significado de cada símbolo:
𝑓 ( 𝑥 ) f(x): Es el valor de la función de densidad (la probabilidad de que ocurra un valor cerca de x).
x: Valor de la variable aleatoria (siempre positivo).
μ: Media del logaritmo natural de x.
σ: Desviación estándar del logaritmo natural de x.
e: Base del logaritmo natural (aproximadamente 2.71828).
π: Constante pi.
se representa el comportamiento del inventario de una farmacia que inicia con 200 unidades de medicamentos. Al comienzo del ciclo, la farmacia se abastece y el nivel de inventario aumenta rápidamente hasta alcanzar un máximo de disponibilidad, correspondiente al momento inmediatamente posterior al pedido recibido. A partir de ese punto, el consumo diario por parte de los pacientes provoca una reducción progresiva del inventario.
La forma lognormal de la curva refleja este proceso: un aumento rápido (por el abastecimiento) seguido de una disminución más lenta (por el consumo constante y la falta de reposición inmediata). Este tipo de comportamiento es común en farmacias o depósitos médicos que trabajan con pedidos periódicos y demanda variable
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
La distribución gaussiana o normal es un modelo estadístico que describe cómo se comportan muchos fenómenos naturales y sociales donde los valores se concentran cerca de un promedio y disminuyen simétricamente hacia los extremos. Tiene forma de campana, determinada por su media, que indica el centro y su desviación estándar que muestra qué tan dispersos están los datos. Es una de las distribuciones más importantes en estadística porque aparece en numerosos procesos reales, como alturas, calificaciones, errores de medición o rendimientos financieros, y sirve como base para gran parte del análisis e inferencia estadística
En procesos industriales se usa la distribución normal para:
Analizar la variabilidad de productos.
Detectar errores o defectos.
Evaluar si la producción se mantiene dentro de los límites normales.
\[\textit{f(x)} = \frac{1}{\sigma \sqrt{2 \pi}}e^{-\frac{(x - u )^2}{2\sigma ^2}} \]
Significado de cada simbolo:
Durante un turno de ocho horas, el rendimiento de un operario no se mantiene constante; varía a lo largo del tiempo de forma parecida a una curva en forma de campana. Al inicio del turno, el trabajador comienza a un ritmo lento, ya que se está adaptando a las condiciones del trabajo, organizando sus herramientas y concentrándose en la tarea. Con el paso de las horas, su rendimiento aumenta progresivamente, alcanzando su máximo nivel de productividad hacia la mitad del turno, cuando ya ha encontrado su ritmo ideal y su nivel de energía es alto.
Después de ese punto máximo, el rendimiento empieza a disminuir gradualmente debido al cansancio físico o mental, la monotonía o el agotamiento. Al acercarse el final de la jornada, su desempeño suele ser menor que en la mitad del turno, aunque mantiene cierta eficiencia hasta el cierre de la jornada.
es una prueba estadística que se usa para determinar si existe una diferencia estadísticamente significativa entre la frecuencia esperada y la frecuencia observada
Este tipo de prueba estadística también se conoce como prueba chi-cuadrado de Pearson y en ocasiones se representa con el símbolo de la distribución chi-cuadrado: prueba χ².
El estadístico de la prueba chi-cuadrado es igual al sumatorio de los cuadrados de la diferencias entre los valores observados y los valores esperados partido por los valores esperados
\[X^{2}=\sum_{i=1}^{k}\frac{({O_{i}- E_{i})}^2 }{E_{i}}\]
Donde:
\(x^{2}\), es el estadístico de la prueba chi-cuadrado, el cual sigue una distribución chi-cuadrado con \(k-1\) grados de libertad.
\(k\) es el tamaño de la muestra de datos.
\(O_{i}\) es el valor observado para el dato i.
\(E_{i}\) es el valor esperado para el dato i.
La hipótesis nula del contraste de hipótesis de una prueba chi-cuadrado es que los valores observados son equivalentes a los valores esperados. Por otro lado, la hipótesis alternativa del contraste es que alguno de los valores observados es diferente a su valor esperado.
\[H_{0}:O_{i}=E_{i}\forall_{i}\] \[H_{0}:\exists O_{i}\neq E_{i}\]
Así pues, dado un nivel de significación , el estadístico de la prueba calculado se debe comparar con el valor crítico de la prueba para determinar si rechazar la hipótesis nula o la hipótesis alternativa:
Si el estadístico de la prueba es menor que el valor crítico \(X^{2}_{1-α|k-1}\)
, se rechaza la hipótesis alternativa (y se acepta la hipótesis
nula).
Si el estadístico de la prueba es mayor que el valor crítico\(X^{2}_{1-α|k-1}\), se rechaza la hipótesis nula (y se acepta la hipótesis alternativa).
\[si X^{2}< X_{1-\alpha\ | k-1 |}^{2} \begin{pmatrix} rechaza\end{pmatrix}H_{i}\]
\[si X^{2}> X_{1-\alpha\ | k-1 |}^{2} \begin{pmatrix} rechaza\end{pmatrix}H_{0}\]
Las pruebas mas comunes donde aplican el chi cuadrado son:
Prueba de bondad de ajuste: Compara una muestra con una población mayor para ver si se ajustan a una distribución esperada.
Prueba de independencia: Se usa para determinar si dos variables categóricas en la misma población están relacionadas o si son independientes.
Prueba de homogeneidad: Compara la distribución de una variable en varias poblaciones para ver si es la misma en todas ellas.
Una vez hemos visto la definición de la prueba chi-cuadrado y cuál es su fórmula, a continuación se muestra un ejemplo resuelto paso a paso para que puedas cómo se hace este tipo de prueba estadística.
La propietaria de una tienda afirma que el 50% de sus ventas son del producto A, 35% de sus ventas son del producto B y 15% de sus ventas son del producto C. No obstante, las unidades vendidas de cada producto son las que se muestran en la siguiente tabla de contingencia. Analiza si los datos teóricos de la propietaria son estadísticamente diferentes a los datos reales recopilados.
| Producto | Ventas_Observadas |
|---|---|
| Producto A | 453 |
| Producto B | 268 |
| Producto C | 79 |
| Total | 800 |
En primer lugar, debemos calcular los valores esperados por la propietaria de la tienda. Para ello, multiplicamos el porcentaje de ventas esperado de cada producto por el número de ventas totales producidas:
\[E_{A}=800*0,5=400\] \[E_{B}=800*0,35=280\] \[E_{C}=800*0,15=120\]
Por lo tanto, la tabla de distribución de frecuencias del problema queda de la siguiente manera:
| Producto | Ventas_Observadas | Ventas_Esperadas |
|---|---|---|
| Producto A | 453 | 400 |
| Producto B | 268 | 280 |
| Producto C | 79 | 120 |
| Total | 800 | 800 |
Ahora que ya hemos calculado todos los valores, aplicamos la fórmula de la prueba chi-cuadrado para calcular el estadístico de la prueba:
\[X^{2}=\sum_{i=1}^{k}\frac{({O_{i}- E_{i})}^2 }{E_{i}}\]
\[X^{2}=\frac{(453-400)^{2}}{400}+\frac{(268-280)^{2}}{280}+\frac{(79-120)^{2}}{120}\]
\[X^{2}= 7,20 + 0,51 + 14,00\]
\[X^{2}= 21,53\]
Una vez calculado el valor del estadístico de la prueba, utilizamos la tabla de la distribución chi-cuadrado para hallar el valor crítico de la prueba. La distribución chi-cuadrado tiene \(k-1=3-1=2\) grados de libertad, así que si escogemos un nivel de significación \(α=0,05\) el valor crítico de la prueba es el siguiente:
\[X^{2}_{1-α|k-1}= ?\]
Una distribución de Poisson es una distribución de probabilidad discreta, lo que significa que proporciona la probabilidad de un resultado numerico. En las distribuciones de Poisson, el resultado discreto es el número de veces que ocurre un evento, representado por \(k\).
Se puede usar una distribución de Poisson para predecir o explicar la cantidad de eventos que ocurren en un intervalo de tiempo o espacio determinado.
Puedes usar una distribución de Poisson si:
1. Los eventos individuales ocurren de forma aleatoria e independiente. Es decir, la probabilidad de un evento no afecta la probabilidad de otro.
2. Se conoce el número medio de eventos que ocurren en un intervalo de tiempo o espacio determinado. Este número se denomina \(λ\)(lambda) y se supone constante.
Cuando los eventos siguen una distribución de Poisson, \(λ\) es lo único que necesitas saber para calcular la probabilidad de que un evento ocurra un cierto número de veces.
La distribución de Poisson tiene un solo parámetro , llamado \(λ\).
1. La media de una distribución de Poisson es \(λ\).
2.La varianza de una distribución de Poisson también es \(λ\).
En la mayoría de las distribuciones, la media se representa con \(µ\) (mu) y la varianza con \(σ²\) (sigma al cuadrado). Dado que estos dos parámetros son iguales en una distribución de Poisson, utilizamos el símbolo \(λ\) para representarlos a ambos.
La función de probabilidad de la distribución de Poisson es:
\[P(X=k)=\frac{e^{-\lambda}{\lambda ^{k}}}{k!}\]
Dónde:
\(X\) es una variable aleatoria que sigue una distribución de Poisson \(k\) es el número de veces que ocurre un evento \(P(X = k)\) es la probabilidad de que un evento ocurra \(k\) veces \(e\) es la constante de Euler (aproximadamente 2,718) \(λ\) es el número promedio de veces que ocurre un evento \(!\) es la función factorial
En promedio, 0,61 soldados morían al año por patadas de caballo en cada cuerpo de ejército prusiano. Se desea calcular la probabilidad de que exactamente dos soldados murieran en el VII Cuerpo de Ejército en 1898, suponiendo que el número de muertes por patadas de caballo al año sigue una distribución de Poisson.
Calculo
El cuerpo de ejército específico (VII Cuerpo de Ejército) y el año (1898) no importan porque la probabilidad es constante.
\(k\) = 2 muertes por patada de caballo
\(λ\) = 0,61 muertes por patada de caballo al año
\(e\) = 2,718
\[P(X=k)=\frac{e^{-\lambda}{\lambda ^{k}}}{k!}\]
\[P(X=2)=\frac{(2,718^{-0,61})({0,61^{2})}}{2!}\] \[P(X=2)=\frac{(0,54339)({0,3721)}}{2}\] \[P(X=2)=0,101\]
La probabilidad de que exactamente dos soldados murieran en el VII Cuerpo de Ejército en 1898 es 0,101.
En el eje horizontal se observa el número de muertes posibles (0 a 6), y en el eje vertical la probabilidad de que ocurran exactamente esas muertes dentro de un año en un cuerpo de ejército prusiano.
La distribución exponencial es un modelo estadístico que describe el comportamiento de un proceso donde los eventos ocurren de manera continua y aleatoria, pero con una tendencia a disminuir o aumentar rápidamente. Se utiliza principalmente para representar tiempos de espera o duración entre sucesos, como el tiempo que tarda una máquina en fallar, el tiempo entre llegadas de clientes. Su forma es asimétrica, mostrando que los valores más altos ocurren al inicio y se reducen conforme pasa el tiempo, reflejando un patrón de decaimiento continuo.
\[\boldsymbol{f(x)} = \lambda e^{-\lambda x}\]
Donde:
En una fábrica, se observa que un operario trabaja en una línea de producción durante turnos de 8 horas. Se ha notado que, en promedio, comete un error cada 2 horas. La empresa quiere estimar la probabilidad de que el operario pase cierto tiempo sin cometer errores.
Este tipo de situación se ajusta perfectamente a la distribución exponencial, ya que estamos midiendo el tiempo entre eventos (en este caso, los errores).
El parámetro de la distribución es:
\[\lambda = \frac{1}{2}\]
Es más probable que el operario cometa un error poco tiempo después de iniciar su turno.
A medida que transcurre el tiempo sin errores, la probabilidad de que cometa uno disminuye exponencialmente.
Esto refleja un comportamiento aleatorio pero con una tendencia de decaimiento, típico de procesos donde los eventos se distribuyen en el tiempo.
Podemos calcular la probabilidad de que el operario pase más de 3 horas sin cometer un error:
\[P(x>3) = e^{-\lambda x} =e^{-0.5(3)} = e^{-1.5} = 0.223\]
Esto significa que hay un 22.3% de probabilidad de que el
operario trabaje 3 horas sin cometer un error.
Interpretación del gráfico:
El eje X muestra el tiempo transcurrido (en horas).
El eje Y muestra la probabilidad de que ocurra un error en ese instante.
La curva naranja comienza alta (más probabilidad al inicio del turno) y va disminuyendo rápidamente conforme pasa el tiempo.
La línea roja punteada marca el punto de 3 horas, donde la probabilidad de seguir sin errores ya es baja.