En este trabajo se presentaran la sisntesis de las siguientes distribucciones que acompañan la asignatura de gestion de datos.
La distribución log-normal se utiliza para modelar variables que solo pueden tomar valores positivos y cuyo logaritmo sigue una distribución normal. Es común en situaciones donde los datos crecen multiplicativamente o tienen una gran variabilidad positiva, como precios de activos financieros, tiempos de espera, o la concentración de partículas en un medio.
n <- 10
media <- 3.5
desvest <- 0.9
x <- list(No_Activo=c(1:n), Precio_Activo=c(rlnorm(n, meanlog= media, sdlog= desvest)))
datos <- data.frame(x)
knitr::kable(datos, caption="Simulación de Precios de Activos Financieros (Lognormal)")
| No_Activo | Precio_Activo |
|---|---|
| 1 | 33.503256 |
| 2 | 26.329627 |
| 3 | 9.990222 |
| 4 | 6.017439 |
| 5 | 28.543372 |
| 6 | 49.690453 |
| 7 | 28.569180 |
| 8 | 28.096132 |
| 9 | 47.719902 |
| 10 | 200.361899 |
plot(datos$No_Activo, datos$Precio_Activo, type="b", xlab="Número de Activo", ylab="Precio del Activo",
main="Simulación de Precios de Activos (Lognormal)", col="blue", pch=16)
Este ejemplo simula los precios de 10 activos financieros, donde cada
precio sigue una distribución lognormal. Es útil para modelar el
comportamiento de precios en un mercado con volatilidad, ya que en
finanzas es común que los precios sigan este tipo de distribución. La
media logarítmica refleja el valor central en términos de precios,
mientras que la desviación estándar logarítmica captura la volatilidad
del mercado..
Una distribución gaussiana (también conocida como distribución normal) es una de las distribuciones más importantes en estadística y probabilidad. Es una distribución continua que describe cómo se distribuyen los valores alrededor de una media central. La forma de su gráfico es la clásica curva de campana simétrica, lo que significa que los valores cercanos a la media son los más frecuentes, mientras que los valores extremos (tanto muy bajos como muy altos) son menos comunes. “Por ejemplo, se puede usar para modelar la altura de personas. En este caso, se simulan 10 personas con una media de 170 cm y una desviación estándar de 8 cm
n <- 10
x <- list(No_Persona=c(1:n), Altura=c(rnorm(n=n, mean=170, sd=8)))
datos <- data.frame(x)
knitr::kable(datos, caption="Distribución de alturas de personas en un grupo de 10")
| No_Persona | Altura |
|---|---|
| 1 | 178.3223 |
| 2 | 159.5821 |
| 3 | 170.2402 |
| 4 | 175.9116 |
| 5 | 193.7674 |
| 6 | 165.8418 |
| 7 | 180.6647 |
| 8 | 182.7221 |
| 9 | 169.1783 |
| 10 | 174.0283 |
plot(datos$No_Persona, datos$Altura, col="salmon", main="Distribución de alturas en un grupo de 10 personas", xlab="Persona", ylab="Altura (cm)", pch=16)
## 3. chi cuadrado
La distribución Chi-cuadrado (x^2 ) es una distribución de probabilidad que surge en estadística, especialmente en pruebas de hipótesis y análisis de varianza. Se utiliza principalmente para evaluar la variabilidad de un conjunto de datos y para determinar si hay una diferencia significativa entre las frecuencias observadas y esperadas en categorías. un ejemplo puede ser el lanzamiento de un dado el cual es lanzado 60 veces para ver sus resultados de cada lanzamiento.
x <- list(Cara=c(1:6), Frecuencia=c(9, 12, 10, 8, 11, 10))
datos <- data.frame(x)
knitr::kable(datos, caption="Frecuencias observadas de un dado lanzado 60 veces")
| Cara | Frecuencia |
|---|---|
| 1 | 9 |
| 2 | 12 |
| 3 | 10 |
| 4 | 8 |
| 5 | 11 |
| 6 | 10 |
barplot(datos$Frecuencia, names.arg=datos$Cara, col="lightblue",
main="Frecuencias Observadas de un Dado",
xlab="Cara del Dado", ylab="Frecuencia")
La distribución de Poisson es una distribución de probabilidad discreta que se utiliza para modelar el número de eventos que ocurren en un intervalo de tiempo o espacio fijo, bajo la condición de que estos eventos son independientes entre sí y ocurren con una tasa promedio constante. el siguiente es un ejemplo de servicio al cliente, donde se realizan llamadas en un intervalo de 30 horas.
x <- list(No_Horas=c(1:30), Llamadas=c(rpois(n=30, lambda=15)))
datos <- data.frame(x)
knitr::kable(datos, caption="Distribución de llamadas en un centro de atención al cliente durante 30 horas")
| No_Horas | Llamadas |
|---|---|
| 1 | 15 |
| 2 | 12 |
| 3 | 22 |
| 4 | 13 |
| 5 | 22 |
| 6 | 13 |
| 7 | 14 |
| 8 | 13 |
| 9 | 10 |
| 10 | 17 |
| 11 | 23 |
| 12 | 8 |
| 13 | 9 |
| 14 | 15 |
| 15 | 16 |
| 16 | 17 |
| 17 | 21 |
| 18 | 7 |
| 19 | 11 |
| 20 | 8 |
| 21 | 7 |
| 22 | 11 |
| 23 | 15 |
| 24 | 19 |
| 25 | 20 |
| 26 | 15 |
| 27 | 9 |
| 28 | 11 |
| 29 | 14 |
| 30 | 19 |
plot(datos, type="b", col="blue", pch=19,
xlab="Hora", ylab="Número de Llamadas",
main="Distribución de Llamadas Simuladas en un Centro de Atención al Cliente")
La distribución exponencial es una distribución de probabilidad continua que describe el tiempo entre eventos en un proceso de Poisson. Es ampliamente utilizada en diversas disciplinas, especialmente en la teoría de colas y en el análisis de tiempos de vida de ciertos procesos. esta es la distrbuccion de horas hasta que la maquina muestra un fallo.
x <- list(No_Maquinas=c(1:20), Horas_hasta_el_fallo=c(rexp(n=20, rate=1/10)))
datos <- data.frame(x)
knitr::kable(datos, caption="Distribución de horas hasta que la máquina muestre un fallo")
| No_Maquinas | Horas_hasta_el_fallo |
|---|---|
| 1 | 6.3897542 |
| 2 | 2.2388186 |
| 3 | 28.9460986 |
| 4 | 3.6273013 |
| 5 | 12.8625554 |
| 6 | 27.9496066 |
| 7 | 0.8527027 |
| 8 | 6.7576748 |
| 9 | 21.4813668 |
| 10 | 31.0260120 |
| 11 | 7.4355740 |
| 12 | 2.9366527 |
| 13 | 6.9747107 |
| 14 | 9.4455787 |
| 15 | 14.7548367 |
| 16 | 3.2852524 |
| 17 | 7.9926097 |
| 18 | 19.0130709 |
| 19 | 9.8547723 |
| 20 | 5.4609154 |
plot(datos, type="b", col="green", pch=19,
xlab="Máquina", ylab="Horas hasta el fallo",
main="Distribución de Horas hasta el Fallo de Máquinas")