En R, cada distribución de probabilidad se nombra mediante una palabra clave o alias. Las palabras clave para las distribuciones más importantes son:
\[ \begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso} & \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles percentiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array} \]
curve(dexp(x), 0, 10)
# Representa la densidad de una exponecial de media 1 entre 0 y 10.
x <- rbinom(20, 1, 0.5)
x
## [1] 1 1 0 0 0 0 0 1 1 1 0 0 1 0 1 0 0 1 1 1
# Genera 20 observaciones con distribucion B( 1, 0.5)
table(x)
## x
## 0 1
## 10 10
Si \(X\) es una variable aleatoria, con distribucion normal de media 3, y su desviacion estandar es de 0.5, la probabilidad de que \(X\) sea menor que 3.5 se calcula en R de esta forma.
pnorm(3.5, 3, 0.5, TRUE)
## [1] 0.8413447
qnorm(0.7)
## [1] 0.5244005
qnorm(0.7, sd = 0.5)
## [1] 0.2622003
El valor \(z_\alpha\) que aparece en muchas de las formulas par intervalos y contrastes se obtiene con el comando qnorm(1-alfa). Algunos ejemplos:
x <- rnorm(100, mean=10, sd=1)
x
## [1] 11.238626 10.481133 11.322483 10.453445 8.714227 11.267564 9.075590
## [8] 11.383899 9.282250 10.496268 11.148542 9.829603 8.760636 9.703963
## [15] 11.728198 9.656151 11.538696 9.993989 11.871022 11.405481 9.807737
## [22] 10.841435 10.594687 9.613479 10.347631 8.909185 9.575061 8.886632
## [29] 9.360261 11.555300 10.860947 11.303973 10.160980 10.494611 10.136014
## [36] 8.642306 10.376275 8.822924 7.917684 10.025620 10.630797 9.855044
## [43] 11.472166 10.101961 11.974194 12.896843 10.011980 9.487057 10.089831
## [50] 10.221526 10.516666 9.133168 9.181696 9.362811 8.965546 10.258486
## [57] 10.219783 9.398004 11.291608 9.028360 10.026104 9.600557 9.740729
## [64] 9.828009 9.411139 10.345774 8.361326 9.525626 10.460221 8.803868
## [71] 9.343438 10.619076 8.350077 9.935248 10.596142 11.623137 9.068717
## [78] 9.564834 9.748337 9.759795 10.131235 9.765870 9.123867 10.988133
## [85] 10.258857 8.557302 9.637473 8.852036 9.569590 11.086751 10.175972
## [92] 7.961583 10.928361 9.342376 10.619323 10.224470 8.321624 10.518197
## [99] 8.919622 12.200190
mean(x)
## [1] 10.03577
hist(x)
boxplot(x)
hist(x, freq=FALSE) # Freq=FALSE, para que el área del histograma sea 1
curve(dnorm(x, mean=10, sd=1), from=7, to=13, add=TRUE)
Ejercicios
pnorm(-2.34, lower.tail = FALSE)
## [1] 0.9903581
pnorm(4.78, lower.tail = TRUE)
## [1] 0.9999991
Calcula el rango intercuartílico de una población normal estándar.
Genera una muestra de tamaño 10 de una población normal estándar. ¿Cuál es la diferencia entre la media muestral y la poblacional? Repite el ejercicio 3 veces y anota las 3 diferencias.
m <- rnorm(10)
m
## [1] 0.61250359 0.58445967 -1.15116153 -1.78213773 -0.09709942 -1.01680410
## [7] 0.07833452 0.22364080 1.09352021 0.94632441
mean(m)
## [1] -0.05084196
# Lo que pude notar las 3 veces que genere la poblacion es que podia obtener numeros desde un rango negativo hasta uno positivo de una manera aleatoria impredecible obteniendo 2 medias negativas y 1 positiva.