library(prettydoc)

Probabilidad

Distribucion de probabilidad

Funciones en R

En R, cada distribucion de probabiliad se nombra mediante una palabra clave o alias. Las palabras clave para las distibuciones más importantes son:

\[ \begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso}& \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array} \] ## Distribución exponencial

curve(dexp(x), from=0, to=10)

#representa la densidad de una exponencial de media 1 entre 0 y 10)

Distribución binomial

x <- rbinom(20, 1, 0.5)
x
##  [1] 0 0 1 1 0 1 1 0 1 0 0 1 0 0 0 0 0 1 0 1

Conteo de éxitos vs fracasos

table(x)
## x
##  0  1 
## 12  8
  • 9 veces 0 y 11 veces 1

e.g Distribución normal

si \(x\) es una variable aleatoria, con distribución normal de media3 y su desviación típica es de 0.5, la probabilidad de que \(x\) sea menor que 3.5 se calcula R de esta forma: {r} pnorm(3.5, mean=3, sd=0.5)

  • Para calcular el cuantil 0.7 de una variable aleatoria normal estándar Z, es decir, un valor X tal que
qnorm(0.7)
## [1] 0.5244005
  • Para calcular el mismo cuantil, pero para una v.a normal de media 0 y DT 0.5
qnorm(0.7, sd=0.5)
## [1] 0.2622003

El valor de \(\( z_\alpha \)\) que aparece en muchas de las fórmulas para intervalos y contrastes se obtiene con el comando qnorm(1-aplha). Algunos ejemplos:

qnorm(0.975)
## [1] 1.959964
  • Para generar una muestra de tamano 100 de una población normal de media 10 y desviación típica 1 (y guardarla en vector x):
x <- rnorm(100, mean=10, sd=1)
x
##   [1]  8.338961 10.050446 11.286617  9.869942 11.564935  7.382102 10.631736
##   [8]  9.906826 10.379482  9.268063  9.159498  9.948815  9.878049 10.724495
##  [15] 10.457176 10.957298 11.343134 10.476780  9.839449  9.395010  9.845437
##  [22] 11.146406  9.626946  9.849834  9.554327 10.429802 10.940789  9.376077
##  [29] 11.965948 10.601459  9.131702  9.615150  8.769333 11.278311  9.671373
##  [36] 10.119210 12.024366 11.984466  9.047984  7.484840 10.241834 11.350983
##  [43] 10.966942 11.288251 11.106855  9.171238  8.826584 10.278586 11.592763
##  [50]  8.530147  8.620215 10.797962 11.482628  9.414249 10.566531 10.881327
##  [57] 11.351162 10.167416 10.132053  9.347311 10.321652  9.322867  8.266605
##  [64] 10.175588  9.114906 10.144433  8.388906  9.808851 10.684223 10.399610
##  [71]  9.738764  9.988977 10.253951 11.076669  9.239270 10.245200 10.132761
##  [78]  9.931060  8.895799 10.516127  8.648051 11.942343 10.492507 10.771396
##  [85] 10.562628  9.076117 10.710469 10.010682  9.105970 11.033505  9.983144
##  [92]  8.702093  8.362398 10.620357 10.481048 10.252548  9.788388 10.692282
##  [99]  9.770126  7.756131

*Para estimar promedio de x

mean(x)
## [1] 10.04846
  • Histograma de frecuencias
hist(x)

* Gráfico de cajas y bigote

boxplot(x)

* Histograma de la muestra (normalizado para que la suma de las áreas de los rectángulos sea 1) junto con la densidad de la población:

hist(x, freq=FALSE)  #Freq=FALSE, para que el área del histograma sea 1
curve(dnorm(x, mean=10, sd=1), from=7, to=13 , add=TRUE)