Introducción a la probabilidad

Probabilidad es el lenguaje matematico para cuantificar la incertidumbre. Wasserman

  1. Terminologia de probabilidad: espacio de resultados, eventos, funciones de probabilidad, etc.
  2. Interpretación frecuentista de la probabilidad.
  3. Probabilidad condicional y su relación con la independencia.

Espacio de resultados y eventos

El espacio de resultados \(\Omega\) es el conjunto de reslutados de un experimento aleatorio.

e.g. Si lanzamos una moneda dos veces entonces:

\[ \Omega = \{AA, AS, SA, SS \} \] Un evento es un subconjunto del espacio muestral, los eventos usualmente se denotan por mayúsculas.

e.g. Que el primer lanzamiento resulte águila.

\[ A = \{AA, AS\} \] ## Eventos Equiprobables

La probabilidad se puede ver como una extensión de la idea de proporción, o cociente de una parte con respecto a un todo.

e.g. En la carrera de Ing. quimica hay 300 hombres y 700 mujeres, la proporción de hombres es:

\[ \frac{300}{700+300}=0.3 \]

Eventos equiprobables Si todos los elementos en el espacio de resultados tienen la misma oportunidad de ser elegidos entonces la probabilidad del evento A es el número de resultados en A dividido entre el número total de posibles resultados:

\[ P(A) = \frac{\#(A)}{\#(\Omega)} \]

Por lo que hace falta contar

e.g. Combinaciones

Un comite de 5 personas sera seleccionado de un grupo de 6 hombres y 9 mujeres. Si la selección es aleatoria. ¿Cuál es la probabilidad de que el comité este conformado por 3 hombres y 2 mujeres?

Hay \(\dbinom{15}{5}\) posibles comités, cada uno tiene la misma posibilidad de ser seleccionado.

Por otra parte hay \(\dbinom{6}{3} \dbinom{9}{2}\) posibles comités que incluyen 3 hombres y 2 mujeres, por lo tanto, la probabilidad que buscamos es:

\[ \frac{\dbinom{6}{3} \dbinom{9}{2}}{\dbinom{15}{5}} \] y la función para calcular las combinaciones es choose(n, r)

choose (6, 3) * choose(9, 2) / choose (15, 5)
## [1] 0.2397602

Interpretación frecuentista de probabilidad

Una frecuencia relativa es una proporción que mide que tan seguido, o frecuente, ocurre una u otra cosa en una sucesión de observaciones.

Lanzamientos_10 <- sample(c("A", "S"),10, replace = TRUE) 
Lanzamientos_10
##  [1] "S" "S" "A" "A" "A" "S" "A" "S" "A" "S"

Podemos calcular las secuencia de frecuencias relativas de águila:

cumsum(Lanzamientos_10 == "A") # suma acumulada de águilas
##  [1] 0 0 1 2 3 3 4 4 5 5

Dividiendo

round(cumsum(Lanzamientos_10 == "A") / 1:10, 2 )
##  [1] 0.00 0.00 0.33 0.50 0.60 0.50 0.57 0.50 0.56 0.50

##Distribuciones de probabilidad

**Funciones en R

En R, cada distribución de probabilidad se nombra mediante una palabra clave o alias. Las palabras clave para las distribuciones más importantes son:

Distribución Alias Distribución normal norm Distribución binomial binom Distribución exponencial exp Distribución t de student t Distribución chi cuadrada chisq *Distribución F F

\[ \begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso}& \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array} \] Distribución exponencial

curve(dexp(x), from=0, to=10)

#representa la densidad de una exponencial de media 1 entre 0 y 10

Distribución binomial

x <- rbinom(20, 1, 0.5)
x
##  [1] 1 0 0 1 1 0 1 1 1 1 0 1 0 0 1 1 1 1 0 1
#Genera 20 observaciones con distribución B(1,0.5)

Contando éxitos vs fracasos

table(x)
## x
##  0  1 
##  7 13

e.g. Distribución normal

si \(x\) es una variable aletoria, con distribución normal de media 3, y du desviación típica es de 0.5, la probabilidad de que \(x\) sea menor que 3.5 se calcula en R de esta forma:

pnorm(3.5, mean=3, sd=0.5)
## [1] 0.8413447

*Para calcular el cuantil 0.7 de una v.a. normal estándar Z, es decir, un valor X tal que

qnorm(0.7)
## [1] 0.5244005

*Para calcular el mismo cuantil, pero para una v.a. normal de media 0 y DT 0.5

qnorm(0.7, sd=0.5)
## [1] 0.2622003

El valor \(z_\alpha\) que aparece en muchas de las fórmulas para intervalos y contrastes se obtiene con el comando qnorm(1-alfa). Algunos ejemplos:

qnorm(0.975)
## [1] 1.959964

*Para generar una muestra de tamaño 100 de una población normal de media 10 y desviación típica 1 (y guardarla en un vector x):

x <- rnorm(100, mean=10, sd=1 )
x
##   [1]  9.810082  9.504563 11.173438  8.464866 11.033094  9.788733 10.560105
##   [8] 11.249565 10.987473 11.344919 10.495128  9.031669  8.512714 10.016406
##  [15]  9.648725 10.191255  9.632168  9.811755 11.144909 10.447067  9.398456
##  [22] 12.058491 10.017856  9.521676 10.614493  8.906859  9.583687 10.671267
##  [29] 11.120458  7.961994  7.527609 11.904264  9.337782  9.892279  7.329107
##  [36]  9.190950 10.595658 10.855103 11.733105 10.038378 10.448074  9.338742
##  [43]  8.849825 10.568697 11.201693 10.269046  9.628185  9.429147 10.427928
##  [50]  9.024991 10.124327 11.450913  9.847095 10.455227 11.338715  9.866999
##  [57]  8.731967  9.411966  8.712542  9.937284  9.529436 10.116672 10.969160
##  [64] 10.109726  8.692276 11.200625 10.680905 10.215814  7.989142  9.714415
##  [71]  9.203448  8.704532 10.384035 10.669978  9.234474 10.409237 10.310139
##  [78] 10.393005  8.341805  8.406542  9.886880 10.181255  9.001016 10.268596
##  [85] 10.175881  8.005240  8.567859  8.671849  9.151199 11.596706  8.062518
##  [92]  9.810437 10.727223  9.350192  8.111339  7.953908 11.914997 10.412886
##  [99]  9.975200 10.874110

*Para estimar el promedio de x

mean(x)
## [1] 9.881461

*Histograma de frecuencias

hist(x)

*Gráfico de cajas y bigote

boxplot(x)

  1. junto con la densidad de la población:
hist(x, freq=FALSE) # Freq=FALSE, para que el área del histograma sea 1
curve(dnorm(x, mean=10, sd=1), from=7, to=13, add=TRUE)

Ejercicios

  1. Si \(z\) es una variable con distribución normal estándar, calcula \(\mathbb{P}(-2.34 < Z < 4.78)\).
P <- pnorm(4.78)-pnorm(-2.34)
P
## [1] 0.9903573

\[ P= .9903573\]

  1. Calcula el rango intercuartílico de una población normal estándar.
x <- rnorm(15, sd=1 )
x
##  [1] -0.4208269 -1.4816767 -0.6814867 -1.3844802  0.3014451  0.9352255
##  [7]  0.1225379  1.7460702 -0.4232447  0.3011259  1.4361317  0.5011294
## [13]  1.7534175 -0.5271966 -1.2143414
summary(x)
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -1.48168 -0.60434  0.12254  0.06426  0.71818  1.75342

\[ IQR= 3erQ - 1erQ\] Obtener IQR:

IQR(x)
## [1] 1.322519
  1. Genera una muestra de tamaño 10 de una población normal estándar. ¿Cuál es la diferencia entre la media muestral y la poblacional? Repite el ejercicio 3 veces y anota las 3 diferencias.
a <- rnorm(10, sd=1 )
a
##  [1]  0.6897838 -1.0637403 -0.2806050  1.8559243  0.5823084 -1.8330729
##  [7]  2.0317229 -0.9053649  0.3880106  0.3709052
b <- rnorm(10, sd=1 )
b
##  [1] -0.18509796  0.96665132  0.88816333  0.09958991  2.27784197  0.40211534
##  [7]  0.58092462  0.83007295  1.50673752  0.34431738
c <- rnorm(10, sd=1 )
c
##  [1]  0.2902429  1.2383271  1.4462114 -0.2728908 -1.4716539  0.9064015
##  [7] -0.4686103 -0.6682121  0.9214430 -0.7111877

Las unicas diferencias que podemos observar a simple vista son el orden de los valores y que los valores son diferentes en cada situacion,y si vemos entre la media poblacional y la media muestral es que la media poblacional es toda la suma de los datos para realizar la estimación, mientras que la media muestra se basa en una muestra relevante de esa población.En cuanto que la media y la desviacion de las diferentes incisos son las mismos .

  1. Genera 1000 números con distribución de Poisson de parámetro \(\lambda = 1\) Representa el gráfico de barras de los números obtenidos. Calcula la media y la varianza de los números obtenidos. ¿Se parecen a los valores teóricos?
pois <- rpois(1000, 1) 
pois
##    [1] 1 1 1 0 0 1 1 3 1 2 1 2 1 2 1 1 1 1 1 0 0 0 3 2 1 3 1 1 0 0 1 0 3 2 0 0 1
##   [38] 2 2 0 2 1 0 1 1 2 4 0 0 1 0 0 2 2 0 0 1 1 1 2 0 0 0 1 1 0 0 1 1 2 2 0 3 1
##   [75] 3 0 0 0 0 3 1 2 0 1 1 0 0 1 2 1 2 0 0 1 2 0 1 2 3 3 0 2 3 1 2 0 1 1 0 2 0
##  [112] 1 2 2 3 1 3 1 0 0 0 2 1 1 2 2 2 2 2 0 1 1 0 1 1 0 0 0 2 1 1 1 0 1 2 0 1 2
##  [149] 0 0 5 1 0 2 0 0 1 1 0 0 2 2 1 0 1 1 0 0 2 3 4 1 1 3 1 1 0 0 1 2 0 3 0 2 0
##  [186] 0 1 2 1 1 1 2 1 3 0 0 0 1 1 0 1 3 2 1 2 2 3 0 1 0 2 3 1 1 2 3 3 2 1 2 0 2
##  [223] 0 2 0 1 0 2 1 0 0 2 0 0 0 0 0 1 0 3 0 1 1 0 1 1 0 3 1 3 1 1 1 2 1 1 0 0 2
##  [260] 1 1 1 1 4 3 0 0 0 0 2 0 1 1 1 1 0 0 1 0 0 0 0 0 0 4 1 0 0 0 1 3 0 1 3 0 1
##  [297] 3 1 0 0 0 3 2 0 2 0 2 0 2 0 2 0 0 3 0 2 1 1 0 1 2 1 2 1 0 1 3 0 1 1 1 1 0
##  [334] 1 2 0 0 0 3 1 0 3 0 1 0 1 1 0 2 1 0 0 0 2 0 1 1 0 3 2 2 2 2 0 0 0 2 2 3 0
##  [371] 0 0 2 0 1 1 2 1 1 0 1 1 0 1 0 2 0 3 4 0 0 1 0 4 1 1 0 1 2 0 0 2 1 1 0 0 2
##  [408] 0 0 1 0 0 0 0 0 1 0 0 0 1 0 3 1 3 2 0 0 0 2 0 2 1 3 2 2 0 0 1 3 1 0 1 1 2
##  [445] 1 1 0 3 1 0 1 1 0 1 1 2 0 1 0 2 1 0 0 1 2 1 2 1 2 3 2 0 1 1 0 0 1 0 0 1 0
##  [482] 1 0 2 3 1 1 1 0 1 0 1 0 4 1 0 1 1 1 2 3 0 0 1 1 0 1 1 2 2 1 0 1 0 1 0 0 0
##  [519] 1 0 0 0 0 1 1 1 1 1 0 0 2 0 0 1 1 1 1 1 0 1 0 0 3 3 2 1 4 0 1 0 0 1 1 2 1
##  [556] 1 0 0 0 3 3 1 0 0 0 0 1 1 2 2 3 1 1 1 0 1 2 0 1 1 1 0 0 0 0 0 0 0 1 0 1 3
##  [593] 0 2 0 2 1 1 0 3 3 0 0 1 2 0 1 0 1 1 0 1 3 0 0 0 5 1 0 0 0 0 2 0 0 2 0 1 0
##  [630] 1 0 0 1 1 0 1 3 0 1 1 3 1 1 0 2 0 1 0 0 0 1 1 0 1 0 1 2 1 0 1 1 0 3 1 1 1
##  [667] 2 1 1 0 1 1 0 1 1 0 1 1 2 0 1 0 0 0 1 0 0 0 0 2 1 0 0 0 0 1 1 1 0 1 0 1 1
##  [704] 0 1 3 1 0 0 1 0 1 1 2 1 3 0 3 1 4 1 0 0 1 1 0 1 2 1 0 0 1 2 0 1 0 1 1 1 0
##  [741] 0 1 1 0 0 1 0 0 1 1 2 1 0 5 0 0 1 2 0 0 0 1 1 1 1 1 0 3 0 0 0 3 1 2 1 1 1
##  [778] 3 1 0 2 0 1 0 1 2 0 2 0 2 0 0 1 4 1 0 1 1 1 3 2 0 1 0 1 3 0 0 2 1 1 0 1 3
##  [815] 0 0 4 0 0 2 1 1 0 3 4 1 1 2 0 1 1 0 0 0 1 3 0 2 2 1 1 1 0 1 2 2 3 1 2 1 1
##  [852] 2 4 0 3 0 1 0 3 1 1 1 1 0 0 0 1 0 3 2 0 2 1 1 0 0 1 2 0 0 2 2 0 3 0 0 0 1
##  [889] 1 1 0 1 2 0 1 1 0 0 3 0 0 0 0 2 0 1 1 1 0 1 3 2 2 2 2 0 1 0 0 1 0 2 1 1 0
##  [926] 1 1 0 3 1 2 0 1 1 0 2 0 1 1 0 0 0 0 1 1 1 0 2 0 0 1 1 0 1 1 0 0 1 1 2 3 4
##  [963] 0 1 4 1 1 1 0 0 2 0 3 1 1 0 2 0 0 3 1 0 0 0 2 1 2 2 1 1 2 2 2 0 1 2 1 4 1
## [1000] 1
hist(pois)

mean(pois)
## [1] 0.989
var(pois)
## [1] 1.041921

Los datos de media y varianza si son parecidos ya que la desviacion que podemos observar es pequeña por lo cual hace que los dos resultados se parezcan