Introducción a la probabilidad

Probabilidad es el lenguaje matemático para cuantificar la incertidumbre. wasserman

  1. Terminología de probabilidad: espacio de resultados, eventos, funciones de probabilidad, etc.
  2. Interpretación frecuencista de la probabilidad.
  3. Probabilidad condicional y su relación con la independencia.

Espacio de resultados y eventos

El espacio de resultados \(\Omega\) es el conjunto de resultados de un experimento aleatorio.

e.g. si lanzamos una moneda dos veces entonces:

\[\Omega = \{AA, AS, SA, SS \} \] Un Evento es un subconjunto del espacio muestral, los eventos usualmente se denotan por mayúsculas.

e.g. Que el primer lanzamiento resulte águila.

\[A=\{AA,AS\} \] ## Eventos equiprobables

La probabilidad se puede ver como una extensión de la idea de proporción, o cociente de una parte con respecto a un todo.

e.g. En la carrera de Ing. Química hay 300 hombres y 700 mujeres, la proporción de hombres es:

\[\frac{300}{700+300} =0.3 \] Eventos equiprobables si todos los elementos en el espacio de resultados tienen la misma oportunidad de ser elegidos entonces la probabilidad del evento A es el número de resultados en A dividido entre el número total de posible resultados:

\[ P(A)=\frac{\#(A)}{\#(\Omega)} \] Por lo que solo hace falta contar.

e.g. Combinaciones

Un comité de 5 personas será seleccionado de un grupo de 6 hombres y 9 mujeres, si la selección es aleatoria, ¿cuál es la probabilidad de que el comité este conformado por 3 hombres y 2 mujeres?

Hay \(\dbinom{15}{15}\) posibles comités, cada uno tiene la misma probabilidad de ser seleccionado.

Por otra parte hay \(\dbinom{6}{3} \dbinom{9}{2}\) posibles comités que incluyen 3 hombres y 2 mujeres, por lo tanto la rpobabilidad que buscamos es:

\[ \frac{\dbinom{6}{3} \dbinom{9}{2}}{\dbinom{15}{15}} \] y la función para calcular las ombinaciones es choose (n,r)

choose(6,3) + choose(9,2) / choose(15,5)
## [1] 20.01199

Interpretación frecuentista de la probabilidad

Una frecuencia relativa es una proporción que mide que tan seguido, o frecuente, ocurre una u otra cosa en una sucesión de observaciones.

lanzamientos_10 <- sample(c("A","S"),10,replace = TRUE) 
lanzamientos_10
##  [1] "A" "S" "A" "A" "A" "S" "A" "A" "A" "S"

podemos calcular las secuencias de frecuencia relativas de águila:

cumsum(lanzamientos_10 == "A") # Suma acumulada de águilas
##  [1] 1 1 2 3 4 4 5 6 7 7

Dividiendo

round(cumsum(lanzamientos_10 == "A") / 1:10, 2)
##  [1] 1.00 0.50 0.67 0.75 0.80 0.67 0.71 0.75 0.78 0.70

Distribuciones de probabilidad

Funciones en R

En R cada distribución de probabilidad se nombra mediante una palabra clave o alias. Las palabras clave para las distribuciones masimportantes son:

\[ \begin{array}{l|l|l|c} \text{Función} & \text{significado} & \text{Uso} & \text{observación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas(cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles(percntiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array} \] Distribución Exponencial

curve(dexp(x), from=0, to=10)

#Representa la densidad de una exponencial de media 1 entre 0 y 10

Distribución binomial

x <- rbinom(20,1,0.5)
x
##  [1] 0 1 1 1 1 1 0 1 1 0 1 0 1 0 0 1 0 0 0 0
#Genera 20 observaciones con distribución B(1,0.5)

Contando éxitos vs fracasos

table(x)
## x
##  0  1 
## 10 10

e.g. Distribución normal

si \(x\) es una variable aleatoria, con distribución normal de media 3 y su desviación típica es de 0.5, la probabilidad de que \(x\) sea menor que 3.5 se calcula en R de esta forma:

pnorm(3.5, mean=3, sd=0.5)
## [1] 0.8413447

*Para calcular el cuartil 0.7 de una v.a. normal estandar Z, es decir, un valor x tal que

qnorm(0.7)
## [1] 0.5244005

*Para calcular el mismo cuartil pero para una v.a. normal de media 0 y DT 0.5

qnorm(0.7, sd=0.5)
## [1] 0.2622003

El valor \(Z_\alpha\) que aparece en muchas de las fórmulas para intervalos y contrastes se obtiene con el comando qnorm(1-alfa). Algunos ejemplos:

qnorm(0.975)
## [1] 1.959964
x <- rnorm(100, mean=10, sd=1)
x
##   [1] 10.502457  9.844366 10.380400 10.626976 10.982521  7.591157  9.696300
##   [8] 10.575901 10.731843 10.992043 10.592910  9.597948  9.408077  9.784272
##  [15]  8.861047  9.722403 11.130189 10.238973 11.236655 10.268759 11.255241
##  [22] 10.910570  9.544770  9.644597  9.412222  9.073929 10.708406 11.052860
##  [29] 10.362648 10.274237  9.859336 10.007669  9.262239  9.336906 10.207820
##  [36] 10.262463  9.967699  8.468058  9.398286 11.917557  9.979555 11.632010
##  [43] 11.468824 10.487846  8.405522  8.969432 10.226845  9.713967 11.449432
##  [50]  9.337905  9.516974 10.072918  9.287876  8.981278  9.596942  8.805722
##  [57] 11.335553 10.769081  9.604830 10.783850  9.759056 11.446405  9.629957
##  [64]  9.190544  9.916034 12.501916 10.921155  9.479064 10.482181  9.518584
##  [71] 10.006556 10.561244 10.649711 10.915521  9.562420  9.998447  8.598449
##  [78] 10.288829 10.879321 10.140082  9.336860  9.931101  9.284095 11.108046
##  [85]  9.581295 10.193085 10.959402 13.158956 12.571537 11.673317  9.583505
##  [92] 10.280135 11.476085 10.650829  9.833339 10.194891 10.325755 10.399375
##  [99]  9.706431  8.714848
mean(x)
## [1] 10.17527
hist(x)

* Gráfico de cajas y bigote

boxplot(x)

hist(x, freq=FALSE) #Freque=FALSE, para que el área del histograma sea 1
curve(dnorm(x, mean=10, sd=1), from=7, to=13, add=TRUE)

Ejercicios

  1. si \(z\) es una variable con distribución normal estándar, cálcula \(\marthbb{p}(-2.34 < z < 4.78\))
p= pnorm(4.78, mean=0, sd=1) - (pnorm(-2.34, mean=0, sd=1))
p
## [1] 0.9903573

\[ p=0.9903573 \] 2. Calcule el rango intercuartílico de una población normal estandar.

l <- c(1,2,2,2,3,3,6,6,6,6,7,8,8,9)
summary(l)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.000   2.250   6.000   4.929   6.750   9.000

\[ IQR= {3rd Qu - 1st Qu} \] \[ IQR= {6.750-2.250}= 4.5 \] 3. Genera una muestra de tamaño 10 de una población normal estándar. ¿ Cuál es la diferencia entre la media muestral y la poblacional? Repite el ejercicio 3 veces y anota las 3 diferencias.

x <- rnorm(10, mean=4, sd=1)
x
##  [1] 2.667775 3.725843 4.338922 1.516666 3.322515 5.284477 3.382895 3.209714
##  [9] 4.261570 4.440559
x <- rnorm(10, mean=4, sd=1)
x
##  [1] 4.808939 4.895922 3.770760 4.651441 1.678881 4.010224 3.982680 3.081405
##  [9] 4.249946 5.078928
x <- rnorm(10, mean=4, sd=1)
x
##  [1] 5.393439 3.962775 3.210604 3.501125 3.250787 4.587367 5.232433 4.938019
##  [9] 3.529520 3.321356

se observa que los números generados son diferentes en las tres corridas, pero esto se debe a que los eventos son aleatorios.

  1. Genera 1000 números con distribución de Poisson de parámetro \(\lambda = 1\). Representa el gráfico de barras de los números obtenidos. Calcula la media y la varianza de los números obtenidos. ¿ se parecen a los valores teóricos?
Po <- rpois(1000,1)
Po
##    [1] 1 0 1 2 0 0 0 1 1 0 2 1 1 1 0 1 2 1 2 0 2 2 0 0 1 0 1 3 0 2 2 2 1 3 0 1 0
##   [38] 1 0 0 0 2 3 2 0 1 0 1 1 2 1 3 1 1 3 0 2 0 0 1 1 1 2 0 0 1 1 0 2 0 1 0 2 1
##   [75] 3 0 0 2 1 1 1 1 2 0 0 1 0 1 0 1 0 1 2 0 1 0 1 0 0 0 0 1 1 0 1 0 0 1 3 1 0
##  [112] 0 0 0 1 2 1 0 0 2 1 2 0 2 3 0 0 1 2 1 1 0 0 0 0 1 0 0 0 1 1 2 1 3 1 1 2 0
##  [149] 0 2 2 2 0 2 2 2 1 1 0 3 2 3 1 0 1 3 0 0 2 0 1 0 0 1 1 1 1 0 1 0 1 1 1 0 0
##  [186] 1 2 1 0 1 0 0 3 1 2 0 1 2 0 0 3 1 1 0 0 1 0 1 1 0 1 2 0 0 2 3 1 1 1 0 0 1
##  [223] 0 0 1 1 1 3 1 0 2 1 2 2 0 2 0 0 2 0 2 1 1 2 1 0 1 0 1 2 2 1 2 0 1 1 0 3 2
##  [260] 2 0 0 1 1 2 0 1 1 0 1 2 0 2 0 0 0 2 0 1 0 1 0 2 0 0 2 2 1 0 1 0 0 1 0 0 3
##  [297] 1 0 2 0 2 1 3 0 2 0 0 1 0 1 1 1 0 0 0 1 2 2 2 3 1 0 1 1 1 2 2 0 0 0 0 2 0
##  [334] 1 1 0 2 1 0 1 1 0 0 0 2 0 2 0 2 0 3 0 1 3 0 0 0 0 3 1 0 0 0 1 3 0 2 1 2 1
##  [371] 3 1 0 0 2 1 1 1 1 1 0 1 0 0 3 1 0 2 2 0 0 0 1 1 0 3 1 1 0 1 0 2 1 0 1 0 1
##  [408] 1 0 0 1 1 0 2 2 1 0 3 2 2 0 0 1 1 1 0 1 1 1 1 1 1 2 1 1 2 0 1 3 1 0 1 0 1
##  [445] 1 1 0 2 2 1 1 3 1 3 2 0 3 1 0 0 0 1 1 0 2 1 0 0 0 1 1 1 0 1 1 0 0 2 1 1 1
##  [482] 2 0 0 1 2 1 0 0 2 0 1 0 0 0 2 1 1 1 1 1 0 1 0 0 1 2 1 1 0 1 0 0 0 0 0 1 1
##  [519] 1 1 0 0 1 0 0 0 2 1 1 0 1 1 0 2 1 1 1 1 2 0 0 0 0 0 0 1 0 2 1 0 3 0 1 3 1
##  [556] 1 2 3 3 1 0 0 1 0 2 1 1 0 2 0 0 1 1 2 3 2 0 0 1 2 2 2 2 0 4 1 1 2 1 1 1 3
##  [593] 1 3 0 1 3 0 1 0 1 4 0 1 0 1 1 3 1 1 0 3 0 0 1 0 2 3 1 1 0 2 2 0 1 0 0 0 1
##  [630] 2 0 0 0 0 1 1 1 3 1 0 1 1 2 0 1 1 1 1 2 1 0 0 0 1 2 0 1 1 2 1 1 0 1 1 2 1
##  [667] 4 2 0 1 1 2 1 1 2 1 2 2 2 2 1 1 2 0 1 2 1 1 1 2 1 1 1 1 1 0 0 2 4 1 0 2 0
##  [704] 2 2 1 2 0 2 1 1 0 0 0 1 0 2 1 0 0 0 0 1 0 1 0 0 1 1 1 0 1 0 1 1 0 1 0 1 1
##  [741] 0 0 1 3 0 2 0 0 0 1 1 2 0 2 1 1 0 3 3 2 1 1 1 2 0 3 2 1 1 0 2 3 1 2 0 1 1
##  [778] 2 2 1 1 0 2 2 1 2 1 1 0 2 2 0 1 0 3 0 1 2 2 1 1 0 1 1 1 2 1 4 0 0 3 0 1 3
##  [815] 0 1 0 1 1 1 0 3 1 1 1 0 0 1 3 1 3 1 0 0 0 0 0 2 2 0 2 0 3 1 1 1 3 1 0 0 0
##  [852] 0 1 1 2 2 2 2 0 1 0 0 1 2 0 1 1 1 2 3 0 0 0 0 0 0 0 2 0 1 1 1 1 2 3 0 0 1
##  [889] 0 0 0 0 0 1 2 1 0 2 0 0 1 2 0 1 3 2 0 2 1 0 1 1 0 0 0 0 1 3 0 2 0 1 0 0 0
##  [926] 1 1 0 1 0 0 0 0 0 1 1 0 0 0 2 0 1 2 1 1 1 1 0 0 3 0 1 0 1 2 0 1 1 0 1 0 1
##  [963] 2 2 3 0 4 0 1 3 1 0 0 1 3 1 0 1 1 1 1 0 4 1 0 0 1 1 3 1 2 0 0 1 1 3 0 1 0
## [1000] 1
mean(Po)
## [1] 0.958
var(Po)
## [1] 0.8751111
hist(Po, xlab= "Distribución de Poisson", ylab= "Frecuencia", main= ("Histograma de Poisson"))

  1. Calcula con R los siguientes valores: \(t_{3, \alpha}\), \(chi^2_{3, \alpha}\), para \(\alpha= 0.05\) y \(\alpha = 0.01\). Compara los valores obtenidos con los que aparecen en las correspondientes tablas.