Introduccion a la probabilidad

La probabilidad es el lenguaje matematico para cuantificar la insertidumbre - Wasserman

Conceptos fundamentales de probabilidad

1.- Terminologia de probabilidad: espacio de resultados, eventos, funciones de probabilidad

2.- Interpretación frecuencista de la probabilidad

3.- Probabilidad condicional y su relación con la independencia

4.- Regla de Bayes

Espacio de resultados y eventos

Es espacio de resultados \(\Omega\) el conjunto de posibles resultados de un experimento aleatorio.

Ejemplo: Si lanzamos una moneda 2 veces, entonces

\[ \Omega=\{AA,SS,AS,SA\} \] Un Evento es un subconjunto del espacio muestral, los eventos usualmente se denotan con mayusculas.

Ejemplo: Que el primer lanzamiento resulte Aguila.

\[ A=\{AA, AS\} \]

Evento equiprobables

La probabilidad se puede ver como una proporcion de una parte con respecto a un todo

Ejemplo: Si en ingenieria quimica tenemos 1000 estudiantes, de los cuales

Si elegimos un estudiante al azar de ingenieria quimica. Cual es la probabilidad de que sea hombre?

\[ \frac{300}{700+300}=0.3 \] La probabilidad entonces es de 0.3

Eventos equiprobables Si todos los elementos en el espacio de resultados tienen la misma oportunidad de ser elegidos entonces la probabilidad del evento A es el número de resultados en A dividido entre el número total de posibles resultados:

\[ P(A)=\frac{\#(A)}{\#(\Omega)} \] Por lo que solo hace falta contar.

Ejemplo: Combinaciones

Un comité de 5 personas será seleccionado de un grupo de 6 hombres y 9 mujeres. Si la selección es aleatoria, ¿cuál es la probabilidad de que el comité esté conformado por 3 hombres y dos mujeres?

Hay \(\dbinom{15}{5}\) posibles comités, cada uno tiene la misma posibilidad de ser seleccionado.

Por otra parte hay \(\dbinom{6} {3} \dbinom {9}{2}\) posibles comités que incluyen 3 hombres y 2 mujeres, por lo tanto, la probabilidad que buscamos es: \[ \frac{\dbinom{6}{3} \dbinom{9}{2}}{\dbinom{15}{5}} \]

y la funcion para calcular las combinaciones es choose(n,r)

choose(6,3) * choose(9,2) / choose(15,5)
## [1] 0.2397602

Interpretación frecuentista de la probabilidad.

La probabilidades se entienden como una aproximacion matematica de frecuencias relativas cuando la frecuencia total tiende a cero.

Supongamos que lanzamos una moneda 10 veces y obtenemos lo siguiente:

lanzamientos_10<- sample(c("A","S"), 10, replace=TRUE)
lanzamientos_10
##  [1] "S" "A" "S" "A" "S" "S" "A" "A" "S" "S"
cumsum(lanzamientos_10=="A") 
##  [1] 0 1 1 2 2 2 3 4 4 4
round(cumsum(lanzamientos_10=="A")/1:10,2)
##  [1] 0.00 0.50 0.33 0.50 0.40 0.33 0.43 0.50 0.44 0.40

Distribuciones de probabilidad

En R, cada distribucion de probabilidad se nombra mediante una palabra clave o alias. Las palabras clave para las distibuciones mas importantes son:

Distribucion Exponencial

curve (dexp(x), from = 0, to=10)

#Representa la densidad de una exponencial de media 1 entre 0 y 10

Distribucion binomial

x<- rbinom(20, 1, 0.5)
x
##  [1] 1 1 1 0 0 1 1 1 0 0 0 1 1 1 1 0 1 1 0 1
#Genera 20 observaciones con distribucion B(1,0.5)

Contador exitos vs fracasos

table(x)
## x
##  0  1 
##  7 13

Ejemplo: Distribucion normal

si \(X\)es una variable aleatoria, con distribucion normal de media 3, y su desviacion tipica es de 0.5, la probabilidad de que \(X\) sea menor que 3.5 se calcula en R de esta forma:

pnorm(3.5, mean = 3, sd=0.5)
## [1] 0.8413447
qnorm(0.7)
## [1] 0.5244005
qnorm(0.7, sd=0.5)
## [1] 0.2622003

El valor \(z_\alpha\) que aparece en muchas formulas para invervalos y contrastes obtiene con el comando qnorm(1-alfa). Algunos ejemplos:

qnorm(0.975)
## [1] 1.959964
x <- rnorm(100, mean = 10, sd=1)
x
##   [1]  9.901379 12.809169 10.370935  9.713222  9.683116  9.905769  9.702307
##   [8]  8.837213  9.936099 10.162675 10.527912 10.791939 10.184209 10.585887
##  [15] 10.208781 10.163423 10.466809  8.571471  8.749437  9.591181 10.458437
##  [22] 10.273362 10.455807  8.944741 10.559053 10.581938  8.667880 10.829093
##  [29] 11.206194 10.573161  8.595611  9.868964 10.200505 11.667915 10.749561
##  [36]  9.567314 10.373398 10.550874  9.785215 10.107181 10.651620 10.570713
##  [43] 11.077388 10.820945 10.105433  9.185480  8.551259  9.494893  8.483514
##  [50] 11.438427  8.796694  8.688844 10.776064  9.487429  7.908953  9.410183
##  [57] 11.238508  8.488176 10.399444  8.498230 11.114044 10.779145  9.598832
##  [64] 10.700612 11.515932  9.524520 10.918333 10.358405 11.779486  8.524823
##  [71]  8.653087 10.543321 10.828385 10.878273 10.262024 11.301922  9.726134
##  [78] 10.788853 10.268202  9.725833  9.214461 11.383772  8.052468 11.446036
##  [85]  7.710122 10.492269  8.978983  9.367724 10.769368 11.343585 11.276117
##  [92] 11.027062  9.143337  9.544795  9.744732 11.227876 10.540637 11.593393
##  [99]  9.065900  8.693122
mean(x)
## [1] 10.07357
hist(x)

boxplot(x)

*Histograma de la muestra (normalizado para que la suma de las areas de los rectangulos sea 1) junto con la densidad de la poblacioon

hist(x, freq = FALSE) #Sirve para que el area del histograma sea 1 
curve(dnorm(x, mean = 10, sd=1), from = 7, to=13, add = TRUE)

Ejercicios:

  1. Si Z es una variable con distribución normal estándar, calcula P(−2.34<Z<4.78).

  2. Calcula el rango intercuartílico de una población normal estándar.

  3. Genera una muestra de tamaño 10 de una población normal estándar. ¿Cuál es la diferencia entre la media muestral y la poblacional? Repite el ejercicio 3 veces y anota las 3 diferencias.

  4. Genera 1000 números con distribución de Poisson de parámetro λ=1. Representa el gráfico de barras de los números obtenidos. Calcula la media y la varianza de los números obtenidos. ¿Se parecen a los valores teóricos?

gn<-rpois(n=1000, 1)
gn
##    [1] 0 2 1 0 4 1 0 1 0 1 2 0 0 1 1 1 0 0 1 1 0 0 1 2 0 1 1 1 1 0 1 2 0 0 0 0 1
##   [38] 1 1 4 3 2 2 1 2 3 0 4 0 0 0 1 1 1 1 0 0 1 1 2 1 0 0 1 0 2 1 2 1 2 2 3 1 1
##   [75] 1 0 2 2 1 1 0 1 1 0 3 2 2 1 1 0 1 2 2 2 0 2 1 0 2 2 1 1 1 1 1 0 0 3 1 3 0
##  [112] 0 0 0 1 0 2 1 0 0 0 1 2 1 0 0 1 0 0 2 0 0 0 1 0 2 1 2 1 1 0 0 0 3 1 2 1 0
##  [149] 0 2 1 1 2 1 0 3 0 2 2 2 1 0 0 0 1 1 0 1 0 2 0 2 0 0 1 1 1 1 0 1 0 1 2 1 1
##  [186] 0 0 1 1 0 0 0 1 0 1 0 1 0 2 1 1 2 0 0 0 0 1 3 1 0 3 3 0 0 0 3 0 0 0 4 2 1
##  [223] 0 3 2 0 0 3 4 2 1 0 0 0 1 1 2 1 3 0 1 0 1 3 0 2 1 1 0 0 0 1 0 2 1 2 1 1 1
##  [260] 1 0 0 4 1 1 3 0 2 2 0 1 3 1 2 1 1 1 1 2 1 0 1 1 3 0 0 2 0 0 2 3 2 0 3 0 1
##  [297] 2 0 0 0 1 2 0 3 2 1 1 5 0 2 1 1 3 1 1 0 2 1 0 0 0 2 1 0 1 1 0 1 2 2 0 2 2
##  [334] 1 0 0 0 1 1 0 0 1 2 3 1 0 0 0 1 0 3 0 4 1 1 0 0 1 2 0 1 2 1 0 5 1 0 2 2 1
##  [371] 1 0 0 0 1 0 4 0 1 1 0 1 1 1 0 1 0 3 1 0 2 0 2 0 1 0 1 1 1 1 1 1 0 1 0 0 1
##  [408] 3 0 2 1 2 0 1 3 0 1 1 1 1 2 1 0 0 1 0 1 1 1 0 1 0 1 0 0 1 2 0 0 0 0 2 0 0
##  [445] 1 0 0 1 0 2 1 5 1 2 2 2 1 3 2 2 1 1 1 1 0 2 0 1 0 0 1 2 0 0 0 3 0 0 0 1 1
##  [482] 2 0 0 0 1 2 3 0 0 2 1 1 2 1 1 1 1 0 0 1 2 0 0 2 1 2 1 1 0 0 0 3 1 2 2 2 0
##  [519] 0 1 2 2 0 1 1 0 0 1 0 0 1 3 1 0 0 2 1 0 0 0 0 2 2 0 0 1 0 1 0 0 0 0 3 1 0
##  [556] 2 1 1 2 2 1 2 0 0 0 0 1 1 1 1 1 2 1 1 0 6 0 0 2 1 2 1 0 0 2 1 0 3 0 1 2 1
##  [593] 3 2 1 2 1 0 2 0 1 2 2 1 0 3 2 0 1 0 0 0 1 2 1 1 0 0 0 2 1 1 4 1 0 0 1 1 1
##  [630] 1 2 0 2 3 1 2 2 1 1 1 0 2 2 0 1 0 0 1 0 1 1 0 0 0 0 2 4 1 2 1 0 0 1 1 0 4
##  [667] 0 0 1 0 2 1 3 0 1 0 2 0 1 2 2 0 2 1 0 1 0 0 1 2 1 1 2 0 0 2 0 2 0 1 0 1 0
##  [704] 0 2 2 0 2 2 1 0 3 1 0 1 2 0 1 1 2 2 0 0 1 1 4 2 0 0 1 0 1 0 0 2 1 1 1 3 1
##  [741] 0 1 0 2 3 4 0 0 1 2 0 2 1 1 1 1 1 0 1 1 1 0 0 0 3 1 2 1 3 3 0 1 0 1 1 0 1
##  [778] 2 1 1 3 1 1 3 1 2 0 0 0 2 1 0 0 2 1 2 0 0 1 0 0 1 0 2 1 2 1 0 1 1 3 1 0 1
##  [815] 4 1 1 3 1 0 1 1 1 0 1 1 1 1 0 0 1 0 1 2 0 0 1 1 0 1 1 0 0 2 3 3 1 1 1 0 1
##  [852] 0 1 0 2 0 3 0 1 0 1 1 2 1 1 0 4 3 1 1 0 1 2 1 0 1 0 0 1 0 0 2 2 1 2 1 0 1
##  [889] 2 1 0 1 3 1 2 0 0 2 2 0 0 1 0 1 1 1 1 0 0 2 2 2 2 1 3 2 1 0 1 4 1 2 1 1 0
##  [926] 1 0 0 2 1 1 0 0 1 2 1 2 1 1 0 1 2 2 3 1 0 2 1 2 0 1 1 0 1 0 1 1 2 2 1 5 1
##  [963] 1 3 5 1 3 0 2 1 2 3 0 0 0 3 1 1 1 0 1 0 1 4 2 0 1 1 1 1 0 1 0 1 4 1 1 6 1
## [1000] 1
hist(gn)

mean(gn)
## [1] 1.032
va<-var(gn)
va
## [1] 1.066042