Introducción a la Probabilidad

Probabilidad es el lenguaje matematico para cuantificar la incertidumbre Wasserman

  1. Terminología de probabilidad: espacio de resultados. eventos, funciones de probabilidad, etc.
  2. Interpretación frecuentista de la probabilidad.
  3. Probabilidad condicional y su relación con la independencia.¡¡¡

Espacio de resultados y eventos

El espacio de resultados \(\Omega\) es el conjunto de resulados de un experimento aleatorio.

e.g. Si lanzamos una moneda dos veces entonces:

\[\Omega = \{AA, AS, SA, SS \} \]

Un evento es un subconjunto del espacio muestral, los eventos usualmente se denotan por mayúsculas.

e.g. Que el primer lanzamiento resulte águila.

\[A=\{AA,AS\} \]

Eventos equiprobables

La probabilidad se puede ver como una extensión de la idea de proporción, o cociente de una parte con respecto a un todo.

e.g. En la carrera de Ing. Química hay 300 Hombres y 700 Mujeres, la proporción de Hombres es:

\[\frac{300}{700+300} =0.3 \]

Eventos equiprobables Si todos los elementos en el espacio de resultado tienen la misma oportunidad de ser elegidos entonces la probabilidad del evento A es el número de resultados en A dividido entre el número total de posibles resultados:

\[P(A)=\frac{\#(A)}{\#(\Omega)}\]

Por lo que solo hace falta contar.

e.g. Combinaciones

Un comité de 5 personas será seleccionado en un grupo de 6 hombres y 9 mujeres, Si la selección es aleatoria, ¿cuál es la probabilidad de que el comité este conformado por 3 hombres y 2 mujeres?

Hay \(\dbinom{15}{5}\) posibles comités, cada uno tiene la misma posibilidad de ser seleccionado.

Por otra parte hay \(\dbinom{6}{3} \dbinom{9}{2}\) posibles comités que incluyen 3 hombres y 2 mijeres, por lo tanto, la probabilidad que buscamos es:

\[ \frac{\dbinom{6}{3} \dbinom{9}{2}}{\dbinom{15}{5}}\]

y la función para calcular las combinaciones es choose (n, r)

choose(6, 3) * choose(9, 2) / choose(15,5)
## [1] 0.2397602

Interpretación frecuentista de la probabilidad

Una frecuencia relativa es una proporción que mide que tan seguido, o feecuente, ocurre una u otra cosa en una sucesión de observaciones.

lanzamientos_10 <- sample(c("A","S"),10, replace = TRUE  )
lanzamientos_10
##  [1] "S" "S" "S" "S" "A" "S" "S" "A" "S" "A"

Podemos calcular las secuencias de frecuencias relaivas de águila:

cumsum(lanzamientos_10 == "A") #suma acumulada de águilas
##  [1] 0 0 0 0 1 1 1 2 2 3

Dividiendo

round(cumsum(lanzamientos_10 =="A") / 1:10, 2)
##  [1] 0.00 0.00 0.00 0.00 0.20 0.17 0.14 0.25 0.22 0.30

Distribuciones de probabilidad

Funciones en R

En R, cada distribucion de probabilidad se nombra mediante una palabra clave o alías. Las palabras clave para las distribuciones más importantes son:

\[ \begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso}& \text{Observación}\\ \hline p & \text{pobability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (porcentiales)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array} \]

Distribución Exponencial

curve(dexp(x), from=0, to=10)

#Representa la densidad de una expenencial de media 1 entre 0 y 10

Dustribución binomial

x <- rbinom(20, 1, 0.5)
x
##  [1] 0 0 1 0 0 0 1 1 0 1 1 0 1 0 0 0 0 1 0 1
#Genera 20 observaciones con distribución B(1,0.5)

Contando éxitos vs fracasos

table(x)
## x
##  0  1 
## 12  8

e.g. Distribución normal

si \(X\) es una variable aleatoria con distribución normal de media 3, y su desviación típica es de 0.5, la probabilidad de que \(X\) sea menor que 3.5 se calcula en R de esta forma:

pnorm(3.5, mean=3, sd=0.5)
## [1] 0.8413447
qnorm(0.7)
## [1] 0.5244005
qnorm(0.7, sd=0.5)
## [1] 0.2622003

El valor \(z_\alpha\) que aparece en muchas de las fórmulas para intervalos y contrastes se obtiene con el comando qnorm(1-alpha). Algunos ejemplos:

qnorm(0.975)
## [1] 1.959964
x <- rnorm(100, mean=10, sd=1)
x
##   [1]  9.445449  9.561780  8.765941 10.096363  9.093538  9.521600 10.278152
##   [8]  9.000274 11.714917  8.671232 11.185648  9.789050 10.496432  9.911904
##  [15]  9.324489  9.907681  9.811845 11.263558 11.389175  9.980315 10.527607
##  [22]  9.548610 11.218427 10.341050 10.982707 11.422040  9.720316 10.305605
##  [29] 10.154395 11.267438  9.483939 10.044522 10.847750  9.324923  9.260517
##  [36] 10.453635  9.687930 11.580319 10.627991  8.913310  8.912122  8.447982
##  [43]  9.466234  9.706802  8.353278 10.429917 10.523151 10.869247  7.382434
##  [50] 10.963731  8.731767 11.600384  8.342214 11.082797 11.321062 11.627020
##  [57] 11.392915  9.709639 10.389552 10.063032 10.350911  9.579566  9.440580
##  [64]  8.273629 10.489452 11.203164 10.295034  9.304725  9.585597  8.575927
##  [71] 11.299976  9.368050 10.591809  8.910188 11.100169 11.574220  9.723305
##  [78]  9.965174 10.109820  7.903279 10.401535 11.086580  9.623437 10.629153
##  [85]  8.486735  9.066450  9.295478  9.772003  9.656768 11.105669  9.795832
##  [92] 10.292945 12.491100  8.473515  8.771310  8.931541  9.535497  9.574300
##  [99] 11.705517 10.564194
mean(x)
## [1] 10.01142
hist(x)

boxplot(x)

hist(x, freq=FALSE) #Freq=FALSE, para que el área del histograma sea 1
curve(dnorm(x, mean=10, sd=1), from=7, to=13, add = TRUE)

Ejercicios

1. Si \(z\) es una variable con distribución normal estándar, calcula \(\mathbb{P}(-2.34 < Z < 4.78)\)

P= pnorm(4.78, mean=0, sd=1) - (pnorm(-2.34, mean=0, sd=1))
P
## [1] 0.9903573

2. Calcula el rango intercuartílico de una población normal estándar.

x=rnorm(20)
x
##  [1] -1.25518906 -0.26591135 -0.78980415  2.26440848 -0.36724601 -0.18410164
##  [7]  0.14413777  0.66755016  1.04171806 -0.42140580 -1.90286936 -1.17528256
## [13]  0.01437939  0.05638211 -0.38550382  1.24042688 -0.66343405 -0.20366021
## [19]  1.34036250  1.07838690
IQR(x)
## [1] 1.243005

3. Genera una muestra de tamaño 10 de una población normal estándar. ¿Cuál es la diferencia entre la media muestral y la poblacional? Repite el ejercicio 3 veces y anota las 3 diferencias.

Muestra 1

x= rnorm(10, mean=5, sd=0.5)
x
##  [1] 4.801847 5.238383 4.439706 4.908889 4.524012 5.566584 5.450163 5.276551
##  [9] 5.178047 4.691412

Muestra 2

x= rnorm(10, mean=5, sd=0.5)
x
##  [1] 5.477529 4.650838 5.686234 4.828806 5.187783 5.178665 5.263019 4.840794
##  [9] 5.175056 4.790671

Muestra 3

x= rnorm(10, mean=5, sd=0.5)
x
##  [1] 6.047068 4.788634 4.464253 4.939675 5.102575 5.644316 4.771047 5.393802
##  [9] 4.690182 4.729409

4. Genera 1000 números con distribución de Poisson de parámetro \(\lambda=1\). Representa el gráfico de barras a los números obtenidos. Calcula la media y la varianza de los números obtenidos. ¿Se parecen a los valores teóricos?

Poisson <- rpois(1000, 1)
Poisson
##    [1] 1 0 1 1 1 4 2 0 0 3 1 1 2 1 0 1 1 2 0 1 0 3 1 0 0 3 1 1 1 1 3 0 0 1 1 1 1
##   [38] 1 1 1 1 0 2 1 0 0 1 0 1 0 2 3 2 0 1 1 3 0 1 3 1 1 0 2 0 0 1 1 1 1 0 1 0 0
##   [75] 1 1 0 1 0 3 0 0 0 3 0 2 0 1 2 0 1 0 1 1 1 2 1 0 1 0 0 3 0 1 1 1 1 0 2 1 1
##  [112] 0 2 1 1 2 2 1 2 2 3 0 1 0 1 1 1 1 1 0 0 1 0 0 3 3 1 3 2 2 2 1 0 0 1 1 1 1
##  [149] 1 1 1 1 0 1 0 0 2 0 0 0 1 2 2 1 0 2 1 2 1 2 1 2 1 1 1 1 0 1 2 1 0 2 1 1 0
##  [186] 0 1 1 1 1 2 1 3 2 1 1 0 1 0 4 1 0 1 1 1 1 2 2 0 0 2 5 1 2 2 2 4 0 0 2 0 4
##  [223] 0 1 0 0 0 0 2 3 2 2 1 2 0 3 0 3 0 0 2 0 2 0 0 2 0 1 0 3 1 0 0 1 0 3 0 1 2
##  [260] 2 0 1 1 1 1 2 0 5 0 2 3 0 1 0 2 3 2 3 0 0 1 1 1 1 0 2 1 0 0 1 0 1 1 1 3 0
##  [297] 0 0 1 0 0 0 1 1 0 0 0 2 0 0 1 2 1 1 3 0 1 1 3 1 1 1 1 1 1 0 1 1 0 1 1 0 3
##  [334] 0 0 1 1 0 1 2 1 0 1 3 4 1 0 0 2 0 1 1 0 2 0 1 2 2 1 0 0 0 0 1 1 3 0 0 0 2
##  [371] 1 1 4 1 0 2 5 0 1 0 1 1 0 1 2 1 1 2 2 2 3 0 2 1 2 3 1 0 2 1 0 0 2 2 1 0 0
##  [408] 2 2 0 1 1 2 2 0 2 0 3 1 1 0 0 2 1 0 2 2 1 0 0 2 0 0 0 1 0 1 1 1 1 0 1 1 2
##  [445] 1 1 2 1 2 1 3 1 1 1 1 1 1 0 1 1 2 1 2 1 2 2 0 2 3 0 1 0 1 1 1 0 1 0 0 0 2
##  [482] 0 3 1 1 0 2 0 2 1 1 0 0 0 0 1 0 1 0 0 1 2 2 0 0 4 0 0 1 2 1 2 0 0 2 0 5 1
##  [519] 2 2 1 1 1 5 1 0 0 0 0 1 1 1 1 1 1 2 0 0 1 1 1 1 1 1 1 1 2 1 0 3 2 1 3 0 1
##  [556] 2 2 1 0 2 0 0 0 0 0 0 0 0 0 0 2 1 2 2 0 1 1 1 0 0 0 0 1 1 0 0 0 2 3 4 1 0
##  [593] 0 0 2 0 1 1 1 0 1 2 0 0 0 0 1 2 3 2 1 0 1 1 1 1 0 0 1 0 2 2 4 2 0 1 3 0 0
##  [630] 1 0 2 0 0 2 0 0 0 1 2 1 1 1 0 0 2 3 0 2 0 1 0 1 2 0 1 1 0 1 2 0 1 0 3 1 1
##  [667] 2 0 1 0 1 2 2 1 2 0 1 0 2 0 3 1 1 0 1 0 2 0 0 1 3 2 0 1 1 2 0 2 1 0 2 0 3
##  [704] 0 1 0 2 3 0 2 1 2 1 1 1 0 0 1 0 2 0 2 1 1 3 0 1 0 0 1 1 0 0 1 1 0 3 1 0 0
##  [741] 1 0 0 0 0 0 0 1 0 1 1 0 1 0 0 1 2 2 2 1 2 1 2 1 0 1 0 0 1 2 1 1 2 1 0 0 1
##  [778] 0 0 0 0 3 0 0 1 1 0 2 2 0 0 3 1 1 0 0 2 0 1 1 0 1 1 0 1 1 2 1 3 2 0 0 1 1
##  [815] 3 0 2 2 1 0 2 1 2 1 3 0 1 3 1 3 0 0 1 1 2 2 1 2 1 2 1 1 0 1 0 3 0 0 1 1 0
##  [852] 2 0 1 1 0 3 0 1 0 2 0 1 2 0 1 2 1 1 1 2 0 1 1 1 1 1 2 0 1 0 1 0 1 0 0 3 0
##  [889] 0 2 0 0 0 0 1 0 0 3 0 0 0 0 1 1 1 1 1 2 1 2 0 1 0 2 1 1 0 2 1 4 0 0 0 2 1
##  [926] 3 0 1 1 1 0 2 0 0 0 1 2 2 0 0 2 1 0 3 1 1 3 1 0 0 2 0 0 0 4 0 0 1 2 4 2 0
##  [963] 0 4 2 0 2 0 2 0 0 0 0 1 0 0 2 0 0 1 0 0 2 3 1 2 0 1 2 0 2 1 1 1 1 2 0 2 2
## [1000] 0

Media

mean(Poisson)
## [1] 1.007

Varianza

var(Poisson)
## [1] 0.9979489
hist(Poisson)

Los datos que estamos interpretando no se parecen a los teóricos.

5. Calcula con R los siguientes valores: \(t_{13, \alpha}\), \(\chi^2_{3,\alpha}\), para \(\alpha = 0.05\) y \(\alpha = 0.01\). Compara los valores obtenidos con los que aparecen en las correspondientes tablas.