Introducción a la probabilidad

“La probabilidad es el lenguaje matemático para cuantificar incertidumbre.” -Wasserman

Larry Wasserman

  1. Terminología de probabilidad: espacio de resultados, eventos, funciones de probabilidad, etc.

  2. Interpretación frecuentista de probabilidad.

  3. Probabilidad condicional y su relación con independencia.

  4. La regla de Bayes.

Espacio de resultados y eventos

El espacio de resultados \(\Omega\) es el conjunto de posibles resultados de un experimento aleatorio.

Ejemplo: Si lanzamos una moneda dos veces entonces:

\[ \Omega = \{AA, AS, SA, SS \} \]

Un evento es un subconjunto del espacio muestral, los eventos usualmente se denotan por letras mayúsculas.

Ejemplo: Que el primer lanzamiento resulte águila es:

\[ A = \{AA, AS\} \]

Eventos Equiprobables

La probabilidad se puede ver como una extensión de la idea de proporción, o cociente de una parte con respecto a un todo.

Ejemplo: Si en la carrera de Ingeniería Química tenemos

  • 300 estudiantes hombres
  • 700 estudiantes mujeres

la proporción de hombres es:

\[ \frac{300}{700+300}=0.3\ \]

Eventos equiprobables Si todos los elementos en el espacio de resultados en el espacio de resultados tienen la misma oportunidad de ser elegidos entonces la probabilidad del evento A es el número de resultados en A dividido entre el número total de posibles resultados:

\[ P(A) = \frac{\#(A)}{\#(\Omega)} \]

Por lo que solo hace falta contar.

Ejemplo: Combinaciones

  • Un comité de 5 personas será seleccionado de un grupo de 6 hombres y 9 mujeres. Si la selección es aleatoria, ¿cuál es la probabilidad de que el comité este conformado por 3 hombres y 2 mujeres?

Hay \(\dbinom{15}{5}\) posibles comités, cada uno tiene la misma posibilidad de ser seleccionado.

Por otra parte hay \(\dbinom{6}{3} \dbinom{9}{2}\) posibles comités que incluyen 3 hombres y 2 mujeres, por lo tanto, la probabilidad que buscamos es:

\[ \frac{\dbinom{6}{3} \dbinom{9}{2}}{\dbinom{15}{5}} \]

la función para calcular las combinaciones en R (random) es choose(n, r)

choose (6, 3) * choose(9, 2) / choose (15, 5)
## [1] 0.2397602

Interpretación frecuentista de probabilidad

Una frecuencia relativa es una proporción que mide que tan seguido, o frecuente, ocurre una u otra cosa es una sucesión de observaciones.

lanzamiento_10 <- sample(c("A","S"),10, replace = TRUE)
lanzamiento_10
##  [1] "A" "S" "S" "S" "A" "S" "S" "A" "A" "A"

Podemos calcular la secuencia de frecuencias relativas de águila:

cumsum(lanzamiento_10 == "A") #Suma acumulada de águilas
##  [1] 1 1 1 1 2 2 2 3 4 5

Dividiendo

round(cumsum(lanzamiento_10 == "A") / 1:10, 2)
##  [1] 1.00 0.50 0.33 0.25 0.40 0.33 0.29 0.38 0.44 0.50

Distribuciones de probabilidad

  • Distribución Alias en R
  • Distribución normal norm
  • Distribución binomial binom
  • Distribución exponencial exp
  • Distribución Poisson pois
  • Distribución t de student t
  • Distribución Chi2 chisq
  • Distribución F f

Prefijo Funciones Prefijos Función de distribución p Función cuantilica q Función de densidad d Generación aleatoria r

dexp = función de densidad de distrtibución exponencial

\[ \begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso} & \text{Observaciones}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Calcula datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array} \]

Distribución exponencial

curve(dexp(x), from=0, to=10)

#Representa la densida de una exponencial de media 1 entre 0 y 10

Distribución binomial

x <- rbinom(20, 1, 0.5)
x
##  [1] 1 1 0 0 0 1 1 1 0 1 0 0 0 0 1 1 0 1 1 1
#Genera 20 observaciones con distribución B(1, 0.5)

Contando éxitos vs fracasos

table(x)
## x
##  0  1 
##  9 11

Ejemplo: Distribución normal

Si \(x\) es una variable aleatoria, con distribución normal de media 3 y su desviación típica es de 0.5, la probabilidad de que \(x\) sea menor que 3.5 se calcula en R de esta forma:

pnorm(3.5, mean=3, sd=0.5)
## [1] 0.8413447
  • Para calcular el cuantil 0.7 de una variable aleatoria normal estándar Z, es decir, un valor x tal que
qnorm(0.7)
## [1] 0.5244005
  • Para calcular el mismo cualtil, pero para una v.a. normal de media0 y DT 0.5
qnorm(0.7, sd=0.5)
## [1] 0.2622003

El valor \(z_\alpha\) que aparece en muchas de las fórmulas para intervalos y contrastes se obtiene con el comando qnorm(1-alpha). Algunos ejemplos:

qnorm(0.975)
## [1] 1.959964
  • Para generar una muestra de tamaño 100 de una población normal de media 10 y desviación típica 1 (y guardarla en un vector x):
x <- rnorm(100, mean=10, sd=1)
x
##   [1]  9.432199  8.930553  9.540676 10.203101  9.505236 11.445536  9.875993
##   [8] 11.116201  8.185072  9.610177  9.230822  9.648836  9.239049 11.837476
##  [15]  8.532481 10.533455 10.659316  9.126385  9.665837 10.440514  9.552813
##  [22]  9.568448  9.518447 11.584292 10.820504  9.324283  9.528684 10.696645
##  [29]  8.091221 10.582511  9.468600 11.778905 12.318920  9.801612 12.370049
##  [36]  9.312066  9.306278 10.433119  9.541238 11.787116  9.622409 11.255559
##  [43]  9.637854 10.734883  9.535087  9.118606 10.485555 11.706297 10.590734
##  [50] 11.230085  9.728781 11.522021 10.399245 11.793460 10.948552 10.090361
##  [57] 10.229069  9.962992 11.067060  8.376368 12.376297  9.551630  9.138338
##  [64] 10.320858 10.514983  9.851206  9.311460  9.035505  9.186210  8.387985
##  [71]  8.807496  8.949095  9.669079  9.449919 10.965370  9.505468  8.716653
##  [78]  9.558718 10.077313  8.949863  9.623235 10.110297 10.660612  9.782723
##  [85]  9.093765  7.771145 11.302757 10.702083 10.685909 11.617032  9.115140
##  [92]  9.285131  9.252609  9.508731 11.721026 10.723711 11.480207 10.508969
##  [99]  8.502715  9.412559

*Para estimar el promedio de x

mean(x)
## [1] 10.03363

*Histograma de frecuencias

hist(x, col = "deeppink4")

  • Gráfico de cajas y bigote
boxplot(x, col = "coral3")

  • Histograma de la muestra (normalizado para que la suma de las áreas de los rectángulos sea 1) junto con la densidad de la población:
hist(x, freq=FALSE, col = "cyan3") #Freq=FALSE, para que el área del histograma sea 1
curve(dnorm(x, mean=10, sd=1), from=7, to=13, add=TRUE, col = "deepskyblue4")

Ejercicios

  1. Si \(Z\) es una variable con distribución estándar \(\mathbb{P}(-2.34 < z < 4.78)\).
P = pnorm(4.78, mean=0, sd=1) - pnorm(-2.34, mean=0, sd=1)
P
## [1] 0.9903573

\[ P= \{0.9903573\} \]

  1. Calcula el rango intercuartílico de una población estándar.
f <- c(1, 2, 3, 6, 8, 9, 9, 10, 10, 10)
f
##  [1]  1  2  3  6  8  9  9 10 10 10
summary(f)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    1.00    3.75    8.50    6.80    9.75   10.00

\[ IQR = \{3erQ - 1erQ\} \]

\[ IQR = \{9.75 - 3.75\} = 6 \]

  1. Genera una muestra de tamaño 10 de una población estándar. ¿Cuál es la diferencia entre la media muestral y la población? Repite el ejercicio 3 veces y anota las 3 diferencias.

La media muestral sirve para estimar la media de la población de la que se ha extraído la misma y la población es el conjunto o el total de objetos o individuos que se va a estudiar.

#Muestra 1
x <- rnorm(10, mean=6, sd=1)
x
##  [1] 6.393690 6.390425 6.646385 7.352508 5.861141 6.687678 5.306726 7.756057
##  [9] 8.128324 6.772515
mean(x)
## [1] 6.729545
#Muestra 2
y <- rnorm(10, mean=6, sd=1)
y
##  [1] 8.262160 6.940328 6.670705 5.725720 4.060985 6.279772 7.441112 6.829054
##  [9] 8.778961 5.447451
mean(y)
## [1] 6.643625
#Muestra 3
z <- rnorm(10, mean=6, sd=1)
z
##  [1] 5.379741 5.865290 5.797092 5.614393 6.998768 4.604793 7.460357 5.639310
##  [9] 5.463067 5.700791
mean(z)
## [1] 5.85236

A pesar que en los tres casos se utiliza la misma cantidad de población y los demás datos, no se obtienen los mimos numeros a estudiar, ya que se estan utilizando números random.

  1. Genera 1000 números con distribución de Poisson de parámetro \(\lambda = 1\). Representa el gráfico de barras de los números obtenidos. Calcula la media y la varianza de los números obtenidos. ¿Se parecen a los valores teóricos?
Pois <- rpois(1000,1)
Pois
##    [1] 3 0 1 2 1 1 0 2 0 1 0 0 1 0 0 0 1 1 1 2 2 0 2 0 1 0 3 0 0 2 3 1 4 3 1 2 2
##   [38] 2 0 0 0 0 0 0 1 1 2 4 2 1 4 1 1 0 2 0 0 1 0 0 0 0 2 2 2 1 0 1 1 0 0 0 1 0
##   [75] 0 1 1 0 1 0 2 1 2 1 3 2 0 1 0 1 0 0 2 1 1 0 0 3 1 2 1 1 1 1 0 1 2 0 1 2 1
##  [112] 1 2 2 0 1 1 2 1 1 0 1 0 2 3 1 1 1 2 1 0 2 0 0 2 2 0 1 2 2 0 0 0 0 3 1 1 0
##  [149] 1 0 1 1 1 1 0 1 1 0 1 0 0 1 1 1 0 0 2 0 0 3 0 0 2 1 0 0 2 0 3 0 0 1 1 0 1
##  [186] 0 1 1 1 1 0 0 1 0 0 1 3 0 0 2 2 0 0 1 0 1 3 2 0 1 0 0 1 2 1 2 2 2 0 0 1 0
##  [223] 0 1 0 0 1 1 0 1 3 0 2 3 1 1 0 0 3 2 0 1 1 0 1 1 1 1 1 3 5 1 0 3 3 5 1 3 0
##  [260] 2 1 1 0 2 1 0 0 1 1 0 0 2 0 4 0 0 0 1 1 0 2 0 0 1 0 0 1 4 1 0 2 1 3 1 3 0
##  [297] 0 3 1 0 3 1 0 0 0 0 0 1 2 0 2 1 1 2 0 1 0 2 2 0 1 1 0 0 1 2 0 0 1 0 1 1 2
##  [334] 2 0 0 0 0 2 0 0 0 1 2 0 2 1 1 2 2 1 0 0 0 4 0 1 0 0 1 2 1 1 1 2 1 2 1 0 0
##  [371] 0 1 0 1 2 2 0 1 0 3 1 3 0 1 4 0 0 1 0 1 2 3 2 1 0 0 1 0 1 6 1 1 2 0 4 2 0
##  [408] 1 1 0 1 2 0 0 3 0 1 1 0 0 2 1 0 2 1 1 1 0 0 0 1 0 0 0 0 2 0 2 1 2 0 0 1 0
##  [445] 1 0 0 1 1 1 2 0 1 1 0 1 2 3 2 2 1 3 0 2 0 1 2 1 1 1 0 0 1 0 1 2 0 1 0 0 1
##  [482] 1 0 1 1 1 0 2 1 0 1 0 3 1 0 1 4 2 2 1 1 2 1 3 0 2 1 1 1 0 1 2 0 1 1 0 0 0
##  [519] 1 1 1 1 0 1 3 1 2 1 0 2 0 0 2 1 2 1 3 2 0 1 0 2 0 1 0 1 0 1 2 1 1 0 1 0 1
##  [556] 3 1 1 1 1 2 0 1 1 2 0 2 1 0 1 1 5 3 1 1 0 0 1 0 1 1 1 1 1 4 2 4 1 0 2 1 0
##  [593] 1 1 0 1 0 0 1 3 3 0 0 0 2 1 0 2 0 1 0 0 4 1 0 0 2 1 0 2 1 1 0 0 2 2 2 0 1
##  [630] 0 2 0 1 1 2 1 2 1 1 2 3 3 1 4 0 0 2 0 3 2 4 2 0 1 1 1 1 2 0 2 1 1 1 1 0 1
##  [667] 0 0 1 1 0 2 1 1 2 0 1 3 2 2 1 0 1 0 0 0 5 0 1 1 0 1 0 1 3 5 1 1 2 2 0 2 0
##  [704] 0 2 3 1 2 1 1 1 1 2 1 0 0 4 1 2 1 0 0 2 1 1 1 0 1 2 0 2 3 1 0 0 1 1 0 0 0
##  [741] 0 1 0 1 3 2 2 0 0 0 2 3 1 0 5 1 0 1 1 0 0 1 1 1 3 2 0 1 2 1 0 0 1 1 0 0 0
##  [778] 2 0 2 2 1 2 1 0 1 1 0 1 1 1 2 1 1 1 1 1 0 0 1 2 2 1 0 2 3 0 2 0 0 2 0 0 1
##  [815] 1 2 0 0 1 2 0 1 0 0 1 2 0 2 1 0 2 1 1 3 0 0 1 1 2 2 0 0 1 4 2 0 2 1 0 3 1
##  [852] 0 1 0 1 2 1 0 1 1 1 1 3 3 1 0 1 0 0 3 4 2 2 0 0 1 0 1 0 0 1 1 2 3 1 1 1 0
##  [889] 3 1 1 1 0 3 0 3 1 0 0 1 0 0 0 0 1 2 1 1 1 0 1 0 0 1 0 1 1 1 1 0 1 0 1 1 1
##  [926] 0 1 1 0 0 0 2 1 1 2 4 2 2 0 0 3 1 1 4 3 1 2 0 0 2 0 0 1 2 3 1 0 2 0 1 4 1
##  [963] 0 1 2 2 2 0 2 2 0 0 1 0 1 1 0 1 2 0 0 0 1 1 1 1 1 1 0 4 1 1 0 2 0 3 1 0 3
## [1000] 0
mean(Pois)
## [1] 1.033
var(Pois)
## [1] 1.093004
hist(Pois, xlab="Distribución de Poisson", ylab="Frecuencia", main="Histograma de Poisson", col="violet", border = (color="darkviolet"))

No se parecen los valores los valores prácticos obtenidos con Poisson a los teóricos.

  1. Calcula con R los siguientes valores: \(t_{3,\alpha}\), \(\chi^2_{3, \alpha}\), para \(\alpha = 0.05\) y \(\alpha = 0.01\). Compara los valores obtenidos con los que aparecen en las correspondinetes tablas.