Introducción a la probabilidad

“Probabilidad es el lenguaje matemático para cuantificar incertidumbre.” -Wasserman

  1. Terminología de probabilidad: espacio de resultados, eventos, funciones de probabilidad, etc.

  2. Interpretación frecuentista de probabilidad.

  3. Probabilidad condicional y su relación con independencia.

  4. La regla de Bayes.

Espacio de resultados y eventos

El espacio de resultados \(\Omega\) es el conjunto de posibles resultados de un experimento aleatorio.

Ejemplo: Si lanzamos una moneda dos veces entonces:

\[ \Omega = \{AA, AS, SA, SS \} \]

Escribe el espacio muestral de los siguientes experimentos aleatorios:

\[ \Omega = \{1, 2, 3, 4, 5, 6 \} \]

\[ \Omega = \{5, 5.5, 6, 6.5, 7, 7.5, 8, 8.5, 9, 9.5, 10, \} \]

En un rango de aprox 10 min.

\[ \Omega = \{2min, 5min, 10min \} \]

En base a la tabla de la imagen

\[ \Omega = \{38.37gr, 37.18gr, 35.20gr, 34.24gr, 31.44gr,30.47gr, 29.20gr, 27.19gr, 26.66gr\} \]

Un evento es un subconjunto del espacio muestral, los eventos usualmente se denotan por letras mayúsculas.

El evento: que el primer lanzamiento resulte águila es

\[ A = \{AA, AS\} \]>

Eventos Equiprobables

La probabilidad se puede ver como una extensión de la idea de proporción, o cociente de una parte con respecto a un todo. Si en la carrera de química tenemos:

la proporción de hombres es:

\[ \frac{300}{700+300}=0.3\ \]

Ahora, supongamos que elegimos un estudiante al azar, la probabilidad de elegir una mujer es 0.7.

En el ejemplo hay un supuesto implícito en elegir al azar (o aleatoria mente), en este caso estamos suponiendo que todos los estudiantes tienen la misma probabilidad de ser elegidos, que nos lleva al siguiente concepto:

Eventos equiprobables. Si todos los elementos en el espacio de resultados tienen la misma oportunidad de ser elegidos entonces la probabilidad del evento A es el número de resultados en A dividido entre el número total de posibles resultados:

\[ P(A) =\frac{\#(A)}{\#(\Omega)} \] Por lo que solo hace falta contar.

ej: La probabilidad de obtener AA si lanzamos una moneda dos veces es de 1/4 que también es 0.25 ó 25% y la probabilidad del evento que el primer lanzamiento sea aguila es de 2/4 = 0.5 ó 50%

U2A5

Si lanzamos dos dados y sumamos los números obtenidos

  1. ¿Cuál es la probabilidad de que la suma de los números sea 5?

\[ A = \{1+4, 4+1,3+2, 2+3\} \] \[ P(A) =\frac{4}{36} \]

  1. ¿Cuál es la probabilidad de que el segundo número sea mayor que el primero?

\[ A = \{1+2,1+3,1+4,1+5,1+6,2+3,2+4,2+5,2+6,3+4,3+5,3+6, 4+5,4+6,5+6\} \]

\[ P(A) =\frac{15}{36} \]

#Repite las preguntas anteriores cuando lanzas 2 dados de 8 caras. Ejemplo: combinaciones

  1. ¿Cuál es la probabilidad de que la suma de los números sea 5? \[ A = \{1+4,4+1,2+3,3+2\} \] \[ P(A) =\frac{4}{64} \]

  2. ¿Cuál es la probabilidad de que el segundo número sea mayor que el primero?

\[ A = \{1+2,1+3,1+4,1+5,1+6,1+7,1+8,2+3,2+4,2+5,2+6,2+7,2+8,3+4,3+5,3+6,3+7,3+8, 4+5,4+6,4+7,4+8,5+6,5+7,5+8,6+7,6+8,7+8\} \] \[ P(A) =\frac{28}{64} \]

Un comité de 5 personas será seleccionado de un grupo de 6 hombres y 9 mujeres. Si la selección es aleatoria, ¿cuál es la probabilidad de que el comité este conformado por 3 hombres y 2 mujeres?

Hay \[\dbinom{15}{5} \] posibles comités, cada uno tiene la misma posibilidad de ser seleccionado.

Por otra parte hay \[ \dbinom{6}{3} \dbinom{9}{2}\] posibles comités que incluyen 3 hombres y 2 mujeres, por lo tanto, la probabilidad que buscamos es:

\[\frac{\dbinom{6}{3} \dbinom{9}{2}}{\dbinom{15}{5}}\] la función para calcular las combinaciones en R (random) es choose(n, r)

choose (6, 3) * choose(9, 2) / choose (15, 5)
## [1] 0.2397602

Interpretación frecuentista de probabilidad

Las probabilidades se entienden como una aproximación matemática de frecuencias relativas cuando la frecuencia total tiende a infinito.

supongamos que lanzamos una moneda 10 veces y obtenemos:

lanzamientos_10 <- sample(c("A","S"),10, replace = TRUE)
lanzamientos_10
##  [1] "S" "S" "S" "A" "S" "S" "A" "A" "S" "S"

para calcular la secuencia de frecuencias relativas de águila

cumsum(lanzamientos_10 == "A") #Suma acumulada de águilas
##  [1] 0 0 0 1 1 1 2 3 3 3
round(cumsum(lanzamientos_10 == "A")/ 1:10, 2)
##  [1] 0.00 0.00 0.00 0.25 0.20 0.17 0.29 0.38 0.33 0.30

##Distribuciones de probabilidad

**Funciones en R

En R, cada distribución de probabilidad se nombra mediante una palabra clave o alias. Las palabras clave para las distribuciones más importantes son:

$$ \[\begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso}& \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array}\]

$$

Distribución Exponencial

curve(dexp(x), from=0, to=10)

#representa la densidad de una exponencial de media 1 entre 0 y 10

Distribución binomial

x <- rbinom(20, 1, 0.5)
x
##  [1] 1 1 1 1 0 0 0 0 1 0 0 0 1 1 1 0 1 1 1 0
#Genera 20 observaciones con distribución B(1,0.5)

Contando exitos vs fracasos

table(x)
## x
##  0  1 
##  9 11

ej. Distribución normal

si \(X\) es una variable aletoria, con distribución normal de media 3, y su desviación típica es de 0.5, la probabilidad de que \(X\) sea menor que 3.5 se calcula en R de esta forma:

pnorm(3.5, mean=3, sd=0.5)
## [1] 0.8413447

Para calcular el cuantil 0.7 de una v.a. normal estándar Z, es decir, un valor X tal que

pnorm(3.5, mean=3, sd=0.5)
## [1] 0.8413447

Para calcular el mismo cuantil, pero para una v.a. normal de media 0 y DT 0.5

qnorm(0.7, sd=0.5)
## [1] 0.2622003

El valor \(z_\alpha\) que aparece en muchas de las fórmulas para intervalos y contrastes se obtiene con el comando qnorm(1-alfa). Algunos ejemplos:

qnorm(0.975)
## [1] 1.959964
x <- rnorm(100, mean=10, sd=1 )
x
##   [1]  9.428170  9.110520  9.531093  9.086108  9.720899 10.522761 10.326044
##   [8]  8.977247 10.093525  9.738336 11.317979 10.119013 10.859261  9.691443
##  [15]  9.562985 10.310021  9.562160  9.707616  8.788307  9.408430 11.209805
##  [22]  9.198120  8.616407  8.653726 10.676334 10.561816 10.997322  8.435848
##  [29]  9.453016  9.240085  9.455748 10.011342  9.583969  9.543453  8.987224
##  [36] 10.587692  8.137370 10.730523 10.087193  9.174244 10.082086 10.109940
##  [43] 11.404132  8.965003  9.986862  9.602445 10.780785  9.798390 10.355735
##  [50] 10.061934  8.606665  9.930818 10.370282 10.636981 10.950518 11.071414
##  [57]  9.553483  9.602434  9.113937  9.539966  9.671007  9.620294  9.781719
##  [64] 10.530212 10.162449 10.040345  9.076863  9.227258  9.933332  9.373315
##  [71] 10.780097 10.148714  9.585296 11.006229  9.665170 10.027346  9.820792
##  [78]  8.390972  8.798943 11.917740 11.253200  9.369748  7.969549 10.128837
##  [85]  9.347218  8.024415 11.104457  8.913527  7.867217  9.418039 11.977651
##  [92] 10.233809  8.459529  8.968927 10.699291  9.511786 10.945576 10.127156
##  [99]  9.502475  9.886577
mean(x)
## [1] 9.80994
hist(x)

boxplot(x)

hist(x, freq=FALSE) # Freq=FALSE, para que el área del histograma sea 1
curve(dnorm(x, mean=10, sd=1), from=7, to=13, add=TRUE)

** Ejercicios U2A6

  1. Si \(z\) es una variable con distribución normal estándar, calcula \(\mathbb{P}(-2.34 < Z < 4.78\).
pnorm(4.78, mean=0, sd=1) - pnorm(-2.34, mean=0, sd=1)
## [1] 0.9903573
  1. Calcula el rango intercuartílico de una población normal estándar.
#El rango intercuartilico es la diferencia entre el tercer y el primer cuartil, es decir

x <- c(2, 4, 4, 6, 5, 8, 8, 7, 8, 9)
summary(x)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    2.00    4.25    6.50    6.10    8.00    9.00
#**Rango Intercuartilico(IQR)=Q3-Q1** 
#IQR== 8-4.25=3.75
  1. Genera una muestra de tamaño 10 de una población normal estándar. ¿Cuál es la diferencia entre la media muestral y la poblacional? Repite el ejercicio 3 veces y anota las 3 diferencias.
1. 
## [1] 1
x <- rnorm(10, mean=3, sd=0.5)
x
##  [1] 3.052021 3.164984 3.021617 2.442563 2.836814 3.374034 2.979349 3.340605
##  [9] 2.640889 2.351331
mean(x)
## [1] 2.920421
2. 
## [1] 2
x <- rnorm(10, mean=2, sd=1)
x
##  [1] 2.4676236 1.3899581 2.0820686 1.5887033 1.3831476 3.2883054 3.1016416
##  [8] 1.7202340 1.2940576 0.2519879
mean(x)
## [1] 1.856773
3. 
## [1] 3
x <- rnorm(10, mean=1, sd=2)
x
##  [1]  0.1836253  1.9645391  3.8966898  1.6627668 -3.3774530 -0.9019416
##  [7]  1.8620192 -1.4851351  1.0032544 -0.1614001
mean(x)
## [1] 0.4646965

La media muestral, es un estadístico que se calcula a partir de la media aritmética de un conjunto de valores de una variable aleatoria, es una variable aleatoria en general con una varianza menor que las variables originales usadas en su cálculo. Si la muestra es grande y está bien escogida, puede tratarse la media muestral como un valor numérico que aproxima con precisión la media poblacional, que caracteriza una propiedad objetiva de la población.

La media poblacional, valor esperado o esperanza matemática de una variable aleatoria técnicamente no es una media sino un parámetro fijo que coincide con la esperanza matemática de una variable aleatoria. El nombre “media poblacional” se usa para significar qué valor numérico de una media muestral es numéricamente cercano al parámetro media poblacional, para una muestra adecuada y suficientemente grande.

  1. Genera 1000 números con distribución de Poisson de parámetro \(\lambda = 1\). Representa el gráfico de barras de los números obtenidos. Calcula la media y la varianza de los números obtenidos. ¿Se parecen a los valores teóricos?
DP <- rpois(n=1000, lambda=1)
hist(DP)

main='Distribución de Poisson'
mean(DP)
## [1] 0.974
var(DP)
## [1] 1.002326
#Los valores obtenidos no son similares a los valores teóricos según las tablas que encontre.