Introducción a la probabilidad

Probabilidad es el lenguaje matemático para cuantificar incertidumbre.” -Wasserman

  1. Terminología de probabilidad: espacio de resultados, eventos, funciones de probabilidad, etc.

  2. Interpretación frecuentista de probabilidad.

  3. Probabilidad condicional y su relación con independencia.

  4. La regla de Bayes. es un teorema que expresa la probabilidad condicional de un evento aleatorio A dado B en términos de la distribución de probabilidad condicional del evento B dado A y la distribución de probabilidad marginal de solo A. Formula: \[P(Ai|B) = \{P(B|Ai)P(Ai)/P(B)\}\]

Espacio de resultados y eventos

El espacio de resultados \(\Omega\) es el conjunto de posibles resultados de un experimento aleatorio.

Ejemplo: Si lanzamos una moneda dos veces entonces:

\[ \Omega = \{AA, AS, SA, SS \} \] Escribe el espacio muestral de los siguientes experimentos aleatorios:

  • El número de lanzamientos de un dado hasta que obtienes un 6.
  • Tu calificación final en el curso.
  • El tiempo en minutos hasta tu próximo estornudo.
  • El peso de una lata de Coca-Cola (incluyendo el líquido).

Un evento es un subconjunto del espacio muestral, los eventos usualmente se denotan por letras mayúsculas.

El evento: que el primer lanzamiento resulte águila es:

\[ A = \{AA, AS\} \]

Eventos Equiprobables

La probabilidad se puede ver como una extensión de la idea de proporción, o cociente de una parte con respecto a un todo. Si en la carrera de Ing.Química tenemos:

  • 300 estudiantes hombres
  • 700 estudiantes mujeres

la proporción de hombres es:

\[ \frac{300}{700+300}=0.3\ \] Eventos equiprobables Si todos los elementos del espacio de resultados tienen la misma oportunidad de ser elegidos entonces A es el numero de resultados en A dividido entre el numero posible de resultados:

\[ P(A)=\frac{\#(A)}{\#(\Omega)} \]

por lo que hace falta contar Ejemplo. Combinaciones

Un comité de 5 personas sera eleccionado de un grupo de 6 hombres y 9 mujeres. si la seleccion es aleatoria, ¿cuál es la probabilidad de que el comité este conformado por 3 hombres y 2 mujeres?

Hay \(\dbinom{15}{5}\) posibles comités, cada uno tiene la misma posibilidad de ser seleccionado.

por otra parte hay \(\dbinom{6}{3} \dbinom{9}{2}\) posibles comites que incluyen 3 hombres y dos mujeres, por lo tanto, la probabilidad que buscamos es:

\[ \frac{\dbinom{6}{3} \dbinom{9}{2}}{\dbinom{15}{5}} \] y la función para calcular las combinaciones es: choose (n, r) n = el numero total de cosas r = la manera en la que se van a tomar esas cosas. En este caso n = 6 hombres totales y r = 3 hombres elegidos

choose(6, 3) * choose(9,2) / choose(15,5)
## [1] 0.2397602

##Interpretación frecuentista de la prbabilidad

Una frecuencia relativa es una proporcion que mide que tan seguido, o frecuente, ocurre una u otra cosa en una sucesión de observaciones.

lanzamientos_10 <- sample(c("A", "S"), 10, replace = TRUE)
lanzamientos_10
##  [1] "A" "A" "A" "S" "S" "S" "A" "A" "S" "A"

podemos calculas las secuencias de frecuencia relativas de águilas:

cumsum(lanzamientos_10 == "A") # suma acumulada de águilas
##  [1] 1 2 3 3 3 3 4 5 5 6

Dividiendo

round(cumsum(lanzamientos_10 == "A") / 1:10,2)
##  [1] 1.00 1.00 1.00 0.75 0.60 0.50 0.57 0.62 0.56 0.60

Conclusión Para concluir la probabilidad nos sirve para cuantificar la incertidumbre de los eventos de cualquier fenomeno aleatorio, puede ayudarnos a estudiar los porcentajes que se pueden obtener para cualquier decisión matematica, como lo de la moneda, o mas serio como el problema del comité, esto nos sirve para poder tomar decisiones un poco mas seguro entre problemas que parecen muy aleatorias

Distribuciones de probabilidad:

Nos dice de que manera se comportan las frecuencias

Funciones en R:

En R, cada districbucón de probabilidad se nombrea mediante la palabra clave o alias. las palabras clave para las distribuciones mas importantes son:

  • Distribución Alias
  • Distribución binomial binom
  • Distribución de poisson pos
  • Distribución normal norm
  • Distribución exponencial exp
  • Distribución t de studen t
  • Distribución chi2 chisq
  • Distribución F f

\[ \begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso} & \text{Observación}\\ \hline p & \text{probability} & \text {calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text {calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text {calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text {Genera datos aleatorios según una distribucion especifica} & \text{---}\\ \hline \end{array} \]

Distribucion exponencial

curve(dexp(x), from = 0, to = 10) #representa la densidad de una exponencial de media 1 entre 0 y 10

Distribución binomial

#Generador de numeros aleatorios dentro de una distribución espefica y con numeros especificos a los que se va a ajustar
x <- rbinom(20, 1, 0.5)
x
##  [1] 1 1 1 1 0 1 0 0 1 1 1 1 1 1 0 0 0 1 0 1
#Genera 20 observaciones con distribución B(1, 0.5)

Contando exitos vs Fracasos

table(x)
## x
##  0  1 
##  7 13

Ejemplo: Distribución Normal

si \(x\) es una variable aleatoria, con distribución normal de media 3, y su desviación tipica es 0.5, la prbabilidad de que \(x\) sea menor que 3.5 se calcula en R de esta forma:

pnorm(3.5, mean = 3, sd = 0.5)
## [1] 0.8413447
  • Para calcular el cuantil 0.7 de una variable aleatoria normal estandar Z, es decir, un valor x tal que
qnorm(0.7)
## [1] 0.5244005
  • Para calcular el mismo cuantil pero para una v.a. normal de media 0 y DT 0.5
qnorm(0.7, sd=0.5)
## [1] 0.2622003

El valor \(z_\alpha\) que aparece en muchas de las formulas para intervalos y contrastes se obtiene del comando qnorm(1-alfa). Algunos ejemplos:

qnorm(0.975)
## [1] 1.959964
  • Para generar una muestra de tamaño 100 de una poblacion normal de medida 10 y desviacion tipica 1 (y guardarla en un vector x)
x <- rnorm(100, mean = 10, sd = 1)
x
##   [1]  9.639847 11.151711  9.486065  9.445363  9.125353  9.282494  7.358914
##   [8]  8.507030 10.101770 13.002233 10.927138 10.113597 11.223223  9.171656
##  [15] 11.760456 10.315919 10.000006  8.709702 10.076893 11.091138 10.176823
##  [22]  8.688414  8.621456 12.047594 10.264227 10.338882  9.939220 11.893308
##  [29] 10.073098 10.157825 10.794476  9.517192 10.273595  9.748238 10.260665
##  [36]  8.799740 11.340161  9.889519 10.358126  9.797255 12.211065 11.207530
##  [43] 12.087139 10.678659  7.523991 11.818368 11.393403 11.293585  9.215382
##  [50] 10.001135 10.060236  9.454718  8.985603  9.715093  9.574223  9.585594
##  [57]  9.191335  9.580175  8.750823  9.326209  9.882922 11.442153  9.028728
##  [64]  9.432763 10.520068  8.635322  9.364626  9.816054 10.160221 10.608501
##  [71]  9.474269  7.892685 11.385883  8.991156 11.125831  8.525407  9.710303
##  [78] 11.091561  9.400988  8.683383  9.041703  9.403550 10.676140 10.140896
##  [85] 10.795429  9.346560 10.040151  8.779601  8.676906  9.552386 10.902125
##  [92] 10.377434  8.678874  9.779112  9.737587 11.120699 12.124024  8.326180
##  [99] 10.120144  9.429944
  • Para estimar el promedio de x
mean(x)
## [1] 9.973469
  • Histograma de frecuencias
hist(x)

  • Gráfico de cajas y bigote
boxplot(x)

# Si salen puntos son valores atipicos
  • Histograma de la muestra (normalizado para que la suma de las areas de los rectangulos sean 1) junto con la densidad de la poblacion:
hist(x, freq = FALSE) #freq = false, para que el area del histograma sea 1, es decir, normalizarla

curve(dnorm(x, mean = 10, sd = 1), from = 7, to = 13, add = TRUE) #add = TRUE, esto empalmara 2 graficas

Ejercicios

  1. Si \(z\) es una variable con distribucion normal estandar, calcula \(\mathbb{P} (-2.34< z < 4.78)\)
P = (pnorm(4.78, mean = 0, sd = 1) - pnorm( −2.34, mean = 0, sd = 1))
P 
## [1] 0.9903573

\[P = \{0.9903573\}\]

  1. Calcula el rango intercuartílico de una poblacion normal estándar
pob <- c(1,1,4,4,5,5,6,6,6,6,7,8,8,9)
summary(pob)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.000   4.250   6.000   5.429   6.750   9.000

\[ IQR = {3erQ−1erQ}\]

Por lo tanto :

\[ IQR = \{6.75 − 4.25\} = 2.5\]

  1. Genera una muestra de tamaño 19 de población normal estandar. ¿cuál es la diferencia entre la media mostral y la poblacional? repite el ejercicio 3 veces y anota las 3 diferencias
  • Intento 1:
x <- rnorm(19, mean=5, sd=1)
x
##  [1] 5.620589 4.339192 5.335181 3.855739 6.893942 3.885759 4.271426 3.733915
##  [9] 6.749646 5.150591 7.743106 4.108162 5.579454 4.636693 3.958276 6.602288
## [17] 3.942730 5.203819 5.035990
  • Intento 2:
y <- rnorm(19, mean=5, sd=1)
y
##  [1] 4.740178 5.221350 5.533950 2.900260 4.631073 6.737162 4.044718 6.892664
##  [9] 4.022921 5.130776 5.049467 3.316921 4.417706 4.736722 4.137386 5.167157
## [17] 5.713906 5.849250 4.554385
  • Intento 3:
z <- rnorm(19, mean=5, sd=1)
z
##  [1] 6.215267 6.473487 3.999223 5.034513 3.895929 2.568052 4.815199 3.354452
##  [9] 6.161725 5.164418 6.252486 4.600030 5.024741 4.404610 5.876667 5.132523
## [17] 4.514021 6.830020 6.370523
  • Conclusión: A pesar de tener la misma cantidad de numero de datos, la misma media y hata la misma desviación estandar en cada intervalo es distinto, esto porque son números aleatorios en cada evento.
  1. Genera 1000 números con distribución de Poisson de parámetro \(\lambda = 1)\). Representa el gráfico de barras de los numeros obtenidos. Calcula la media y la varianza de los números obtenidos. ¿Se parecen a los valores teóricos?
Poiss <- rpois(1000, 1) 
Poiss
##    [1] 0 0 1 1 3 2 0 1 1 2 2 0 2 2 0 4 0 1 1 4 3 1 2 0 3 1 1 3 1 0 1 0 1 4 0 1 0
##   [38] 0 0 1 2 1 2 0 1 1 2 3 1 0 2 0 0 0 0 3 2 1 2 1 1 0 0 1 0 2 0 1 2 3 3 2 0 2
##   [75] 2 1 0 2 1 1 3 0 0 4 1 0 0 1 1 0 1 0 0 0 2 3 1 0 1 1 2 3 0 2 2 0 1 3 0 1 1
##  [112] 1 1 2 2 1 2 1 2 0 1 1 1 0 3 1 0 0 2 2 0 0 2 0 3 2 0 1 1 0 2 0 2 0 0 0 4 3
##  [149] 2 2 2 1 3 1 0 0 0 1 1 0 0 2 2 1 2 1 2 0 3 2 0 1 0 0 1 1 0 0 0 1 4 2 1 0 1
##  [186] 0 0 0 1 0 0 1 1 3 1 0 0 1 2 1 2 0 1 0 0 2 0 1 4 0 1 1 0 2 1 3 1 2 1 4 2 0
##  [223] 1 1 1 0 1 1 2 3 1 0 1 1 1 2 1 3 2 0 0 2 3 1 1 3 0 1 1 0 2 0 0 0 2 0 0 1 0
##  [260] 1 0 1 0 1 3 0 0 0 0 2 1 0 1 0 0 3 0 1 1 0 2 0 0 0 1 2 2 1 1 0 1 1 0 0 0 3
##  [297] 0 0 2 1 4 3 0 1 0 2 0 2 0 1 1 0 0 1 2 1 1 2 0 2 4 0 0 2 1 1 3 0 0 1 1 2 0
##  [334] 0 2 0 2 0 0 1 0 0 0 0 0 0 2 1 0 1 1 1 1 3 0 2 2 0 0 1 1 1 0 1 0 0 2 0 0 1
##  [371] 1 0 0 1 0 0 0 1 1 1 0 2 1 0 1 0 0 0 1 0 0 6 2 0 1 1 1 3 0 0 1 1 2 0 0 1 2
##  [408] 0 1 0 3 1 2 0 2 2 1 1 1 0 1 0 0 0 0 0 1 3 3 1 1 1 1 0 1 0 1 0 1 0 0 0 2 1
##  [445] 1 2 0 2 0 1 0 0 0 0 0 1 0 0 1 1 2 0 0 1 1 2 1 1 0 0 2 2 0 2 1 0 1 0 1 0 1
##  [482] 0 1 2 1 0 0 0 2 1 0 1 0 1 0 1 1 0 1 0 1 0 3 2 0 3 4 1 0 1 0 1 1 0 0 0 0 1
##  [519] 0 2 0 0 0 0 0 1 0 1 1 1 2 1 1 1 1 3 2 1 0 1 2 0 1 0 0 3 0 1 0 0 3 1 0 2 0
##  [556] 0 2 0 2 2 0 0 1 1 1 0 2 1 1 2 1 1 3 2 1 0 1 1 0 0 1 0 1 3 2 4 0 1 1 0 0 3
##  [593] 1 1 0 1 2 0 0 1 0 1 2 1 2 2 1 2 3 0 2 0 1 0 1 0 3 3 0 0 0 4 0 2 0 0 3 0 0
##  [630] 0 2 4 2 1 2 1 0 0 0 0 2 0 1 1 3 0 1 0 1 2 1 1 1 2 1 2 1 1 0 2 2 0 3 0 3 1
##  [667] 2 0 3 1 3 2 0 1 0 0 0 0 1 0 2 0 2 1 1 0 2 0 0 0 3 1 2 0 1 0 0 0 1 0 3 1 0
##  [704] 1 1 1 1 0 0 1 1 1 0 0 2 0 0 2 1 3 1 2 0 0 0 3 0 1 1 0 1 1 1 0 4 1 1 1 3 0
##  [741] 1 0 2 0 0 2 1 1 1 1 0 0 2 0 1 0 1 1 0 1 0 2 3 2 0 0 1 4 2 2 1 1 1 1 0 0 1
##  [778] 0 1 1 2 1 1 1 1 3 0 1 2 1 1 0 0 1 1 4 0 1 2 1 0 1 1 3 1 1 0 0 0 1 2 2 0 0
##  [815] 4 2 0 0 2 0 0 0 1 1 0 0 1 2 1 2 1 1 0 1 0 0 1 0 2 0 4 0 1 0 1 1 1 0 0 1 0
##  [852] 1 1 1 0 1 1 0 1 1 1 0 0 0 0 2 0 0 0 0 0 1 2 0 1 1 1 1 3 1 0 1 2 2 0 0 0 0
##  [889] 3 0 1 0 0 0 1 0 0 0 2 1 2 0 1 0 2 1 0 0 2 0 1 1 0 1 0 1 2 1 2 2 2 0 2 1 0
##  [926] 0 1 1 1 2 1 1 0 0 6 2 2 1 0 1 1 2 2 0 2 1 2 2 2 2 2 2 1 1 0 0 2 1 0 3 1 0
##  [963] 1 2 0 0 2 2 1 2 1 1 2 2 3 1 1 2 1 0 1 0 1 1 1 1 1 1 3 1 1 0 1 0 1 1 0 1 3
## [1000] 1
  • Media
mean(Poiss)
## [1] 0.989
  • Varianza
var(Poiss)
## [1] 1.035915
  • Histograma
hist(Poiss, xlab = "Distribucion de Poisson", main = paste("Histograma de Poisson"))

  1. Calcula con R los siguientes valores: \((t_{3,\alpha})\), \(\chi^2_ {3_ \alpha}\), para \(\alpha = 0.05\) y \(\alpha = 0.01\). compara los valores obtenidos con los que aparecen en las correspondientes tablas.

Conclusión Para concluir con este tema en la distribución de probabilidad es una función que asigna a cada suceso sobre la variable la probabilidad de que dicho suceso ocurra, esto se puede ver a traves de las graficas, empalmando las graficas dando información mas o menos clara sobre como se pueden comportar las variables en su frecuencia aleatoria, esto nos sirve para saber como esperar vagamente como se comporten los resultados y saber cuando es mas frecuente la variable.