Introducción a la probabilidad

“Probabilidad” es el lenguaje matemático para cuantificar la incertidumbre-Wasseman

    1. TERMINOLOGÍA DE PROBABILIDAD
    1. INTERPRETACIÓN FRECUENTISTA DE LA PROBABILIDAD
    1. PROBABILIDAD CONDICIONAL Y SU RELACIÓN CON LA INDEPENDENCIAL

Terminología de probabilidad

Espacio de resultados, eventos, funciones de propobabilidad, etc.

Espacio de resultados y eventos

El espacio de resultados \(\Omega\) es el conjunto de resultados de un experimento aleatorio

E.g Si lanzamos una moneda dos veces entonces

\[\Omega =\{AA, AS. SA. SS\} \]

Un evento es un subconjunto del espacio muestral, los eventos usualmente se denotan por mayúsculas.

    1. Que el primer lanzamiento resulte águila.

\[ A=\{AA, AS\} \]

Eventos equiprobables

Idea de proporción

La probabilidad se puede ver como una extensión de la idea de proporción o cociente de una parte con respecto a un todo.

e.g En la carrera de Ing. Química hay 300 estudiantes hombres y 200 estudiantes mujeres, la proporción de hombres es:

\[ \frac{300}{700+300}= 0.3 \]

Eventos equiprobables Se define como todos los elementos en un espacio que tienen la misma oportunidad de ser escogidos, siendo el evento A como una probabilidad y a su vez el numero de resultados de A estará dividido entre el número total de posibles resultados:

\[ P(A)=\frac{\#A}{\#(\Omega)} \] Por lo que solo hace falta contar.

e.g Combinaciones

Un cómite de 5 personas será seleccionado de un grupo de 6 hombres y 9 mujeres. Si la selección es aleatoria, ¿Cuál es la probabilidad de que el cómite este conformado por 3 hombres y 2 mujeres?

Hay \[\dbinom{15}{5} \] posibles comités, cada uno tiene la misma posibilidad de ser selccionado.

Por otra parte, hay \[\dbinom{6}{3} \dbinom{9}{2}\] posibles comités que incluyen 3 hombres y 2 mujeres, por lo tanto, la probavilidad que buscamos es:

\[ \frac{\dbinom{6}{3} \dbinom{9}{2}}{\dbinom{15}{5}} \] y la función para calcular las combinaciones es: choose (n, r)

choose(6,3) * choose(9, 2) / choose(15,5)
## [1] 0.2397602

Interpretación frecuentista de la probabilidad.

Una frecuencia relativa es una proporción que mide que tan seguido o frecuente, ocurre una u otra cosa en una sucesión de observaciones.

lanzamientos_10 <- sample(c("A", "S"),10, replace = TRUE )
lanzamientos_10
##  [1] "A" "S" "S" "S" "A" "A" "S" "A" "A" "S"

Se calcula la secuencias de frecuencias relativas de águila:

cumsum(lanzamientos_10 == "A")
##  [1] 1 1 1 1 2 3 3 4 5 5

Dividiendo

round(cumsum(lanzamientos_10 == "A") / 1:10, 2)
##  [1] 1.00 0.50 0.33 0.25 0.40 0.50 0.43 0.50 0.56 0.50

Distribuciones de probabilidad

Funciones en R

En R, cada distribución de probabilidad se nombra mediante una clave o alias. Las palabras clave para distribuciones más importantes son:

  • Distribución Alias
  • Distribución binomial binom
  • Distribución de Poisson pois
  • Distribución normal norm
  • Distribución exponencial exp
  • Distribución t student t
  • Distribución chi2 chisq
  • Distribución F f

\[ \begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso}& \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array} \]

Distribución exponencial

curve(dexp(x), from=0, to=10)

#representa la densidad de una exponencial de media 1 entre 0 y 10

Distribución binomial

x <- rbinom(20, 1, 0.5)
x 
##  [1] 0 1 0 0 1 0 1 0 1 1 1 1 1 0 1 0 1 0 0 1
#Genera observaciones con distribución B(1,0.5)

Contando éxitos vs fracasos

table(x)
## x
##  0  1 
##  9 11

e.g. Distribución normal

si \(x\) es una varible aleatoria, con distribución normal de media 3, y su desviación típica es de 0.5, la probabilidad de que \(x\) sea menor que 3.5 se calcula en R de esta forma:

pnorm(3.5, mean=3, sd=0.5)
## [1] 0.8413447
  • Para calcular el cuantil 0.7 de una variable aleatoria normal estándar Z, es decir, un valor x tal que
qnorm(0.7)
## [1] 0.5244005
  • Para calcular el cuantil 0.7 de una variable aleatoria normal de media 0, DT 0.5
qnorm(0.7, sd=0.5)
## [1] 0.2622003

El valor \(z_\alpha\) que aparece en muchas de las fórmulas para intervalos y contrastes se obtiene con el comando qnorm(1-alfa). Algunos ejemplos son:

qnorm(0.975)
## [1] 1.959964
  • Para generar una muestra de tamaño 100 de una población normal de media 10 y desviación típica 1 (y guardarla en un vector x):
x <- rnorm(100, mean=10, sd=1 )
x
##   [1] 13.169016 10.839975 11.149869 10.349703  9.023357 10.167354 10.654711
##   [8]  9.522082 11.358535 11.735307  9.695076  7.425004  8.373376 10.379598
##  [15] 11.385739  9.207390  9.044650  9.561368  9.064163  9.681183  9.512638
##  [22] 10.144401 11.383348  9.203014  8.839236 10.131258 10.851509 10.320628
##  [29]  9.738219 12.054425  7.434099 11.205572 11.971584 10.771965 11.284715
##  [36]  9.928742  8.676294  9.857036 11.369172 10.952138 10.812524  8.590673
##  [43] 10.923460  9.548807  9.791513  8.712799  9.336376 10.441976 10.835784
##  [50]  9.619506  8.976540  9.528319  9.845161 10.546110 12.105609  9.156317
##  [57] 11.322653  9.723262  9.057132  9.513323 10.572590  9.045032 11.964078
##  [64]  9.271649  8.399803 10.841699 11.380249 11.274730 10.996098  9.472106
##  [71] 10.408173 10.633730 10.881926  9.703134 10.028251 10.042477  9.993141
##  [78]  9.637405 11.363301 10.836983 11.612559 10.391685  9.576256  9.643124
##  [85]  9.871794 10.561809  8.263877 11.711902 10.181755  9.723774  8.377165
##  [92]  9.848936  9.431674 11.514480  7.912025  8.647114 10.861695  9.983909
##  [99] 10.546744 10.358469
  • Para estimar el promedio de x
mean(x)
## [1] 10.11573
  • Histograma de frecuencias
hist(x)

  • Gráfico de caja y bigote
boxplot(x)

  • Histograma de la muestra (normalizado para que la suma de las áreas de los rectángulos sea 1) junto con la densidad de la población
hist(x, freq=FALSE) #Freq:FALSE, para que el area del histograma sea 1
curve(dnorm(x, mean=10, sd=1), from=7, to=13, add=TRUE)

Ejercicios

  1. Si \(z\) es una variable con distribución normal estándar, cálcula \(\mathbb{P}(-2.34 < Z < 4.78\))
P= pnorm(4.78, mean = 0, sd = 1) - (pnorm(-2.34, mean = 0, sd = 1))
P
## [1] 0.9903573

\[ P= {0.9903573} \]

  1. Calcule el rango intercuartílico de una población normal estándar.
f <- c(1,4,4,4,5,5,6,6,6,6,7,8,8,9)
summary(f)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.000   4.250   6.000   5.643   6.750   9.000

\[ IQR= {3rd Qu - 1st Qu} \]

\[ IQR ={6.450 - 4.250} = 2.5 \]

  1. Genera una muestra de tamaño 10 de una población normal estándar. ¿Cuál es la diferencia entre la media muestral y la poblacional? Repite el ejercicio 3 veces y anota las 3 diferencias.
x <- rnorm(10, mean=3, sd=1 )
x
##  [1] 3.366627 2.922331 4.425221 3.674632 3.635738 2.622676 4.163994 3.681070
##  [9] 1.674460 2.343010
x <- rnorm(10, mean=3, sd=1 )
x
##  [1] 2.4968125 4.0404779 0.7601182 2.4842968 3.1186165 2.8334424 2.2885633
##  [8] 3.2225001 3.5879016 2.7879725
x <- rnorm(10, mean=3, sd=1 )
x
##  [1] 3.943074 3.840943 4.243918 1.812653 4.051449 3.081677 4.034965 5.169272
##  [9] 3.242779 3.592287

Se observa que los números generados presentan diferencias a pesar de tener las mismas caraterísticas numericas, esto es debido a que los eventos son aleatorios.

  1. Genera 1000 números con distribucición de Poisson de parámetro \(\lambda = 1\). Representa el gráfico de barras de los números obtenidos. Calcula la media y la varianza de los números obtenidos. ¿Se parecen a los valores teóricos?
Po <- rpois(1000, 1)
Po
##    [1] 0 3 1 0 0 0 0 1 2 0 2 0 2 1 2 3 0 1 1 2 1 0 2 1 4 2 3 0 1 0 1 2 1 2 2 0 1
##   [38] 0 0 0 1 0 3 3 1 2 0 1 0 0 0 1 0 2 1 0 0 0 3 1 0 1 2 1 1 0 0 1 3 0 1 0 2 1
##   [75] 1 0 0 0 1 0 2 0 2 1 0 0 0 1 2 0 1 1 2 4 1 0 4 1 1 0 1 2 0 0 3 2 1 0 1 0 1
##  [112] 0 0 1 1 1 1 1 0 0 2 1 1 1 0 2 2 2 2 3 1 4 2 1 1 0 0 1 0 2 0 2 1 0 1 2 1 1
##  [149] 0 1 0 2 0 0 2 3 1 1 0 2 0 0 0 2 0 0 0 1 1 0 1 1 1 1 2 0 2 2 0 0 1 0 2 0 0
##  [186] 0 1 1 1 2 0 0 2 0 1 1 2 0 3 2 0 2 0 1 2 1 0 1 1 0 1 1 2 0 2 2 1 1 1 0 1 0
##  [223] 0 1 4 0 2 1 1 0 1 2 1 0 0 0 2 1 1 1 1 1 1 1 0 1 1 2 2 1 0 2 1 2 2 2 1 1 0
##  [260] 1 0 3 1 0 1 1 2 0 1 1 2 1 0 1 1 1 1 0 1 0 1 0 2 3 2 2 0 3 0 0 2 3 1 3 0 2
##  [297] 1 0 1 1 1 0 1 1 0 0 2 2 2 0 1 1 1 0 0 0 0 0 1 2 1 0 3 1 1 1 1 1 1 0 1 0 1
##  [334] 1 0 3 0 1 4 0 1 4 3 1 1 0 0 0 1 1 0 1 2 1 2 0 4 1 1 1 1 1 2 0 0 1 1 2 2 0
##  [371] 3 3 2 2 1 2 2 0 0 1 1 0 0 2 2 1 0 0 2 2 0 0 0 1 2 2 1 0 4 4 0 1 2 1 0 1 1
##  [408] 1 2 3 3 2 0 1 1 0 3 3 0 0 3 0 2 2 1 3 1 0 2 1 1 1 2 1 0 0 0 0 1 1 1 1 0 3
##  [445] 2 1 1 0 0 1 1 0 1 0 1 0 0 1 0 2 2 0 2 1 0 1 2 2 1 1 1 3 0 1 0 0 1 0 0 1 3
##  [482] 0 0 1 1 0 4 0 0 1 1 0 1 2 4 0 2 1 4 1 1 0 1 2 0 2 1 3 0 0 0 1 0 1 2 0 1 1
##  [519] 2 0 0 1 2 2 3 0 2 2 1 1 1 2 1 2 2 1 0 0 0 1 0 1 1 0 0 2 1 2 0 1 2 1 0 0 2
##  [556] 0 0 0 1 2 0 2 1 3 2 0 0 2 1 3 0 1 1 1 1 2 0 1 1 0 0 1 2 3 0 0 1 0 3 3 1 2
##  [593] 0 0 2 0 0 1 2 1 2 1 2 1 0 0 2 3 1 2 4 3 1 4 1 0 1 2 1 3 0 0 1 1 0 0 2 1 1
##  [630] 0 1 0 2 0 3 1 0 0 1 0 0 1 2 0 0 0 0 0 1 0 1 2 1 0 0 1 2 0 0 0 0 2 0 2 1 1
##  [667] 0 0 1 0 1 1 1 0 0 0 0 0 0 0 2 0 0 2 2 1 0 0 0 0 0 1 0 1 0 0 1 0 0 0 1 0 0
##  [704] 3 0 2 2 1 1 2 1 1 1 1 4 1 0 2 1 1 0 0 0 3 0 0 2 0 2 3 0 1 1 1 1 2 2 0 0 0
##  [741] 3 1 3 0 1 1 0 1 0 3 0 2 0 0 3 2 0 0 0 0 0 2 0 0 2 1 2 2 2 2 0 1 1 0 2 0 1
##  [778] 1 2 0 3 1 0 0 1 0 0 0 1 0 0 2 2 0 0 1 1 0 3 2 0 3 1 1 2 3 2 1 1 3 1 0 2 1
##  [815] 1 1 1 1 0 0 4 0 3 0 2 0 2 0 1 1 0 0 2 1 1 0 0 1 2 2 1 1 2 0 2 0 0 0 4 1 1
##  [852] 2 2 2 1 1 1 0 0 1 1 1 0 1 0 0 3 2 0 1 0 0 3 0 2 0 0 1 1 2 0 1 1 2 1 1 0 1
##  [889] 1 0 2 0 0 1 2 1 1 1 0 1 1 1 0 0 0 0 2 0 1 1 1 1 0 0 0 0 2 2 0 2 2 1 1 0 2
##  [926] 2 1 3 0 2 1 2 0 2 2 3 0 0 1 1 1 0 0 0 0 3 0 0 2 0 1 1 1 0 1 0 0 1 0 0 0 2
##  [963] 2 3 0 2 2 1 2 1 0 2 0 1 1 2 0 1 0 1 1 0 0 2 0 1 3 1 2 1 3 0 1 1 0 1 1 2 0
## [1000] 1
  • Para estimar el promedio de Po
mean(Po)
## [1] 1.004
  • Para estimar la varianza
var(Po)
## [1] 0.978963
  • Histograma de frecuencias
hist(Po, xlab= "Distribución de Poisson", ylab = "Frecuencia", main = paste ("Histograma de Poisson"))

  1. Calcula con R los siguientes valores: \(t_{3,\alpha}\), \(chi^2_{3,\alpha}\), para \(\alpha = 0.05\) y \(\alpha = 0.01\). Compara los valores obtenidos con los que aparecen en las correpondientes tablas.
set.seed(10)

x1 <- rnorm(100,10)
x2 <- rnorm(100,10.5)

test <- t.test(x1, x2)
test
## 
##  Welch Two Sample t-test
## 
## data:  x1 and x2
## t = -4.0081, df = 197.83, p-value = 8.665e-05
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -0.8080508 -0.2751220
## sample estimates:
## mean of x mean of y 
##  9.863451 10.405037
frec <- c(2,3)
chisq.test(frec)
## Warning in chisq.test(frec): Chi-squared approximation may be incorrect
## 
##  Chi-squared test for given probabilities
## 
## data:  frec
## X-squared = 0.2, df = 1, p-value = 0.6547

Para \(\alpha = 0.05\)

qchisq(0.95,1)
## [1] 3.841459

Para \(\alpha = 0.01\)

qchisq(0.99,1)
## [1] 6.634897