AI7UC1_8

Irving Flores

01/10/2021

Introduccion a la probabilidad

Probabilidad Es el lenguaje matematico para cuantificar la incertidumbre. Wasserman

1.Terminologia de probabilidad: espacio de resultados, eventos, funciones de probabilidad etc.

2.Interpretacion frecuentista de la probabilidad.

3.Probabilidad condicional y su relacion con la independencia.

Espacio de resultados y eventos

El espacio de resultados \(\Omega\) es el conjunto de resultados de un experimento aleatorio.

e.g. Si lanzamos una moneda dos veces entonces:

\[ \begin{equation}\label{eq:Omega} \Omega = \{AA, AS, SA, SS \} \end{equation} \] Un evento es un subconjunto del espacio muestral, los eventos usualmente se denotan por mayusculas.

e.g. Que el primer lanzamiento resulte aguila.

\[ \begin{equation}\label{eq:A} A=\{AA,AS\} \end{equation} \]

Eventos equiprobables

La probabilidad se puede ver como una extension de la idea de proporcion, o cociente de una parte con respecto a un todo.

e.g. En la carrera de Ing. Quimica hay 300 Hombres y 700 Mujeres, la proporcion de hombre es:

\[ \begin{equation}\label{eq:frac} \frac{300} {700+300} = 0.3 \end{equation} \] Eventos equiprobables Si todos los elementos en el espacio de resultados tienen la misma oportunidad de ser elegidos entonces la probabilidad del evento A es el numero de resultados en A dividido entre el numero total de posibles resultados:

\[ \begin{equation}\label{eq:P} P(A)=\frac{\#(A)}{\#(\Omega)} \end{equation} \] Por lo que solo hace falta contar. e.g. Combinaciones

Un comite de 5 personas sera seleccionado de un grupo de 6 hombres y 9 mujeres. Si la seleccion es aleatoria, ¿Cual es la probabilidad de que el comite este conformado por 3 hombres y 2 mujeres?

Hay \(\dbinom{15}{5}\) posibles comite, cada uno tiene la misma posibilidad de ser selccionado.

Po otra parte hay \(\dbinom{6}{3} \dbinom{9}{2}\) posibles comite que oncluye 3 hombres y 2 mujeres, por lo tanto, la probabilidad que buscamos es:

\[ \frac{\dbinom{6}{3} \dbinom{9}{2}}{\dbinom{15}{5}} \] Y la funcion para calcular las combinaciones es choose (n, r)

choose(6, 3) * choose(9, 2) / choose(15, 5)
## [1] 0.2397602

Interpretacion frecuentista de la probabilidad

Una frecuencia relativa es una proporcion que mide que tan seguido, o frecuente, ocurre una u otra cosa en una sucesion de observaciones.

lanzamientos_10 <- sample(c("A", "S"),10, replace =  TRUE )
lanzamientos_10
##  [1] "S" "A" "A" "S" "A" "S" "A" "S" "A" "S"
  • Podemos calcular las secuencias de frecuencias relativas de aguila:
cumsum(lanzamientos_10 == "A") # Suma acumulada de aguila
##  [1] 0 1 2 2 3 3 4 4 5 5
  • Dividiendo
round(cumsum(lanzamientos_10 == "A") / 1:10, 2)
##  [1] 0.00 0.50 0.67 0.50 0.60 0.50 0.57 0.50 0.56 0.50

Distribuciones de probabilidad

Funciones en R

En R, cada distribución de probabilidad se nombra mediante una palabra clave o alias. Las palabras clave para las distribuciones más importantes son:

  • Distribución Alias
  • Distribución binomial binom
  • Distribución de Poisson pois
  • Distribución normal norm
  • Distribución exponencial exp
  • Distribución t de Student t
  • Distribución Chi2 chisq
  • Distribución F f

\[ \begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso} & \text{Observación}\\ \hline p & \text{probability} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ q & \text{quantile} & \text{Calcula probalilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ d & \text{density} & \text{Calcula las probabilidades puntuales} & \text{Sólo uso gr'afico en el caso continuo} \\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array} \]

Distribución Exponencial

curve(dexp(x), from=0, to=10)

  • Representa la densidad de una exponencial de media 1 entre 0 y 10

Distribución binomial

x <- rbinom(20, 1, 0.5)
x
##  [1] 0 1 0 0 0 1 1 0 0 1 0 1 0 1 0 0 1 0 1 0
  • Genera 20 observaciones con distribución B(1,0.5)

Contando éxitos vs fracasos

table(x)
## x
##  0  1 
## 12  8

e.g. Distribucion normal

Si \(X\) es una variable aleatoria, con distribucion normal de media 3 y du desviacion tipica es de 0.5, la probabilidad de que x sea menor que 3.5 se calcula en R de esta forma:

pnorm(3.5, mean=3, sd=0.5)
## [1] 0.8413447
  • Para calcular el cuantil 0.7 de una v.a. normal estándar Z, es decir, un valor X tal que
qnorm(0.7)
## [1] 0.5244005
  • El valor zα que aparece en muchas de las fórmulas para intervalos y contrastes se obtiene con el comando qnorm(1-alfa). Algunos ejemplos:
qnorm(0.975)
## [1] 1.959964
  • Para generar una muestra de tamaño 100 de una población normal de media 10 y desviación típica 1 (y guardarla en un vector x):
x <- rnorm(100, mean=10, sd=1 )
x
##   [1] 11.714460 11.090310  8.703716  8.708843  9.300642  7.683618 10.235555
##   [8] 10.305566  9.417827 10.348959 10.236938 10.466657 10.236489 10.257957
##  [15]  9.911496  8.768299 10.194797 10.029261 10.392652  7.124920 10.544611
##  [22] 10.425198 10.705512 10.435510 10.813387  9.308585  9.420360  8.942007
##  [29]  9.838223 10.491319 11.760489  8.138473  8.018663 10.240192 10.040198
##  [36]  9.644537  9.544242 11.203895  9.598671  7.777959 12.005706  8.298977
##  [43]  9.341203 10.063838  9.252600  9.937222  9.710575 10.394227 10.092567
##  [50] 10.271977  9.889074  9.267187  9.195185  8.672740 10.865870  9.451592
##  [57]  9.658547 10.962234 11.046125  9.725326  9.660124  8.627116  9.286681
##  [64]  9.587568  8.990055  9.594355  9.315535  9.364228  9.026192 11.238870
##  [71]  9.596594 10.921506  9.044019  9.439068 11.381552  9.850770 11.795180
##  [78] 10.883628 10.677448 10.743367 11.192324 10.962000  8.994931 10.382016
##  [85] 11.473113 10.193189  9.678811  8.572057  9.735969  9.885880  8.785637
##  [92] 10.425800  9.869157 10.794435  9.874651  8.524251 10.127483  9.927526
##  [99] 12.574878  9.740722
  • Para estimar el promedio de x
mean(x)
## [1] 9.908625
  • Histograma de frecuencias
hist(x)

  • Gráfico de cajas y bigote
boxplot(x)

  • Histograma de la muestra (normalizado para que la suma de las áreas de los rectángulos sea 1) junto con la densidad de la población:
hist(x, freq=FALSE) # Freq=FALSE, para que el área del histograma sea 1
curve(dnorm(x, mean=10, sd=1), from=7, to=13, add=TRUE)