Introduccion a la probabilidad

Probabilidad es el lenguaje matematico para cuantificar la incertidumbre. Wasserman

  1. Terminologia de probabilidad: espacio de resultados, eventos, funciones de probabilidad, etc.
  2. Interpretacion frecuencista de la probabilidad.
  3. Probabilidad condicional y su relacion con la independencia.

Espacio de resultados y eventos

El espacio de resultados \(\Omega\) es el conjunto de resultados de un experimento aleatorio.

e.g. si lanzamos una moneda dos veces entonces:

\[\Omega = \{AA, AS, SA, SS \} \] Un evento es un subconjunto del espacio muestral, los eventos usualmente se denotan por mayusculas.

e.g. Que el primer lanzamiento resulte aguila.

\[ A=\{AA, AS\} \]

Eventos equiprobables

La probabilidad se puede ver como una extension de la idea de proporcion o cociente de una parte respecto a un todo.

e.g. En la carrera de Ing. Quimica hay 300 estudiantes que son hombres y 700 que son mujeres, la proporcion de hombres es:

\[ \frac{300}{700+300} =0.3 \]

Eventos equiprobables si todos los elementos en el espacio de resultados tienen la misma oportunidad de ser elegidos entonces la probabilidad del evento A es el numero de resultaos en A dividio entre el numero total de posibles resultados:

\[ P(A)=\frac{\#(A)}{\#(\Omega)} \]

Por lo que solo hace falta contar.

e.g. Combinaciones

Un comite de 5 personas sera seleccionado de un grupo de 6 hombres y 9 mujeres. Si la seleccion es aleatoria, ¿cual es la probabilidad de que el comite este conformado por 3 hombres y 2 mujeres?

Hay \(\dbinom{15}{5}\) posibles comites, cada uno tiene la misma posiblidad de ser seleccionado.

Por otra parte hay \(\dbinom{6}{3} \dbinom{9}{2}\) posibles comites que incluyen 3 hombres y 2 mujeres, por lo tanto la probabilidad que buscamos es:

\[ \frac{\dbinom{6}{3} \dbinom{9}{2}}{\dbinom{15}{5}} \] Y la funcion para calcular las combinaciones es choose (n, r)

choose(6, 3) * choose(9, 2) / choose(15, 5)
## [1] 0.2397602

Interpretacion frecuentista de la probabilidad

Una frecuencia relativa es una proporcion que mide que tan seguido o frecuente ocurre una u otra cosa en una sucesion de observaciones.

lanzamiento_10 <- sample(c("A", "S"),10, replace = TRUE)
lanzamiento_10
##  [1] "A" "S" "S" "A" "A" "A" "S" "S" "A" "A"

Podemos calcular las secuencia de frecuencia relarivas de aguila:

cumsum(lanzamiento_10 == "A") # suma acumulada de aguilas
##  [1] 1 1 1 2 3 4 4 4 5 6
round(cumsum(lanzamiento_10 == "A") / 1:10, 2)
##  [1] 1.00 0.50 0.33 0.50 0.60 0.67 0.57 0.50 0.56 0.60

Distribucion de la probabilidad

**funciones en R

En R, cada distribución de probabilidad se nombra mediante una palabra clave o alias. Las palabras clave para las distribuciones más importantes son:

Distribución Alias Distribución binomial binom Distribución de Poisson pois Distribución normal norm Distribución exponencial exp Distribución t de Student t Distribución Chi2 chisq Distribución F f

Distribucion Exponencial

curve(dexp(x), from=0, to=10)

#Representa la densidad de una exponencial de media 1 entre 0 y 10

** Distribucion binomial**

x <- rbinom(20, 1, 0.5)
x
##  [1] 0 0 1 0 0 0 1 1 1 0 0 0 0 0 0 1 1 0 0 0
#Genera 20 observaciones con distribución B(1,0.5)

Contando éxitos vs fracasos

table(x)
## x
##  0  1 
## 14  6

e.g. Distribución normal

si X es una variable aletoria, con distribución normal de media 3, y du desviación típica es de 0.5, la probabilidad de que X sea menor que 3.5 se calcula en R de esta forma:

pnorm(3.5, mean=3, sd=0.5)
## [1] 0.8413447

*Para calcular el cuantil 0.7 de una v.a. normal estándar Z, es decir, un valor X tal que

qnorm(0.7)
## [1] 0.5244005

*Para calcular el mismo cuantil, pero para una v.a. normal de media 0 y DT 0.5

qnorm(0.7, sd=0.5)
## [1] 0.2622003

*El valor zα que aparece en muchas de las fórmulas para intervalos y contrastes se obtiene con el comando qnorm(1-alfa). Algunos ejemplos:

qnorm(0.975)
## [1] 1.959964

*Para generar una muestra de tamaño 100 de una población normal de media 10 y desviación típica 1 (y guardarla en un vector x):

x <- rnorm(100, mean=10, sd=1 )
x
##   [1]  9.648881  8.878664  7.978350  8.048696  7.650612  9.629225  9.554297
##   [8] 10.355116 10.005944  8.646144 10.462526 10.095321  9.221382  9.593302
##  [15]  9.366315  9.840798 11.588233 10.012933  9.971880 10.361563 11.597035
##  [22]  8.899179 10.657297 10.379183 10.041253  8.477498 10.382836 10.025217
##  [29] 10.539153  8.596162 10.680129  9.306358  9.292054  9.446666 10.496966
##  [36] 11.267235  8.188889 10.535637  9.866015 10.169832  9.467252  9.986429
##  [43]  9.437188 10.184364 10.319217  9.932902  9.726759  9.550437  9.588451
##  [50]  9.435357 12.273597 10.588841  8.338592 10.623750  9.563596 10.969096
##  [57]  8.937065 11.605160 12.226181 10.467886 11.227233 10.191553 10.396532
##  [64] 11.481004 10.418103  9.315976  9.477098  9.735777 10.493924 10.059981
##  [71]  9.955981  9.601807 10.917490 11.436161  9.777085  9.063622 12.483447
##  [78]  9.640545  8.117179 10.860815  8.301711 10.525882  9.806371 12.585527
##  [85]  9.153049 10.416697 12.317240 10.162107 12.479189 10.205719  9.569903
##  [92] 10.058927 12.406045  9.468400  9.556230  9.941380 10.148413  9.406081
##  [99]  8.723182  9.465798

*Para estimar el promedio de x

mean(x)
## [1] 10.02326

*Histograma de frecuencias

hist(x)

*Gráfico de cajas y bigote

boxplot(x)

*Histograma de la muestra (normalizado para que la suma de las áreas de los rectángulos sea 1) junto con la densidad de la población

hist(x, freq=FALSE) # Freq=FALSE, para que el área del histograma sea 1
curve(dnorm(x, mean=10, sd=1), from=7, to=13, add=TRUE)

Ejercicios

1.-Si Z es una variable con distribución normal estándar, calcula P(−2.34<Z<4.78).

2.-Calcula el rango intercuartílico de una población normal estándar.

3.-Genera una muestra de tamaño 10 de una población normal estándar. ¿Cuál es la diferencia entre la media muestral y la poblacional? Repite el ejercicio 3 veces y anota las 3 diferencias.

4.-Genera 1000 números con distribución de Poisson de parámetro λ=1. Representa el gráfico de barras de los números obtenidos. Calcula la media y la varianza de los números obtenidos. ¿Se parecen a los valores teóricos?