Introduccion a la probabilidad

Probabilidad es el lenguaje matemático para cuantificar la incertidumbre. -Wasserman-

  1. Terminología de probabilidad: espeacio de resultados, eventos, funciones de probabilidad, Etc.
  2. Interpretación frecuentista de la probabilidad.
  3. Probabilidad condicional y su relación con la independencia.

Espeacio de resultados y eventos

El espacio de resultados \(\Omega\) es el conjunto de resultados de un experimento aleatorio.

e.g. Si lanzamos una moneda 2 veces entonces:

\[\Omega = \{AA, AS, SA, SS\} \] Un Evento es un subconjunto del espacio muestral, los eventos usualmente se denotan por mayúsculas.

e.g. Que el primer lanzamiento resulte águila.

\[ A=\{AA,AS\} \] ## Eventos equiprobables

La probabilidad se puede ver como una extensión de la idea de proporción, o cociente de una parte con respecto a un todo

e.g. En la carrera de Ing. Quimica, hay 300 hombres y 700 mujeres, la proporcion de hombres es:

\[\frac{300}{700+300}=0.3 \]

Eventos equiprobables Si todos los elementos en el espacio de resultados tienen la misma oportunidad de ser elegidos entonces la probabilidad del evento A es el numereo de resultados en A dividido entre el numero total de posibles resultados:

\[ P(A)=\frac{\#(A)}{\#(\Omega)} \] Por lo que solo hace falta contar

e.g. Combinaciones

Un comite de 5 personas sera seleccionado de un grupo de 6 hombres y 9 mujeres. Si la seleccion es aleatoria, ¿cual es la probabilidad de que el comité este conformado por 3 hombres y 2 mujeres?

Hay \(\dbinom{15}{5}\) posibles comités, cada uno tiene la misma probabilidad de ser seleccionado

Por otra parte hay \(\dbinom{6}{3} \dbnom{9}{2}\) posibles comités que incluyen 3 hombres y 2 mujeres, por lo tanto la probabilidad que buscamos es;

\[\frac{\dbinom{6}{3} \dbinom{9}{2}}{\dbinom{15}{5}} \] y la funcion para cauclar las combinaciones es choose (n, r)

choose(6, 3) * choose(9, 2) / choose (15, 5)
## [1] 0.2397602

Interpretación frecuentista de la probabilidad

Una frecuencia relativa es una proporción que mide que tan seguido, o frecuente, ocurre una u otra cosa en una sucesión de observaciones.

lanzamientos_10 <- sample(c("A","S"),10,replace=TRUE)
lanzamientos_10
##  [1] "S" "A" "A" "A" "S" "A" "S" "S" "A" "A"

Podemos calcular las secuencias de frecuencia relativas de aguila

cumsum(lanzamientos_10 == "A")
##  [1] 0 1 2 3 3 4 4 4 5 6

Dividiendo

round(cumsum(lanzamientos_10 == "A")/1:10, 2)
##  [1] 0.00 0.50 0.67 0.75 0.60 0.67 0.57 0.50 0.56 0.60

Distribuciones de probabilidad

**Funciones en R

En R, cada distribución de probabilidad se nombra mediante clave o alias. Las palabras clave para las distribuciones importantes son:

\[ \begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso} & \text{Obervación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{--}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{--}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{--}\\ \hline \end{array} \]

Distribución Exponencial

curve(dexp(x), from=0, to=10 ) 

#Representa la densidad de una exponencial de media 1 entre 0 y 10

Distribución binomial Representa el conteo de éxitos vs fracasos los fracasos se cuentan con el número 1 y los fracasos con el número 0

x <- rbinom(20, 1, 0.5)
x
##  [1] 1 1 1 1 1 1 0 1 1 1 1 0 0 1 0 0 0 0 1 0
#Genera 20 observaciones con distribución B(1, 0.5)

Contando éxitos vs fracasos

table(x) 
## x
##  0  1 
##  8 12

e.g. Distribucion normal

Si \(X\) Es una variable aleatoria, con distribución normal de media 3, y su desviación típica es de 0.5, la probabilidad de que \(X\) sea menor que 3.5 se calcula en R de esta forma:

pnorm(3.5, mean=3, sd=0.5) 
## [1] 0.8413447
qnorm(0.7)
## [1] 0.5244005
qnorm(0.7, sd=0.5)
## [1] 0.2622003

El valor \(z_\alpha\) que aparece en muchas de las fórmulas para intervalos y contrastes se obtiene con el comando qnorm(1-alfa). Algunos ejemplos:

qnorm(0.975)
## [1] 1.959964
x <- rnorm(100, mean=10, sd=1 )
x
##   [1] 12.852252 12.496678  8.874538  9.157690  9.675832  9.677734  9.462227
##   [8] 11.200017  9.671209 11.936377  8.342025 10.661001  9.966150  9.739075
##  [15]  8.281505  7.649760 10.424186 10.310247  8.988962 10.705036 10.263826
##  [22] 10.711149  9.759633  9.268776 12.207968  9.386424 11.446228 12.130764
##  [29]  9.271036 10.578577 10.045141 10.787970  9.553196  8.616843  8.813164
##  [36]  9.711826 11.630753 10.412682 11.046990  9.757578  9.887139  9.055319
##  [43] 10.174929  8.391107  9.309775  8.650922  8.567894 10.049668  9.158537
##  [50]  9.773413  9.921458  9.876056 10.222241  9.932814  9.847811 11.802475
##  [57] 10.632656 10.183505 10.875495  9.908570  8.326189  9.755869 10.958539
##  [64] 12.561667  9.754810 10.318539  9.653951  9.516803  9.202704 11.110222
##  [71]  8.264475 10.781311 10.965998  7.455146 11.478106 10.806269 10.705902
##  [78] 11.541432 10.221118 11.992617  9.580716 10.480103 10.164460  8.232235
##  [85] 11.871784  9.341809 11.375864  9.964445 10.351697  9.642823 10.398846
##  [92] 10.131968 10.671939  9.214290  7.890936 10.706320  9.286956 11.111621
##  [99] 10.604137 10.946310
mean(x)
## [1] 10.09036
hist(x)

boxplot(x)

hist(x, freq=FALSE) # freq=FALSE, es para que el area del histograma sea 1
curve(dnorm(x, mean=10, sd=1), from=7, to=13, add=TRUE)

Ejercicios

  1. Si \(z\) es una variable con distribucion normal estandar, calcula \(\mathbb{P}(-2.32 < z < 4.78)\)
x = pnorm(-2.32, mean=0, sd=1) 
y = pnorm(4.78, mean=0, sd=1)
y-x
## [1] 0.9898287
  1. Calcula el rango intercualtílico de una poblacion normal estandar.
x = rnorm(10)
IQR(x)
## [1] 1.6765
  1. Genera una muestra de tamaño 10 de una poblacion normal estandar. ¿Cual es la diferencia entre la media muestral y la poblacional? Repite el ejecicio 3 veces y anota las 3 diferencias
rnorm(10, mean=8, sd=1)
##  [1] 8.161490 9.621578 8.839372 8.672719 9.427257 8.530319 7.738019 6.950030
##  [9] 8.344458 8.808254
rnorm(10, mean=8, sd=1)
##  [1]  7.058648  8.883689  9.029434  9.415680  7.624004  8.676115  8.785711
##  [8]  7.220107  7.027034 10.174407
rnorm(10, mean=8, sd=1)
##  [1] 9.347185 9.575264 7.261383 8.152648 7.980662 8.680131 6.421169 8.447085
##  [9] 7.738087 8.484450

Al haber ejecutado el codigo 3 veces seguidas, se puede notar que todos los datos son totalmente diferentes entre si, ya que el generador de datos lo hace con aleatoriedad.Se puede observar que la media muestral no se basa en la media poblacional.

  1. Genera 1000 numeros con distribucion Poisson de parametro \(\lambada = 1\). Representa el grafico de barras de los numeros obtenidos. Calcula la media y la varianza de los numeros obtenidos. ¿Se parecen a los valores teoricos?

Numeros aleatorios

x = rpois(1000, 1)
x
##    [1] 1 1 2 0 3 2 0 1 1 0 0 1 1 0 0 2 2 3 1 0 2 1 1 1 0 1 1 2 1 1 2 0 1 0 2 1 1
##   [38] 0 0 2 0 0 2 1 2 2 2 1 0 1 1 2 0 0 3 0 1 2 1 0 2 0 2 1 2 1 3 3 0 2 1 2 1 0
##   [75] 1 2 2 0 1 0 0 0 0 1 3 1 0 0 0 1 2 0 0 1 3 1 2 1 2 1 0 1 0 0 0 1 0 1 0 2 1
##  [112] 2 0 0 2 0 3 2 2 3 0 1 1 2 1 1 2 0 1 1 1 0 2 0 1 2 1 0 0 1 1 0 3 2 0 3 3 0
##  [149] 1 0 1 0 0 0 0 4 0 0 2 1 0 2 1 2 1 2 1 2 0 1 1 3 0 2 0 0 1 1 0 1 2 0 2 2 0
##  [186] 2 2 0 0 0 1 1 1 1 1 0 0 7 0 2 0 2 0 0 1 1 1 1 0 0 1 0 1 3 1 1 2 1 0 0 1 0
##  [223] 1 0 2 1 1 1 1 0 0 0 0 1 0 1 1 1 1 2 1 2 1 1 0 1 0 0 2 2 0 2 1 0 1 0 1 0 0
##  [260] 0 0 2 1 1 3 0 0 0 0 1 1 2 0 1 1 1 1 3 1 1 0 1 1 2 1 0 0 1 0 1 0 0 0 3 1 1
##  [297] 0 4 0 1 0 2 2 1 0 1 1 2 1 2 1 0 2 2 2 0 1 0 0 1 2 1 1 0 1 0 0 0 1 1 1 0 2
##  [334] 1 1 1 1 3 0 2 0 2 3 0 0 1 3 0 1 2 1 2 2 2 1 2 1 0 0 0 1 1 1 1 0 0 1 1 0 3
##  [371] 2 3 0 2 1 2 2 2 2 1 0 1 2 0 1 5 0 3 2 2 0 0 0 0 0 1 1 2 0 1 2 2 2 2 0 1 0
##  [408] 2 1 1 0 0 0 2 2 1 0 0 2 1 0 1 0 3 2 1 1 0 1 0 1 1 0 2 0 0 1 1 1 0 1 0 1 1
##  [445] 1 2 1 0 0 0 0 1 1 1 1 0 0 0 1 0 3 1 4 0 0 3 2 1 1 3 1 0 0 1 0 2 3 1 1 0 0
##  [482] 0 1 2 0 2 0 0 3 1 0 1 0 2 0 1 2 0 0 1 2 1 2 0 1 1 1 2 1 0 2 3 1 3 1 1 0 0
##  [519] 2 1 1 0 0 2 0 2 1 0 0 4 0 2 0 0 1 2 2 3 0 0 2 2 2 2 0 1 1 1 2 3 2 3 0 1 0
##  [556] 2 0 1 2 2 1 2 1 2 1 2 1 2 0 0 1 0 2 0 0 0 0 0 3 1 1 0 0 2 2 1 3 2 1 1 1 1
##  [593] 1 3 1 1 2 0 0 5 2 0 1 1 1 1 1 2 1 1 0 3 4 1 3 2 0 1 1 2 1 2 1 0 0 0 0 1 0
##  [630] 2 1 0 0 2 2 0 0 2 1 0 2 1 3 1 0 0 1 2 1 1 0 3 0 2 1 0 2 1 1 0 1 2 2 2 2 0
##  [667] 0 2 1 0 0 1 0 0 2 0 1 1 2 1 1 0 0 2 2 0 1 1 1 1 0 1 0 1 0 1 0 2 2 1 0 3 0
##  [704] 2 2 2 1 1 1 3 1 0 0 0 0 0 2 2 3 3 0 3 1 0 1 0 3 0 3 0 0 1 2 0 0 0 0 1 1 0
##  [741] 1 1 1 0 0 0 3 1 0 1 0 0 0 0 0 0 1 2 1 1 1 0 1 2 1 0 3 2 1 1 1 2 0 0 3 0 1
##  [778] 0 1 0 2 1 1 0 2 1 1 1 1 3 1 2 0 0 2 0 2 5 1 5 0 0 4 0 0 1 0 1 2 0 1 3 1 0
##  [815] 3 0 1 0 0 1 0 1 0 1 4 0 0 2 0 0 2 0 2 0 0 0 1 0 0 2 1 1 0 2 0 2 3 1 3 1 1
##  [852] 1 0 1 0 1 0 0 2 0 1 2 2 2 0 1 1 0 0 1 2 0 0 2 1 1 2 1 3 1 1 1 0 0 0 0 1 0
##  [889] 1 4 0 0 2 0 1 0 1 2 0 0 1 2 0 1 0 1 0 1 1 1 0 1 1 2 1 0 1 3 4 2 1 2 0 2 0
##  [926] 0 1 0 0 1 0 2 2 0 0 2 1 1 0 2 1 3 1 1 3 0 2 3 3 4 0 3 0 0 0 2 0 0 1 3 2 2
##  [963] 2 1 0 0 0 0 1 1 0 2 2 2 2 1 3 2 0 2 0 0 1 3 1 0 1 0 2 2 1 0 1 2 3 1 3 1 0
## [1000] 2

Grafico de barras

hist(x)

Media

mean(x)
## [1] 1.034

Varianza

var(x)
## [1] 1.031876
  1. Calcula con R los siguientes valores: \(t_{3,\alpha}\), \(\chi^2_{3,\alpha}\), para \(\alpha = 0.05\) y \(\alpha= 0.01\). Compara los valores obtenidos con los que aparecene en las correspondientes tablas