Introducción a la probabilidad (Repaso)

" Probabilidad es el lenguaje matemático para cuantificarla incertidumbre. Wasserman

  1. Terminología de probabilidad: Espacio de resultados, eventos, funciones de probabilidad, Etc.
  2. Interpretación frecuentista de laprobabilidad.
  3. Probabilidad condicional y su relación con la independencia.

Espacio de resultados y eventos

El espacio de resultados \(\Omega\) es el conjunto de resultados de un experimento aleatorio.

e.g. Sí lanzamos una moneda dos veces entonces:

\[\Omega = \{AA, AS, SA, SS\}\] Un evento es un subconjunto del espacio muestral, los eventos usualmente se denotan por mayúsculas. e.g. Que el primer lanzamiento resulte ágila. \[ A = \{AA, AS\}\] ## Eventos equiprobables

La probabilidad se puede ver como una extensión de la idea de proporción, o cociente de una parte con respecto a un todo.

e.g En la carrera de Ing. Química hay 300 estudiantes que son hombres y 700 que son mujeres, la proporción de hombres es:

\[ \frac{300}{700+300}= 0.3\] Eventos equiprobables Si todos los elementos en el espacio de resultados tienen la misma oportunidad de ser elegidos entonces la probabilidad del evento A es el nímero de resultados en A dividido entre el número entre el número total de posibles resultados.

\[ P(A)=\frac{\#(A)}{\#(\Omega)}\] Por o que solo hace falta contar.

e.g. Combinaciones

Un comité de 5 personas será seleccionando de un grupo de 6 hombres y 9 mujeres.Si la selección es aleatoriam ¿cuál es la probabilidad de que el comité este conformadopor 3 hombres y 2 mujeres?

Hay \(\dbinom{15}{5}\) posibles comités, cada un tiene la misma probabilidad de ser seleccionado.

Por otra parte hay 9 mujeres de las cuales se van a seleccionar 2 \(\dbinom{6}{3} \dbinom{9}{2}\) posibles comités que incluyen 3 hombres y 2mujeres, porlo tanto,la probabilidad que buscamos es:

\[ \frac{\dbinom{6}{3} \dbinom{9}{2}}{ \dbinom{15}{5}} \] y la función para calcularlas combinaciones es choos (n, r)

choose (6, 3) * choose(9, 2) / choose (15, 5)
## [1] 0.2397602

Interpretación frecuentista de la probabilidad

Una frecuencia relativa es una proporción que mide que tan seguido, o frecuente,ocurre una u otracosa en una sucesión de observaciones

lanzamientos_10 <- sample(c("A","S"),10,replace = TRUE)
lanzamientos_10
##  [1] "S" "A" "S" "S" "S" "S" "A" "S" "A" "A"

Podemos calcular la sacuencia defrecuencias relativas de águila:

cumsum(lanzamientos_10 == "A")
##  [1] 0 1 1 1 1 1 2 2 3 4

Dividiendo

round(cumsum(lanzamientos_10 == "A") / 1:10, 2)
##  [1] 0.00 0.50 0.33 0.25 0.20 0.17 0.29 0.25 0.33 0.40

Distribuciones de probabilidad

**Funciones en R

En R, cada distribución de probabilidad se nombra mediante una palabra clave o alias, laspalabras clave para las distribuciones más importantes son:

\[ \begin{array}{l|l|l|c} \text{Funcion} & \text {Significado} & \text{Uso} & \text{Observación}\\ \hline p & \text {probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text {quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text {density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text {random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array} \] Distribución Exponencial

curve(dexp(x),from=0, to=10)

Distribución binomial

x <- rbinom(20, 1, 0.5)
x
##  [1] 0 0 0 1 0 0 0 1 1 1 0 1 0 1 1 0 1 0 1 1

Contando éxitos vs fracasos

table(x)
## x
##  0  1 
## 10 10

e.g. Distribución normal

si \(X\) es una variable aleatoria, con distribución normal de media 3, y su desviación típica es de 0.5, la probabilidad de que \(X\) sea menor que 3.5 se calcula en R de esta forma:

pnorm(3.5, mean=3, sd=0.5)
## [1] 0.8413447
qnorm(0.7)
## [1] 0.5244005
qnorm(0.7, sd=0.5)
## [1] 0.2622003

El valor \(z_\alpha\) que aparece en muchas de las fórmulas para intervalos y contrastes se obtiene con el comando qnorm (1-alfa) Algunos ejemplos:

qnorm(0.975)
## [1] 1.959964
x <- rnorm(100,mean=10, sd=1)
x
##   [1]  9.816842 11.046719 10.028568 11.631133  9.885923 11.153843 11.643541
##   [8]  8.394551  7.912708 10.354959 11.958719 10.342852 11.079587  9.902916
##  [15]  9.121021 10.243132 10.452803  7.569886 10.405958  9.072201 10.219047
##  [22]  9.298937 10.175464 10.150157  8.761367 10.173711 10.338325  8.754567
##  [29]  9.826254 11.157261  9.559502  9.360055  9.543119  9.493887  9.204524
##  [36] 12.106631 10.571474  8.870731  9.247499 10.699251  8.079191 11.474747
##  [43]  9.691192 10.690228  9.171171 11.541982 10.783213 10.848228 11.170013
##  [50] 10.979283 10.328709 10.317487 11.883681  9.682246  8.419436 12.200536
##  [57]  8.825656 12.466257  9.616726 10.684903  9.332231 10.830926  8.794271
##  [64] 11.018576 10.152264  8.491661  7.949221 10.181874  9.664808 10.571737
##  [71] 12.035618 10.970331 10.286708  8.686419 10.641104 10.038868  9.863626
##  [78]  9.525229 10.018260 10.420262 11.285869  9.711912 11.452093  9.301557
##  [85] 10.210625  9.919066  9.001459 11.458007  9.753909  9.561922 10.460618
##  [92] 11.715103 10.125276  8.709920 11.860307  9.733304 11.051548  9.908321
##  [99] 11.192549 10.893995
mean(x)
## [1] 10.15166
hist(x)

boxplot(x)

hist(x, freq=FALSE) #freq=FALSE para que el area del histograma sea 1
curve(dnorm(x,mean=10,sd=1),from=7, to=13,add=TRUE)

Ejercicios

  1. Si \(z\) es una variable con distribución normal estándar, calcula \(\mathbb{P}(-2.34 < z < 4.78)\).
z <- (pnorm(4.78) - pnorm(-2.34) )
z
## [1] 0.9903573
  1. Calcula el rango intercuatrílico de una población normal estándar.
b <- c(1,2,2,2,2,3,4,5,8,8,8,9,10)
summary(b)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.000   2.000   4.000   4.923   8.000  10.000

\(Intercuatrílico= {8-2}=5\)

  1. Genera una muestra de tamaño 10 de una población normal estándar. ¿Cuál es la diferencia entre la media muestral y la poblacional? Repite el ejercicio 3 veces y anota las 3

La media muestral se caracteriza por que se calcula a partir de la media aritmética de un conjunto de valores de una variable aleatoria, mientras que la media poblacional es un valor esperado de una variable aleatoria

A continuación podemos ver que las medias poblacionales se acercan con diferencia de algunas cantidades a las medias muestrales,lo que nos dice que hace falta aumentar la media muestral para poder acercarse lo suficiente a la media poblacional

q <- rnorm(10,mean=5,sd=1)
q
##  [1] 4.837564 4.619731 4.625267 4.728952 5.343002 5.979643 4.074847 4.079596
##  [9] 7.296684 4.101913
mean(q)
## [1] 4.96872
w <- rnorm(10,mean=5,sd=1)
w
##  [1] 5.562000 5.925796 5.552432 5.298812 4.799925 3.972664 5.769471 3.689592
##  [9] 5.856691 5.057158
e <- rnorm(10,mean=5,sd=1)
e
##  [1] 5.567339 4.487988 4.843809 4.324363 5.040889 4.268189 4.584242 4.869650
##  [9] 5.542610 3.838009
  1. Genera 1000 números con distribución de Poisson de parámetro \(lambda = 1\). Representa el gráfico de barras de los números obtenidos. Calcula la media y la varianza de los números obtenidos.¿Se parecen a los valores teóricos?

Si, los valores se acercan a lambda

P <- rpois(1000,1)
hist(P)

mean(P)
## [1] 0.996
var(P)
## [1] 1.069053
  1. Calcula con R los siguientes valores: \(t_{3,\alpha}\), \(\chi^2_{3,\alpha}\), para \(\alpha=0.05\) y \(\alpha=0.01\). Compara los valores obtenidos con los que aparecen en las correspondientes tablas.
qt(0.05, df = 3)
## [1] -2.353363
qt(0.01, df = 3)
## [1] -4.540703