U2A6

Introducción a la probabilidad

Probabilidad es el lenguaje matemático para cuantificar incertidumbre. - Wasserman

  1. Terminología de probabilidad: espacio de resultados, eventos, funciones de probabilidad, etc.

  2. Interpretación frecuentista de probabilidad.

  3. Probabilidad condicional y su relación con independencia.

  4. La regla de Bayes.

Espacio de resultados y eventos

El espacio de resultados \(\Omega\) es el conjunto de posibles resultados de un experimento aleatorio.

e.g. Si lanzamos una moneda dos veces entonces:

\[\Omega = \{AA, AS, SA, SS \} \]

Un Evento es un subconjunto del espacio muestral, los eventos usualmente se denotan por letras mayúsculas.

e.g. Que el primer lanzamiento resulte águila

\[ A = \{AA, AS\} \]

Eventos equiprobables

La probabilidad se puede ver como una extensóon de la idea de proporción, o cociente de una parte con respecto a un todo. e.g.En la carrera de Ing. Química hay 300 hombres y 700 mujeres, la proporción de hombres es:

\[ \frac{300}{700+300}=0.3\ \]

Eventos equiprobables. Si todos los elementos en el espacio de resultados tienen la misma oportunidad de ser elegidos entonces la probabilidad del evento A es el número de resultados en A dividido entre el número total de posibles resultados:

\[ P(A)=\frac{\#(A)}{\#(\Omega)} \]

Por lo que solo hace falta contar.

e.g. Combinaciones

Un comité de 5 personas será seleccionado de un grupo de 6 hombres y 9 mujeres. Si la selección es aleatoria, ¿cuál es la probabilidad de que el comité este conformados por 3 hombres y 2 mujeres?

Hay \(\dbinom{15}{5}\) posibles comités, cada uno tiene la misma misma posibilidad de ser seleccionado.

Por otra parte hay \(\dbinom{6}{3} \dbinom{9}{2}\) posibles comités que incluyen 3 hombres y 2 mujeres, por lo tanto, la probabilidad que buscamos es:

y la función para calcular las combinaciones es choose (n, r)

choose (6, 3) * choose(9, 2) / choose (15, 5)
## [1] 0.2397602

Interpretación frecuencista de probabilidad

Una frecuencia relativa es una proporción que mide que tan seguido, o frecuente, ocurre una u otra cosa en una sucesión de observaciones.

lanzamientos_10 <- sample(c("A", "s"),10, replace=TRUE)
lanzamientos_10
##  [1] "A" "s" "s" "s" "s" "A" "s" "A" "A" "s"

Podemos calcular la secuencia de frecuencias relativas de águila :

cumsum(lanzamientos_10 == "A") #suma acumulada de águilas
##  [1] 1 1 1 1 1 2 2 3 4 4

Dividiendo

round(cumsum(lanzamientos_10== "A") / 1:10, 2 )
##  [1] 1.00 0.50 0.33 0.25 0.20 0.33 0.29 0.38 0.44 0.40

Distribuciones de probabilidad

**Funciones en R

En R, cada distribución de probabilidad se nombra mediante una palabra clave o alías. Las palabras claves para las distribuciones mas importantes son:

Distribución Alias Distribución normal norm Distribución binomial binom Distribución Poisson pois Distribución exponencial exp Distribución t de student t Distribución chi2 chisq Distribución F f

\[ \begin{array}{l|l|l|c} \text{Función} & \text{significado} & \text{Uso}& \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array} \]

Distribución Exponencial

curve(dexp(x), from=0, to=10)

#Representa la densidad de una exponencial de media 1 entre 0 y 10

Distribución binomial

x <- rbinom(20, 1,  0.5)
x
##  [1] 0 0 1 1 0 0 0 0 0 1 0 1 0 0 1 1 1 0 0 1
#Genera 20 observaciones con distribución B(1, 0.5)

Contando éxitos vs fracasos

table(x)
## x
##  0  1 
## 12  8

e.g.Distribución normal

si \(X\) es una variable aleatoria, con distribución normal de media 3, y su desviación típica es de 0.5, la probabilidad de que \(X\) sea menor que 3.5 se calcula en R de esta forma:

pnorm(3.5, mean=3, sd=0.5)
## [1] 0.8413447
qnorm(0.7)
## [1] 0.5244005
qnorm(0.7, sd=0.5)
## [1] 0.2622003

El valor \(z_\alpha\) que aparece en muchas de las fórmulas para intervalos y contrastes se obtiene con el comando qnorm(1-alfa). Algunos ejemplos:

qnorm(0.975)
## [1] 1.959964
x <- rnorm(100, mean=10, sd=1 )
x
##   [1]  9.206263 10.647468 10.109602  9.498597  9.434486  8.757725 10.545812
##   [8] 10.140030  9.460769 11.328071 11.094518  9.216937  9.540652  8.437386
##  [15] 11.246871 10.851071  9.023265  8.824122  9.618180 10.574274 10.808992
##  [22] 10.516961  9.714182 10.355303 10.757718 10.427881 10.623870  9.863813
##  [29]  8.551889  9.751109 11.509669 12.487779 11.706054  9.147677 10.925586
##  [36] 10.046181 11.180372 13.237240 10.603484 10.248338  9.510378  9.608266
##  [43]  9.660577  8.886118  9.628253  7.846279  9.611040  8.659768  8.850952
##  [50]  8.834433  9.678146  9.532580  9.608724 10.775303  8.591530 11.693711
##  [57] 10.130095 10.825722 10.665389 11.014298 10.771862 10.199908 11.738345
##  [64]  9.405045  9.850826 10.421238 11.102943 10.071115  9.988552  8.581863
##  [71]  9.811777 11.444418 10.342189 10.718767 10.609133  9.630139  8.603164
##  [78]  9.509648  7.874375  7.273044  9.476525 10.534798 10.822238  9.033515
##  [85] 10.281988 11.098156  9.943374 10.501226 11.306949 10.436911  9.928815
##  [92]  9.482341 12.726501  8.970832  9.212127  9.073287  9.220978 11.732758
##  [99] 11.754097 10.421906
mean(x)
## [1] 10.07539
hist(x)

boxplot(x)

hist(x, freq=FALSE) #Freq=False, para que el histrogrma sea 1
curve(dnorm(x, mean=10, sd=1), from=7, to=13, add=TRUE)

EJERCICIOS

  1. Si \(Z\) es una variable con distribución normal estándar, calcula \(\mathbb{P}(-2.34 < Z < 4.78)\).
P= pnorm(4.78)- pnorm(-2.34)
P
## [1] 0.9903573

\[ \mathbb{P}=0.9903573 \]

  1. Calcule el rango intercuartílico de una población normal estándar.
x= rnorm(15)
x
##  [1]  1.5572881 -3.0424869 -1.1094399  0.5366418 -0.6512293 -0.2889412
##  [7] -1.1736765 -0.9258118  0.9165144 -1.5756711 -0.4338222  0.2753777
## [13]  0.1855132  1.1312995  0.5632628
IQR(x)
## [1] 1.567578

El rango intercuartílico de una población normal estándar, en el cual se calcula mediante una diferencia de quantiles.

  1. Genera una muestra de tamaño 10 de una población normal estándar. ¿Cuál es la diferencia entre la media muestral y la población? Repite el ejercicio 3 veces y anota las 3 diferencias.
a <- rnorm (10, mean=3, sd=1)
a
##  [1] 4.592642 2.638443 3.714814 3.243854 1.909975 1.572234 4.032073 3.084341
##  [9] 4.524455 3.496443
b <- rnorm (10, mean=3, sd=1)
b
##  [1] 3.093148 2.023226 1.749150 4.742704 4.169451 3.189797 2.705662 3.394517
##  [9] 1.434267 3.993103
c <- rnorm (10, mean=3, sd=1)
c
##  [1] 3.780590 1.969201 3.174962 1.969187 3.230067 5.270841 2.392983 2.501825
##  [9] 2.980775 2.598761

Podemos observar que generamos una muestra de tamaño 10 con una media igual a 3 y una desviación estándar igual a 1. Pero podemos encontrar diferencias entre a, b y c.  a. Sus valores van de 2.1 a 4.9 b. Sus valores van de 1.4 a 4.5 c. Sus valores van de 1.5 a 4.3 Los valores obtenidos son distintos.

  1. Genera 1000 números con distribución de Poisson de parámetro \(\lambda = 1\). Representa el gráfico de barras de los números obtenidos. Calcula la media y la varianza de los números obtenidos. ¿Se parecen a los valores teóricos?
T <- rpois(1000, 1)
T
##    [1] 1 0 1 1 1 0 1 1 2 0 0 0 0 1 4 2 3 1 0 2 1 0 1 4 1 1 2 0 0 0 1 0 2 1 2 1 0
##   [38] 2 2 3 0 2 0 3 0 1 0 1 2 4 3 0 0 0 2 1 2 1 1 1 1 0 1 1 1 1 0 2 0 1 0 3 1 0
##   [75] 1 1 1 0 1 1 2 0 2 0 1 4 1 0 1 0 1 1 3 1 0 2 1 2 3 0 0 1 0 1 1 0 0 1 3 2 1
##  [112] 0 2 0 0 0 1 1 1 2 0 0 1 0 3 2 0 0 0 1 0 2 2 0 1 1 0 0 1 2 0 0 2 1 0 1 0 1
##  [149] 2 1 0 0 0 4 0 3 1 1 1 1 0 0 0 2 0 0 2 2 1 0 2 1 2 0 0 1 0 1 1 2 1 1 2 1 1
##  [186] 0 1 0 3 0 2 0 1 0 0 0 0 0 3 1 0 0 1 2 0 2 2 0 0 1 1 1 2 1 2 2 1 1 2 1 2 0
##  [223] 0 1 2 1 0 1 0 2 0 1 1 2 0 1 2 3 1 0 0 3 0 0 0 0 4 0 0 1 1 1 3 0 2 0 0 0 0
##  [260] 0 1 3 2 1 2 2 1 0 2 1 3 0 2 0 1 0 1 1 0 0 2 1 0 0 1 3 1 1 4 0 3 2 0 0 1 1
##  [297] 0 0 0 1 0 2 3 1 0 2 1 0 1 2 0 0 2 1 1 2 0 2 3 1 2 2 3 1 1 0 0 1 1 1 2 0 1
##  [334] 1 1 1 2 0 1 1 1 1 0 2 0 1 0 1 0 1 1 2 0 1 2 1 1 0 1 0 2 0 1 1 1 0 3 1 0 3
##  [371] 1 0 3 0 1 2 2 1 1 0 3 2 0 0 0 1 1 1 2 0 2 1 0 0 1 0 0 1 1 0 2 1 0 1 1 0 1
##  [408] 2 2 4 1 0 2 0 2 0 1 3 1 0 2 1 2 2 1 2 0 1 0 0 1 2 1 2 1 0 0 1 1 2 1 2 1 1
##  [445] 2 0 1 3 0 1 0 0 1 0 2 1 0 1 1 2 1 1 0 2 0 1 1 1 1 0 2 1 1 1 0 0 1 0 0 0 0
##  [482] 4 0 1 1 0 0 1 1 1 2 1 0 1 1 1 1 1 2 0 1 1 1 0 2 2 1 0 1 3 0 0 2 0 2 1 0 2
##  [519] 0 0 0 0 0 1 4 1 2 1 1 1 2 1 1 1 1 2 1 0 2 1 1 2 2 0 1 0 2 0 1 0 0 1 1 2 1
##  [556] 2 1 2 0 1 0 1 0 0 1 1 0 2 2 0 0 0 2 3 0 4 0 1 2 1 0 0 0 0 1 2 4 1 1 1 1 0
##  [593] 0 2 1 0 3 2 2 2 0 0 1 3 1 1 0 1 1 1 1 1 0 1 1 2 3 1 0 0 0 1 1 0 2 0 2 0 0
##  [630] 2 0 1 2 1 1 1 2 0 5 1 2 1 1 2 1 0 1 0 3 0 2 1 0 1 1 1 1 0 1 1 1 1 3 2 0 1
##  [667] 3 0 0 1 1 3 3 0 0 1 0 1 0 1 2 0 2 1 1 1 0 2 0 0 1 2 2 0 0 1 1 1 1 0 1 1 1
##  [704] 1 2 1 1 1 0 2 2 2 0 0 1 0 1 2 2 2 2 1 1 2 0 0 0 0 2 2 0 1 1 1 0 0 1 2 1 1
##  [741] 1 0 0 0 2 1 1 0 4 0 1 2 0 0 1 2 2 1 0 3 1 1 1 0 2 1 2 0 1 1 1 3 0 3 1 0 3
##  [778] 1 1 1 5 2 2 1 0 2 0 2 0 2 0 1 0 3 1 3 0 2 0 0 0 2 4 1 0 0 0 1 2 1 0 0 4 3
##  [815] 2 1 0 1 0 1 1 1 1 0 3 1 2 1 2 1 0 2 0 1 1 0 2 1 1 0 2 0 3 1 2 0 0 1 0 2 0
##  [852] 0 1 2 0 1 3 0 0 0 1 3 0 2 0 1 1 0 1 1 0 0 2 0 1 0 1 2 1 1 2 1 1 0 0 0 2 2
##  [889] 0 0 1 0 0 1 0 2 3 0 0 0 0 0 1 1 1 0 0 2 0 0 1 1 1 4 2 2 0 2 2 0 2 0 2 1 2
##  [926] 0 1 3 2 0 0 2 1 0 2 2 0 0 1 1 0 1 1 1 0 1 1 0 2 2 1 1 0 1 0 1 1 1 0 2 1 1
##  [963] 0 1 4 0 0 0 0 0 0 1 2 0 1 1 1 0 0 0 1 2 2 2 0 0 1 2 1 1 2 1 0 0 4 0 1 1 1
## [1000] 0

Se generó 1000 números con la distribución de Poisson en “T”

A continuación se mostrará un Gráfico de barras desde los datos obtenidos de “T”:

hist(T, main = "Histograma de Poisson")

mean(T)
## [1] 1.005

La media de “T” es de 0.994

var(T)
## [1] 0.9479229

La varianza de “T” es de 0.9048689

Los datos obtenidos no se parecen a los datos teóricos.