Probabilidad

Introducción a la probabilidad

“Probabilidad es el lenguaje matemático para cuantificar incertidumbre.” -Wasserman

Terminología de probabilidad: espacio de resultados, eventos, funciones de probabilidad, etc.
Interpretación frecuentista de probabilidad.
Probabilidad condicional y su relación con independencia.
La regla de Bayes.

Espacio de resultados y eventos

El espacio de resultados \(\Omega\) es el conjunto de posibles resultados de un experimento aleatorio.

Ejemplo: Si lanzamos una moneda dos veces entonces:

\[ \Omega = \{AA, AS, SA, SS \} \] Escribe el espacio muestral de los siguientes experimentos aleatorios:

El número de lanzamientos de un dado hasta que obtienes un 6. \[ \Omega = \{1,2,3,4,5,6\} \]
Tu calificación final en el curso. \[ \Omega = \{1,2,3,5,6,7,8,9,10\}\]
El tiempo en minutos hasta tu próximo estornudo. \[ \Omega = \{1,2,3 \} \]
El peso de una lata de Coca-Cola (incluyendo el líquido). \[ \Omega = \{350,360,370,380 \} \] Un evento es un subconjunto del espacio muestral, los eventos usualmente se denotan por letras mayúsculas.

El evento: que el primer lanzamiento resulte águila es

\[ A = \{AA, AS\} \]>

Eventos Equiprobables

La probabilidad se puede ver como una extensión de la idea de proporción, o cociente de una parte con respecto a un todo. Si en la carrera de química tenemos:

300 estudiantes hombres
700 estudiantes mujeres

la proporción de hombres es:

\[ \frac{300}{700+300}=0.3\ \]

Ahora, supongamos que elegimos un estudiante al azar, la probabilidad de elegir una mujer es 0.7.

En el ejemplo hay un supuesto implícito en elegir al azar (o aleatoria mente), en este caso estamos suponiendo que todos los estudiantes tienen la misma probabilidad de ser elegidos, que nos lleva al siguiente concepto:

Eventos equiprobables. Si todos los elementos en el espacio de resultados tienen la misma oportunidad de ser elegidos entonces la probabilidad del evento A es el número de resultados en A dividido entre el número total de posibles resultados:

\[ P(A)=\frac{\#(A)}{\#(\Omega)} \]

Por lo que solo hace falta contar.

e.g. La probabilidad de obtener AA si lanzamos una moneda 2 veces es de 1/4 que también es 0.25 ó 25%, y la probabilidad del evento que el primer lanzamiento resulte águila es de 2/4 = 0.5 ó 50%

Si lanzamos dos dados y sumamos los números obtenidos *¿Cuál es la probabilidad de que la suma de los números sea 5?
¿Cuál es la probabilidad de que el segundo número sea mayor que el primero?
Repite las preguntas anteriores cuando lanzas 2 dados de 8 caras.

Ejemplo: combinaciones

Un comité de 5 personas será seleccionado de un grupo de 6 hombres y 9 mujeres. Si la selección es aleatoria, ¿cuál es la probabilidad de que el comité este conformado por 3 hombres y 2 mujeres?

Hay \(\dbinom{15}{5}\) posibles comités, cada uno tiene la misma posibilidad de ser seleccionado.

Por otra parte hay \(\dbinom{6}{3} \dbinom{9}{2}\) posibles comités que incluyen 3 hombres y 2 mujeres, por lo tanto, la probabilidad que buscamos es:

\[ \frac{\dbinom{6}{3} \dbinom{9}{2}}{\dbinom{15}{5}} \]

la función para calcular las combinaciones en R (random) es choose(n, r)

choose (6, 3) * choose(9, 2) / choose (15, 5)

Interpretación frecuentista de probabilidad

Las probabilidades se entienden como una aproximación matemática de frecuencias relativas cuando la frecuencia total tiende a infinito.

supongamos que lanzamos una moneda 10 veces y obtenemos:

lanzamientos_10 <- sample(c("A", "S"),10, replace=TRUE)

#para calcular la secuencia de frecuencias relativas de águila

cumsum(lanzamientos_10 == "A") #suma acumulada de águilas

##  [1] 0 1 2 3 4 4 4 5 6 7

round(cumsum(lanzamientos_10 == "A") / 1:10, 2 )

##  [1] 0.00 0.50 0.67 0.75 0.80 0.67 0.57 0.62 0.67 0.70

plot(cars)

\[ \frac{\dbinom{6}{3} \dbinom{9}{2}}{\dbinom{15}{5}} \]

Aquí tenemos la gráfica de los carros:

v.a. normal estándar \(Z\), es decir, un valor \(x\) tal que \(\mathbb{P}(Z\leq x) = 0.7\)):

DATA606::normalPlot(mean = 0, sd = 1, bounds = c(-0.4, 1.5), tails = FALSE)

##Distribuciones de probabilidad

**Funciones en R

En R, cada distribucion de probabilidad se nombre mediante una palabra clave o alias. Las palabras clave para las distribuciones mas importantes son:

Distribucion Alias
Distribucion binomial binom
Distribucion de posicion pois
Distribucion normal norm
Distribucion exponencial exp
Distribucion t de Student t
Distribucion Chi2 chisq
Distribucion F f

\[ \begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso}& \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array} \] **Distribucion EXponencial

curve(dexp(x), from=0, to=10)

#reprensenta la densidad de una exponencial de media 1 entre 0 y 10.

Distribucion binomial

x <- rbinom(20, 1, 0.5)
x

##  [1] 0 0 1 0 0 0 0 0 1 1 0 1 0 1 0 0 1 0 0 0

#Genera 20 observaciones con distribucion B(1,0.5)

Contando exitos vs fracasos

table(x)

## x
##  0  1 
## 14  6

eg distribucion normal si \(x\) es una variable aleatoria, con distribucion normal de media 3, y su desviacion tipica es de 0.5, la probabilidad de que \(x\) sea menor que 3.5 se calcula en R esta forma:

pnorm(3.5, mean=3, sd=0.5)

## [1] 0.8413447

*Para calcular el cuantil 0.7 de una v.a. normal estándar Z, es decir, un valor X tal que

qnorm(0.7)

## [1] 0.5244005

Para calcular el mismo cuantil, pero para una v.a. normal de media 0 y DT 0.5

qnorm(0.7, sd=0.5)

## [1] 0.2622003

El valor \(z_\alpha\) que aparece en muchas de las fórmulas para intervalos y contrastes se obtiene con el comando qnorm(1-alfa). Algunos ejemplos:

qnorm(0.975)

## [1] 1.959964

Para generar una muestra de tamaño 100 de una población normal de media 10 y desviación típica 1 (y guardarla en un vector x)

x <- rnorm(100, mean=10, sd=1 )

Para estimar el promedio de x

mean(x)

## [1] 9.867358

*Histograma de frecuencias

hist(x)

* Gráfico de cajas y bigote

boxplot(x)

Histograma de la muestra (normalizado para que la suma de las áreas de los rectángulos sea 1) junto con la densidad de la población:

hist(x, freq=FALSE) # Freq=FALSE, para que el área del histograma sea 1
curve(dnorm(x, mean=10, sd=1), from=7, to=13, add=TRUE)

Ejercicios

Si \(z\) es una variable con distribucion normal estandar, calcula \(\mathbb {P}(-2.4 < z <4.78)\)

P= pnorm(4.78, mean = 0, sd = 1) - pnorm(−2.34, mean = 0, sd = 1)

P

## [1] 0.9903573

#aqui vemos que calculo la media de los rangos de los numero de -2.4 a 4.78

Calcula el rango intercuartílico de una población normal estándar

f <- c(2,3,3,3,4,4,5,5,5,6,6,7,8,8,8,8,9,9,9,10,10,10)
summary(f)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   2.000   4.250   6.500   6.455   8.750  10.000

#aqui practicamente lo que sacarte el numero mas o menos, el mas alto, y los medianos, aproximadamente en la posicion 50%

Genera una muestra de tamaño 10 de una población normal estándar. ¿Cuál es la diferencia entre la media muestral y la poblacional? Repite el ejercicio 3 veces y anota las 3 diferencias.

A <- rnorm(10, mean=5, sd=1 )
A

##  [1] 4.128899 4.388461 3.703268 5.503986 5.317469 3.320995 4.963990 4.417064
##  [9] 6.289184 6.526249

B <- rnorm(10, mean=5, sd=1 )
B

##  [1] 6.624749 4.141917 6.058619 5.823064 4.617685 5.744814 4.804650 4.152078
##  [9] 5.166192 4.898051

C <- rnorm(10, mean=5, sd=1 )
C

##  [1] 4.794769 3.074985 4.569270 5.472170 5.349805 5.809390 3.622172 5.314259
##  [9] 5.011966 5.287867

## La media poblacional toda la totalidad de los datos para realizar la estimación, mientras que la media muestra se basa en una muestra significativa de esa población.
## 
##1. son numeros distintos
##2. tiene diferente media
##3. diferente orden

4.Genera 1000 números con distribución de Poisson de parámetro \(\lambda=1\) . Representa el gráfico de barras de los números obtenidos. Calcula la media y la varianza de los números obtenidos. ¿Se parecen a los valores teóricos?

poison <- rpois(1000, 1) 
poison

##    [1] 2 0 0 1 3 2 0 0 1 1 0 1 0 1 0 1 0 0 0 1 2 1 1 1 1 0 1 0 0 1 2 0 0 2 1 0 1
##   [38] 2 2 2 1 0 0 0 3 1 2 0 0 1 1 1 0 2 1 0 0 1 1 0 0 1 1 2 2 0 2 0 2 0 2 0 0 0
##   [75] 1 2 0 0 3 2 0 1 0 1 0 1 2 0 0 0 0 1 0 1 0 2 1 0 0 1 1 0 2 2 1 1 0 1 1 0 1
##  [112] 0 0 2 3 1 1 2 1 1 0 0 1 0 0 0 1 1 0 0 3 0 0 0 0 0 0 2 0 0 1 0 3 2 2 1 1 2
##  [149] 0 2 1 0 0 4 1 1 2 1 1 0 0 0 1 0 2 1 0 1 1 1 1 0 1 1 1 1 1 0 0 0 0 0 1 0 0
##  [186] 0 1 1 1 0 1 1 0 0 0 0 0 3 0 0 0 0 3 0 1 1 1 3 3 0 1 2 1 2 0 0 3 2 1 1 1 1
##  [223] 1 0 0 0 1 1 1 0 1 3 1 2 1 3 0 2 1 3 1 0 1 2 1 0 2 0 1 0 0 1 0 2 0 2 1 0 1
##  [260] 2 1 2 1 2 0 1 0 0 0 3 1 1 0 0 1 3 0 1 2 1 0 0 1 1 1 1 0 0 0 0 1 0 0 0 2 2
##  [297] 3 2 1 0 5 0 1 0 2 0 1 0 1 1 1 2 3 0 0 0 0 3 4 1 0 0 0 0 3 2 1 1 0 1 2 1 1
##  [334] 0 1 0 1 1 1 2 0 0 0 0 0 0 0 0 1 0 2 1 3 1 1 3 1 2 2 1 0 1 1 0 0 2 3 1 2 1
##  [371] 1 3 1 1 4 0 1 1 1 1 1 2 3 2 1 3 2 1 0 1 3 1 0 2 1 1 0 1 0 1 2 0 2 1 0 4 1
##  [408] 4 1 0 2 0 0 1 1 1 2 2 1 0 0 0 1 1 0 1 1 1 0 0 1 2 1 0 2 2 1 0 0 2 0 0 1 1
##  [445] 0 2 1 1 3 0 2 1 1 1 1 2 1 2 0 1 1 1 1 0 3 0 2 1 1 1 2 3 1 0 1 1 1 1 1 0 0
##  [482] 0 2 2 1 1 0 0 0 0 1 2 1 1 1 0 1 0 1 1 0 3 2 1 1 0 1 1 0 0 0 1 2 1 0 1 2 0
##  [519] 0 2 3 2 0 0 1 2 2 3 0 0 0 0 0 1 0 1 3 0 0 2 1 1 0 0 1 2 0 1 0 0 0 0 1 0 1
##  [556] 1 3 2 0 0 1 0 1 0 0 1 0 3 1 0 0 0 2 0 2 2 1 0 0 1 1 1 1 1 0 1 2 1 2 1 0 1
##  [593] 1 1 0 0 0 2 1 1 0 1 2 1 0 0 1 0 2 0 2 1 1 1 2 0 3 0 0 3 3 1 0 1 0 0 1 0 2
##  [630] 0 0 0 1 1 1 2 2 1 3 1 1 2 1 2 2 0 0 0 1 3 0 1 1 1 3 0 3 2 0 0 3 2 0 1 3 3
##  [667] 0 2 1 3 1 2 1 1 2 0 0 1 3 0 2 1 2 1 1 0 0 1 0 0 3 3 1 0 2 0 2 1 1 1 0 0 0
##  [704] 1 1 2 0 0 1 0 2 1 0 1 1 1 0 0 4 1 2 0 0 0 0 0 0 1 1 0 2 0 1 2 0 0 0 1 1 0
##  [741] 2 0 1 2 0 0 2 2 2 2 1 0 3 1 1 1 1 2 2 1 1 0 3 0 0 1 0 0 1 1 1 1 1 0 2 2 1
##  [778] 0 0 2 2 3 0 2 3 0 1 0 0 4 3 2 2 2 0 0 0 0 0 0 2 1 2 0 2 2 1 1 0 0 1 0 0 2
##  [815] 2 0 0 0 1 0 0 0 2 4 1 2 3 1 3 0 3 2 0 2 2 1 1 1 0 1 0 1 1 3 3 1 2 0 0 2 0
##  [852] 0 1 0 0 2 2 0 0 2 0 0 1 0 3 1 0 1 1 1 3 1 4 0 1 0 0 0 1 0 0 1 2 1 1 0 0 0
##  [889] 2 4 0 1 1 0 3 0 1 1 2 1 0 0 1 0 0 0 1 1 0 1 2 2 0 0 0 3 0 1 0 0 0 0 1 2 1
##  [926] 1 1 1 1 0 0 1 2 0 0 0 1 1 0 0 1 0 0 0 2 2 1 0 1 4 0 2 1 0 1 2 2 0 1 1 1 2
##  [963] 0 0 1 3 0 1 2 0 3 0 0 1 1 1 1 2 2 0 1 1 1 0 1 1 2 0 2 1 1 1 1 2 1 1 0 2 1
## [1000] 0

mean(poison) #calculo de la media

## [1] 0.952

var(poison) #calcula la varianza

## [1] 0.9346306

hist(poison, xlab = "Distribucion de Poisson", ylab = "Frecuencia", main = paste("Histograma de Poisson"), border = (color = "black") )

SE muestran los datos obtenidos acomodando de menor a mayor que numeros tuvieron mayor repeticion

Probabilidad

Francisco

15/6/2020

Introducción a la probabilidad

Espacio de resultados y eventos

Interpretación frecuentista de probabilidad