Introducción a probabilidad y distribuciones de probabilidad

Introducción a la probabilidad

La probabilidad es el cálculo matemático que evalúa las posibilidades que existen de que una cosa suceda cuando interviene el azar.

  1. Terminologia de probabilidad: espacio de resultados, eventos, funciones de probabilidad, Etc.

  2. Interpretacion frecuentista de la probabilidad.

  3. Probabilidad condicional y su relacion con la independencia.

Espacio de resultados y eventos

El espacio de resultados \(\Omega\) es el conjunto de resultados de un experimento aleatorio.

EJEMPLO: Si lanzamos una moneda dos veces:

\[\Omega = \{AA,AS,SA,SS\}\]

Un evento es un subconjunto de un espacio muestral. Es decir, un conjunto de posibles resultados que se pueden dar en un posible pero muy lejano experimento aleatorio. Los elementos se pueden denotar por mayusculas.

EJEMPLO: Que el primer lanzamiento resulte águila. \[A=\{AA,AS\}\] Eventos equiprobables

La probabilidad se puede ver como una extension de la idea de proporcion o cociente de una parte con respecto a un todo

EJEMPLO: En la carreja de Ing.Quimica hay 300 hombres y 700 mujeres.

la proporcion de hombres es:

\[\frac{300}{700 + 300} =0.3 \]

Eventos equiprobables

Si un evento es equiprobable, significa que el evento tiene la misma posibilidad de ocurrencia. como por ejemplo cuando lanzamos una moneda.Si todos los resultados tienen la misma probabilidad de ser elegidos entonces la probabilidad del evento A es el numero de resultados en A dividio entre el numero total de posiblles resultados:

\[P(A)=\frac{\#(A)}{\#(\Omega)}\]

Por lo que solo hace falta contar.

EJEMPLO: Combinaciones

Un comite de 5 personas sera seleccionado de un grupo de 6 hombres y 9 mujeres. si la seleccion es aleatoria. ¿Cual es la probabilidad de que el comite este conformado por 3 hombres y 2 mujeres?

Hay \(\dbinom{15}{5}\) posibles comites, cada uno tiene la misma posibilidad de ser selecionado.

Por otra parte hay \(\dbinom{6}{3}\dbinom{9}{2}\) posibles comites que incluyen 3 hombres y 2 mujeres.

\[ \frac{\dbinom{6}{3} \dbinom{9}{2}}{\dbinom{15}{5}} \] y la funcion para calcular las combinaciones es choose (n,r)

choose(6,3) * choose(9,2) / choose(15,5)
## [1] 0.2397602

Interpretacion frecuentista de la probabilidad

Una frecuencia relativa es una proporcion que mide que tan seguido, o frecuentemente, ocurre una u otra cosa en una sucesion de observaciones.

lanzamientos_10 <- sample(c("A","S"),10,replace = TRUE)
lanzamientos_10
##  [1] "A" "A" "A" "A" "S" "S" "S" "S" "S" "S"

Podemos calcular las secuencia de frecuencias relativas de aguila:

cumsum(lanzamientos_10 == "A") # suma acumulada de aguila
##  [1] 1 2 3 4 4 4 4 4 4 4

Dividiendo

round(cumsum(lanzamientos_10 =="A") / 1:10, 2)
##  [1] 1.00 1.00 1.00 1.00 0.80 0.67 0.57 0.50 0.44 0.40

Distribuciones de probabilidad

Funciones en R

En R. Cada distribucion de probabilidad se nombra mediante una palabra clave o alias. Las palabras clave para las distribuciones mas importantes son:

Distribucion Alias
Distribucion binomial binom
Distribucion de Poisson pois
Distribucion normal norm
Distribucion exponencial exp
Distribucion t de Student t
Distribucion choi2 chisq
Distribucion F f

Funciones de Distribuciones de probabilidad

\[ \begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso} & \text{Observaciones}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Calcula datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array} \]

Distribucion multinomial

es la probabilidad de un número de éxitos en N sucesos de Bernoulli independientes, con la misma probabilidad de éxito en cada suceso.

ejemplo: 1. Predicción de juego de ajedrez Dos jugadores de ajedrez tienen la probabilidad de que el jugador A gane es 0.40, el jugador B gane es 0.35, el juego terminaría en un empate es 0.25.

La distribución multinomial se puede utilizar para responder preguntas como: “Si estos dos jugadores de ajedrez jugaran 12 juegos, ¿cuál es la probabilidad de que el Jugador A gane 7 juegos, el Jugador B gane 2 juegos, los 3 juegos restantes se sortearán?”

dmultinom(x=c(7,2,3), prob = c(0.4,0.35,0.25))
## [1] 0.02483712

Distribucion Hipergeométrica

es una distribución discreta que modela el número de eventos en una muestra de tamaño fijo cuando usted conoce el número total de elementos en la población de la cual proviene la muestra. Cada elemento de la muestra tiene dos resultados posibles (es un evento o un no evento). Las muestras no tienen reemplazo, por lo que cada elemento de la muestra es diferente. Cuando se elige un elemento de la población, no se puede volver a elegir. Por lo tanto, la probabilidad de que un elemento sea seleccionado aumenta con cada ensayo, presuponiendo que aún no haya sido seleccionado.

Distribucion F deFisher

es una distribución continua de muestreo de la relación de dos variables aleatorias independientes con distribuciones de chi-cuadrada, cada una dividida entre sus grados de libertad. La distribución F es asimétrica hacia la derecha y es descrita por los grados de libertad de su numerador (ν1) y denominador (ν2).

qf(0.90, df1 = 5, df2 = 2)
## [1] 9.292626
curve(df(x, df1 = 5, df2 = 2), xlim = c(0,10), xlab = "Valores de F", ylab = "Densidad de Probabilidad")

Distribucion t de student

Es una distribución de probabilidad que surge del problema de estimar la media de una población normalmente distribuida cuando el tamaño de la muestra es pequeño.

qt(c(0.025,0.975), df = 5)
## [1] -2.570582  2.570582
curve(dt(x, df = 1000), xlim = c(-3,3), xlab = "Valores de t", ylab = "Densidad de Probabilidad")

Distribucion chi cuadrada

es una distribución continua que se especifica por los grados de libertad y el parámetro de no centralidad. La distribución es positivamente asimétrica, pero la asimetría disminuye al aumentar los grados de libertad.

curve(dchisq(x, df = 7), xlim = c(0,20), xlab = "Valores de X", ylab = "Densidad de Probabilidad")

Distribucion poisson

la distribución de Poisson es una distribución de probabilidad discreta que, tan solo conociendo los eventos y su frecuencia media de ocurrencia, podemos saber su probabilidad.

Distribucion exponencial

la distribución exponencial es una distribución continua que se utiliza para modelar tiempos de espera para la ocurrencia de un cierto evento.

curve(dexp(x), from=0, to=10)

#representa la densidad de una exponencial de media 1 entre 0 y 10

Distribucion bonomial

es una distribución de probabilidad discreta que cuenta el número de éxitos en una secuencia de n ensayos de Bernoulli independientes entre sí con una probabilidad fija p de ocurrencia de éxito entre los ensayos.

x <- rbinom (20,1,0.5)
x
##  [1] 1 1 1 1 1 0 0 0 1 0 0 0 1 0 0 1 0 1 1 0
#Genera 20 observaciones con distribucion B(1,0,5)

Contando exitos vs fracasos

table(x)
## x
##  0  1 
## 10 10

Distribucion normal

la distribucio normal adapta una variable aleatoria a una función que depende de la media y la desviación típica.

EJEMPLO: DISTRIBUCION NORMAL

si \(x\) es una variable aleatoria, con distribucion normmal de media 3, y su desviacion tipica es de 0.5, la probabilidad de que \(x\) sea menor que 3.5 se calcula en R de esta forma:

pnorm(3.5, mean = 3, sd=0.5)
## [1] 0.8413447
curve(dnorm(x, mean=50, sd= sqrt(25)), xlim = c(35,65), xlab="Valores de x", ylab= "Densidad de X")

*Para calcular el cuantil 0.7 de una variable normal estandar z, es decir, un valor x tal que

qnorm(0.7)
## [1] 0.5244005

*Para calcular el mismo cuantil, pero para una variable normal de media 0 y DT 0.5

qnorm(0.7, sd=0.5)
## [1] 0.2622003

El valor \(z_\alpha\) que aparece en muchas de las formulas para intervalos y contrastes se obtiene con el comando qnorm (1-alfa). Algunos ejemplo:

qnorm(0.975)
## [1] 1.959964

*Para generar una muestra de tamaño 100 de una poblacion normal de media 10 y desviacion tipica 1 (y guardarla en un vector x):

x <- rnorm(100, mean = 10, sd=1)
x
##   [1]  8.996026 11.700726  8.903775 10.406567 10.240161 10.426700 10.684946
##   [8]  9.600428 10.470771 10.078358  9.886432  9.721283 10.592440 10.756099
##  [15] 10.720668 11.610379  9.388299  9.969391 10.569421  9.482835  9.486197
##  [22]  8.342541  8.666469 11.269868  9.888695  9.032251 11.751443  8.535671
##  [29]  8.914292  9.389679  9.381207 11.899351  8.888720 10.210319  9.604053
##  [36] 10.355691 11.262549 10.368817  9.360387 10.906153  9.350032 10.141566
##  [43]  9.997793 12.005564 10.510768 10.928422 10.230822 10.438955  9.262486
##  [50] 10.439264 10.293413 11.063364  9.795540  8.891853  9.812584  8.297953
##  [57]  9.997437  9.073367 10.374319  9.911719  9.702558  9.983470  8.861403
##  [64]  9.919196  9.325834  9.924508 10.132004 11.011598 10.974890  9.345354
##  [71]  9.618326 11.259623  9.741243  8.526583  8.864985  7.577795  9.619335
##  [78]  8.409733  9.216980  8.052133 10.600733 11.246764 11.250100  7.840755
##  [85] 11.305122  9.231740  9.546229 11.481273 10.823884 11.958230  8.390459
##  [92] 10.433624  9.278458  9.627385  8.096337 10.426502 10.799797 11.177840
##  [99] 11.583331 11.297717

*Para estimar el promedio de x

mean(x)
## [1] 9.990011

*Histograma de frecuencias

hist(x)

*Grafica de cajas y bigote

boxplot(x)

*Histograma de la muestra (normalizado para que la suma de las areas de los restangulos sea 1) junto con la densidad de la poblacion:

hist(x, freq=FALSE) # freq=FALSE, para que el area  del histograma sea 1
curve(dnorm(x,mean = 10, sd=1), from=7, to=13, add=TRUE)

Ejercicios

  1. si \(Z\) es una variable aleatoria, con distribución normal estandar, calcula \(\mathbb{P}(-2.34 < Z < 4.78\))
pnorm(4.78, mean=0, sd=1) - pnorm(-2.34, mean=0, sd=1)
## [1] 0.9903573
  • \(P\) = 0.9903573
  1. Calcula el rango intercuartilico de una poblacion normal estandar.
f <- c(1,4,4,4,5,5,6,6,6,6,7,8,8,9)
summary(f)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.000   4.250   6.000   5.643   6.750   9.000
  • \(IQR\) = 3erQ - 1erQ

  • \(IQR\) = 6.75 - 4.25 =2.5

  1. Genera una muestra de tamaño 10 de una poblacion normal estandar. ¿Cual es la diferencia entre la media muestral y la poblacional? Repite el ejercicio 3 veces y anota las 3 diferencias.
x <- rnorm(10, mean=5, sd=1 )
x
##  [1] 6.634343 5.496253 4.449118 7.302260 2.959283 3.005582 4.281304 3.884594
##  [9] 5.403620 4.245476
y <- rnorm(10, mean=5, sd=1 )
y
##  [1] 6.117780 5.587181 3.241398 5.608836 4.049298 3.680145 6.333498 4.820904
##  [9] 5.117214 4.284514
z <- rnorm(10, mean=5, sd=1 )
z
##  [1] 5.707078 4.871765 4.882383 5.003024 3.830552 4.044651 4.100299 5.739308
##  [9] 5.176729 6.623615

lo que se pudo observar es que a pesar de que se tienen el mismo numero de datos, la misma media y la misma desviacion estandar cada intervalo es distinto dado a que son numeros aleatorios arrojados en cada evento.

  1. Genera 1000 numeros con distibucion de Poisson de parametro \(\lambda = 1\). Representa el grafico de barras de los numeros obtenidos. Calcula la media y la varianza de los numeros obtenidos. ¿Se parecen a los valores teoricos?
p <- rpois(1000, 1) 
p
##    [1] 0 0 0 1 0 1 0 1 0 1 2 1 1 1 1 1 1 3 3 0 2 2 0 1 1 1 0 1 0 0 0 0 0 1 0 1 1
##   [38] 0 2 0 0 0 1 1 0 1 0 1 2 1 1 3 0 2 1 0 1 1 1 1 1 0 1 1 1 2 1 0 1 0 1 1 1 1
##   [75] 0 0 1 0 1 0 2 3 1 0 1 2 0 1 0 0 1 1 2 2 0 0 2 0 0 0 1 0 0 1 1 2 0 0 0 0 0
##  [112] 0 0 1 2 0 0 0 3 4 0 1 1 1 1 1 0 3 0 1 1 0 1 0 0 1 1 2 1 1 3 1 1 0 3 1 2 0
##  [149] 0 1 0 0 4 3 1 2 2 0 2 1 0 0 3 2 2 0 2 0 0 1 0 2 2 2 0 0 1 1 0 1 1 1 1 2 2
##  [186] 1 3 0 1 1 0 1 2 1 1 1 1 1 0 0 3 0 1 2 2 0 0 2 2 2 1 1 0 1 0 2 2 1 3 3 1 0
##  [223] 1 1 0 4 0 1 0 3 1 2 1 2 0 1 1 1 3 1 0 1 0 1 0 1 1 0 2 0 3 0 0 0 0 1 3 0 1
##  [260] 1 0 1 1 0 1 0 1 2 1 2 0 1 0 0 0 1 0 2 3 1 0 3 0 1 2 0 1 0 1 1 1 2 0 1 1 1
##  [297] 1 0 2 2 0 1 0 0 2 2 1 0 5 1 2 1 0 1 2 1 1 0 0 0 1 0 3 0 2 1 2 0 2 0 0 2 3
##  [334] 2 1 1 1 1 0 1 0 0 1 3 0 0 1 1 0 1 1 3 0 1 2 3 5 0 0 1 1 0 4 1 0 1 0 2 1 2
##  [371] 0 0 1 0 0 1 1 1 2 1 0 0 0 1 1 0 1 1 0 1 5 0 0 0 0 2 0 0 2 1 1 0 2 1 0 0 0
##  [408] 1 0 1 2 0 0 1 1 2 1 1 2 1 0 0 2 0 0 3 2 0 0 1 2 0 2 1 0 1 3 2 0 0 1 0 3 1
##  [445] 2 1 1 0 4 0 0 0 3 0 0 0 1 0 2 3 3 4 5 2 0 0 0 1 0 3 1 0 0 2 1 4 2 2 0 0 0
##  [482] 0 0 0 0 0 2 0 0 1 0 0 0 1 2 1 0 1 5 0 2 1 1 0 1 2 1 2 0 2 1 0 2 1 1 0 2 2
##  [519] 1 0 0 0 0 0 0 1 1 1 1 0 0 0 1 0 1 1 1 3 0 1 1 0 3 1 0 3 0 2 0 2 1 0 1 1 0
##  [556] 0 1 2 1 2 1 1 0 0 0 0 0 1 0 3 1 0 0 1 2 0 1 0 1 0 2 0 2 0 1 3 1 2 4 0 0 2
##  [593] 3 1 0 0 4 0 0 0 0 3 2 0 1 2 0 0 0 1 0 0 1 1 0 1 2 1 1 2 2 0 1 1 1 1 0 0 2
##  [630] 2 1 1 1 0 0 1 2 0 0 0 1 0 2 1 0 1 1 0 0 1 0 2 2 0 1 3 1 3 0 1 1 0 0 0 1 1
##  [667] 0 1 1 1 4 0 1 1 1 2 1 2 2 1 0 1 1 1 1 2 2 2 1 1 1 2 1 0 0 0 1 3 2 1 0 0 2
##  [704] 0 1 0 1 2 0 1 0 0 2 1 4 2 0 0 0 2 3 2 3 3 0 2 0 2 0 2 3 2 2 0 1 0 0 0 0 3
##  [741] 1 0 4 4 3 0 2 1 2 0 1 0 1 1 0 0 0 0 3 0 0 0 1 2 3 2 0 2 0 0 0 1 0 1 1 0 0
##  [778] 0 0 1 0 0 0 1 1 0 0 1 1 2 1 2 4 2 1 0 0 2 2 1 0 0 2 0 1 1 2 0 1 2 1 0 1 1
##  [815] 1 0 2 0 1 0 0 0 0 0 1 0 2 1 0 0 0 2 1 0 1 2 1 2 5 1 1 4 2 0 0 1 0 0 0 0 2
##  [852] 1 0 2 2 2 0 3 0 0 1 0 0 1 1 1 3 3 1 1 2 2 2 0 1 2 3 1 2 0 3 0 0 0 0 1 0 0
##  [889] 1 2 0 1 3 2 3 3 0 0 1 0 0 0 2 0 2 0 1 0 0 0 1 0 0 0 0 1 0 0 1 2 0 0 0 0 0
##  [926] 2 0 0 2 1 0 1 2 0 1 0 2 0 2 2 3 2 4 0 0 0 2 1 2 1 1 1 0 1 0 2 2 0 0 1 1 2
##  [963] 2 0 0 1 1 0 0 0 2 0 0 1 2 0 1 0 1 1 0 1 0 1 1 1 3 1 0 5 1 0 0 2 2 1 2 0 2
## [1000] 1
mean (p)
## [1] 0.968
var(p)
## [1] 1.07405
hist(p, xlab = "Distribucion de Poisson", ylab = "Frecuencia", main = paste("Histograma de Poisson"), border = (color = "red") )

5.Calcula con R los siguientes valores: \({t3, \alpha}\), \(chi^2_{3, \alpha}\), para \(\alpha = 0.05\) y \(\alpha = 0.01\). Compara los valores obtenidos con los que aparecen en las correspondientes tablas.

qt(0.05, df = 3)
## [1] -2.353363
qt(0.01, df = 3)
## [1] -4.540703

Conclusion

Durate esta asignacion vimos acerca de las distribucion de la probabilidad,que son, y alunos ejemplos, a si como alguas de sus graficas.