Las probabilidades teóricas se aplican en los juegos de azar
Probabilidad es el lenguaje matemático para cuantificar la incertidumbre. Wasserman 1. Terminología de probabilidad: espacio de resultados, eventos, funciones de probabilidad, Etc. 2. Interpretación frecuentista de la probabilidad. 3. Probabilidad condicional y su relación con la independencia
El espacio de resultados \(\Omega\) es el conjunto de resultados de un experimento aleatorio.
e.g. si lanzamos una moneda dos veces entonces:
#Se analizan todos los eventos posbiles al lanzar la moneda (águila=A Sello=S) Todas las combinaciones y permutaciones dentro del espacio de los resultados
\[ \Omega = \{AA, AS, SA, SS \} \] Un evento es un subconjunto del espacio muestral, los eventos usualmente se denotan por mayúsculas. #Se comienzan a ver los posibles eventos al lanzar una moneda (Evento A) e.g. Que la el primer lanzamiento resulte águila
\[ A=\{AA, AS\} \] ## Eventos equiprobables
La probabilidad se puede ver como una extención de la idea de proporción, o cociente de una parte con respecto a un todo. # Los eventos equiprbables son una idea de proporción e.g. En la carrera de Ing, Química hay 300 hombres y 700 mujeres, la proporción de hombres es:
\[\frac{300}{700+300} = 0.3 \] Eventos equiprobables si todos los elementos en el espacio de resultados tienen la misma oportunidad de ser elegidos entonces la probabilidad del evento A es el número de resultados en A dividido entre el número total de posibles resultados:
\[ P(A)=\frac{\#(A)}{\#(\Omega)} \] Por lo que solo hace falta contar
e.g. Combinaciones
Un comité de 5 personas será seleccionado de un grupo de 6 hombres y 9 mujeres. Sila selección es aleatoria, ¿Cuál es la probabilidad de que el comité este formado por 3 hombres y 2 mujeres?
Hay $ $ posibles comités, cada uno tiene la misma probabilidad de ser seleccionado.
Por otras parte hay \(\dbinom{6}{3}\dbinom{9}{12}\) posibles comités que incluyen 3 hombres y 2 mujeres, por lo tanto la probabilidad que buscamos es:
\[ \frac{\dbinom{6}{3} \dbinom{9}{2}}{\dbinom{15}{5}}\] y la función para calcular las combinaciones es choose (n ,r)
choose(6, 2)*choose(9, 2) / choose(15, 5)
## [1] 0.1798202
Una frecuencia relativa es una proporción que mide que tan seguido, o frecuente, ocurre un u otra cosa en una sucesión de observaciones.
lanzamientos_10<-sample(c("A","S"),10,replace = TRUE )
lanzamientos_10
## [1] "A" "S" "S" "S" "S" "S" "S" "A" "A" "S"
Podemos calcular la secuencia de frecuencias relativas de águilas:
cumsum(lanzamientos_10 == "A") #Suma acumulada de águilas
## [1] 1 1 1 1 1 1 1 2 3 3
Dividiendo
round(cumsum(lanzamientos_10 == "A") / 1:10, 2) #Representa la proporción de los eventos
## [1] 1.00 0.50 0.33 0.25 0.20 0.17 0.14 0.25 0.33 0.30
**Funciones en R En R, distribución de probabilidad se nombra mediante una palabra clave o alias. Las palabras clave para las distribuciones más importantes son:
Hacer una tabla de distribuciones
\[ \begin{array}{1|1|1|c} \text{Función} & \text{Significado} & \text{Uso}& \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text(---)\\ q & \text{quantile} & \text{Calcula cuantiles (Percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución especifica} & \text{---}\\ \hline \end{array} \] Distribución Exponencial
curve(dexp(x), from=0, to=10) #Representa la densidad de probabilidades puntuales de una exponencial de media 1 entre 0 y 10
Distribución Binomial
x <- rbinom(20, 1, 0.5)
x
## [1] 0 0 0 1 1 1 0 1 0 1 1 0 0 1 0 1 1 1 0 0
#Genera 20 observaciones con distribución B(1,0.5)
Contando éxitos vs fracasos
table(x)
## x
## 0 1
## 10 10
e.g. distribución normal Si \(x\) es una variable aleatoria, con distribución normal de media 3, y su desviación típica es de 0.5, la probabilidad de que \(x\) sea menor que 3.5 se calcula en 3 de esta forma:
pnorm(3.5, mean=3, sd=0.5)
## [1] 0.8413447
qnorm(0.7)
## [1] 0.5244005
qnorm(0.7,sd=0.5)
## [1] 0.2622003
El valor \(z_\alpha\) que aprece en muchas de las fórmulas para intervalos y constrastes se obitiene con el comando qnorm(a-alfa). Algunos ejemplos:
qnorm(0.975)
## [1] 1.959964
x <-rnorm(100, mean=10, sd=1)
x
## [1] 8.663888 11.064532 11.120041 8.187004 9.502845 10.117944 11.197745
## [8] 10.636140 9.768957 10.498356 11.324434 11.128804 9.822247 10.357120
## [15] 9.747675 9.748291 10.369206 9.233429 9.878650 10.568609 8.328989
## [22] 9.860618 10.001279 11.077983 8.807726 8.204444 11.910815 10.322650
## [29] 8.450575 9.789014 9.728711 10.729676 11.356980 10.399955 11.064678
## [36] 11.519441 10.747045 11.480125 10.041909 9.672461 9.967896 11.038173
## [43] 9.941019 9.849609 10.450021 10.454790 9.627943 10.374653 9.682856
## [50] 9.843622 9.210331 9.191736 8.152363 10.451461 10.978149 8.196983
## [57] 10.587496 10.717488 10.493539 10.276378 8.648545 10.286625 8.944788
## [64] 9.082353 8.706227 10.337325 10.334261 10.834170 10.625280 9.135649
## [71] 9.640148 8.889767 9.551813 9.999039 8.888431 10.636138 10.332971
## [78] 11.605907 9.786801 11.383160 9.741099 9.353325 9.418941 10.227255
## [85] 8.923144 9.916315 9.921553 10.863981 11.645387 10.515608 10.130647
## [92] 7.787207 9.587816 11.826430 8.688282 10.018368 10.391818 8.029226
## [99] 10.054923 8.081935
mean(x)
## [1] 9.986902
hist(x)
*Se puede observar como la mayoria de los valores estan acumulados alrededor de la media dado que su desviación estándar es baja. (FORMA DE CAMPANA)
boxplot(x)
*Donde se ubica el valor máximo y mínimo y valores atípicos (valores que con respecto a la media son muchos más altos, por lo que son poco representativos)
hist(x,freq=FALSE) #freq=FALSE para que el área del histograma sea 1
curve(dnorm(x, mean=10, sd=1), from=7, to=13, add=TRUE) #add=TRUE empalme la curva en el histograma anterior
pnorm(4.78, 2.44, sqrt (12.6736)) - pnorm(-2.34, 4.78, sqrt(12.6736))
## [1] 0.7217569
x= rnorm(15)
x
## [1] -0.42211591 0.18445054 0.98009181 0.74243953 2.71777966 -0.96828856
## [7] -0.92485606 -0.67396690 0.74402147 0.88404032 -0.35848843 0.16848903
## [13] -1.04891211 -2.12068060 0.06256292
IQR(x)
## [1] 1.542642
x= rnorm(10, mean=4, sd=0.5)
x
## [1] 4.528656 5.366947 4.216559 4.368942 2.650891 4.377557 3.127054 3.924403
## [9] 4.409078 4.859920
x= rnorm(10, mean=4, sd=0.5)
x
## [1] 3.654072 3.946560 3.201544 4.520952 3.537286 3.875986 4.283029 4.243302
## [9] 3.221414 4.014218
x= rnorm(10, mean=4, sd=0.5)
x
## [1] 3.945341 4.901220 3.806682 4.736598 3.700744 3.848131 3.858738 4.504375
## [9] 4.771740 3.885736
Fuente: QuestionPro. (S.F.) ¿Cual es la diferencia entre población y muestra? Recuperado de: https://www.questionpro.com/blog/es/diferencia-entre-poblacion-y-muestra/#:~:text=La%20caracter%C3%ADstica%20medible%20de%20la,se%20obtiene%20utilizando%20el%20muestreo.
pois <- rpois(1000,1) #Distribución de Poisson
pois
## [1] 1 2 3 1 2 2 0 0 0 0 1 2 3 1 0 1 3 1 2 0 0 1 0 1 3 0 3 2 0 1 3 0 0 1 1 3 2
## [38] 0 2 1 0 2 0 1 1 0 2 2 0 1 0 2 2 0 3 0 2 0 1 0 1 1 1 2 0 0 4 1 0 0 1 2 1 0
## [75] 1 0 1 1 5 1 1 1 1 0 2 1 1 0 1 1 1 0 2 4 1 0 3 1 0 0 1 2 2 1 2 0 2 1 0 0 1
## [112] 1 2 1 0 0 2 0 0 1 1 1 0 2 0 2 3 0 1 3 3 1 1 0 2 0 0 5 1 0 1 1 0 0 0 0 3 1
## [149] 1 2 0 1 0 1 1 1 1 2 0 1 0 1 0 1 1 3 0 0 3 1 0 3 1 3 0 4 0 1 2 1 2 0 1 0 0
## [186] 2 0 2 1 1 0 2 3 0 1 0 1 3 0 1 2 0 0 3 1 0 1 0 1 2 1 2 0 2 0 1 1 0 0 2 0 2
## [223] 1 1 2 2 2 0 1 0 2 0 0 0 0 0 0 0 1 0 0 2 1 0 2 0 1 2 0 2 1 1 1 4 2 0 1 0 0
## [260] 0 1 0 3 0 0 0 1 0 4 0 2 1 0 1 1 0 1 1 0 0 1 1 4 1 0 1 1 1 0 2 3 1 0 2 2 0
## [297] 0 3 1 1 0 1 0 2 0 0 1 0 2 0 2 3 1 2 0 2 2 1 0 1 1 4 0 1 0 0 1 1 0 2 1 2 1
## [334] 0 2 2 2 0 1 1 2 0 0 0 1 0 1 2 0 2 2 0 1 3 1 0 0 0 2 0 1 1 0 1 3 1 0 1 0 0
## [371] 1 0 1 2 0 2 0 1 0 1 0 1 1 1 1 2 0 2 3 0 2 0 0 0 1 2 1 0 1 1 1 0 0 0 0 1 1
## [408] 2 1 0 0 0 0 3 2 2 1 0 1 0 0 2 1 2 1 2 3 0 2 0 2 0 0 0 1 0 0 0 0 1 0 1 1 1
## [445] 0 3 1 1 0 2 1 1 0 0 1 0 0 0 0 1 0 0 1 0 1 1 2 0 1 1 1 1 3 0 1 0 1 0 1 1 1
## [482] 0 1 1 2 0 0 2 2 1 3 0 0 2 2 0 0 2 1 1 1 1 0 1 1 1 0 1 0 0 3 1 4 0 0 1 0 0
## [519] 1 1 0 0 3 1 0 1 1 0 0 0 1 1 2 1 1 0 0 1 1 1 1 0 0 1 2 1 1 0 0 0 1 0 1 1 1
## [556] 3 1 1 0 0 0 0 0 1 0 1 3 1 2 3 1 1 1 2 1 0 3 0 1 0 0 0 1 0 1 0 0 0 2 0 1 0
## [593] 0 1 0 1 0 2 2 2 3 3 0 2 1 0 2 0 3 0 2 0 2 1 2 1 0 0 1 1 2 0 2 3 0 0 2 0 0
## [630] 0 1 2 2 3 1 1 0 1 4 1 1 1 0 0 1 0 2 1 0 1 2 3 2 1 2 2 3 1 2 2 0 0 2 0 0 0
## [667] 0 2 0 1 1 0 2 1 0 2 1 1 4 2 0 2 1 1 1 1 4 3 1 0 1 0 0 0 3 0 1 2 1 0 2 1 0
## [704] 1 1 1 1 2 0 1 1 1 1 0 0 0 0 0 3 1 0 2 1 1 1 1 3 0 2 0 0 0 0 2 0 0 1 0 0 0
## [741] 3 1 1 2 2 0 0 0 1 3 0 1 0 3 1 0 1 0 0 0 1 0 1 1 1 2 2 4 0 3 2 0 1 2 2 2 0
## [778] 1 0 0 1 0 1 0 1 1 1 3 0 2 0 0 0 1 2 2 1 0 0 1 1 1 0 0 0 0 1 1 0 0 0 1 0 1
## [815] 0 0 0 0 0 3 0 2 2 2 0 1 2 2 1 1 2 1 0 0 0 2 1 3 2 2 1 0 1 1 1 0 0 0 2 0 2
## [852] 0 4 1 1 0 0 1 0 2 2 1 2 2 0 3 1 1 2 0 2 0 0 2 1 3 0 0 1 2 0 1 1 2 2 1 2 1
## [889] 0 2 2 1 2 0 1 2 3 0 2 1 2 1 1 0 1 2 0 4 1 0 3 2 1 1 1 1 0 4 1 0 2 0 1 0 1
## [926] 2 0 1 0 0 3 4 2 0 0 0 0 0 0 0 0 2 1 1 0 0 3 1 0 2 0 2 0 0 0 0 0 1 1 3 1 0
## [963] 1 0 4 2 2 0 0 0 0 0 0 2 3 1 2 0 0 0 0 3 0 2 1 1 2 0 1 1 2 1 3 0 2 0 2 1 1
## [1000] 0
hist(pois) #Gráfico
barplot(dpois(x = 0:6, 1), names.arg = 0:6) #Gráfico
mean(pois) #Media
## [1] 0.983
var(pois) #Varianza
## [1] 1.025737
En la distribución de poisson tiene iguales la media y la varianza. Si la variación de los casos observados en una población excede a la variación esperada por la Poisson, se está ante la presencia de un problema conocido como sobredispersión y, en tal caso, la distribución binomial negativa es más adecuada. En este caso se puede observar como la varianza y la media son disintas.
Sergas (2014). Distribuciones de probabilidad. Recuperado de: https://www.sergas.es/Saude-publica/Documents/1899/Ayuda_Epidat_4_Distribuciones_de_probabilidad_Octubre2014.pdf
qt(c(3, 0.01), df=1)
## Warning in qt(c(3, 0.01), df = 1): NaNs produced
## [1] NaN -31.82052
qt(c(3, 0.01), df=1)
## Warning in qt(c(3, 0.01), df = 1): NaNs produced
## [1] NaN -31.82052
qchisq(0.95, df = 1)
## [1] 3.841459
qchisq(0.99, df = 1)
## [1] 6.634897