U3A6: Introducción a la probabilidad frecuentista

La probabilidad frecuencial o frecuentista hace referencia a la definición de probabilidad entendida como el cociente entre el número de casos favorables y el número de casos posibles, cuando el número de casos tiende a infinito.

Se entiende por probabilidad frecuentista a la frecuencia relativa de un evento esperada en el largo plazo o luego de una secuencia de ensayos.

Cuantas más veces se repita el experimento, al final las posibilidades de que ocurra cada uno de los sucesos será regular. Aunque cualquier comportamiento sea aleatorio, por proceso empírico llegaremos a una regularidad. Es cuando se lanza un dado y suponiendo cuantas veces cae el número que se seleccionó.

La estadística que estamos acostumbrados a utilizar es la estadística frecuentista, que es la que se desarrolla a partir de los conceptos de probabilidad y que se centra en el cálculo de probabilidades y los contrastes de hipótesis.

Interpretación frecuentista de la probabilidad

Una frecuencia relativa es una proporción que mide que tan seguido, o frecuente, ocurre una u otra cosa en una sucesión de observaciones.

Veamos el ejemplo del lanzamiento de una moneda

lanzamientos_10 <- sample( c("A","S"),10, replace = TRUE  )
lanzamientos_10
##  [1] "A" "A" "A" "S" "S" "A" "S" "S" "A" "A"

Ahora calcularemos la secuencia de frecuencias relativas del aguila

cumsum(lanzamientos_10 == "A") 
##  [1] 1 2 3 3 3 4 4 4 5 6

Dividiendo

round(cumsum(lanzamientos_10 =="A") /1:10,2)
##  [1] 1.00 1.00 1.00 0.75 0.60 0.67 0.57 0.50 0.56 0.60

Distribuciones en R:

$$ \[\begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso}& \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array}\]

$$

Funciones en # para la distribuciones de frecuencia de probabilidad

Distribución binomial binom

Distribución de Poisson pois

Distribución normal norm

Distribución exponencial exp

Distribución t de Student t

Distribución Chi2 chisq

Distribución F f

Distribución normal

Si X es una variable aleatoria con distribucion normal de media 3, y su desviacion estandar es de 0.5

La probabilidad de que X sea menor de 3.5 se calcula de la siguiente forma:

pnorm(3.5, mean = 3, sd=0.5)
## [1] 0.8413447

Ahora generemos numeros aleatorios con distribucion normal, vamos a generar 100 numeros con media 10 y desviacion estandar de 1

x <- rnorm(100, mean = 10, sd=1)
x
##   [1]  7.444147 10.212345  9.904098 10.353269  9.973359  8.750118  9.439029
##   [8]  8.812018 10.868195  8.366308 10.159082 10.084823  9.264402 10.666366
##  [15]  9.467844 10.067694  8.733262  9.235735  9.197341  9.641323  9.120671
##  [22]  9.682546  9.918029 11.211083 12.330937 11.596388  9.393249 11.065857
##  [29] 11.895631 10.109854 10.441466 12.312061  9.008859 10.274319 11.558149
##  [36]  8.744783 11.545985  9.943018  8.411947 12.540377  9.359515 10.184488
##  [43] 10.088048 10.695855 10.540444  9.599356 10.902744 11.192238  7.981263
##  [50] 10.813924  9.309709 10.428577  9.913160 10.613147 11.087625  9.061211
##  [57]  8.651776 12.351710 10.059486 10.198600  9.827603  9.287853  9.382848
##  [64]  8.028244 10.895364 10.954837  9.035727 10.582172  8.941833 10.023946
##  [71]  9.331546 10.303220 12.057842  8.882124 10.531655  9.484166  9.291564
##  [78] 11.479819 11.386665  9.647531 10.333242 10.175470 11.320261 11.548130
##  [85]  9.691942  9.509534 10.652107 13.182793  7.885872  9.935979 10.007717
##  [92] 11.891874  9.581494  9.847212 10.349823 10.560503 10.217477  9.692644
##  [99] 11.181370  9.332232

Ahora calculamos el promedio de estos numeros

promedio <- mean (x)
promedio
## [1] 10.11033

Histograma de frecuencias absolutas

hist(x)

Gráfico de caja y bigote

boxplot(x)

Histograma de frecuencias con la curva normalizada

hist(x, freq =FALSE)
curve(dnorm(x, mean =10, sd=1), from =7, to =13, add=TRUE)

Distribucion binomial

Generando 20 valores de exitos (1) versus fracasos (0) con una probabilidad de 0.5

x <- rbinom(20,1,0.5)
x
##  [1] 0 1 1 1 1 0 1 1 1 1 1 0 0 0 0 1 1 0 0 1

Contemos exitos versus fracasos

table(x)
## x
##  0  1 
##  8 12

Probabilidad binomial de obtener un 1

P <- 13/20
P
## [1] 0.65

Ejercicio distribucion binomial

Hay 12 preguntas de seleccion multiple en un examen

Cada pregunta tiene 5 alternativas y solo 1 es correcta

Calcule la probabilidad de obtener al menos 4 respuestas correctas si contestamos enteramente al azar

dbinom(0, size = 12, prob = 0.2) + 
dbinom(1, size = 12, prob = 0.2) +
dbinom(2, size = 12, prob = 0.2) +
dbinom(3, size = 12, prob = 0.2) +
dbinom(4, size = 12, prob = 0.2) 
## [1] 0.9274445

Tarea:

Calcular la probabibilidad de obtener un valor menor a 9 si tenemos media de 8 y desviacion estandar de 2, usando la distribucion normal

pnorm(9, mean = 8, sd=2)
## [1] 0.6914625

Generar 150 numeros aleatorios de media 5 y desviacion de 0.5 usando la distribucion normal

x <- rnorm(150, mean =5, sd=0.5)
x
##   [1] 4.871351 5.494217 4.942867 4.818807 5.359463 5.151194 4.964868 4.113612
##   [9] 4.917117 4.505835 5.239521 5.320205 5.226959 4.870137 4.579067 5.635018
##  [17] 3.887134 4.808528 4.981028 5.277122 4.640984 5.265057 4.858118 5.318746
##  [25] 4.935819 4.235207 5.215416 4.058018 4.709975 5.280597 5.165683 5.000728
##  [33] 4.370637 4.321031 5.258650 3.956327 4.415991 3.927502 4.718649 5.509110
##  [41] 5.272470 6.056323 5.683113 4.401458 5.498980 6.118467 4.903867 4.820626
##  [49] 5.028697 5.401042 3.866556 5.137812 4.136077 4.513037 5.153759 4.590445
##  [57] 4.501639 4.968527 4.552486 5.252144 4.429795 4.919048 4.905550 5.456618
##  [65] 5.195751 5.444385 4.866590 4.949509 3.406243 5.563220 5.180090 5.040881
##  [73] 4.728950 4.412547 4.615196 4.314701 4.492117 5.290794 5.195041 4.622088
##  [81] 5.816116 4.852104 4.229991 5.950527 5.797285 4.515738 4.846901 4.257044
##  [89] 5.518105 5.033922 4.048312 5.674147 5.374419 5.740901 4.072453 5.977925
##  [97] 4.572590 4.870393 5.318377 4.492395 4.322477 3.494250 4.372427 5.436256
## [105] 5.478122 4.929901 4.700405 5.671056 5.439501 5.123716 5.269780 5.039850
## [113] 4.290591 5.684522 5.102938 5.460801 5.040800 5.009765 5.322928 5.597947
## [121] 5.238590 5.514677 5.616544 4.925794 4.397895 4.739280 4.598197 5.048180
## [129] 5.627060 5.172456 4.253043 4.941980 3.845290 4.398047 4.224854 4.791481
## [137] 4.915164 5.279077 4.368045 5.002332 4.967374 5.155603 5.220093 6.419470
## [145] 5.641753 4.808442 5.424934 5.054488 4.606246 5.397506

Obtener media, media, mediana, moda de los datos generados (150) y grafico de caja y bigote

Media
media <- mean(x)
media
## [1] 4.94903
Mediana
mediana <- median(x)
mediana
## [1] 4.96795
Moda
library(modeest)
## Warning: package 'modeest' was built under R version 4.0.4
mlv(x, method = "mfv")
##   [1] 3.406243 3.494250 3.845290 3.866556 3.887134 3.927502 3.956327 4.048312
##   [9] 4.058018 4.072453 4.113612 4.136077 4.224854 4.229991 4.235207 4.253043
##  [17] 4.257044 4.290591 4.314701 4.321031 4.322477 4.368045 4.370637 4.372427
##  [25] 4.397895 4.398047 4.401458 4.412547 4.415991 4.429795 4.492117 4.492395
##  [33] 4.501639 4.505835 4.513037 4.515738 4.552486 4.572590 4.579067 4.590445
##  [41] 4.598197 4.606246 4.615196 4.622088 4.640984 4.700405 4.709975 4.718649
##  [49] 4.728950 4.739280 4.791481 4.808442 4.808528 4.818807 4.820626 4.846901
##  [57] 4.852104 4.858118 4.866590 4.870137 4.870393 4.871351 4.903867 4.905550
##  [65] 4.915164 4.917117 4.919048 4.925794 4.929901 4.935819 4.941980 4.942867
##  [73] 4.949509 4.964868 4.967374 4.968527 4.981028 5.000728 5.002332 5.009765
##  [81] 5.028697 5.033922 5.039850 5.040800 5.040881 5.048180 5.054488 5.102938
##  [89] 5.123716 5.137812 5.151194 5.153759 5.155603 5.165683 5.172456 5.180090
##  [97] 5.195041 5.195751 5.215416 5.220093 5.226959 5.238590 5.239521 5.252144
## [105] 5.258650 5.265057 5.269780 5.272470 5.277122 5.279077 5.280597 5.290794
## [113] 5.318377 5.318746 5.320205 5.322928 5.359463 5.374419 5.397506 5.401042
## [121] 5.424934 5.436256 5.439501 5.444385 5.456618 5.460801 5.478122 5.494217
## [129] 5.498980 5.509110 5.514677 5.518105 5.563220 5.597947 5.616544 5.627060
## [137] 5.635018 5.641753 5.671056 5.674147 5.683113 5.684522 5.740901 5.797285
## [145] 5.816116 5.950527 5.977925 6.056323 6.118467 6.419470

Gráfica caja y bigote

boxplot(x)

Grafica de frecuencia absoluta

hist(x)

Histograma de frecuencias con la curva normalizada

hist(x, freq = FALSE)
curve(dnorm(x, mean = 8, sd=0.5), from = 3.5, to =6.5, add=TRUE    )

Genere un conteo y calculo de probabilidad de 30 numeros de forma binomial

x <- rbinom(30,5,0.40)
x
##  [1] 2 0 4 1 4 3 1 4 4 1 3 0 2 1 2 2 1 0 0 4 2 2 1 2 3 3 2 2 2 1
table(x)
## x
##  0  1  2  3  4 
##  4  7 10  4  5
A <- 1/30
A
## [1] 0.03333333