Introducción a la probabilidad

“Probabilidad es el lenguaje matemático para cuantificar incertidumbre”. -Wasserman

  1. Terminoología de probabilidad: espacio de resultados, eventos, funciones de probabilidad, etc.

  2. Interpretación frecuentista de probabilidad.

  3. Probabildiad condicional y su relación con independencia.

  4. La regla de Bayes.

Espacio de resultados y eventos.

El espacio de resultados \(\Omega\) es el conjunto de posibles resultados de un experimento aleatorio.

Ejemplo: si lanzamos una moneda dos veces entonces:

\[ \Omega = \{AA, AS, SA, SS\} \] Escribe el espacio muestral de los siguientes experimentos aleatorios:

\[ \Omega = \{1, 2, 3, 4, 5, 6\} \] * Tu calificación final en el curso.

\[ \Omega = \{0 ,1, 2, 3, 4, 5, 6, 7, 8, 9, 10\} \]

\[ \Omega = \{0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129, 130, 131, 132, 133, 134, 135, 136, 137, 138, 139, 140, 141, 142, 143, 144, 145, 146, 147, 148, 149, 150, 151, 152, 153, 154, 155, 156, 157, 158, 159, 160, 161, 162, 163, 164, 165, 166, 167, 168, 169, 170, 171, 172, 173, 174, 175, 176, 177, 178, 179, 180, 181, 182, 183, 184, 185, 186, 187, 188, 189, 190, 191, 192, 193, 194, 195, 196, 197, 198, 199, 200, 201, 202, 203, 204, 205, 206, 207, 208, 209, 210, 211, 212, 213, 214, 215, 216, 217, 218, 219, 220, 221, 222, 223, 224, 225, 226, 227, 228, 229, 230, 231, 232, 233, 234, 235, 236, 237, 238, 239, 240, 241, 242, 243, 244, 245, 246, 247, 248, 249, 250, 251, 252, 253, 254, 255, 256, 257, 258, 259, 260, 261, 262, 263, 264, 265, 266, 267, 268, 269, 270, 271, 272, 273, 274, 275, 276, 277, 278, 279, 280, 281, 282, 283, 284, 285, 286, 287, 288, 289, 290, 291, 292, 293, 294, 295, 296, 297, 298, 299, 300, 301, 302, 303, 304, 305, 306, 307, 308, 309, 310, 311, 312, 313, 314, 315, 316, 317, 318, 319, 320, 321, 322, 323, 324, 325, 326, 327, 328, 329, 330, 331, 332, 333, 334, 335, 336, 337, 338, 339, 340, 341, 342, 343, 344, 345, 346, 347, 348, 349, 350, 351, 352, 353, 354, 355, 356, 357, 358, 359, 360, 361, 362, 363, 364, 365, 366, 367, 368, 369, 370, 371, 372, 373, 374, 375, 376, 377, 378, 379, 380, 381, 382, 383, 384, 385, 386, 387, 388, 389, 390, 391, 392, 393, 394, 395, 396, 397, 398, 399, 400, 401, 402, 403, 404, 405, 406, 407, 408, 409, 410, 411, 412, 413, 414, 415, 416, 417, 418, 419, 420, 421, 422, 423, 424, 425, 426, 427, 428, 429, 430, 431, 432, 433, 434, 435, 436, 437, 438, 439, 440, 441, 442, 443, 444, 445, 446, 447, 448, 449, 450, 451, 452, 453, 454, 455, 456, 457, 458, 459, 460, 461, 462, 463, 464, 465, 466, 467, 468, 469, 470, 471, 472, 473, 474, 475, 476, 477, 478, 479, 480, 481, 482, 483, 484, 485, 486, 487, 488, 489, 490, 491, 492, 493, 494, 495, 496, 497, 498, 499, 500, 501, 502, 503, 504, 505, 506, 507, 508, 509, 510, 511, 512, 513, 514, 515, 516, 517, 518, 519, 520, 521, 522, 523, 524, 525, 526, 527, 528, 529, 530, 531, 532, 533, 534, 535, 536, 537, 538, 539, 540, 541, 542, 543, 544, 545, 546, 547, 548, 549, 550, 551, 552, 553, 554, 555, 556, 557, 558, 559, 560, 561, 562, 563, 564, 565, 566, 567, 568, 569, 570, 571, 572, 573, 574, 575, 576, 577, 578, 579, 580, 581, 582, 583, 584, 585, 586, 587, 588, 589, 590, 591, 592, 593, 594, 595, 596, 597, 598, 599, 600, 601, 602, 603, 604, 605, 606, 607, 608, 609, 610, 611, 612, 613, 614, 615, 616, 617, 618, 619, 620, 621, 622, 623, 624, 625, 626, 627, 628, 629, 630, 631, 632, 633, 634, 635, 636, 637, 638, 639, 640, 641, 642, 643, 644, 645, 646, 647, 648, 649, 650, 651, 652, 653, 654, 655, 656, 657, 658, 659, 660, 661, 662, 663, 664, 665, 666, 667, 668, 669, 670, 671, 672, 673, 674, 675, 676, 677, 678, 679, 680, 681, 682, 683, 684, 685, 686, 687, 688, 689, 690, 691, 692, 693, 694, 695, 696, 697, 698, 699, 700, 701, 702, 703, 704, 705, 706, 707, 708, 709, 710, 711, 712, 713, 714, 715, 716, 717, 718, 719, 720, 721, 722, 723, 724, 725, 726, 727, 728, 729, 730, 731, 732, 733, 734, 735, 736, 737, 738, 739, 740, 741, 742, 743, 744, 745, 746, 747, 748, 749, 750, 751, 752, 753, 754, 755, 756, 757, 758, 759, 760, 761, 762, 763, 764, 765, 766, 767, 768, 769, 770, 771, 772, 773, 774, 775, 776, 777, 778, 779, 780, 781, 782, 783, 784, 785, 786, 787, 788, 789, 790, 791, 792, 793, 794, 795, 796, 797, 798, 799, 800, 801, 802, 803, 804, 805, 806, 807, 808, 809, 810, 811, 812, 813, 814, 815, 816, 817, 818, 819, 820, 821, 822, 823, 824, 825, 826, 827, 828, 829, 830, 831, 832, 833, 834, 835, 836, 837, 838, 839, 840\} \]

\[ \Omega = \{357 ,358 ,359, 359.4, 360, 361, 362\} \]

Un evento es un subconjunto de espacio muestral, los eventos usualmente se denotan por letras mayúsculas.

El evento: que el primer lanzamiento resulte águila es

\[ A = \{AA, AS\} \]

Eventos equiprobables

La probabilidad se puede ver como una extensión de la idea de proporción, o cociente de una parte con respecto a un todo. Si en la carrera de química tenemos:

La proporción de hombres es:

\[ \frac{300}{700+300}=0.3\ \] Ahora, supongamos que elegimos un estudiante al azar, la probabilidad de elegir una mujer es 0.7.

En el ejemplo hay un supuesto implícito en elegir al azar (o aleatoria mente), en este caso estamos suponiendo que todos los estudiantes tienen la misma probabilidad de ser elegidos, que nos lleva al siguiente concepto:

Eventos equiprobables. Si todos los elementos en el espacio de resultados tienen la misma oportunidad de ser elegidos entonces la probabilidad del evento A es el número de resultados en A dividido entre el número total de posibles resultados:

\[ P(A)=\frac{\#(A)}{\#(\Omega)} \] Por lo que solo hace falta contar.

e.g. La probabilidad de obtener AA si lanzamos una moneda 2 veces es de 1/4 que también es 0.25 o 25%, y la probabilidad del evento que el primer lanzamiento resulte águila es de 2/4 = 0.5 o 50%

\[ \Omega = \{1+1, 1+2, 1+3, 1+4, 1+5, 1+6, 2+1, 2+2, 2+3, 2+4, 2+5, 2+6, 3+1, 3+2, 3+3, 3+4, 3+5, 3+6, 4+1, 4+2, 4+3, 4+4, 4+5, 4+6, 5+1, 5+2, 5+3, 5+4, 5+5, 5+6, 6+1, 6+2, 6+3, 6+4, 6+5, 6+6\} \] \[ A = \{1+4, 2+3, 3+2, 4+1\} \] \[ P(A)=\frac{4}{36} \] * ¿Cuál es la probabilidad de que el segundo número sea mayor que el primero?

\[ \Omega = \{1+1, 1+2, 1+3, 1+4, 1+5, 1+6, 2+1, 2+2, 2+3, 2+4, 2+5, 2+6, 3+1, 3+2, 3+3, 3+4, 3+5, 3+6, 4+1, 4+2, 4+3, 4+4, 4+5, 4+6, 5+1, 5+2, 5+3, 5+4, 5+5, 5+6, 6+1, 6+2, 6+3, 6+4, 6+5, 6+6\} \]

\[ A = \{1+2, 1+3, 1+4, 1+5, 1+6, 2+3, 2+4, 2+5, 2+6, 3+4, 3+5, 3+6, 4+5, 4+6\} \] \[ P(A)=\frac{14}{36} \] * Repite las preguntas anteriores cuando lanzas 2 dados de 8 caras.

\[ \Omega = \{1+1, 1+2, 1+3, 1+4, 1+5, 1+6, 1+7, 1+8, 2+1, 2+2, 2+3, 2+4, 2+5, 2+6, 2+7, 2+8, 3+1, 3+2, 3+3, 3+4, 3+5, 3+6, 3+7, 3+8, 4+1, 4+2, 4+3, 4+4, 4+5, 4+6, 4+7, 4+8, 5+1, 5+2, 5+3, 5+4, 5+5, 5+6, 5+7, 5+8, 6+1, 6+2, 6+3, 6+4, 6+5, 6+6, 6+7, 6+8, 7+1, 7+2, 7+3, 7+4, 7+5, 7+6, 7+7, 7+8, 8+1, 8+2, 8+3, 8+4, 8+5, 8+6, 8+7, 8+8\} \]

\[ A = \{1+4, 2+3, 3+2, 4+1\} \]

\[ P(A)=\frac{4}{64} \]

\[ \Omega = \{1+1, 1+2, 1+3, 1+4, 1+5, 1+6, 1+7, 1+8, 2+1, 2+2, 2+3, 2+4, 2+5, 2+6, 2+7, 2+8, 3+1, 3+2, 3+3, 3+4, 3+5, 3+6, 3+7, 3+8, 4+1, 4+2, 4+3, 4+4, 4+5, 4+6, 4+7, 4+8, 5+1, 5+2, 5+3, 5+4, 5+5, 5+6, 5+7, 5+8, 6+1, 6+2, 6+3, 6+4, 6+5, 6+6, 6+7, 6+8, 7+1, 7+2, 7+3, 7+4, 7+5, 7+6, 7+7, 7+8, 8+1, 8+2, 8+3, 8+4, 8+5, 8+6, 8+7, 8+8\} \] \[ A = \{1+2, 1+3, 1+4, 1+5, 1+6, 1+7, 1+8, 2+3, 2+4, 2+5, 2+6, 2+7, 2+8, 3+4, 3+5, 3+6, 3+7, 3+8, 4+5, 4+6, 4+7, 4+8, 5+6, 5+7, 5+8, 6+7, 6+8, 7+8\} \] \[ P(A)=\frac{28}{64} \]

Ejemplo: combinaciones

Un comité de 5 personas será seleccionado de un grupo de 6 hombres y 9 mujeres. Si la selección es aleatoria, ¿cuál es la probabilidad de que el comité esté conformado por 3 hombres y 2 mujeres?

Hay \(\dbinom{15}{5}\) posibles comités, cada unoo tiene la misma posibilidad de ser seleccionado.

Por otra parte hay \(\dbinom{6}{3} \dbinom{9}{2}\) posibles comités que incluyen 3 hombres y 2 mujeres, por lo tanto, la probabilidad que bubscamos es:

\[ P(A)=\frac{\dbinom{6}{3} \dbinom{9}{2}} {\dbinom{15}{5}} \]

La función para calcular las combinaciones en R (random) es choose(n, r)

choose(6,3) * choose(9,2) / choose(15,5)
## [1] 0.2397602

Interpretación frecuentista de probabilidad

Las probabilidades se entienden como una aproximación matemática de frecuencias relativas cuando la frecuencia total tiende a infinito.

supongamos que lanzamos una moneda 10 veces y obtenemos:

lanzamientos_10 <- sample(c("A", "S"),10, replace=TRUE)

para calcular la secuencia de frecuencias relativas de águila

cumsum(lanzamientos_10 == "A") #suma acumulada de águilas
##  [1] 0 0 1 2 3 3 3 4 4 4
round(cumsum(lanzamientos_10 == "A")/1:10,2)
##  [1] 0.00 0.00 0.33 0.50 0.60 0.50 0.43 0.50 0.44 0.40

Distribuciones de probabilidad

En R, cada distribución de probabilidad se nombra mediante una palabra clave o alis. Las palabras clave para las distribuciones más importantes son:

Prefijos Funciones Prefijos Función de distribución p Función cuantílica q Función de densidad d Generación aleatoria r

dexp = funcióno de densidad de distribución exponencial

\[\begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso}& \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array}\]
curve(dexp(x), from=0, to=10)

#Representa la densidad de una exponencial de media 1 entre 0 y 10

Distribución binomial

x <- rbinom(20, 1, 0.5)
x
##  [1] 1 0 0 0 1 0 1 1 0 0 1 1 1 1 1 0 0 1 1 1
#Genera 20 observaciones con distribución B(1, 0.5)

Contando éxitos vs fracasos

table(x)
## x
##  0  1 
##  8 12

e.g. Distribución normal si \(x\) es una variable aleatoria, con distribución normal de media 3, y su desviación típica es de 0.5, la probabilidad de que \(x\) sea menor

pnorm(3.5, mean=3, sd=0.5)
## [1] 0.8413447
qnorm(0.7)
## [1] 0.5244005
qnorm(0.7, sd=0.5)
## [1] 0.2622003

El valor \((z_\alpha\)\) que aparece en muchas de las fórmulas para intervalos y contrastes se obtiene con el comando qnorm(1-alfa). Algunos ejemplos:

qnorm(0.975)
## [1] 1.959964
x <- rnorm(100, mean=10, sd=1)
x
##   [1]  9.304668  8.021130 10.294375  9.009569 10.426006  9.157316 10.246297
##   [8] 12.225355 11.383182  9.812994 10.265793  9.457543  9.001791  9.473247
##  [15]  9.519967 10.208397 11.102975 10.231011  9.027418  8.205686  9.005461
##  [22]  9.276437 11.123463  9.621056 10.561005 10.064629 10.749360  7.913901
##  [29]  9.523788 10.268471  9.621886  9.353281  9.272363  9.029569  8.926875
##  [36] 11.229129 11.103426  8.870575  9.038620 10.047112 10.001845 11.090312
##  [43]  9.157027  9.054058  8.372768 10.320913 10.255693 10.818550  9.509076
##  [50] 10.631912  8.420847  8.655159 11.179492 11.157193  9.554648 11.155641
##  [57]  8.691653 10.957362 11.500501 10.319628  8.716018  9.679229 11.367846
##  [64]  8.734473 10.124312 10.545339 11.660784 11.133645  8.973378  8.767934
##  [71]  9.485700  9.528184 12.115995 11.433771  8.141207 11.159503 10.161988
##  [78] 10.506218 11.136739 11.743270 10.602707  8.102431 10.530340  9.952992
##  [85]  9.902624 12.147007  9.646627 11.001432  9.765656  9.186859 10.019858
##  [92]  8.070430  9.436483 10.567916 10.067737  9.456635  8.129377  9.253304
##  [99]  9.691444  9.937732
mean(x)
## [1] 9.923645
hist(x)

boxplot(x)

hist(x, freq=FALSE) # Freq=FALSE, para que el área del histograma sea 1
curve(dnorm(x, mean=10, sd=1), from=7, to=13, add=TRUE)

Ejercicios

  1. Si \(Z\) es una variable con distribución normal estándar, calcula \(\mathbb{P}(−2.34<Z<4.78)\).
P <- (pnorm(4.78) - pnorm(-2.34))
P
## [1] 0.9903573

\[ \mathbb{P}=0.9903573 \]

  1. Calcula el rango intercuartílico de una población normal estándar.
ri <- rnorm(20)
ri
##  [1]  1.74580222  1.59178531  1.37789509  2.05799316  1.01772414  0.32471340
##  [7] -1.75324436 -0.86297191 -0.31486725  0.06778731  0.41504851  0.49687751
## [13] -0.32553932  0.61556582 -0.87273461 -0.02038311 -0.79294878  0.96692420
## [19]  0.64003564  1.23000971
IQR(ri)
## [1] 1.388331

\[ \mathbb{IQR}=1.079305 \]

  1. Genera una muestra de tamaño 10 de una población normal estándar. ¿Cuál es la diferencia entre la media muestral y la poblacional? Repite el ejercicio 3 veces y anota las 3 diferencias.
m <- rnorm (10, mean=10, sd=1)
m
##  [1]  9.414770 10.186189  9.948047  8.508293  9.928264  9.994656  9.470011
##  [8] 10.336970  8.716506  9.429346
n <- rnorm (10, mean=10, sd=1)
n
##  [1]  9.681756  9.141882 10.165352 10.778181 10.219922 10.727040  9.515285
##  [8] 11.484581 12.555814 11.147280
o <- rnorm (10, mean=10, sd=1)
o
##  [1]  8.522275  6.972004  9.952033  9.020990  9.671466 10.416431 11.215993
##  [8] 10.641650  9.291803  7.946418

La media muestral, que es un estadístico que se calcula a partir de la media aritmética de un conjunto de valores de una variable aleatoria. La media poblacional, valor esperado o esperanza matemática de una variable aleatoria.

  1. Genera 1000 números con distribución de Poisson de parámetro \(\lambda=1\). Representa el gráfico de barras de los números obtenidos. Calcula la media y la varianza de los números obtenidos. ¿Se parecen a los valores teóricos?
num <- rpois(1000, 1)
num
##    [1] 1 1 2 2 2 2 1 2 1 2 0 1 0 3 0 2 1 0 3 0 2 1 0 1 1 0 1 0 2 0 0 2 0 0 3 1 2
##   [38] 2 1 2 0 2 1 3 3 0 1 0 1 3 3 1 2 0 0 1 3 4 0 0 1 2 3 0 1 0 0 0 0 2 0 0 1 3
##   [75] 2 0 0 2 1 2 4 3 1 0 2 2 1 0 1 0 0 0 1 1 1 2 2 0 3 1 2 2 0 0 2 0 1 0 0 1 1
##  [112] 2 0 0 1 1 1 2 0 0 1 0 2 1 0 0 0 3 1 2 1 3 1 1 0 1 0 0 0 1 4 1 0 1 1 0 2 1
##  [149] 3 2 1 0 2 1 2 1 2 3 1 1 0 1 0 1 0 0 2 1 0 1 0 0 1 0 1 1 1 1 0 0 0 2 1 1 0
##  [186] 0 1 0 1 3 2 2 1 1 0 0 1 0 0 0 0 0 0 0 0 1 1 2 2 2 1 1 0 3 0 1 0 2 0 0 2 0
##  [223] 1 1 1 0 0 2 1 0 4 0 2 0 0 0 1 1 1 3 1 0 0 1 0 0 0 1 3 0 2 3 1 2 1 0 0 1 1
##  [260] 0 2 0 1 2 2 2 1 1 2 2 0 2 2 1 1 1 2 1 2 1 2 2 0 2 1 3 1 0 2 1 2 2 5 1 1 1
##  [297] 1 0 1 1 1 1 2 3 1 2 2 0 1 0 2 1 2 2 3 0 1 1 0 0 2 0 0 2 0 0 2 0 3 0 0 0 2
##  [334] 1 1 1 0 0 0 1 0 1 4 3 0 0 0 1 1 1 1 1 2 1 1 0 3 0 0 0 1 0 1 1 1 2 0 0 1 0
##  [371] 3 2 1 0 1 0 1 1 0 3 0 0 0 2 1 0 0 2 2 0 0 0 0 1 0 2 0 1 1 0 1 2 1 0 1 1 0
##  [408] 1 1 0 1 2 0 0 1 1 1 0 2 0 4 1 1 0 0 2 2 0 1 0 0 1 1 0 2 1 1 1 0 1 2 2 1 0
##  [445] 2 2 0 1 0 0 1 0 2 1 0 1 0 2 1 1 1 0 0 1 3 0 0 2 2 2 3 4 3 0 1 3 4 0 1 3 3
##  [482] 1 1 1 1 2 0 0 0 0 0 0 1 0 0 0 1 0 0 1 1 0 1 0 0 0 1 4 1 0 0 2 0 0 1 2 0 2
##  [519] 1 1 0 0 0 0 1 3 0 2 0 1 1 1 2 0 0 1 2 0 3 1 0 0 2 3 1 0 2 1 1 0 1 2 0 0 1
##  [556] 2 0 2 0 3 1 0 1 1 0 0 0 1 0 0 1 1 1 1 2 4 0 0 0 2 1 2 0 0 1 0 2 1 0 1 0 1
##  [593] 1 3 2 2 0 0 2 2 1 2 1 0 1 3 0 0 3 1 0 2 0 1 1 0 3 1 1 0 1 0 1 1 2 1 0 0 0
##  [630] 1 0 1 1 2 1 2 0 1 0 3 1 2 1 0 2 0 0 1 0 1 1 2 1 1 1 0 1 1 0 2 2 1 1 2 0 2
##  [667] 0 2 3 0 0 2 2 1 2 0 2 2 1 2 1 2 1 2 0 0 1 1 0 1 0 3 1 0 0 0 2 2 2 1 0 1 0
##  [704] 0 2 3 0 0 3 2 0 0 1 0 1 0 2 1 1 4 0 2 0 1 2 2 1 2 1 0 1 1 1 0 0 0 0 2 1 0
##  [741] 0 2 0 1 0 2 2 1 2 0 1 1 4 2 0 0 0 1 2 0 1 1 2 0 3 2 2 0 2 1 1 1 0 3 1 0 2
##  [778] 3 1 3 0 1 3 2 0 0 0 1 0 0 0 1 2 1 1 0 2 0 0 2 1 0 1 2 2 0 0 0 1 0 0 0 2 0
##  [815] 0 0 2 2 0 2 1 0 1 3 1 0 0 3 0 1 0 1 0 0 1 2 0 1 1 1 0 1 2 2 0 1 3 2 0 1 0
##  [852] 2 0 1 1 2 1 0 0 0 0 1 0 1 1 2 0 1 1 3 1 0 0 2 0 0 0 3 0 1 2 2 0 0 1 1 3 0
##  [889] 2 0 0 0 2 1 1 1 2 0 0 4 2 1 0 2 1 2 1 1 1 0 2 1 1 3 1 1 1 1 1 0 1 2 1 2 0
##  [926] 2 2 0 0 1 0 0 1 0 0 1 1 0 1 0 1 0 0 1 0 1 0 0 1 0 1 2 1 2 1 2 0 1 2 1 1 4
##  [963] 0 0 1 2 1 0 1 0 1 1 0 2 0 2 0 0 0 1 4 2 1 0 2 2 1 3 0 1 2 1 0 1 1 0 0 1 0
## [1000] 0
hist(num)

mean(num)
## [1] 0.995
sd(num)
## [1] 0.9879023

La media no coincide con los valores obtenidos en el histograma.

Publicado en: https://rpubs.com/EdwardSauceda/probabi