“Probabilidad es el lenguaje matemático para cuantificar incertidumbre”. -Wasserman
Terminoología de probabilidad: espacio de resultados, eventos, funciones de probabilidad, etc.
Interpretación frecuentista de probabilidad.
Probabildiad condicional y su relación con independencia.
La regla de Bayes.
El espacio de resultados \(\Omega\) es el conjunto de posibles resultados de un experimento aleatorio.
Ejemplo: si lanzamos una moneda dos veces entonces:
\[ \Omega = \{AA, AS, SA, SS\} \] Escribe el espacio muestral de los siguientes experimentos aleatorios:
\[ \Omega = \{1, 2, 3, 4, 5, 6\} \] * Tu calificación final en el curso.
\[ \Omega = \{0 ,1, 2, 3, 4, 5, 6, 7, 8, 9, 10\} \]
\[ \Omega = \{0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129, 130, 131, 132, 133, 134, 135, 136, 137, 138, 139, 140, 141, 142, 143, 144, 145, 146, 147, 148, 149, 150, 151, 152, 153, 154, 155, 156, 157, 158, 159, 160, 161, 162, 163, 164, 165, 166, 167, 168, 169, 170, 171, 172, 173, 174, 175, 176, 177, 178, 179, 180, 181, 182, 183, 184, 185, 186, 187, 188, 189, 190, 191, 192, 193, 194, 195, 196, 197, 198, 199, 200, 201, 202, 203, 204, 205, 206, 207, 208, 209, 210, 211, 212, 213, 214, 215, 216, 217, 218, 219, 220, 221, 222, 223, 224, 225, 226, 227, 228, 229, 230, 231, 232, 233, 234, 235, 236, 237, 238, 239, 240, 241, 242, 243, 244, 245, 246, 247, 248, 249, 250, 251, 252, 253, 254, 255, 256, 257, 258, 259, 260, 261, 262, 263, 264, 265, 266, 267, 268, 269, 270, 271, 272, 273, 274, 275, 276, 277, 278, 279, 280, 281, 282, 283, 284, 285, 286, 287, 288, 289, 290, 291, 292, 293, 294, 295, 296, 297, 298, 299, 300, 301, 302, 303, 304, 305, 306, 307, 308, 309, 310, 311, 312, 313, 314, 315, 316, 317, 318, 319, 320, 321, 322, 323, 324, 325, 326, 327, 328, 329, 330, 331, 332, 333, 334, 335, 336, 337, 338, 339, 340, 341, 342, 343, 344, 345, 346, 347, 348, 349, 350, 351, 352, 353, 354, 355, 356, 357, 358, 359, 360, 361, 362, 363, 364, 365, 366, 367, 368, 369, 370, 371, 372, 373, 374, 375, 376, 377, 378, 379, 380, 381, 382, 383, 384, 385, 386, 387, 388, 389, 390, 391, 392, 393, 394, 395, 396, 397, 398, 399, 400, 401, 402, 403, 404, 405, 406, 407, 408, 409, 410, 411, 412, 413, 414, 415, 416, 417, 418, 419, 420, 421, 422, 423, 424, 425, 426, 427, 428, 429, 430, 431, 432, 433, 434, 435, 436, 437, 438, 439, 440, 441, 442, 443, 444, 445, 446, 447, 448, 449, 450, 451, 452, 453, 454, 455, 456, 457, 458, 459, 460, 461, 462, 463, 464, 465, 466, 467, 468, 469, 470, 471, 472, 473, 474, 475, 476, 477, 478, 479, 480, 481, 482, 483, 484, 485, 486, 487, 488, 489, 490, 491, 492, 493, 494, 495, 496, 497, 498, 499, 500, 501, 502, 503, 504, 505, 506, 507, 508, 509, 510, 511, 512, 513, 514, 515, 516, 517, 518, 519, 520, 521, 522, 523, 524, 525, 526, 527, 528, 529, 530, 531, 532, 533, 534, 535, 536, 537, 538, 539, 540, 541, 542, 543, 544, 545, 546, 547, 548, 549, 550, 551, 552, 553, 554, 555, 556, 557, 558, 559, 560, 561, 562, 563, 564, 565, 566, 567, 568, 569, 570, 571, 572, 573, 574, 575, 576, 577, 578, 579, 580, 581, 582, 583, 584, 585, 586, 587, 588, 589, 590, 591, 592, 593, 594, 595, 596, 597, 598, 599, 600, 601, 602, 603, 604, 605, 606, 607, 608, 609, 610, 611, 612, 613, 614, 615, 616, 617, 618, 619, 620, 621, 622, 623, 624, 625, 626, 627, 628, 629, 630, 631, 632, 633, 634, 635, 636, 637, 638, 639, 640, 641, 642, 643, 644, 645, 646, 647, 648, 649, 650, 651, 652, 653, 654, 655, 656, 657, 658, 659, 660, 661, 662, 663, 664, 665, 666, 667, 668, 669, 670, 671, 672, 673, 674, 675, 676, 677, 678, 679, 680, 681, 682, 683, 684, 685, 686, 687, 688, 689, 690, 691, 692, 693, 694, 695, 696, 697, 698, 699, 700, 701, 702, 703, 704, 705, 706, 707, 708, 709, 710, 711, 712, 713, 714, 715, 716, 717, 718, 719, 720, 721, 722, 723, 724, 725, 726, 727, 728, 729, 730, 731, 732, 733, 734, 735, 736, 737, 738, 739, 740, 741, 742, 743, 744, 745, 746, 747, 748, 749, 750, 751, 752, 753, 754, 755, 756, 757, 758, 759, 760, 761, 762, 763, 764, 765, 766, 767, 768, 769, 770, 771, 772, 773, 774, 775, 776, 777, 778, 779, 780, 781, 782, 783, 784, 785, 786, 787, 788, 789, 790, 791, 792, 793, 794, 795, 796, 797, 798, 799, 800, 801, 802, 803, 804, 805, 806, 807, 808, 809, 810, 811, 812, 813, 814, 815, 816, 817, 818, 819, 820, 821, 822, 823, 824, 825, 826, 827, 828, 829, 830, 831, 832, 833, 834, 835, 836, 837, 838, 839, 840\} \]
\[ \Omega = \{357 ,358 ,359, 359.4, 360, 361, 362\} \]
Un evento es un subconjunto de espacio muestral, los eventos usualmente se denotan por letras mayúsculas.
El evento: que el primer lanzamiento resulte águila es
\[ A = \{AA, AS\} \]
Eventos equiprobables
La probabilidad se puede ver como una extensión de la idea de proporción, o cociente de una parte con respecto a un todo. Si en la carrera de química tenemos:
La proporción de hombres es:
\[ \frac{300}{700+300}=0.3\ \] Ahora, supongamos que elegimos un estudiante al azar, la probabilidad de elegir una mujer es 0.7.
En el ejemplo hay un supuesto implícito en elegir al azar (o aleatoria mente), en este caso estamos suponiendo que todos los estudiantes tienen la misma probabilidad de ser elegidos, que nos lleva al siguiente concepto:
Eventos equiprobables. Si todos los elementos en el espacio de resultados tienen la misma oportunidad de ser elegidos entonces la probabilidad del evento A es el número de resultados en A dividido entre el número total de posibles resultados:
\[ P(A)=\frac{\#(A)}{\#(\Omega)} \] Por lo que solo hace falta contar.
e.g. La probabilidad de obtener AA si lanzamos una moneda 2 veces es de 1/4 que también es 0.25 o 25%, y la probabilidad del evento que el primer lanzamiento resulte águila es de 2/4 = 0.5 o 50%
\[ \Omega = \{1+1, 1+2, 1+3, 1+4, 1+5, 1+6, 2+1, 2+2, 2+3, 2+4, 2+5, 2+6, 3+1, 3+2, 3+3, 3+4, 3+5, 3+6, 4+1, 4+2, 4+3, 4+4, 4+5, 4+6, 5+1, 5+2, 5+3, 5+4, 5+5, 5+6, 6+1, 6+2, 6+3, 6+4, 6+5, 6+6\} \] \[ A = \{1+4, 2+3, 3+2, 4+1\} \] \[ P(A)=\frac{4}{36} \] * ¿Cuál es la probabilidad de que el segundo número sea mayor que el primero?
\[ \Omega = \{1+1, 1+2, 1+3, 1+4, 1+5, 1+6, 2+1, 2+2, 2+3, 2+4, 2+5, 2+6, 3+1, 3+2, 3+3, 3+4, 3+5, 3+6, 4+1, 4+2, 4+3, 4+4, 4+5, 4+6, 5+1, 5+2, 5+3, 5+4, 5+5, 5+6, 6+1, 6+2, 6+3, 6+4, 6+5, 6+6\} \]
\[ A = \{1+2, 1+3, 1+4, 1+5, 1+6, 2+3, 2+4, 2+5, 2+6, 3+4, 3+5, 3+6, 4+5, 4+6\} \] \[ P(A)=\frac{14}{36} \] * Repite las preguntas anteriores cuando lanzas 2 dados de 8 caras.
\[ \Omega = \{1+1, 1+2, 1+3, 1+4, 1+5, 1+6, 1+7, 1+8, 2+1, 2+2, 2+3, 2+4, 2+5, 2+6, 2+7, 2+8, 3+1, 3+2, 3+3, 3+4, 3+5, 3+6, 3+7, 3+8, 4+1, 4+2, 4+3, 4+4, 4+5, 4+6, 4+7, 4+8, 5+1, 5+2, 5+3, 5+4, 5+5, 5+6, 5+7, 5+8, 6+1, 6+2, 6+3, 6+4, 6+5, 6+6, 6+7, 6+8, 7+1, 7+2, 7+3, 7+4, 7+5, 7+6, 7+7, 7+8, 8+1, 8+2, 8+3, 8+4, 8+5, 8+6, 8+7, 8+8\} \]
\[ A = \{1+4, 2+3, 3+2, 4+1\} \]
\[ P(A)=\frac{4}{64} \]
\[ \Omega = \{1+1, 1+2, 1+3, 1+4, 1+5, 1+6, 1+7, 1+8, 2+1, 2+2, 2+3, 2+4, 2+5, 2+6, 2+7, 2+8, 3+1, 3+2, 3+3, 3+4, 3+5, 3+6, 3+7, 3+8, 4+1, 4+2, 4+3, 4+4, 4+5, 4+6, 4+7, 4+8, 5+1, 5+2, 5+3, 5+4, 5+5, 5+6, 5+7, 5+8, 6+1, 6+2, 6+3, 6+4, 6+5, 6+6, 6+7, 6+8, 7+1, 7+2, 7+3, 7+4, 7+5, 7+6, 7+7, 7+8, 8+1, 8+2, 8+3, 8+4, 8+5, 8+6, 8+7, 8+8\} \] \[ A = \{1+2, 1+3, 1+4, 1+5, 1+6, 1+7, 1+8, 2+3, 2+4, 2+5, 2+6, 2+7, 2+8, 3+4, 3+5, 3+6, 3+7, 3+8, 4+5, 4+6, 4+7, 4+8, 5+6, 5+7, 5+8, 6+7, 6+8, 7+8\} \] \[ P(A)=\frac{28}{64} \]
Ejemplo: combinaciones
Un comité de 5 personas será seleccionado de un grupo de 6 hombres y 9 mujeres. Si la selección es aleatoria, ¿cuál es la probabilidad de que el comité esté conformado por 3 hombres y 2 mujeres?
Hay \(\dbinom{15}{5}\) posibles comités, cada unoo tiene la misma posibilidad de ser seleccionado.
Por otra parte hay \(\dbinom{6}{3} \dbinom{9}{2}\) posibles comités que incluyen 3 hombres y 2 mujeres, por lo tanto, la probabilidad que bubscamos es:
\[ P(A)=\frac{\dbinom{6}{3} \dbinom{9}{2}} {\dbinom{15}{5}} \]
La función para calcular las combinaciones en R (random) es choose(n, r)
choose(6,3) * choose(9,2) / choose(15,5)
## [1] 0.2397602
Las probabilidades se entienden como una aproximación matemática de frecuencias relativas cuando la frecuencia total tiende a infinito.
supongamos que lanzamos una moneda 10 veces y obtenemos:
lanzamientos_10 <- sample(c("A", "S"),10, replace=TRUE)
para calcular la secuencia de frecuencias relativas de águila
cumsum(lanzamientos_10 == "A") #suma acumulada de águilas
## [1] 0 0 1 2 3 3 3 4 4 4
round(cumsum(lanzamientos_10 == "A")/1:10,2)
## [1] 0.00 0.00 0.33 0.50 0.60 0.50 0.43 0.50 0.44 0.40
En R, cada distribución de probabilidad se nombra mediante una palabra clave o alis. Las palabras clave para las distribuciones más importantes son:
Prefijos Funciones Prefijos Función de distribución p Función cuantílica q Función de densidad d Generación aleatoria r
dexp = funcióno de densidad de distribución exponencial
\[\begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso}& \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array}\]curve(dexp(x), from=0, to=10)
#Representa la densidad de una exponencial de media 1 entre 0 y 10
Distribución binomial
x <- rbinom(20, 1, 0.5)
x
## [1] 1 0 0 0 1 0 1 1 0 0 1 1 1 1 1 0 0 1 1 1
#Genera 20 observaciones con distribución B(1, 0.5)
Contando éxitos vs fracasos
table(x)
## x
## 0 1
## 8 12
e.g. Distribución normal si \(x\) es una variable aleatoria, con distribución normal de media 3, y su desviación típica es de 0.5, la probabilidad de que \(x\) sea menor
pnorm(3.5, mean=3, sd=0.5)
## [1] 0.8413447
qnorm(0.7)
## [1] 0.5244005
qnorm(0.7, sd=0.5)
## [1] 0.2622003
El valor \((z_\alpha\)\) que aparece en muchas de las fórmulas para intervalos y contrastes se obtiene con el comando qnorm(1-alfa). Algunos ejemplos:
qnorm(0.975)
## [1] 1.959964
x <- rnorm(100, mean=10, sd=1)
x
## [1] 9.304668 8.021130 10.294375 9.009569 10.426006 9.157316 10.246297
## [8] 12.225355 11.383182 9.812994 10.265793 9.457543 9.001791 9.473247
## [15] 9.519967 10.208397 11.102975 10.231011 9.027418 8.205686 9.005461
## [22] 9.276437 11.123463 9.621056 10.561005 10.064629 10.749360 7.913901
## [29] 9.523788 10.268471 9.621886 9.353281 9.272363 9.029569 8.926875
## [36] 11.229129 11.103426 8.870575 9.038620 10.047112 10.001845 11.090312
## [43] 9.157027 9.054058 8.372768 10.320913 10.255693 10.818550 9.509076
## [50] 10.631912 8.420847 8.655159 11.179492 11.157193 9.554648 11.155641
## [57] 8.691653 10.957362 11.500501 10.319628 8.716018 9.679229 11.367846
## [64] 8.734473 10.124312 10.545339 11.660784 11.133645 8.973378 8.767934
## [71] 9.485700 9.528184 12.115995 11.433771 8.141207 11.159503 10.161988
## [78] 10.506218 11.136739 11.743270 10.602707 8.102431 10.530340 9.952992
## [85] 9.902624 12.147007 9.646627 11.001432 9.765656 9.186859 10.019858
## [92] 8.070430 9.436483 10.567916 10.067737 9.456635 8.129377 9.253304
## [99] 9.691444 9.937732
mean(x)
## [1] 9.923645
hist(x)
boxplot(x)
hist(x, freq=FALSE) # Freq=FALSE, para que el área del histograma sea 1
curve(dnorm(x, mean=10, sd=1), from=7, to=13, add=TRUE)
Ejercicios
P <- (pnorm(4.78) - pnorm(-2.34))
P
## [1] 0.9903573
\[ \mathbb{P}=0.9903573 \]
ri <- rnorm(20)
ri
## [1] 1.74580222 1.59178531 1.37789509 2.05799316 1.01772414 0.32471340
## [7] -1.75324436 -0.86297191 -0.31486725 0.06778731 0.41504851 0.49687751
## [13] -0.32553932 0.61556582 -0.87273461 -0.02038311 -0.79294878 0.96692420
## [19] 0.64003564 1.23000971
IQR(ri)
## [1] 1.388331
\[ \mathbb{IQR}=1.079305 \]
m <- rnorm (10, mean=10, sd=1)
m
## [1] 9.414770 10.186189 9.948047 8.508293 9.928264 9.994656 9.470011
## [8] 10.336970 8.716506 9.429346
n <- rnorm (10, mean=10, sd=1)
n
## [1] 9.681756 9.141882 10.165352 10.778181 10.219922 10.727040 9.515285
## [8] 11.484581 12.555814 11.147280
o <- rnorm (10, mean=10, sd=1)
o
## [1] 8.522275 6.972004 9.952033 9.020990 9.671466 10.416431 11.215993
## [8] 10.641650 9.291803 7.946418
La media muestral, que es un estadístico que se calcula a partir de la media aritmética de un conjunto de valores de una variable aleatoria. La media poblacional, valor esperado o esperanza matemática de una variable aleatoria.
num <- rpois(1000, 1)
num
## [1] 1 1 2 2 2 2 1 2 1 2 0 1 0 3 0 2 1 0 3 0 2 1 0 1 1 0 1 0 2 0 0 2 0 0 3 1 2
## [38] 2 1 2 0 2 1 3 3 0 1 0 1 3 3 1 2 0 0 1 3 4 0 0 1 2 3 0 1 0 0 0 0 2 0 0 1 3
## [75] 2 0 0 2 1 2 4 3 1 0 2 2 1 0 1 0 0 0 1 1 1 2 2 0 3 1 2 2 0 0 2 0 1 0 0 1 1
## [112] 2 0 0 1 1 1 2 0 0 1 0 2 1 0 0 0 3 1 2 1 3 1 1 0 1 0 0 0 1 4 1 0 1 1 0 2 1
## [149] 3 2 1 0 2 1 2 1 2 3 1 1 0 1 0 1 0 0 2 1 0 1 0 0 1 0 1 1 1 1 0 0 0 2 1 1 0
## [186] 0 1 0 1 3 2 2 1 1 0 0 1 0 0 0 0 0 0 0 0 1 1 2 2 2 1 1 0 3 0 1 0 2 0 0 2 0
## [223] 1 1 1 0 0 2 1 0 4 0 2 0 0 0 1 1 1 3 1 0 0 1 0 0 0 1 3 0 2 3 1 2 1 0 0 1 1
## [260] 0 2 0 1 2 2 2 1 1 2 2 0 2 2 1 1 1 2 1 2 1 2 2 0 2 1 3 1 0 2 1 2 2 5 1 1 1
## [297] 1 0 1 1 1 1 2 3 1 2 2 0 1 0 2 1 2 2 3 0 1 1 0 0 2 0 0 2 0 0 2 0 3 0 0 0 2
## [334] 1 1 1 0 0 0 1 0 1 4 3 0 0 0 1 1 1 1 1 2 1 1 0 3 0 0 0 1 0 1 1 1 2 0 0 1 0
## [371] 3 2 1 0 1 0 1 1 0 3 0 0 0 2 1 0 0 2 2 0 0 0 0 1 0 2 0 1 1 0 1 2 1 0 1 1 0
## [408] 1 1 0 1 2 0 0 1 1 1 0 2 0 4 1 1 0 0 2 2 0 1 0 0 1 1 0 2 1 1 1 0 1 2 2 1 0
## [445] 2 2 0 1 0 0 1 0 2 1 0 1 0 2 1 1 1 0 0 1 3 0 0 2 2 2 3 4 3 0 1 3 4 0 1 3 3
## [482] 1 1 1 1 2 0 0 0 0 0 0 1 0 0 0 1 0 0 1 1 0 1 0 0 0 1 4 1 0 0 2 0 0 1 2 0 2
## [519] 1 1 0 0 0 0 1 3 0 2 0 1 1 1 2 0 0 1 2 0 3 1 0 0 2 3 1 0 2 1 1 0 1 2 0 0 1
## [556] 2 0 2 0 3 1 0 1 1 0 0 0 1 0 0 1 1 1 1 2 4 0 0 0 2 1 2 0 0 1 0 2 1 0 1 0 1
## [593] 1 3 2 2 0 0 2 2 1 2 1 0 1 3 0 0 3 1 0 2 0 1 1 0 3 1 1 0 1 0 1 1 2 1 0 0 0
## [630] 1 0 1 1 2 1 2 0 1 0 3 1 2 1 0 2 0 0 1 0 1 1 2 1 1 1 0 1 1 0 2 2 1 1 2 0 2
## [667] 0 2 3 0 0 2 2 1 2 0 2 2 1 2 1 2 1 2 0 0 1 1 0 1 0 3 1 0 0 0 2 2 2 1 0 1 0
## [704] 0 2 3 0 0 3 2 0 0 1 0 1 0 2 1 1 4 0 2 0 1 2 2 1 2 1 0 1 1 1 0 0 0 0 2 1 0
## [741] 0 2 0 1 0 2 2 1 2 0 1 1 4 2 0 0 0 1 2 0 1 1 2 0 3 2 2 0 2 1 1 1 0 3 1 0 2
## [778] 3 1 3 0 1 3 2 0 0 0 1 0 0 0 1 2 1 1 0 2 0 0 2 1 0 1 2 2 0 0 0 1 0 0 0 2 0
## [815] 0 0 2 2 0 2 1 0 1 3 1 0 0 3 0 1 0 1 0 0 1 2 0 1 1 1 0 1 2 2 0 1 3 2 0 1 0
## [852] 2 0 1 1 2 1 0 0 0 0 1 0 1 1 2 0 1 1 3 1 0 0 2 0 0 0 3 0 1 2 2 0 0 1 1 3 0
## [889] 2 0 0 0 2 1 1 1 2 0 0 4 2 1 0 2 1 2 1 1 1 0 2 1 1 3 1 1 1 1 1 0 1 2 1 2 0
## [926] 2 2 0 0 1 0 0 1 0 0 1 1 0 1 0 1 0 0 1 0 1 0 0 1 0 1 2 1 2 1 2 0 1 2 1 1 4
## [963] 0 0 1 2 1 0 1 0 1 1 0 2 0 2 0 0 0 1 4 2 1 0 2 2 1 3 0 1 2 1 0 1 1 0 0 1 0
## [1000] 0
hist(num)
mean(num)
## [1] 0.995
sd(num)
## [1] 0.9879023
La media no coincide con los valores obtenidos en el histograma.
Publicado en: https://rpubs.com/EdwardSauceda/probabi