library(ggplot2)
library(foreign)
library(kableExtra)
library(scales)
library(openxlsx)
library(reshape2)
library(latex2exp, quietly = TRUE, verbose = FALSE) # meschiari20223 Exámenes parciales (20% cada uno)
2025-02-14.
2025-03-24.
2025-04-23.
Examen final (30%)
Todos los exámenes son departamentales.
Tareas (10%)
Formulario: permitido. El formulario oficial lo pueden descargar de la página del Departamento.
El canal primario de comunicación entre nosotros será la Bandeja de Entrada de Canvas. Por favor, estén atentos también a la sección de Anuncios.
La asistencia no es obligatoria, pero les recomiendo enfáticamente que asistan a clase. No hay un sustituto claro para el aprendizaje activo. Aprovéchenlo.
Como cualquier materia, se espera que ustedes hagan una gran parte del trabajo por su cuenta (fuera de clase). Una parte de este trabajo es previo a la clase, revisando el material propuesto para cada tema. Otra parte, también muy importante, es el trabajo posterior a la clase (repaso y tareas).
Una buena regla “de dedo” es realizar, al menos, el mismo número de ejercicios que los realizados en clase y en las tareas de manera independiente.
Hagan y entreguen las tareas. La experiencia señala claramente que quienes hacen el trabajo son los que obtienen resultados aprobatorios.
Sobre las calificaciones:
Calificaciones parciales (exámenes y tareas) no se redondean; la calificación final, sí.
El redondeo es estricto, no hay negociaciones.
Acorde al Art. 27 del Reglamento de Alumnos, es condición necesaria aprobar el examen final.
La calificación del examen final no se redondea. Calificaciones menores a 6 (estricto) son reprobatorias.
En la calificación de los exámenes se evaluará (en la medida de lo posible): 1) planteamiento, 2) desarrollo y 3) resultado. El resultado correcto puede resultar en una valoración positiva; un resultado incorrecto, pero con buen planteamiento o desarrollo, puede aportar puntos; resultados incorrectos, sin planteamiento o desarrollo claros no permiten valoración alguna.
El estándar para la presentación de resultados será a 4 decimales.
Esta es una materia coordinada por el Departamento de Estadística. Algunas decisiones podrán estar subordinadas al criterio que el Departamento imponga.
Del diccionario de la academia de la lengua española:
adj. Que tiene apariencia de verdadero.
adj. Creíble por no ofrecer carácter alguno de falsedad.
adj. Que depende del azar (‖ casualidad). Un proceso aleatorio.
adj. Perteneciente o relativo al juego de azar.
La teoría de la probabilidad es la ciencia de la incertidumbre, esto es, es la rama de las matemáticas que estudia a los objetos matemáticos que nos permiten analizar y describir nuestra ignorancia. La teoría de la probabilidad, por lo tanto, nos proporciona el marco conceptual para trabajar con nuestro conocimiento limitado y para poder tomar decisiones con base en lo que sabemos y lo que no sabemos (Evans and Rosenthal 2023).
Aunque todos tenemos una noción de a qué cosa nos referimos cuando hablamos de la probabilidad, la realidad es que no existe una única definición universalmente aceptada en términos científicos. En general, se puede afirmar que existen tres grandes perspectivas desde las cuales típicamente se define lo que entendemos por probabilidad (DeGroot 1988):
Pensemos en el ejemplo de un “volado”: es posible argumentar que existen únicamente dos resultados igualmente posibles (suponiendo una moneda y un lanzador “justos”): “águila” o “sol”, por lo que diremos que son igualmente probables.
En el ejemplo del “volado”: una observación es una muy mala aproximación a la probabilidad de obtener “águila” o “sol”; dos, probablemente también. ¿Cuántos volados necesitamos? Si realizamos una cantidad suficiente de volados seguramente se obtendrá una proporción cada vez más cercana a \(\frac{1}{2}\).
Tanto la interpretación clásica como la frecuentista tienen como inconveniente adicional que es complicado (imposible) aplicarlas cuando el número de posibles resultados es infinito. Esto puede hacernos reflexionar, por ejemplo, en la diferencia entre un resultado imposible y un resultado de probabilidad cero.
¿Cuál es la probabilidad asociada a seleccionar un número entero positivo al azar en específico? ¿Es un evento imposible?
Tampoco se prestan particularmente bien estas interpretaciones para el uso de probabilidades para describir situaciones que no han ocurrido nunca.
Por ejemplo, las asociadas a eventos en los que el contexto importa mucho y da lugar a circunstancias únicas: el resultado de un partido de basketball profesional.
En el ejemplo del volado, nuevamente, podríamos argumentar contar con información sobre las características de la moneda, o bien que conocemos a la persona que hace los lanzamientos, por lo que podemos suponer que los resultados no son igualmente probables. Esta es, desde luego, nuestra probabilidad porque contamos con información que otras personas no tienen.
Cada una de estas perspectivas puede sernos útil, dependiendo del problema que intentemos resolver, pero también es importante observar que son posturas complementarias y, frecuentemente, puede observarse que las conclusiones a las que se llega son las mismas, independientemente de qué postura adoptemos respecto de la probabilidad.
La Teoría de la Probabilidad busca desarrollar las herramientas para describir la incertidumbre en términos de modelos probabilísticos. En probabilidad, llamamos experimento a cualquier proceso cuyos resultados no se conocen de antemano con certeza (DeGroot 1988) o bien, en otras palabras, un experimento es un proceso mediante el cual una observación es realizada (Wackerly, Mendenhall, and Scheaffer 2008). En contraste a un experimento (aleatorio), podemos pensar en eventos o procesos determinísticos, en los cuales dadas unas condiciones iniciales es posible determinar con absoluta certeza el resultado del proceso.
Matemáticamente, el trabajo a realizar en la Teoría de la Probabilidad está fundamentalmente enfocado a dos grandes problemas:
Determinar las probabilidades de ciertos sucesos a partir de las probabilidades especificadas para cada uno de los posibles resultados de un experimento;
Métodos para revisar las probabilidades de los sucesos una vez que contamos con información o evidencia nueva o adicional.
Más adelante definiremos matemáticamente lo que entenderemos por probabilidad, aunque para poder hacerlo necesitamos retomar algunos elementos de teoría de conjuntos.
El estudio de la Teoría de la Probabilidad comenzó a en el s. XVI con trabajos de Gerolamo Cardano con la aplicación de métodos matemáticos a problemas de juego (apuestas) y, después en el s. XVII, por parte de Blaise Pascal y Pierre de Fermat.
El estudio matemático moderno de la probabilidad surge en los 1920’s principalmente a partir del trabajo de matemáticos como Ronald Aylmer Fisher (cuyo nombre hoy a caído un tanto en desgracia por sus posturas raciales y eugenéticas), Norbert Wiener, William Feller, Joe Doob y Richard von Mises. Sin embargo, la teoría de la probabilidad recibió un muy fuerte impulso por parte de matemáticos rusos de la época, como Andrey Kolmogorov, Andrei Andreyevich Markov y Pafnuty L. Chebyshev.
Durante la mayor parte de la historia de las matemáticas el estudio de la probabilidad fue considerado como un esfuerzo despreciable por tratarse de una aplicación menor del conocimiento matemático (esta visión prevaleció en algunas escuelas hasta bien entrado el siglo XX).
Existe una probabilidad del 20% de que llueva pues ha llovido 2 de los 10 días anteriores.
Según los expertos existe un 5% de probabilidad que un auto se accidente en el campo pues se considera que el riesgo es menor.
Existe una probabilidad del 50% de escoger una botas pues hay 10 botas entre los 20 zapatos disponibles.
Ya dijimos, entonces, que podemos entender a la probabilidad como una manera de asignar un valor a la incertidumbre asociada al resultado de un proceso aleatorio. A este proceso aleatorio que nos interesa observar le llamamos un experimento.
Ahora definiremos algunos conceptos adicionales que son fundamentales en el estudio de la probabilidad.
Observa que los eventos, al estar definidos como subconjuntos del espacio muestral, pueden ser simples (i.e., elementos individuales del espacio muestral que no pueden ser descompuestos o reducidos a unidades más pequeñas) o bien compuestos (i.e., un conjunto de elementos pertenecientes al espacio muestral).
Observa también que, dado que estamos hablando de conjuntos de “cosas” o resultados de un experimento, podemos pensar en que nuestro espacio muestral está compuesto de elementos contables, en cuyo caso lo llamaríamos un espacio muestral discreto. Sin embargo, es importante notar que con frecuencia nos interesan experimentos cuyos posibles resultados no forman parte de un conjunto contable, en cuyo caso estaríamos hablando de un espacio muestral continuo.
¿Qué categoría de automóviles prefiere usted? ¿Sedán, SUV o deportivo?
¿Cuántos hijos tiene usted?
¿Cuál es su estatura?
¿Qué tipo de espacios muestrales corresponden a cada experimento?
R :
(3), (4), (5), (1,3), (1,4), (1,5), (2,3), (2,4), (2,5), (1, 2, 3), (1, 2, 4), (1, 2, 5) (2, 1, 3), (2, 1, 4), (2, 1, 5)
R : (3), (4), (5), (2,3), (2,4), (2,5),
Nota que estamos haciendo referencia a conjuntos por lo que es conveniente repasar brevemente un poco de teoría de conjuntos.
Es muy importante que, para la definición correcta del espacio muestral aprendamos a distinguir claramente entre los eventos (sobre los que normalmente se nos solicitará calcular la probabilidad) y el experimento. Recuerda que un evento puede estar compuesto por varios resultados del experimento.
Una vez que contamos con un entendimiento de lo que es el espacio muestral de un experimento (y considerando las diferentes interpretaciones de la probabilidad) es posible notar que podemos encontrar dos diferentes relaciones del espacio muestral con la probabilidad. Para ello, consideremos un espacio muestral finito y discreto. Lógicamente, a cada elemento del espacio muestral corresponde una (y solo una) probabilidad. Entonces podemos asignar
la misma probabilidad a cada uno de los elementos del espacio muestral, en cuyo caso lo llamaremos un espacio muestral equiprobable o simple;
diferentes probabilidades a diferentes elementos del espacio muestral (no equiprobable).
La lotería.
El resultado de un partido de futbol.
El color de ojos de un individuo.
Subrayemos nuevamente la importancia del entendimiento del experimento para la definición del espacio muestral. En ocasiones será posible definir al espacio muestral alternativamente como equiprobable o no, dando lugar a respuestas más sencillas o complejas.
Es claro, por lo que hemos visto hasta ahora que, además de la teoría de conjuntos, otra herramienta frecuentemente (no siempre) muy útil en el cálculo de probabilidades es el conteo. En lo ejemplos que hemos visto hasta ahora es claro que nos interesa siempre conocer el número de eventos simples que forman al espacio muestral así como el número de eventos simples que conforman al evento de interés.
Como es lógico suponer, no siempre será posible listar todos los eventos posibles y contarlos uno por uno. Necesitamos herramientas que nos ayuden a realizar esta tarea de forma más eficiente.
En un esquema de muestreo sin reemplazo nos interesa ahora preguntarnos, ¿cuál es el número total de diferentes muestras que es posible levantar? Para ello, utilizaremos la regla de la multiplicación. En la fase 1 de nuestro experimento tenemos \(n\) posibles resultados; en la fase 2, \(n-1\); en la fase 3, \(n-2\) y así sucesivamente hasta la fase \(k\) de nuestro experimento en la que tendremos \(n-k+1\) posibles diferentes resultados. Por lo tanto, por la regla de multiplicación, tendremos en total \(N = n \times (n-1) \times (n-2) \times \dots \times (n-k+1)\) diferentes posibles resultados. Ahora, recodemos que \(n! = n \times (n-1) \times (n-2) \times \dots \times (n-k+1) \times \dots \times 2 \times 1\) por lo que es relativamente sencillo observar que \(N = \frac{n!}{(n-k)!}\).
En el muestreo con reemplazo el objeto seleccionado en cada fase se devuelve a la colección, por lo que puede volver a ser seleccionado en la fase siguiente. ¿Cómo determinas el número total de posibles diferentes muestras de tamaño \(k\) en de una colección de tamaño \(n\) en un ejercicio de muestreo con reemplazo?
Recordemos que un subconjunto es igual a otro si todos sus elementos son iguales. El orden en el que los elementos de los subconjuntos es presentado no importa. Por lo tanto, por ejemplo, de un conjunto formado por las letras \(\{a,b,c,d\}\) los subconjuntos \(\{a,b\}\) y \(\{b,a\}\) son iguales.
Si queremos entonces, determinar el número de combinaciones de tamaño \(k\) de un espacio muestral de tamaño \(n\) está claro que si contamos las variaciones totales (las permutaciones) estaríamos contando de más a algunas de estas combinaciones. Para determinar el número de combinaciones, entonces, tenemos que considerar que, una vez que se selecciona una determinada variación (permutación) de tamaño \(k\), esta tiene \(k!\) diferentes maneras de presentarse, por lo tanto:
\[ \begin{align*} k! C_{k}^n &= P_{k}^n\\ k! C_{k}^n &= \frac{n!}{(n-k)!}\\ C_{k}^n &= \frac{n!}{(n-k)!k!}\\ \end{align*} \]
\[ C_{8}^{25} = \frac{25!}{(25-8)!8!} = 1,081,575. \]
Finalmente, consideremos una situación en la que un espacio muestral de tamaño \(n\) se desea dividirlo en \(k\) grupos diferentes, cada uno de tamaño \(n_j \ (j = 1,2, \dots, k, \sum\limits_{j=1}^k n_j = n)\). ¿De cuantas maneras se pueden seleccionar los grupos?
Notemos que se pide que los grupos sean diferentes, es decir, nos piden calcular el número combinaciones posibles. Nuevamente, si contamos por partes, podemos observar que, para el primer grupo, de tamaño \(n_1\) es posible obtener \(C_{n_1}^n = \frac{n!}{(n-n_1)!{n_1}!}\) diferentes combinaciones; para el segundo, \(C_{n_2}^{n-n_1} = \frac{(n-n_1)!}{(n-n_1-n_2)!{n_2}!}\) y así sucesivamente. Por lo tanto, el número total de combinaciones será igual a:
\[ \frac{n!}{(n-n_1)!{n_1}!} \times \frac{(n-n_1)!}{(n-n_1-n_2)!{n_2}!} \times \dots \times \frac{(n-n_1 - \dots - n_{k-1})!}{(n-n_1-n_2- \dots - n_k)!{n_k}!} = \frac{n!}{{n_1}!{n_2}! \dots {n_k}!}. \]
Esta última expresión se conoce como el coeficiente multinomial.
\[ \frac{25!}{10!8!7!} = 21,034,470,600. \]
Con estas definiciones, podemos entonces retomar con un poco más de formalidad lo expuesto anteriormente sobre las interpretaciones de probabilidad. Dijimos entonces que una primera definición a la que generalmente se llega cuando pensamos en probabilidades consiste en definir la probabilidad asociada a un evento como el conteo del número de maneras en las que ese evento puede suceder dividido entre el número total de posibles resultados del experimento (cardinalidad del espacio muestral). Se le llama a esta definición la interpretación frecuentista, simple, naïve o ingenua de probabilidad (Blitzstein and Hwang 2014) porque es restrictiva y se basa en supuestos muy fuertes (p.e., supone que los posibles resultados del experimento constituyen un conjunto finito contable). Siguiendo esta definición, si \(A\) es el conjunto que representa al evento y \(\Omega\) al conjunto de todos los posibles resultados del experimento, entonces:
\[ P_{naive}(A) = \frac{|A|}{|\Omega|}. \]
Dijimos también que otra interpretación del concepto de probabilidad puede emanar de una visión subjetiva de la probabilidad. Esto es, interpretar la probabilidad como la verosimilitud que cada persona asigna a la obtención de un determinado resultado en un experimento. Esta interpretación, sin embargo, puede también dar pie a otro tipo de problemas.
En cualquier caso, puede establecerse una definición de probabilidad, desde un punto de vista matemático que, independientemente de la interpretación que hagamos de ella, nos permita desarrollar la teoría necesaria para el análisis de sus propiedades. Para ello, necesitamos considerar tres elementos fundamentales (que definen al espacio de probabilidad): el espacio muestral, una \(\sigma\)-álgebra (o campo) y una medida de probabilidad.
La definición de \(\sigma\)-álgebra es importante por que define a todos los eventos para los cuales la probabilidad estará definida. Es importante notar que la \(\sigma\)-álgebra puede ser el conjunto potencia, pero no tiene que serlo.
\[ \Omega = \{AA, AS, SS, SA\}. \]
Por otra parte, podemos definir una \(\sigma\)-álgebra como:
\[ \mathcal{F} = \{\emptyset, \Omega, \{AA, AS\}, \{SS, SA\}\} \]
\(P(A) \geq 0 \ \forall A \in \Omega;\)
\(P(\Omega) = 1;\)
Si \(A_1, A_2, \dots\) son eventos tales que \(A_i \cap A_j = \emptyset \ \forall \ i \neq j\) entonces \(P\left(\bigcup\limits_{i=1}^{\infty} A_i \right) = \sum\limits_{i = 1}^{\infty} P(A_i)\).
Sin embargo, observemos que \(\bigcup\limits_{i = 1}^\infty A_i = \bigcup\limits_{i = 1}^\infty \emptyset = \emptyset\) entonces \(P(A) = P(\emptyset) = \sum\limits_{i = 1}^\infty P(A_i) = \sum\limits_{i = 1}^\infty P(\emptyset)\). El único número perteneciente a los reales cuya suma es igual a si mismo es el cero, entonces:
\[P(A) = P(\emptyset) = 0\]
\[P\left(\bigcup\limits_{i=1}^{n} A_i\right) = P\left(\bigcup\limits_{i=1}^{\infty} A_i\right)\]
donde \(A_i = \emptyset \ \forall \ i > n\). Entonces:
\[P\left(\bigcup\limits_{i=1}^{n} A_i\right) = \sum\limits_{i = 1}^\infty P(A_i)\]
\[= \sum\limits_{i = 1}^n P(A_i) + \sum\limits_{i = n+1}^\infty P(A_i)\]
\[= \sum\limits_{i = 1}^n P(A_i)\]
\[ \begin{align*} A \cup B &= (A \cap B^c) \cup (A^c \cap B) \cup (A \cap B)\\ P(A \cup B) &= P(A \cap B^c) + P(A^c \cap B) + P(A \cap B)\\ A &= (A \cap B^c) \cup(A \cap B)\\ P(A \cap B^c) &= P(A) - P(A \cap B)\\ P(A \cup B) &= P(A) - P(A \cap B) + P(B) - P(A \cap B) + P(A \cap B)\\ &= P(A) + P(B) - P(A \cap B). \end{align*} \]
\[A \subseteq B \Rightarrow B = A \cup (B \cap A^c)\]
\[A \cap (B \cap A^c) = \emptyset \Rightarrow\]
\[P(B) = P(A) + P(B \cap A^c)\]
\[P(A) = P(B) - P(B \cap A^c)\]
pero
\[P(B \cap A^c) \geq 0 \ \ \ \text{por el axioma 1}\]
entonces
\[P(A) \leq P(B).\]
\[P(\Omega) = P(A \cup A^c)\]
\[= P(A) + P(A^c) \ \ \ \text{Por el axioma 3.}\]
Entonces:
\[1 = P(\Omega) = P(A) + P(A^c)\]
\[P(A^c) = 1 - P(A).\]
\[ \Omega = \{(D_1,D_2), (D_1,C_1), (D_1,C_2), (D_1,C_3), (D_2,C_1), (D_2,C_2), (D_2,C_3), (C_1,C_2), (C_1,C_3), (C_2,C_3)\}. \]
R :
\[ A = \{(C_1,C_2), (C_1,C_3), (C_2,C_3)\}. \]
Dado que \(A\) es la unión de tres de estos elementos, por propiedades de probabilidad sabemos que \(P(A) = 3 \times \frac{1}{10} = \frac{3}{10}\).
R :
\[ P(A) = 3 \times \frac{1}{9} = \frac{1}{3}\\ P(B) = 5 \times \frac{1}{9} = \frac{5}{9}\\ P(A \cap B) = \frac{1}{9}\\ P(A \cup B) = P(A) + P(B) - P(A \cap B) = \frac{3}{9} + \frac{5}{9} - \frac{1}{9} = \frac{7}{9}. \]
Si trazamos una linea paralela a los extremos de la tabla que pase por el punto \(x\), entonces podemos observar también que la aguja forma un ángulo \(\theta\) con esta línea paralela.
Nuestro espacio muestral consiste entonces en todas las posiciones en las que puede caer la aguja en la tabla, es decir, \(a \times \pi\) (todas las posiciones en las que puede caer su extremo inferior multiplicadas por todas las posiciones del ángulo).
Ahora, para poder definir nuestro evento, observemos que la aguja cortará el borde superior de la tabla únicamente si la altura de la aguja respecto de la paralela es mayor que la distancia de \(x\) al borde superior de la tabla, es decir, si \(a - x < l \sin \theta\) o \(a - l \sin \theta < x < a\).
Por lo tanto:
\[P(E) = \frac{\int\limits_{0}^{\pi} \int\limits_{a - l \sin \theta}^a dxd\theta}{a \pi}\]
\[= \frac{\int\limits_{0}^{\pi} a - (a - l \sin \theta) d\theta}{a \pi}\]
\[= \frac{\int\limits_{0}^{\pi} l \sin \theta d\theta}{a \pi}\]
\[= \frac{\left. -l \cos \theta \right|_{0}^{\pi}}{a \pi}\]
\[= \frac{l \cos 0 - l \cos \pi}{a \pi}\]
\[= \frac{2l}{a \pi}.\]
Wackerly, Mendenhall, and Scheaffer (2008), cap. 2.7, 2.8.
DeGroot (1988), cap. 2.1.
Hsu (1997), cap. 1.6, 1.7.
En algún momento al inicio de este material caracterizamos a la probabilidad como una medida de nuestra ignorancia o incertidumbre respecto de la ocurrencia de los posibles resultados asociados a un proceso. Por lo tanto, resulta quizá también lógico pensar que la probabilidad se verá afectada en la medida en la que nuestro conocimiento sobre los posibles resultados de dicho proceso cambie.
Por ejemplo, pensemos en las probabilidades que asociaríamos al resultado del lanzamiento de un dado si la persona que lo lanzó, sin decirnos desde luego el resultado, nos dice que el valor es menor a 5, o que el resultado fue un número par. La probabilidad que asignaríamos a la ocurrencia de los diferentes posibles resultados cambiaría en comparación de cuando no contábamos con esa información adicional.
A lo descrito anteriormente nos referimos cuando hablamos de probabilidad condicional.
\[ P(A|B) = \frac{P(A \cap B)}{P(B)} \]
A la expresión \(P(A \cap B) = P(A|B)P(B) = P(B|A)P(A)\) se le conoce como la regla o ley de la multiplicación.
Wackerly, Mendenhall, and Scheaffer (2008), cap. 2.7, 2.8.
DeGroot (1988), capítulo 1.11.
Un caso que resulta de particular interés distinguir es aquél en el que se tienen dos eventos, \(A\) y \(B\), en los que la ocurrencia o no ocurrencia de alguno de ellos no tiene impacto o influencia en la ocurrencia del otro. Decimos en este caso que se trata de eventos independientes.
Matemáticamente:
La intuición de esta definición puede derivarse de la idea de que si tenemos dos eventos cuya ocurrencia no depende del otro evento la probabilidad de ocurrencia de ambos en forma simultánea (la intersección) será igual a la frecuencia relativa de ocurrencia de uno multiplicada por la frecuencia relativa de ocurrencia del otro (desde un punto de vista muy frecuentista de la probabilidad).
\[ \begin{aligned} P[A] &= P[(A \cap B) \cup (A \cap B^c)]\\ &= P[A \cap B] + P[A \cap B^c]\\ P[A \cap B^c] &= P[A] - P[A \cap B]\\ &= P[A] - P[A]P[B]\\ &= P[A](1 - P[B])\\ &= P[A]P[B^c]. \end{aligned} \]
Desde luego, en ocasiones puede ser necesario inferir la independencia de dos eventos a partir del contexto del problema. En particular, podemos asumir que existe independencia cuando no existe una relación física entre los eventos.
\[ P(A \cup B) = P(A) + P(B) - P(A \cap B);\\ P(A) = \frac{1}{3};\\ P(B) = \frac{1}{4};\\ P(A \cap B) = P(A)P(B) = \frac{1}{3} \times \frac{1}{4} = \frac{1}{12};\\ P(A \cup B) = \frac{1}{2}. \]
Se puede extender la idea de independencia entre dos eventos a un número de eventos mayor a dos. Es decir, se dice que los eventos \(A_1, A_2, \dots, A_n\) son independientes si para cada subconjunto \(A_{i_1}, A_{i_2}, \dots, A_{i_j}\) y \(j = 2, 3, \dots, n\), se cumple que
\[ P[A_{i_1} \cap A_{i_2} \cap \dots \cap A_{i_j}] = P[A_{i_1}]P[A_{i_2}] \dots P[A_{i_j}]. \]
| EDUCACIÓN | ARRESTADO | NO ARRESTADO | TOTAL |
|---|---|---|---|
| 10 meses o más | 0.10 | 0.30 | 0.40 |
| 9 meses o menos | 0.27 | 0.33 | 0.60 |
| Total | 0.37 | 0.63 | 1.00 |
Si se selecciona un individuo al azar y se consideran los eventos
A: Tiene 10 o más meses de educación; B: Es arrestado.
Calcula:
Los eventos A y B, ¿son independientes?
Finalmente, notemos que:
\[ P(A) = P[(A \cap B^c) \cup (A \cap B)] = P[(A \cap B^c)] + P[(A \cap B)]\\ P[(A \cap B^c)] = P(A) - P[(A \cap B)]\\ = P(A) - P(A)P(B)\\ = P(A)[1 - P(B)]\\ = P(A)P(B^c). \]
Una situación en la que puede ser muy útil emplear nuestro conocimiento del concepto de probabilidad condicional es el caso en el que contamos con una manera de segmentar el espacio muestral en una partición. Si podemos hacer lo anterior, calcular la probabilidad de eventos pertenecientes a la \(\sigma\)-álgebra es posible mediante el siguiente teorema:
\[ P(A) = \sum\limits_{i = 1}^{k} P(A|B_i)P(B_i). \]
\[ A = A \cap \Omega = A \cap (B_1 \cup B_2 \cup \dots \cup B_k) = (A \cap B_1) \cup (A \cap B_2) \cup \dots \cup (A \cap B_k) \]
por lo que
\[ P(A) = P(A \cap B_1) + P(A \cap B_2) + \dots + P(A \cap B_k) \\ = P(A | B_1)P(B_1) + P(A | B_2)P(B_2) + \dots + P(A | B_k)P(B_k). \]
Ahora, si bien esto nos puede ayudar en muchas circunstancias, podemos también aplicar este resultado para demostrar lo que se conoce como el Teorema de Bayes, que nos permite resolver el problema contrario, encontrar la probabilidad de uno de los eventos de una partición condicionado en la observación de otro evento:
\[ P(B_j|A) = \frac{P(A|B_j)P(B_j)}{\sum\limits_{i=1}^k P(A|B_i)P(B_i)} \] ****
\[ P(A) = \sum\limits_{i = 1}^5 P(A|B_i)P(B_i);\\ P(B_i) = \frac{1}{5};\\ P(A|B_1) = 0;\\ P(A|B_2) = \frac{2}{5} \times \frac{1}{4} = \frac{2}{20};\\ P(A|B_3) = \frac{3}{5} \times \frac{2}{4} = \frac{6}{20};\\ P(A|B_4) = \frac{4}{5} \times \frac{3}{4} = \frac{12}{20};\\ P(A|B_5) = 1;\\ P(A) = 0 \times \frac{1}{5} + \frac{2}{20} \times \frac{1}{5} + \frac{6}{20} \times \frac{1}{5} + \frac{12}{20} \times \frac{1}{5} + \frac{20}{20} \times \frac{1}{5}\\ = \frac{2}{5}. \]
\[ P(B_3|A) = \frac{P(A|B_3)P(B_3)}{\sum\limits_{i = 1}^5 P(A|B_i)P(B_i)} = \frac{6/20 \times 1/5}{2/5} = 3/20. \]
El anfitrión del concurso sabe detrás de cuál de las puertas se encuentra el premio. La dinámica del concurso sigue de manera que, una vez que la concursante ha escogido la puerta detrás de la cuál se encuentra el premio el anfitrión abre una de las puertas detrás de las cuales no hay premio y le presenta la alternativa de cambiar su elección.
Con base en lo estudiado hasta ahora, ¿le conviene a la concursante cambiar su elección? ¿le perjudica? ¿le es indistinto?
Si llamamos a la puerta que eligió la concursante la puerta número 1, denotamos a la puerta que abrió el presentador como \(P_2\) y denotamos al evento de que el premio esté en la puerta \(i\) como \(C_i\), entonces podemos intentar calcular las siguientes probabilidades:
\[ \begin{align*} P(P_2 | C_1) &= \frac{1}{2}\\ P(P_2 | C_2) &= 0\\ P(P_2 | C_3) &= 1\\ \end{align*} \]
Nota que la última probabilidad deriva del hecho de que, como la concursante escogió la puerta 1 y el presentador sabe que el premio está en la puerta 3, no tiene otra alternativa más que abrir la puerta 3.
Considerando lo anterior, entonces:
\[ \begin{align*} P(C_1 | P_2) &= \frac{P(P_2|C_1) \times P(C_1)}{P(P_2|C_1) \times P(C_1) + P(P_2|C_2) \times P(C_2)+ P(P_2|C_3) \times P(C_3)} \\ &= \frac{\frac{1}{2} \times \frac{1}{3}}{\frac{1}{2} \times \frac{1}{3} + 0 \times \frac{1}{3} + 1 \times \frac{1}{3}}\\ &= \frac{1}{3}\\ P(C_2 | P_2) &= 0\\ P(C_3 | P_2) &= \frac{P(P_2|C_3) \times P(C_3)}{P(P_2|C_1) \times P(C_1) + P(P_2|C_2) \times P(C_2)+ P(P_2|C_3) \times P(C_3)} \\ &= \frac{1 \times \frac{1}{3}}{\frac{1}{2}}\\ &= \frac{2}{3}. \end{align*} \]
Las probabilidades sugieren, por lo tanto, que la concursante debería cambiar su elección.
El problema de Monty Hall ha sido usado ampliamente para ejemplificar el hecho de que el cálculo de probabilidades no es algo intuitivo siempre y sirve para hacernos entender la mecánica detrás de algunas decisiones no triviales en presencia de incertidumbre. Como mínimo, es una llamada de atención a pensar detenidamente nuestra percepción de las probabilidades.
Muestre que para cualquier par de eventos A y B se satisface que \(P(A) + P(B) − 1 \leq P(A ∩ B) \leq P(A ∪ B) \leq P(A) + P(B)\)
Ahora, sabemos que si \(A \subset B\) entonces \(P(B) \geq P(A)\) y \(P(A \cap B) = P(A)\) por lo tanto \(P(A \cup B) = P(A) + P(B) - P(A \cap B) = P(B)\). Si $ A B = $ entonces por fuerza \(P(A \cup B) \geq P(A \cap B)\) ya que \(P(\emptyset) = 0\).
Finalmente, sabemos que para cualesquiera eventos A, B \(P(A \cap B) \geq 0\), entonces \(P(A \cup B) \geq P(A) + P(B)\).
Considere un juego de poker. Hay cuatro tipos de cartas: corazones, diamantes, tréboles y picas. Hay 13 números: 2, 3, . . . , 9, 10, J, Q, K, A. Una corrida de 5 cartas puede ser: A, 2, 3, 4, 5; 2, 3, 4, 5, 6; . . . ; 10, J, Q, K, A. Calcule la probabilidad de cada una de las siguientes manos:
Un distrito electoral tiene 350 votantes, de los cuales 250 son demócratas y 100 son republicanos. Si se seleccionan aleatoriamente 30 votantes de la zona, ¿cuál es la probabilidad de que se seleccionen exactamente 18 demócratas?
El número de diferentes maneras en las que podemos seleccionar a 18 demócratas: \(C^{250}_{18}\);
El número de diferentes maneras en las que podemos seleccionar a 12 republicanos: \(C^{100}_{12}\);
El número de diferentes maneras en las que podemos seleccionar una muestra de 30 personas: \(C^{350}_{30}\).
Entonces: \(p = \frac{C^{250}_{18} \times C^{100}_{12}}{C^{350}_{30}}\).
Un minorista vende dos tipos de equipos de audio, ambos igualmente demandados. A su tienda entran cuatro clientes de manera sucesiva a comprar. Si el vendedor está interesado en sus preferencias:
\[ \Omega = \{ (T_1,T_1,T_1,T_1) ,(T_1,T_1,T_1,T_2) ,(T_1,T_1,T_2,T_1) ,(T_1,T_2,T_1,T_1) ,(T_2,T_1,T_1,T_1) ,(T_1,T_1,T_2,T_2) ,(T_1,T_2,T_1,T_2) ,(T_2,T_1,T_1,T_2) ,(T_1,T_2,T_2,T_1) ,(T_2,T_1,T_2,T_1) ,(T_2,T_2,T_1,T_1) ,(T_1,T_2,T_2,T_2) ,(T_2,T_1,T_2,T_2) ,(T_2,T_2,T_1,T_2) ,(T_2,T_2,T_2,T_1) ,(T_2,T_2,T_2,T_2) \} \]
Sulley y Wazowski lanzan un par de dados alternadamente, sumando los resultados de las caras en cada lanzamiento. Sulley gana si obtiene una suma de 6 antes de que Wazowski obtenga una suma de 7 (en cuyo caso Wazowski gana). Si Sulley empieza el juego, ¿cuál es la probabilidad de que gane el juego? (Sugerencia: recuerde que \(\sum\limits_{x = j}^\infty p^x = \frac{p^j}{1 - p}\)).
\(k = 1\). Para que Sulley gane el primer lanzamiento necesita sacar una suma de 6. Esto lo puede hacer de 5 maneras diferentes de un total de 36 diferentes posibles lanzamientos que puede hacer de los dos dados. Por lo tanto, la probabilidad de ganar en el primer lanzamiento será igual a \(5/36\).
\(k = 2\). Para que Sulley gane en su segundo lanzamiento, forzosamente necesita perder en el primero y que Wazowski también pierda en su primer lanzamiento. La probabilidad de no sacar 6 en un lanzamiento es de \(31/36\). La probabilidad de no sacar 7 en un lanzamiento es \(1 - 1/6 = 30/36\). Por lo tanto, la probabilidad de que Sulley gane en su segundo lanzamiento será igual a \(\frac{31}{36} \times \frac{30}{36} \times \frac{5}{36}\).
\(k = 3\). Siguiendo el mismo razonamiento, la probabilidad de que Sulley gane en su tercer lanzamiento será igual a \((\frac{31}{36})^2 \times (\frac{30}{36})^2 \times \frac{5}{36} = (\frac{31 \times 30}{36 \times 36})^2 \times \frac{5}{36}\).
\(k = j\). \((\frac{31 \times 30}{36 \times 36})^{j-1} \times \frac{5}{36}\).
Entonces, la probabilidad que buscamos corresponde a
\[ \begin{aligned} \sum\limits_{x = 1}^\infty (\frac{31 \times 30}{36 \times 36})^{x-1} \times \frac{5}{36} &= \frac{5}{36} \sum\limits_{x = 1}^\infty (\frac{31 \times 30}{36 \times 36})^{x-1}\\ &= \frac{5}{36} \sum\limits_{x = 0}^\infty (\frac{31 \times 30}{36 \times 36})^{x}\\ &= \frac{5}{36} \times \frac{1}{1 - \frac{31 \times 30}{36 \times 36}}\\ &= \frac{5}{36} \times \frac{36 \times 36}{36 \times 36 - 31 \times 30}\\ &= \frac{5 \times 36}{36 \times 36 - 31 \times 30}\\ &= \frac{180}{366}\\ &= 0.4918. \end{aligned} \]
Para mantener sus estándares de calidad, la cafetería del ITAM seleccionó a dos personas para que valúen el servicio. Supongamos que cada persona independientemente asigna una calificación en el conjunto \(\{1,2,3,4,5\}\), uniformemente al azar.
\[ \Omega := \{(x,y) \backepsilon x,y \in \{1,2,3,4,5\}\}. \]
También podemos listarlas:
\[ \Omega = \{(1,1),(1,2),(1,3),(1,4),(1,5),(2,1),(2,2),(2,3),(2,4),(2,5),(3,1),(3,2),(3,3),(3,4),(3,5),(4,1),(4,2),(4,3),(4,4),(4,5),(5,1),(5,2),(5,3),(5,4),(5,5)\}. \]
La cardinalidad del espacio muestral es igual a \(|\Omega| = 5^2 \times 5^2 = 25\).
\[ P(A) = \frac{5}{25} = \frac{1}{5}; P(B) = \frac{5}{25} = \frac{1}{5}; P(A\cap B) = \frac{1}{25} = \frac{1}{5} \times \frac{1}{5} = P(A)P(B). \]
Por lo tanto, A y B son independientes.
\[ P(A^c|B^c) = \frac{P(A^c \cap B^c)}{P(B^c)} = \frac{16}{20} = \frac{4}{5} \] ***
Una empresa tiene 15 vacantes disponibles, distribuidas de la siguiente manera: 5 en el área de administración, 6 en el área de finanzas y 4 en el área de análisis de datos. Si la empresa contrata a 10 egresados del ITAM para ocupar 10 de las 15 vacantes disponibles:
¿Cuál es la probabilidad de que 2 de los egresados del ITAM ocupen vacantes para el área de finanzas?
Ahora supongamos que de los 10 egresados del ITAM recién contratados 4 ocupan el área de finanzas y 3 el área de análisis de datos. Si la empresa selecciona para una capacitación a 2 de los 10 egresados del ITAM, ¿cuál es la probabilidad de que al menos uno de ellos pertenezca al área de administración?
El autobús del ITAM llega a tiempo, o bien, llega tarde. La probabilidad de que llegue tarde es de 0.6. Si el autobús del ITAM llega tarde, la probabilidad condicional de que haya tráfico en la ciudad es de 0.7. Si el autobús del ITAM llega a tiempo, la probabilidad condicional de que haya tráfico es de 0.1. Si un día observas tráfico, ¿cuál es la probabilidad condicional de que el autobús del ITAM llegue tarde?
La cafetería del ITAM es visitada por Farah durante la hora de comida en un día de lunes a viernes con la misma probabilidad, a saber \(p\). Su visita es independiente entre los días. Un integrante de la facultad del ITAM asiste de lunes a viernes a la cafetería del ITAM a la hora de la comida.
¿Cuál es la probabilidad de que la persona se encuentre a Farah dos días?
¿Cuál es la probabilidad de que la persona vea a Farah por segunda vez en la semana el viernes?
Según las estadísticas de ventas del mes pasado, se sabe que el 10% de las personas que entran a la tienda del ITAM no compran nada, y aquellas que sí compran se llevan únicamente un peluche de Colmillo en alguno de los colores disponibles. El Colmillo gris es el más solicitado; de hecho, la probabilidad de que un visitante de la tienda ITAM se lleve un Colmillo gris es el doble que la de un Colmillo café.
Como parte de las estrategias de venta de la tienda ITAM, se ofrecen “combos Colmillo”. Al adquirirlos, la persona se lleva un peluche de Colmillo en uno de los colores, gris o café, además de un artículo que puede ser una taza o bien una bolsa. Cuando las personas piden el Colmillo gris, el 80% adquieren el combo con taza; por el contrario, cuando piden el Colmillo café, solo el 40% adquiere la bolsa.
Basándote en todo lo anterior, calcula la probabilidad de que una persona adquiera una taza.
Wackerly, Mendenhall, and Scheaffer (2008), cap. 3, 4.
Bertsekas and Tsitsiklis (2008), cap. 2.
Hasta ahora, hemos estado asignando probabilidades a eventos (subconjuntos) pertenecientes a una \(\sigma\)-álgebra, y estos subconjuntos los hemos formado de cualquier cosa. En la práctica, sin embargo, cuando calculamos probabilidades no trabajamos directamente con subconjuntos de cosas sino con números, subconjuntos de números. Esto se debe a que, por un lado, es frecuente que trabajemos con números en la práctica (por ejemplo, rara vez nos interesa la cosa en sí, sino una característica de la cosa, característica que típicamente podemos representar mediante un número: una medición). Por otro lado, los números tienen características interesantes y útiles que permiten manipularlos para nuestros fines de manera más apropiada que a las cosas en sí.
Por lo tanto, cuando trabajamos con probabilidades, normalmente trabajamos también con variables aleatorias.
Para simplificar la notación, es común referirse a \(X(\omega)\) únicamente como \(X\). Por lo que, al utilizar probabilidades, nos referiremos a \(P(X(\omega) = x)\) como \(P(X = x)\). Nota que se acostumbra representar a la variable aleatoria con una letra mayúscula (\(X\), en este caso), mientras que se usan letras minúsculas (\(x\)) para denotar un valor en particular que esta variable aleatoria puede tomar.
Una variable aleatoria, por lo tanto, siempre tendrá como codominio un subconjunto de los números reales. Así pues, podemos dividir a las variables aleatorias en dos grandes grupos:
Discretas: variables aleatorias cuyo codominio es contable. En otras palabras, el codominio toma valores en un subconjunto de los números enteros. Las variables aleatorias discretas, por este motivo, frecuentemente representan conteos de cosas.
Continuas: variables aleatorias cuyo codomio es un intervalo de la recta real. Por su naturaleza, las variables aleatorias continuas con frecuencia representan mediciones de algún atributo o característica de un fenómeno o sujeto de interés.
Por definición, la probabilidad asociada a cualquier valor que no se encuentre en el codominio de la variable aleatoria es igual a cero.
Una observación que resulta interesante es el hecho de que una función aplicada a una variable aleatoria (recordemos que las variables aleatorias son funciones) define a una nueva variable aleatoria.
Anteriormente ya mencionamos que \(P(X = x)\) representa la probabilidad asignada al evento que consiste en que la variable aleatoria \(X\) tome el valor \(x\). En el caso discreto, a \(P(X = x)\) con frecuencia también se le representa como \(p_X(x)\) y se le conoce como la función de masa de probabilidad o función de densidad de la variable aleatoria \(X\).
En el caso discreto, en ocasiones también se le llama función de probabilidad. Sin embargo, este nombre es problemático cuando queremos generalizar su uso, por motivos que veremos más adelante.
\[ p_X(x) = \left\{\begin{array}{}\frac{1}{4} & x = 0\\\frac{1}{2} & x=1\\\frac{1}{4} & x = 2\\0 & e.o.c.\end{array}\right. \]
\(p_X(x) = 0\) para toda \(x\) que no pertenezca al dominio de \(X\).
\(\sum\limits_x p_X(x) = 1\) (se sigue directamente de las propiedades de probabilidad).
Para cualquier \(S\), subconjunto del dominio de \(X\), \(P(X \in S) = \sum\limits_{x \in S} p_X(x)\).
\[ P(1 \leq X \leq 2) = \sum\limits_{x = 1}^2 p_X(x) = \frac{1}{2} + \frac{1}{4} = \frac{3}{4}. \]
Podemos ahora también fijarnos en la probabilidad asociada a un conjunto de valores. En particular nos interesa \(P(X \leq x)\). Dado que estamos en el caso discreto, se desprende directamente de las propiedades de probabilidades que \(P(X \leq x) = \sum\limits_{k \leq x} P(X = k)\). A \(P(X \leq x)\) se le conoce como la función de distribución de \(X\) o función de probabilidad acumulada y se le denota normalmente como \(F_X(x)\).
\[ F_X(x) := P(\{\omega \in \Omega : X(\omega) \leq x\}) = P(X \leq x) \]
la función de densidad de \(X\).
Observa que las funciones de distribución son siempre funciones monotónicas crecientes. Notemos que, entonces
\[ P(a < X \leq b) = P(X \leq b) - P(X \leq a) = F(b) - F(a). \]
¿Por qué?
En particular, es importante tener en cuenta las siguientes propiedades de cualquier función de distribución:
\(\lim\limits_{x \rightarrow -\infty} = 0\);
\(\lim\limits_{x \rightarrow \infty} = 1\);
Si \(x_1 < x_2\) entonces \(F(x_1) < F(x_2)\);
\(F(x)\) siempre es una función continua por la derecha. Es decir que \(\lim\limits_{y \rightarrow x\\y>x} F(y) = F(x)\) para toda \(x\).
Nota importante: observa que, para el caso discreto, \(P(X < x) \neq F(x)\).
¿Por qué?
R :
\[ F_X(x) = \left\{\begin{array}{}\frac{1}{4} & x \leq 0\\\frac{3}{4} & x \leq 1\\1 & x \leq 2\end{array}\right. \]
En el ejemplo anterior, ¿cuál sería la probabilidad de que a lo más 4.57 personas presenten efectos secundarios?
¿Y la probabilidad de que exactamente 4.57 personas presenten efectos secundarios?
Consideremos entonces ahora el caso continuo. ¿Cuál es \(P(X = x)\)? Informalmente, por el momento, nota que, dado que para una variable aleatoria continua existe siempre un número infinito de posibles resultados la probabilidad asignada a un punto sería igual a \(\frac{1}{\infty}\).
\([\dots]\) resulta matemáticamente imposible asignarle probabilidades diferentes de cero a todos los puntos dentro de un intervalo y satisfacer, al mismo tiempo, el requisito de que la suma de las probabilidades asignadas a todos los puntos sea igual a 1.
Para las vv.aa. continuas usaremos la misma definición de la función de distribución que utilizamos en el caso discreto. Esto no representa un problema porque la función de distribución la definimos como \(F_X(x) = P(X \leq x)\) por lo que estamos hablando de la probabilidad asignada a un intervalo, no a un punto. Entonces, para desarrollar definiciones equivalentes a las trabajadas en el caso discreto necesitamos observar lo siguiente. Si \(X\) es una v.a. continua, entonces por fuerza \(F_X(x)\) debe ser también una función continua y, suponiendo que \(F_X(x)\) es diferenciable, podemos utilizar el Teorema Fundamental del Cálculo para encontrar una función \(f_X(x)\) tal que
\[ f_X(x) = \frac{d}{dx}F_X(x) \]
o, equivalentemente
\[ F_X(x) = \int\limits_{-\infty}^x f_X(x) dx. \]
Intuitivamente, ¿puedes observar la similitud con el caso discreto?
A \(f_X(x)\) se le conoce como la función de densidad o masa de \(X\) (no probabilidad, recordemos que la probabilidad asociada a un punto de una v.a. continua es cero).
\[ P(a \leq X \leq b) = \int\limits_{a}^bf_X(x)dx \]
para cualquier intervalo \((a,b) \in S_X\)
Dijimos, para el caso discreto, que \(P(X < x) \neq F(x)\), ¿aplica esto para el caso continuo?
\[ F(x) = \int\limits_{0}^x f(t)dt\\ = \int\limits_{0}^x 3t^2dt\\ = \left.3 \times \frac{1}{3} t^3\right|_{0}^x\\ = 3 \times \frac{1}{3} x^3\\ = x^3. \]
Ahora, observa que la expresión obtenida hasta aquí aplica únicamente al intervalo \(0 \leq x \leq 1\) ya que \(F(x) = 0\) para \(x < 0\) y \(F(x) = 1\) para \(x > 1\). Por lo tanto, la función de distribución completa será:
\[ F(x) = \left\{\begin{array}{}0 & x < 0\\x^3 & 0 \leq x \leq 1\\1 & x > 1\end{array}\right. \]
Es importante señalar que, con mucha frecuencia, trabajaremos con variables aleatorias cuyas funciones de distribución o de masa han sido previamente estudiadas ya que describen (modelan) razonablemente bien algunos fenómenos, o presentan características que nos resultan de interés o utilidad. En estos casos, por lo regular, estas funciones son estudiadas en su forma lo más generalizada posible por lo que se presentan como funciones cuya forma depende del valor que tomen algunos parámetros. En términos de notación, podemos pensarlas como:
\[ F_X(x|\Theta);\\ f_X(x|\Theta)\\ \]
donde la “condición”, no representa una dependencia de una variable aleatoria sino de un parámetro conocido.
\[ f(x) = \left\{\begin{array}{}\frac{1}{b-a} & x \in (a,b)\\0 & e.o.c.\end{array}\right. \]
Podemos ver que
\[ F(x) = \int\limits_{a}^x f(x)dx = \int\limits_{a}^x \frac{1}{b-a} dx = \frac{x-a}{b-a} \]
por lo que
\[ \int\limits_{a}^b f(x)dx = 1. \]
Adicionalmente, podemos ver que \(F(x)\) es creciente, continua y diferenciable para cualquier punto en el intervalo \((a,b)\). \(F(x)\) es, por tanto, una función de distribución continua y su derivada, \(f(x)\) es una función de densidad.
A \(F(X)\) se le conoce como la función de distribución uniforme (continua) con parámetros \((a,b)\).
Se usa el símbolo \(\sim\) para denotar la distribución que sigue una v.a. Así, en ejemplo anterior, para decir que la v.a. \(X\) sigue una distribución uniforme con parámetros \(a\) y \(b\) lo podemos escribir como: \(X \sim Uniforme(a,b)\).
Finalmente, es importante observar que nada impide que podamos definir vv. aa. mixtas, esto es, vv. aa. que pueda tomar valores en un conjunto de valores que resulta de unir un subconjunto de valores discretos y un intervalo continuo. Recordemos únicamente que su función de distribución debe cumplir con el requisito de continuidad por la derecha (motivo por el cual los ejemplos más frecuentes consisten en variables aleatorias discretas en un subconjunto y continuas a partir de un valor a la derecha del máximo valor del subconunto discreto).
\(\lim\limits_{x \rightarrow -\infty} F_X(x) \lim\limits_{x \rightarrow -\infty} \frac{x}{2} I_{(0,1]}(x)= 0\).
\(\lim\limits_{x \rightarrow \infty} F_X(x) = \lim\limits_{x \rightarrow \infty} I_{(4,\infty]}(x) = 1\).
Cada tramo en el que \(F_X(x)\) está definida es creciente por lo que \(F_X(x_1) \leq F_X(x_2)\) para todas \(x_1 \leq x_2\).
Para toda \(x\) en el dominio de \(X\) se observa que \(\lim\limits_{h \rightarrow 0} F_X(x+h) = F_X(x)\). En particular, para \(x=1\) \(\lim\limits_{h \rightarrow 0} F_X(1+h) = \frac{1}{2}\); y para \(x=4\) \(\lim\limits_{h \rightarrow 0} F_X(4+h) = 1\).
En estricto sentido, podríamos decir que si queremos describir a una v.a. toda la información que necesitamos está contenida en su función de distribución / densidad. Sin embargo, es claro que, dada la naturaleza de estas funciones, no es sencillo ni intuitivo para la mayoría de nosotros identificar rasgos relevantes de la v.a. simplemente por conocer la función de distribución. Normalmente recurrimos a ciertos valores o atributos de referencia que nos permiten describir o conocer características de la v.a. y que nos hablan de diferentes aspectos que tienen relación con su comportamiento. Los rasgos más comunes (aunque no los únicos) en los que nos fijamos para describir a la v.a. nos sirven para describir la ubicación de ciertos valores relevantes (p.e., medidas de “centralidad”) mientras que otros nos hablan de qué tan dispersos se encuentran los valores (i.e., medidas de “dispersión”).
Los primeros valores de los que vamos a hablar tienen que ver con la ubicación de ciertos puntos relacionados con la función de distribución: los cuantiles de una v.a. Estos valores nos permiten saber en dónde se encuentran los valores de la v.a. hasta los cuales se acumula una determinada probabilidad de ocurrencia.
Algunos cuantiles frecuentemente utilizados son los llamados cuartiles (0.25, 0.5, 0.75) y los deciles (0.1, 0.2, …, 0.9). En especial al cuantil \(0.5\) se le conoce como la \(mediana\) de la v.a. La mediana es un cuantil particularmente importante porque es considerada una de las medidas de centralidad de referencia (ya que es el valor hasta el cual la v.a. acumula la mitad de la probabilidad). Los cuantiles, en términos generales, son importantes, por ejemplo, si queremos comparar dos variables aleatorias para determinar cuál acumula probabilidad “más rápido” o “más lento” que la otra.
\[ F(x) = \left\{\begin{array}{}0 & x < 0\\x^3 & 0 \leq x \leq 1\\1 & x > 1\end{array}\right. \]
Encuentra su mediana.
\[ p_X(x) = \left\{\begin{array}{}1/2 & x = 0\\1/4 & x = 1\\1/4 & x = 2\\0 & e.o.c. \end{array}\right. \]
Calcula el cuantil 0.2 de \(X\).
La moda se considera, al igual que la mediana, una medida de centralidad ya que ambos, de alguna manera, ubican un punto “central” de la distribución de los datos. En el caso de la moda, siempre será posible determinarla para vv.aa. discretas pero no siempre en el caso de las vv. aa. continuas.
Otro punto a cuidar cuando calculamos la moda de una v.a. es el recordar que algunas distribuciones pueden tener más de una moda (multi-modales), o bien, pueden tener modas locales.
\[ F_X(x) = \left\{\begin{array}{}0 & x < 1\\1/3 & 1 \leq x < 2\\4/9 & 2 \leq x < 3\\2/3 & 3 \leq x < 4\\8/9 & 4 \leq x < 5\\1 & 5 \leq x\end{array}\right. \]
Encuentra la moda de \(X\).
\[ p_X(x) = \left\{\begin{array}{}3/9 & x=1\\1/9 & x = 2\\2/9 & x = 3\\2/9 & x = 4\\1/9 & x=5\end{array}\right. \]
por lo que la moda de \(X\) es igual a 1.
\[ f_X(x) = \frac{d}{dx} F_X(x)\\ = \frac{d}{dx} x^3\\ = 3 x^2. \]
Para encontrar el máximo de esta función, entonces, primero derivamos e igualamos a cero:
\[ \frac{d}{dx} f_X(x) = 6x 6x = 0 x = 0. \]
Pero si calculamos la segunda derivada de la función:
\[ f''_X(x) = 6 > 0. \]
Entonces, la función de densidad tiene un mínimo, y no tiene un máximo global (aunque esto ya lo sabíamos, ¿no?). Sin embargo, sabemos que \(0 \leq x \leq 1\) por lo que \(0 \leq x^2 \leq x \leq 1\). Entonces, la función tiene un máximo local en 1.
Por lo tanto, la moda de la v.a. es igual a 1.
La media, esperanza o valor esperado de una v.a. es el valor promedio de los valores que puede tomar la v.a. No se trata de un promedio simple, sino del promedio ponderado por la probabilidad asignada a cada valor.
\[ E(X) = \sum\limits_{x \in \mathcal{I}} xp_X(x); \]
\[ E(X) = \int\limits_{S_X} xf_X(x)dx. \]
Aunque no siempre, es común hacer referencia a la media de una variable aleatoria mediante la letra griega \(\mu\).
Conceptualmente, es clara la diferencia entre las dos principales medidas de “centralidad” de una v.a. Sin embargo, en la práctica las diferencias conceptuales tienen repercusiones importantes. Si bien es posible encontrar algunas vv.aa. para las cuales ambos valores arrojan valores muy similares (si no es que idénticos), por lo general se describe a la media como una medida que no es “robusta”. Esto quiere decir que si se cambian los valores de la v.a., y particularmente los valores de los extremos, la media de la v.a. tenderá a cambiar (y por lo general significativamente), mientras que el valor de la mediana no. Por lo tanto, la mediana se considera una medida más estable en la presencia de valores extremos. Si queremos conocer el comportamiento de una v.a. normalmente tendremos que ver ambas.
Si \(c\) es una constante, \(X\) una v.a. y la \(E(X)\) existe, entonces \(E(cX) = cE(X)\).
\(E(X + Y) = E(X) + E(Y)\).
Si \(X > 0\), entonces \(E(X) > 0\).
Si \(X \leq Y\) entonces \(E(X) \leq E(Y)\).
Si \(g\) es una función convexa y \(g(E(X))\) existe, entonces \(g(E(X)) \leq E(g(X))\) (desigualdad de Jensen).
Para cualquier evento \(A\), sea la v.a. \(X = I_A\). \(E(X) = P(A)\).
Si \(X\) es una v.a. discreta que toma valores en los enteros no negativos, entonces
\[ E(X) = \sum\limits_{k = 0}^\infty P(X > k) \]
\[ E(X) = \int\limits_{0}^\infty (1 - F(x))dx. \]
\[ E(g(X)) = \sum\limits_{x \in \mathcal{I}} g(x)p_X(x) \]
donde \(X\) es una v.a. discreta y \(p_X(x)\) es la función de masa de probabilidad de \(X\), o bien,
\[ E(g(X)) = \int\limits_{S_X} g(x)f_X(x)dx. \]
donde \(X\) es una v.a. continua y \(f_X(x)\) es la función de densidad de \(X\).
\[ L = \left\{\begin{array}{}1 - X & X \leq 0.5\\ X & X \geq 0.5\end{array}\right. \]
entonces
\[ E(L) = \int\limits_0^{0.5} (1-x)dx + \int\limits_{0.5}^1 xdx\\ = \left. \left(x - \frac{x^2}{2} \right) \right|_0^{0.5} + \left. \frac{x^2}{2} \right|_{0.5}^{1}\\ = \frac{1}{2} - \frac{1}{8} + \frac{1}{2} - \frac{1}{8}\\ = 1 - \frac{2}{8}\\ = \frac{6}{8}\\ = \frac{3}{4}. \]
\[ E(X) = E\left(\sum\limits_{i=1}^n X_i\right) = \sum\limits_{i=1}^n E\left(X_i\right) = np. \]
Por otra parte, observemos también que la v.a. \(Y\) puede ser re-expresada como \(n-X\) por lo que:
\[ E(X-Y)=E(X-n+X)=E(2X-n)=2E(X)-n=2np-n=n(2p-1). \]
| # hijos | # familias |
|---|---|
| 0 | 21 |
| 1 | 40 |
| 2 | 42 |
| 3 | 27 |
| 4 o más | 23 |
\[ Media = \frac{0 \times 21 + 1 \times 40 + 2 \times 42 + 3 \times 27 + 4 \times 23}{153}\\ = 1.941. \]
Nota que para el cálculo de la media es necesario tomar una decisión sobre qué valor utilizar para la última categoría ya que podría haberse utilizado otro valor (mayor a 4, desde luego).
\[ Mediana = 2\\ P(X \leq 2) = 0.6732\\ P(X < 2) = 0.3986928. \]
\(E(X^3)\)?
\(E(\sqrt{X})\)?
\(E(\ln{X})\)?
\(E(e^{-X})\)?
\(g(X) = X^3\) es una función convexa por lo que \(E(X^3) \geq E^3(X) = 25^3\).
\(g(x) = \sqrt{X}\) es cóncava por lo que \(E(\sqrt{X}) \leq \sqrt{25} = 5\).
\(g(X) = \ln X\) es cóncava por lo que \(E(\ln{X}) \leq \ln{25}\).
\(g(X) = e^{-X}\) es convexa por lo que \(E(e^{-X}) \geq e^{-25}\).
Otra característica que con frecuencia nos interesa conocer de las vv.aa. tiene que ver con qué tan dispersos se encuentran los valores de la v.a. Para esto, la medida más frecuentemente utilizada usa un valor de referencia: la media. En este sentido, por lo tanto, lo que queremos evaluar es qué tan dispersos se encuentran los valores de la v.a. respecto de la media de la distribución.
A esta medida se le conoce como la varianza de la v.a.
\[ Var(X) = E[(X-\mu)^2]; \]
su desviación estándar es igual a
\[ sd(X) = \sqrt{E[(X-\mu)^2]}. \]
A la varianza en ocasiones también se le conoce como el error cuadrático medio. ¿Puedes ver por qué? ¿Puedes ver por qué tiene que ser cuadrático? ¿Crees que es la única manera de resolver el problema?
De manera similar a la media, dado que se trata de un parámetro de uso muy frecuente, solemos reservar el uso los símbolos \(\sigma^2\) y \(\sigma\) para la varianza y desviación estándar, respectivamente.
\(Var(X) \geq 0\);
Si \(c\) es una constante, entonces \(Var(c)=0\);
\(Var(cX) = c^2Var(X)\);
\(Var(X) = E(X^2) - E^2(X)\).
¿Puedes demostrar estas propiedades?
A la transformación del ejemplo anterior solemos referirnos como “estandarización”.
Con lo que ya sabemos de la media y la varianza de una variable aleatoria podemos entonces enunciar el resultado conocido como la desigualdad de Chebyshev:
\[ P(|X - \mu| \geq t) \leq \frac{\sigma_X^2}{t^2} \]
\[ \sum\limits_{y \geq t^2} t^2 p_X(y) \leq \sum\limits_{y \geq t^2} y p_X(y) \leq \sum\limits_{y} y p_X(y) = Var(X)\\ t^2P(Y \geq t^2)) \leq Var(X)\\ P(Y \geq t^2) \leq \frac{Var(X)}{t^2}\\ P(|X - \mu| \geq t) \leq \frac{Var(X)}{t^2}. \]
¿Qué nos dice la desigualdad de Chebyshev y por qué es importante? Es importante por que nos dice que, sin importar nada más de la v.a., y conociendo su media y su varianza, podemos encontrar una cota superior para la probabilidad acumulada en la cola a partir de cualquier cuantil de la distribución.
Pensemos, por ejemplo, en \(t = 3\). La desigualdad de Chebyshev nos dice que para cualquier v.a. la probabilidad de que observemos valores que se salgan más allá de 3 unidades respecto de la media nunca será mayor a \(1/9\) de la varianza de la v.a.
\[ P(|\bar{X} - \mu| < 1) \leq 0.99. P(|\bar{X} - \mu| \geq 1) \leq 0.01. \]
Ahora bien, si \(Y = \frac{\sum\limits_i X_i}{n}\) entonces \(E(Y) = \mu\) y, por lo tanto
\[ P(|\bar{X} - \mu| \geq 1) \leq 0.01\\ 0.01 = \frac{\sum\limits_{i=1}^n Var(X_i)}{n^2}\\ 0.01 = \frac{n\sigma^2}{n^2}\\ n = \frac{4}{0.01}\\ n = 400. \]
Es decir, necesitamos al menos 400 mediciones de tornillos para asegurar que la media aritmética de las mediciones no exceda a la media teórica en más de una unidad con probabilidad de 0.99.
En ocasiones, y en particular cuando analizamos información proveniente de dos vv.aa., aún cuando contemos con los valores de las medidas de posición y la varianza puede resultar complicado comparar a las dos vv. aa. Calcular el coeficiente de variación de las vv.aa., definido como \(CV(X) = \frac{\sqrt{Var(X)}}{|E(X)|}\) puede resultar de gran ayuda.
El principal problema de la varianza, cuando queremos analizar la distribución de una v.a., es que sus unidades no son las mismas que las de la v.a. La desviación estándar resuelve este problema, pero está definida en función de la media de la v.a. por lo que no es posible utilizarla en comparación con la desviación estándar de otra v.a. El CV resuelve este segundo problema al ser una medida relativa de la dispersión de los datos respecto de la media. Al ser una medida relativa su uso con fines de comparación es apropiado.
Una característica que nos interesa determinar son frecuencia es si la distribución es simétrica o no.
Nota que, si la v.a. es continua, entonces la simetría implica que \(f_X(c - x) = f_X(c + x)\).
¿Por qué?
Ahora, generalmente cuando hablamos de la simetría de una v.a. no nos referimos a la simetría respecto de un valor arbitrario ya que comúnmente usamos como punto de referencia la media de la distribución. Por lo tanto, podemos sustituir el valor \(c\) por \(\mu\): \(P(X \leq \mu - x) = P( X \geq \mu + x)\).
Para evaluar si una v.a. es simétrica se utiliza el coeficiente de asimetría definido como:
\[ \nu(X) = \frac{E[(X-\mu)^3]}{[Var(X)]^{3/2}}. \]
Para entender por qué usamos este valor observemos lo siguiente: si la v.a. \(Y = X - \mu\) es simétrica respecto del origen, entonces cualquier potencia impar de \(Y\) cumplirá con
\[ \begin{aligned} E(Y^{2k+1}) &= \int\limits_{-\infty}^{\infty}y^{2k+1}f(y)dy\\ &= \int\limits_{-\infty}^{0}y^{2k+1}f(y)dy + \int\limits_{0}^{\infty}y^{2k+1}f(y)dy\\ &= -\int\limits_{0}^{\infty}y^{2k+1}f(y)dy + \int\limits_{0}^{\infty}y^{2k+1}f(y)dy\\ &= 0. \end{aligned} \]
Por el lado del denominador, observemos que (salvo por el caso trivial) nunca será igual a cero.
Por lo tanto, tenemos que, para vv. aa. simétricas \(\nu\) será siempre igual a cero. Cuando \(\nu > 0\) decimos que la v. a. presenta un sesgo a la derecha (right-skewed, en inglés); si \(\nu < 0\), un sesgo a la izquierda (left-skewed, en inglés).
Si queremos determinar simplemente si la distribución es o no simétrica, suele también usarse como criterio la comparación entre la media y la mediana. Si estos valores no son iguales, significa que la distribución es asimétrica (si la media es mayor que la mediana, tendremos una distribución con sesgo positivo; si es menor, a la izquierda).
Si bien este no es un criterio general, ya que distribuciones con características “peculiares” pueden no cumplirlo, para la mayoría de los casos se considera un método aceptable para determinar asimetría.
La última característica que vamos a estudiar de las variables aleatorias nos habla de cómo se acumula probabilidad en las colas de la distribución (lo cual se visualiza mejor para vv.aa. continuas). Se suele hacer referencia en estos casos a la expresión “qué tan pesadas son las colas de la distribución”, aunque esta expresión es un poco ambigua. Otro aspecto en el que (gráficamente) influye esta característica tiene que ver con qué tan pronunciado es el pico relativo a la moda de la distribución.
La característica a la que hemos estado haciendo referencia es al curtosis de la distribución y típicamente se analiza en comparación a la curtosis de una distribución conocida de referencia (que más adelante conoceremos como la distribución Normal).
Aquellas variables aleatorias que presenten una curtosis mayor a la de referencia las llamaremos leptocúrticas; menor, platicúrticas e igual mesocúrticas.
La fórmula del coeficiente de curtosis es
\[ K = \frac{E[(X-\mu)^4]}{[Var(X)]^2} \]
Ya señalamos anteriormente que una propiedad de la esperanza de una v.a. es que, si \(g\) es una función bien definida de la v.a. \(X\) entonces \(E[g(X)] = \int g(x)f(x)dx\). En particular nos interesan ahora las funciones \(g\) de la forma \(g(X) = X^n\).
Vuelve a ver las fórmulas del coeficiente de asimétria y el coeficiente de curtosis. ¿Cómo puedes expresarlos en términos de los momentos de la v.a.?
Sea \(X\) una v.a. entonces para todo \(t \in \mathbb{R}\) se llama a la función
\[ \psi(t) = E(e^{tX}) \]
la función generadora de momentos de \(X\).
¿Por qué llamamos la función generadora de momentos? Es relativamente fácil ver que si \(\psi^{(n)}(t)\) representa a la derivada de orden \(n\) de \(\psi\) respecto de \(t\), entonces
\[ \psi^{(n)}(0) = E(X^n) \]
Una propiedad muy útil de las fgm es que si \(X\) es una v.a. y \(Y = aX + b\) entonces es relativamente sencillo probar que \(\psi_Y(t)\) = e^{bt}_X(t)$.
Por otro lado, también es cierto que, para dos vv.aa. \(X_1\) y \(X_2\), si es posible demostrar que sus f.g.m. son idénticas para todos los valores de \(t\) en un intervalo alrededor del 0, entonces sus distribuciones son idénticas.
\[ M_1 = 0.5;\\ M_2 = 0.5;\\ M_3 = 0.75. \]
\[ Var(U) = E(U^2) - E^2(U)\\ = M_2 - M_1^2\\ = 0.5 - (0.5)^2\\ = 0.5 - 0.25\\ = 0.25. \]
Una primera manera de resolverlo es la siguiente:
\[ E[(U - \mu_U)^3] = E[U^3 - 3 U^2 \mu_U + 3 \mu_U^2 U - \mu_U^3]\\ = E(U^3) - 3 \mu_U E(U^2) + 3 \mu_U^2 E(U) - \mu_U^3\\ = 0.75 - 3 \times 0.5 \times 0.5 + 3 \times (0.5)^2 \times 0.5 - (0.5)^3\\ = 0.75 - 3 \times (0.5)^2 + 3 \times (0.5)^3 - (0.5)^3\\ = 0.75 - 3 \times (0.5)^2 + 2 \times (0.5)^3\\ = 0.25. \]
Como el tercer momento central es diferente de cero, entonces la distribución es asimétrica.
Podemos resolverlo también utilizando la f.g.m. Sea \(Y = U - \mu\) entonces, por propiedades de la f.g.m. sabemos que
\[ \psi_Y(t) = e^{-\mu t}\psi_U(t)\\ \psi'_Y(t) = -\mu e^{-\mu t}\psi_U(t) + e^{-\mu t}\psi'_U(t)\\ \psi''_Y(t) = \mu^2 e^{-\mu t}\psi_U(t) - 2 \mu e^{-\mu t} \psi'_U(t) + e^{-\mu t} \psi''_U(t)\\ \psi'''_Y(t) = -\mu^3 e^{-\mu t} \psi_U(t) + 3 \mu^2 e^{-\mu t} \psi'_U(t) - 3 \mu e^{-\mu t} \psi''_U(t) + e^{-\mu t} \psi'''_U(t) \]
por lo que
\[ \psi'''_Y(0) = -\mu^3 + 3 \mu^2 \psi'_U(0) - 3 \mu \psi''_U(0) + \psi'''_U(0)\\ = -(0.5)^3 + 3 (0.5)^2 \times (0.5) - 3 (0.5) (0.5) + 0.75\\ = -(0.5)^3 + 3 (0.5)^3 - 3 (0.5)^2 + 0.75\\ = 2 (0.5)^3 - 3 (0.5)^2 + 0.75\\ = (0.5)^2 - 3 (0.5)^2 + 0.75\\ = - 2 (0.5)^2 + 0.75\\ = 0.25. \]
Sea \(Y\) una v.a. con f.d.p. \(f_Y(y)=e^y, y <0\).
\[ E(e^{3Y/2}) = \int\limits_{-\infty}^{0}e^{3y/2} \times e^y dy\\ = \int\limits_{-\infty}^{0}e^{5y/2}dy\\ = \frac{2}{5}\int\limits_{-\infty}^{0}\frac{5}{2}e^{5y/2}dy\\ = \frac{2}{5} e^{5y/2}|_{\infty}^0\\ = \frac{2}{5} \left(1 - 0\right)\\ = \frac{2}{5}. \]
\[ \psi_Y(t) = E(e^{tY})\\ = \int\limits_{-\infty}^{0}e^{ty} \times e^y dy\\ = \int\limits_{-\infty}^{0}e^{y(t+1)}dy\\ = \frac{1}{t+1} e^{y(t+1)}|_{\infty}^0\\ = \frac{1}{t+1}. \]
\[ E(Y) = \psi'_Y(0)\\ = \left.-\frac{1}{(t+1)^2}\right|_0\\ = -1. \]
\[ E(Y^2)= \psi''_Y(0)\\ = \left.\frac{2}{(t+1)^3}\right|_0\\ = 2. \]
\[ Var(Y)=E(Y^2)-E^2(Y)\\ = 2-1\\ = 1. \]
Lecturas recomendadas :
Con frecuencia también nos interesa poder determinar la función de distribución de una v.a. que es, a su vez, una función de una v.a. con función de distribución conocida. Es decir, sabemos que la v.a. \(X\) tiene una f.d. \(F_X(x)\). Si \(Y = g(X)\), ¿cómo podemos determinar \(F_Y(y)\)?
Sabemos que \(F_X(x) = P(X \leq x)\) entonces, cuando \(g(X)\) es una función creciente se puede ver que
\[ F_Y(y) = P(Y \leq y)\\ = P[g(X) \leq y]\\ = P[X \leq g^{-1}(y)]\\ = F_X[g^{-1}(y)]. \]
Ahora, cuando \(g(X)\) es decreciente, entonces
\[ F_Y(y) = P(Y \leq y)\\ = P[g(X) \leq y]\\ = P[X \geq g^{-1}(y)]\\ = 1 - P[X \leq g^{-1}(y)]\\ = 1 - F_X[g^{-1}(y)]. \]
Ahora, si queremos obtener la función de densidad de \(Y\) podemos simplemente derivar la función de distribución lo que, considerando la regla de la cadena y ambos casos (creciente y decreciente) podemos ver que da
\[ f_Y(y) = f_X(g^{-1}(y))\left| \frac{d}{dy} g^{-1}(y) \right|. \]
\[ f_Y(y) = f_X(g^{-1}(y)) \left| \frac{d}{dy} g^{-1}(y) \right|\\ = e^{-\frac{1}{y}} \left| -\frac{1}{y^2} \right|\\ = \frac{1}{y^2} e^{-\frac{1}{y}} \]
para \(y > 0\).
Hasta ahora hemos abordado el estudio de las variables aleatorias desde el análisis de sus funciones de masa / densidad / distribución de probabilidades. En ocasiones, sin embargo, nos interesa poder generar valores (al azar) de dichas vv.aa. de manera que podamos asegurar que dichos valores se distribuyen conforme a una determinada ley de probabilidad. A esto se le conoce coloquialmente como simulación de vv.aa. (más apropiadamente, generación de números pseudoaleatorios). Las técnicas de simulación hoy en día se encuentran en una gran variedad de aplicaciones.
Una técnica de simulación de valores aleatorios se basa precisamente en aplicar lo que ya sabemos sobre la distribución de funciones de vv.aa. Supongamos que nos es posible generar valores provenientes de una v.a. \(X \sim U(0,1)\) y nos interesa poder generar valores de una v.a. \(Y\) cuya función de distribución es \(F_Y(y)\). Entonces, si es posible obtener \(F^{-1}_Y(x)\), podemos garantizar que si \(g(x) = F^{-1}_Y(x)\), por lo que \(g^{-1}(y) = F_Y(y)\), entonces
\[ F_{g(X)}(g) = F_X(g^{-1}(y))\\ = g^{-1}(y)\\ = F_Y(y). \]
Es decir, que si podemos generar valores de una uniforme (0,1) y con estos valores alimentamos a la inversa de la función de distribución de al variable de interés, podemos garantizar que los valores que estamos obteniendo de la variable de interés se distribuyen bajo la ley de probabilidad deseada.
El problema es, ahora, ¿cómo podemos generar valores de una v.a. uniforme (0,1)? Aunque este tema en particular excede al alcance de este curso, basta señalar que existe una gran variedad de algoritmos computacionales, la mayoría de ellos relacionados con la selección de un número que no es fácil de replicar y que permite considerarlo como casi aleatorio.
Un tipo de vv.aa. al que ya hemos hecho referencia en este material es que corresponde al caso en el que una v.a. puede tomar valores en un conjunto de valores equiprobables. Este caso puede ser representado, entonces, con una V.a. \(X\) que toma valores en un intervalo de \(n\) enteros, \(X \in [a, a+1, a+2, \dots, b]\) donde \(b = a + n - 1\).
Cuando se considera que cualquier valor dentro de un subconjunto \(n\) enteros es igualmente probable, entonces se sigue que:
\[ p_X(x) = \left\{\begin{array}{} \frac{1}{n} & x = a, a+1,\dots, a+n-1\\0 & e.o.c.\end{array}\right. \]
A este tipo de vv.aa. se les conoce como vv.aa. uniformes (discretas) y son frecuentemente utilizadas para representar situaciones en las que se selecciona al azar un elemento de entre una colección de \(n\) elementos.
Entonces:
\[ F_X(x) = \sum\limits_{i = a}^x \frac{1}{n} = \frac{x - a + 1}{n} = \frac{x - a + 1}{b - a + 1} \]
\[ E(X) = \sum\limits_{i = a}^b \frac{i}{n} = \frac{1}{n} \times \frac{n(2a + n - 1)}{2} = \frac{a+b}{2}. \]
Ahora, supongamos que \(a = 1\), entonces
\[ E(X^2) = \frac{1}{n} \sum\limits_{x=1}^{n} x^2 = \frac{n^2(n+1)(2n+1)}{6n} = \frac{(n+1)(2n+1)}{6} \]
y entonces
\[ Var(X) = \frac{(n+1)(2n+1)}{6} - \frac{(n+1)^2}{4} = \frac{n^2 - 1}{12}. \]
Consideremos ahora el caso, nuevamente, en el que se tienen \(n\) posibles valores entre \(a\) y \(b\). Este caso es simplemente \(Y = X + a - 1\) por lo que
\[ Var(Y) = Var(X + a - 1) = Var(X) = \frac{n^2 - 1}{12}. \]
Finalmente
\[ \psi_X(t) = \frac{1}{n} \sum\limits_{x = 1}^n e^{tx}\\ = \frac{e^t}{n} \sum\limits_{x = 1}^n e^{t(x - 1)}\\ = \frac{e^t}{n} \sum\limits_{x = 0}^{n-1} e^{tx}\\ = \frac{e^t}{n} \times \frac{1 - e^{nt}}{1 - e^t}. \]
Un experimento o variable aleatoria Bernoulli es aquél cuyo resultado es binario (puede tomar únicamente dos valores) y, por lo tanto, puede ser representado mediante los valores 0 y 1. Este tipo de variables aleatorias es usado frecuentemente para representar situaciones como:
El estatus de un proceso (ocupado / libre);
El estado de salud una persona (enfermo / sano);
Las preferencias de una persona (a favor / en contra);
El resultado de una prueba (éxito / fracaso);
El valor lógico de una afirmación (verdadero / falso).
Como se verá, el estudio de las variables Bernoulli es muy importante ya que otros tipos de experimentos / variables pueden ser descompuestos en experimentos más simples de tipo Bernoulli. En este sentido, las variables Bernoulli representan bloques básicos que permiten construir y entender otros tipos de variables aleatorias.
Decimos, entonces, que una v.a. sigue una distribución Bernoulli con parámetro \(p\) cuando la variable aleatoria puede tomar únicamente los valores 0 y 1 (siendo \(p\) la probabilidad de que la v.a. tome el valor 1) y, por lo tanto:
\[ p_X(x) = p^x(1-p)^{1-x}, x = 0,1. \]
Con frecuencia se dice que \(p\) representa la probabilidad de éxito en el experimento. Desde luego, la definición de lo que representa un éxito depende en gran medida del contexto del problema que nos interesa.
Podemos ver, ahora, que
\[ E(X) = \sum\limits_{x=0}^1 x p_X(x) = p \]
y
\[ E(X^2) = \sum\limits_{x=0}^1 x^2 p_X(x) = p \]
por lo que
\[ Var(X) = p - p^2 = p(1-p) \]
y, de igual forma:
\[ \psi_X(t) = E(e^{tX}) = \sum\limits_{x=0}^1 e^{tx} p_X(x) = e^tp + (1-p). \]
\[ \psi_X(t) = e^tp + (1-p)\\ \psi'_X(t) = e^tp\\ \psi''_X(t) = e^tp\\ \dots \]
por lo que
\[ E(X) = 1/3\\ p \times e^0 = 1/3\\ p = 1/3. \]
Por lo que, dado que se nos dice que no puede haber otra distribución que cumple con la restricción, podemos asegurar que la v.a. sigue una distribución Bernoulli(p = 1/3).
Las variables aleatorias binomiales se usan para asignar probabilidades al número de éxitos observados en \(n\) intentos o instancias de un experimento cuando la probabilidad de observar un éxito es igual a \(p\). De manera general, decimos que un experimento sigue una distribución binomial con parámetros \(n\) y \(p\) cuando
\[ p_X(x) = C^n_x p^x (1- p)^{n-x}, x = 0, 1, \dots,n \]
y, en consecuencia:
\[ F_X(x) = \sum\limits_{i=0}^x C^n_i p^i (1- p)^{n-i}. \]
También es importante observar que suele ser complicado calcular el valor de las probabilidades binomiales cuando el valor de \(n\) es grande. Los paquetes de software estadístico nos permiten calcular las probabilidades para prácticamente cualquier valor de los parámetros (y en cursos más avanzados estudiarás maneras de aproximar los valores de esta distribución) pero si queremos calcularlos con calculadoras manuales por lo general puede ser complicado. Por ello, existen valores pre-calculados para diferentes combinaciones de los parámetros y registrados en tablas.
Es importante familizarse con el uso de tablas de probabilidades, en particular para los exámenes.
Nota, como dijimos anteriormente, que una variable aleatoria binomial puede ser vista como la suma de \(n\) variables aleatorias Bernoulli. Por lo tanto, si \(X \sim Binomial(n,p)\) y \(X_i \sim Bernoulli(p)\):
\[ E(X) = E\left(\sum\limits_{i=1}^n X_i \right) = np\\ Var(X) = Var\left(\sum\limits_{i=1}^n X_i \right) = npq\\ \psi_X(t) = \prod\limits_{i=1}^n \psi_{X_i}(t) = (pe^t + q)^n. \]
Otra propiedad importante de las vv.aa. binomiales es la siguiente. Supóngase que \(X_1\) y \(X_2\) son vv.aa.ii. y que \(X_1 \sim Binomial(n_1, p)\) y \(X_2 \sim Binomial(n_2, p)\), entonces, \(X_1+X_2\sim Binomial(n_1+n_2,p)\).
\[ \psi_{X_1}(t) = (pe^t + q)^{n_1}\\ \psi_{X_2}(t) = (pe^t + q)^{n_2}\\ \psi_{X_1}(t) = (pe^t + q)^{n_1}\\ \psi_{X_1 + X_2}(t) = E[e^{t(X_1 + X_2)}]\\ = E[e^{tX_1 + tX_2}]\\ = E[e^{tX_1}e^{tX_2}]\\ = E[e^{tX_1}]E[e^{tX_2}]\\ = (pe^t + q)^{n_1}(pe^t + q)^{n_2}\\ = (pe^t + q)^{n_1+n_2}. \]
Como se puede observar, la última expresión corresponde a la f.g.m. de una v.a. \(Binomial(n_1+n_2,p)\). Por el teorema de unicidad de la f.g.m. queda entonces demostrado que \(X_1 + X_2 \sim Binomial(n_1+n_2,p)\).
Entonces
\[ E(X) = np = 30\\ Var(X) = npq = 21. \]
Consideremos ahora problemas en los que se tiene un conjunto de elementos, de tamaño \(N\), y dicho conjunto está conformado por elementos de dos clases, digamos \(A\) y \(B\), de tamaño \(N_A\) y \(N_B\), respectivamente. Se desea obtener una muestra sin reemplazo de tamaño \(n\) del conjunto de elementos.
Si \(X\) es la v.a. que registra el número de elementos del subconjunto \(A\) que aparecen en la muestra, entonces decimos que \(X \sim Hipergeometrica(N_A, N_B, n)\) y, por lo que sabemos de conteo, podemos determinar que
\[ p_X(x) = \frac{C^{N_A}_x C^{N_B}_{n-x}}{C^N_n}, x \in [0,1,2,\dots] \]
y también
\[ F_X(x) = \sum\limits_{i=0}^x \frac{C^{N_A}_i C^{N_B}_{n-i}}{C^N_n}. \]
Ahora, la manera más sencilla de derivar el resto de las propiedades de la v.a. hipergeométrica consiste en observar que, nuevamente, estamos ante una v.a. que puede ser re-definida como la suma de vv.aa. Bernoulli. En este caso \(X = \sum\limits_{i=1}^n X_i\) donde \(X_i\) es la v.a. que registra un valor igual 1 si el i-ésimo elemento muestreado es del tipo A (éxito) por lo que
\[ P(X_1 = 1) = \frac{N_A}{N}\\ P(X_2 = 1) = P(X_2=1|X_1=0)P(X_1=0) + P(X_2=1|X_1=1)P(X_1=1)\\ = \frac{N_A}{N-1} \frac{N_B}{N} + \frac{N_A - 1}{N - 1}\frac{N_A}{N}\\ = \frac{N_A N_B + (N_A - 1)N_A}{N(N-1)}\\ = \frac{N_A (N_B + N_A - 1)}{N(N-1)}\\ = \frac{N_A (N - 1)}{N(N-1)}\\ = \frac{N_A}{N}\\ \dots \]
Entonces
\[ E(X) = E(\sum\limits_{i=1}^n X_i) = \sum\limits_{i=1}^n E(X_i) = \frac{nN_A}{N}. \]
Para obtener el valor de la varianza es necesario recordar que las vv.aa. Bernoulli en las que descompusimos a la v.a. hipergeométrica no son independientes, por lo que la propiedad que hemos usado anteriormente para distribuir la varianza sobre la suma no aplica. Por el momento, consideraremos (sin probarlo) que
\[ Var(X) = n \times \frac{N_A}{N} \times \frac{N_B}{N} \times \frac{N-n}{N-1}. \]
A la distribución hipergeomtría es posible aproximarla mediante una distribución binomial ya que sus valores son muy similares en la medida en la que la población es significativamente más grande que la muestra. Como “regla de dedo” se considera que para poblaciones 20 veces mayores a la muestra, la binomial resulta una buena aproximación a la hipergeométrica.
Entonces, si definimos como “éxito” a seleccionar a una persona identificada como uno de los 5 mejores, podemos ver que \(X\), el número estudiantes del grupo de los 5 mejores en la muestra de tamaño 10, se distribuye \(Hipergeométrica(N_A = 5, N_B = 15, n = 10)\) por lo que
\[ P(X = 5) = \frac{C^5_5 C^{15}_5}{C^{20}_{10}} = 0.0162. \]
\[ P(X \leq 1) = \frac{C^{0.3T}_1 C^{0.7T}_9 + C^{0.3T}_0 C^{0.7T}_10}{C^{T}_{10}}. \]
Ahora, sabemos que si \(X \sim Hipergeométrica(N_A = 0.3T, N_B = 0.7T, n = 10)\) entonces \(X \approx Binomial(n = 10, p = 0.3)\) por lo que
\[ P(X \leq 1) \approx C^{10}_0 \times 0.3^{0} 0.7^{10} + C^{10}_1 \times 0.3^{1} 0.7^{9}. \]
Si ahora nos preguntamos no por el número de éxitos observados sino por el número de intentos requeridos para observar el primer éxito (con probabilidad \(p\) de ocurrir) entonces nos referimos ahora a una variable aleatoria geométrica. Por ejemplo, podemos preguntarnos cuántas veces requiere un candidato a una certificación presentar un examen para pasarlo.
Más formalmente, decimos que una v.a. sigue una distribución geométrica si
\[ p_X(x) = p(1-p)^{x}; x = 0,1,2,\dots \]
Ahora, si lo que nos interesa es conocer el número de fracasos que es necesario observar antes de conseguir \(r\) éxitos entonces decimos que \(Y \sim BinNeg(p,r)\). Podemos entonces, desde luego, considerar a la distribución geométrica como un caso especial de la distribución binomial negativa cuando \(r=1\). Entonces, ahora
\[ p_Y(y) = C^{r+y-1}_xp^r(1-p)^{y}; y = 0,1,2,\dots \]
Ahora bien, también es posible observar que una variable binomial negativa es posible entenderla como la suma de \(r\) vv.aa. geométricas independientes. Por lo tanto, si
\[ \psi_X(t) = E(e^{tX})\\ = \sum\limits_{x=0}^\infty e^{tx}p(1-p)^{x}\\ = p\sum\limits_{x=0}^\infty e^{tx}(1-p)^{x}\\ = p\sum\limits_{x=0}^\infty [e^{t}(1-p)]^x\\ = \frac{p}{1 - (1-p)e^t}\\ \]
es la f.g.m. de una v.a. geométrica, entonces
\[ \psi_Y(t) = E(e^{tY})\\ = E\left(e^{t\sum\limits_{i=1}^r X_i}\right)\\ = E\left(\prod\limits_{i=1}^r e^{tX_i}\right)\\ = \prod\limits_{i=1}^r E\left(e^{tX_i}\right)\\ = \left[\frac{p}{1 - (1-p)e^t}\right]^r. \]
Utilizando ahora la f.g.m. para obtener \(E(X)\) y \(E(X^2)\) podemos entonces ver que
\[ E(X) = \frac{1-p}{p}\\ Var(X) = \frac{1-p}{p^2}\\ E(Y) = \frac{r(1-p)}{p}\\ Var(Y)= \frac{r(1-p)}{p^2}. \]
\[ E(X) = \frac{1}{0.02} = 50\\ Var(X) = \frac{1-p}{p^2} = \frac{0.98}{0.0004} = 2450\\ \sigma = \qrt{2450} = 49.4975. \]
Existen casos en los que nos interesa asignar probabilidades al número de éxitos observados en una sucesión de experimentos (generalmente delimitados dentro de un determinado espacio / tiempo).
Por ejemplo, con frecuencia se utilizan vv.aa. Poisson para modelar:
el número de accidentes vehiculares en un determinado tramo de una vialidad durante un día;
el número de clientes que llegan al mostrador de un comercio en un intervalo de tiempo;
el número de llamadas telefónicas recibidas en un intervalo de tiempo;
el número de intentos de acceso a un servidor en un minuto;
el número de accidentes del personal de una empresa en un mes;
el número de fraudes sufridos durante un trimestre en un banco;
el número de reclamos realizados a una aseguradora en un año.
Claramente, no estamos ya en el caso en el que nos interesa contar el número de éxitos en \(n\) experimentos (dist. binomial) ya que, a diferencia de la situación planteada cuando describimos la distribución binomial, el número de intentos o instancias del experimento es (potencialmente) infinita. Sin embargo, es posible establecer una conexión entre ambos casos.
Hagamos el siguiente experimento mental: sabemos que el experimento que queremos observar está acotado en un determinado intervalo de tiempo o espacio entonces, supongamos que dividimos el intervalo de tiempo en sub-intervalos. Estos sub-intervalos los haremos arbitrariamente pequeños. De hecho, buscamos hacerlos tan pequeños que la probabilidad de observar más de un éxito en dichos sub-intervalos sea cero. Entonces, resulta que cada sub-intervalo lo podemos describir mediante una v.a. Bernoulli (con probabilidad \(p\)). Si \(n\) es el número de intervalos al que tuvimos que recurrir para lograr esto y \(X\) es la v.a. que registra el número de éxitos observados en el intervalo de tiempo original, entonces \(x \sim Bin(n,p)\). Entonces, dado que hicimos que \(n\) fuera arbitrariamente grande, podemos considerar que, lo que buscamos es
\[ P(X=x) = \lim\limits_{n \rightarrow \infty} C^{n}_x p^x(1-p)^{n-x}\\ = \lim\limits_{n \rightarrow \infty} \frac{n(n-1)(n-2)(n-3)\dots(n-x+1)}{x!} p^x(1-p)^{n-x}. \]
Si ahora hacemos \(p=\frac{\lambda}{n}\) (esto es un recurso, \(\lambda\) por el momento no significa nada en particular):
\[ P(X=x) = \lim\limits_{n \rightarrow \infty} \frac{n(n-1)(n-2)(n-3)\dots(n-x+1)}{x!} \left(\frac{\lambda}{n}\right)^x \left(1-\frac{\lambda}{n}\right)^{n-x}\\ = \lim\limits_{n \rightarrow \infty} \frac{n(n-1)(n-2)(n-3)\dots(n-x+1)}{x!} \left(\frac{\lambda}{n}\right)^x \left(1-\frac{\lambda}{n}\right)^{n-x}\\ = \frac{\lambda^x}{x!} \lim\limits_{n \rightarrow \infty} \frac{n(n-1)(n-2)(n-3)\dots(n-x+1)}{n^x} \left(1-\frac{\lambda}{n}\right)^{n-x}\\ = \frac{\lambda^x}{x!} \lim\limits_{n \rightarrow \infty} \frac{n}{n}\frac{n-1}{n}\frac{n-2}{n}\dots\frac{n-x+1}{n} \left(1-\frac{\lambda}{n}\right)^{n-x}\\ = \frac{\lambda^x}{x!} \lim\limits_{n \rightarrow \infty} \left(1-\frac{1}{n}\right)\left(1-\frac{n-2}{n}\right)\dots\left(1-\frac{n-x+1}{n}\right) \left(1-\frac{\lambda}{n}\right)^{n-x}\\ = \frac{\lambda^x}{x!} \lim\limits_{n \rightarrow \infty} \left(1-\frac{1}{n}\right)\left(1-\frac{2}{n}\right)\dots\left(1-\frac{x+1}{n}\right) \left(1-\frac{\lambda}{n}\right)^{n-x}\\ = \frac{\lambda^x}{x!} \lim\limits_{n \rightarrow \infty} \left(1-\frac{\lambda}{n}\right)^{n}\\ = \frac{\lambda^x}{x!} e^{-\lambda}. \]
Se dice, entonces, que una v.a. \(X\) sigue una distribución Poisson con parámetro \(\lambda\) cuando
\[ p_X(x) = e^{-\lambda} \frac{\lambda^{x}}{x!}, x = 0, 1, 2, \dots \]
Observemos que
\[ \sum\limits_{x = 0}^{\infty} p_X(x) = \sum\limits_{x = 0}^{\infty} e^{-\lambda} \frac{\lambda^{x}}{x!} = e^{-\lambda} \sum\limits_{x = 0}^{\infty} \frac{\lambda^{x}}{x!} = e^{-\lambda} e^{\lambda} = 1. \]
También es posible observar que
\[ e^{-\lambda} \frac{\lambda^{x}}{x!} \approx C^n_x p^x(1-p)^{n-x} \]
para \(n\) grande, \(p\) pequeño y \(\lambda = np\). Por lo tanto, es posible utilizar la distribución Poisson para aproximar razonablemente bien a la distribución binomial cuando los parámetros de la distribución binomial resultan en valores difíciles de calcular (y se cumplen las condiciones señaladas).
Ahora
\[ E(X) = \sum\limits_{x=0}^{\infty} x\frac{\lambda^x}{x!} e^{-\lambda}\\ = \sum\limits_{x=1}^{\infty} x\frac{\lambda^x}{x!} e^{-\lambda}\\ = \sum\limits_{x=1}^{\infty} \frac{\lambda^x}{(x-1)!} e^{-\lambda}\\ = \sum\limits_{x=0}^{\infty} \frac{\lambda^{x+1}}{x!} e^{-\lambda}\\ = \lambda. \]
Para obtener la expresión para la varianza, primer recurriremos a calcular
\[ E[X(X-1)] = \sum\limits_{x=0}^{\infty} x(x-1)\frac{\lambda^x}{x!} e^{-\lambda}\\ = \sum\limits_{x=2}^{\infty} x(x-1)\frac{\lambda^x}{x!} e^{-\lambda}\\ = \sum\limits_{x=2}^{\infty} \frac{\lambda^x}{(x-2)!} e^{-\lambda}\\ = \sum\limits_{x=0}^{\infty} \frac{\lambda^{x+2}}{x!} e^{-\lambda}\\ = \lambda^2. \]
Entonces
\[ E(X^2 - X) = E(X^2) - E(X)\\ = \lambda^2\\ E(X^2) = \lambda^2 - \lambda\\ Var(X) = E(X^2) - E^2(X)\\ = \lambda. \]
Entonces,
\[ P(4 \leq X \leq 7) = e^{-5}\left(\frac{5^4}{4!} + \frac{5^5}{5!} + \frac{5^6}{6!} + \frac{5^7}{7!}\right)\\ = 0.602. \]
\[ P(X \geq 8) = 1 - P(X < 8)\\ = 1 - P(X \leq 7)\\ = 0.133. \]
\[ P(X \geq 2) = 1-P(X = 0) + P(X = 199)\\ = C^{200}_{0}(0.99)^{200}(0.01)^0 + C^{200}_{1}(0.99)^{199}(0.01)^1. \]
Esta probabilidad la podemos aproximar con la probabilidad
\[ P(Y \geq 2) = 1 - P(Y \leq 1)\\ = 0.5939942. \]
donde \(Y \sim Poisson(\lambda = 200 \times 0.01)\).
Cuando una v.a. puede tomar valores en un intervalo de la recta real \((a,b)\) de forma que la probabilidad asociada a cualquier subintervalo de este es proporcional a la longitud del intervalo \((a,b)\) decimos que la v.a. \(X\) sigue una distribución uniforme (continua) con parámetros \(a\) y \(b\).
Este tipo de vv.aa. se usa para describir aquellos casos en los que los resultados de un experimento pueden resultar arbitrariamente en cualquier valor de un determinado intervalo.
La función de densidad de la variable aleatoria \(X\) será
\[ f_X(x) = \frac{1}{a-b}, a \leq x \leq b. \]
Por lo tanto, la función de distribución será
\[ F_X(x) = \int\limits_{a}^x f_X(x)dx\\ = \int\limits_{a}^x \frac{dx}{a-b}\\ = \frac{x-a}{b-a} \ \ \ x \in (a,b). \]
\[ E(X) = \int\limits_{a}^b xf_X(x)dx\\ = \int\limits_{a}^b \frac{xdx}{a-b}\\ = \frac{b^2 - a^2}{2(a-b)}\\ = \frac{b+a}{2}. \]
\[ E(X^2) = \int\limits_{a}^b x^2 f_X(x)dx\\ = \int\limits_{a}^b \frac{x^2 dx}{a-b}\\ = \frac{b^3 - a^3}{3(a-b)}. \]
\[ Var(X) = E(X^2) - E^2(X)\\ = \frac{b^3 - a^3}{3(a-b)} - \frac{(b+a)^2}{4}\\ = \frac{4(b^3 - a^3)- 3(a-b)(b+a)^2}{12(a-b)}\\ = \frac{4(b^3 - a^3)- 3(a-b)(b+a)^2}{12(a-b)}\\ = \frac{b^3 - a^3- 3ab^2 + 3a^2b}{12(a-b)}\\ = \frac{(b-a)^2}{12}. \]
\[ \psi_X(t) = E(e^{tX})\\ = \int\limits_{a}^b \frac{e^{tx}}{b-a}dx\\ = \frac{e^{bt}-e^{at}}{t(b-a)}. \]
Es importante notar que, en vista de que estamos tratando con una v.a. continua, es indistinto si el intervalo \((a,b)\) es abierto o cerrado.
\[ (4W)^2 - 4(4)(W+2) > 0\\ 16W^2 - 16W - 32 > 0\\ W^2 - W - 2 > 0\\ (W - 2)(W + 1) > 0. \]
Dado que \(W \sim U(1,5)\) entonces para que las raíces sean reales tiene que cumplirse que \(W > 2\). Por lo tanto
\[ P(W > 2) = \int\limits_2^5 \frac{dx}{5}\\ = \frac{3}{5}. \]
\[ E(C) = E(c_0 + c_1 Y^2)\\ = c_0 + c_1 E(Y^2)\\ = c_0 + c_1 \int_1^5 \frac{y^2}{4} dy\\ = c_0 + c_1 \left. \frac{y^3}{12} \right|_1^5\\ = c_0 + c_1 \frac{125-1}{12}\\ = c_0 + \frac{31}{3}c_1. \]
\[ P(Y > 2) = \int\limits_2^5 \frac{dx}{4} = \frac{3}{4} = 0.75. \]
\[ P(Y > 2 | Y > 1.5) = \frac{P(Y > 2, Y > 1.5)}{P(Y > 1.5)}\\ = \frac{P(Y > 2)}{P(Y > 1.5)}\\ = \frac{\int\limits_2^5 \frac{dx}{4}}{\int\limits_{1.5}^5 \frac{dx}{4}}\\ = \frac{\frac{3}{4}}{\frac{3.5}{4}}\\ = \frac{3}{3.5}\\ = \frac{6}{7}. \]
Se conoce como función gamma a la función
\[ \Gamma (\alpha) = \int\limits_0^{\infty} x^{\alpha-1} e^{-x} dx. \]
La función gamma3 se puede considerar como una extensión del concepto de factorial a los números complejos ya que, si integramos por partes, es posible ver que
\[ \Gamma(\alpha) = (\alpha - 1)\Gamma(\alpha - 1) \]
y, por lo tanto, si \(\alpha \in \mathbb{Z}^{+}\) entonces
\[ \Gamma(\alpha) = (\alpha-1)! \]
Ahora, se dice que \(X \sim Gamma(\alpha, \beta)\), \(\alpha > 0, \beta>0\), si
\[ f_X(x) = \frac{\beta^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\beta x}; x > 0. \]
Entonces, tendremos que
\[ F_X(x) = \int\limits_0^x \frac{\beta^\alpha}{\Gamma(\alpha)}t^{\alpha-1}e^{-\beta t}. \]
Podemos ver también que
\[ E(X) = \int\limits_0^\infty \frac{\beta^\alpha}{\Gamma(\alpha)}x^{\alpha}e^{-\beta x} dx\\ = \frac{1}{\beta \Gamma(\alpha)} \int\limits_0^\infty (\beta x)^{\alpha}e^{-\beta x} \beta dx\\ = \frac{\Gamma(\alpha+1)}{\beta \Gamma(\alpha)}\\ = \frac{\alpha}{\beta}. \]
\[ E(X^k) = \int\limits_0^\infty \frac{\beta^\alpha}{\Gamma(\alpha)}x^{k + \alpha - 1}e^{-\beta x} dx\\ = \frac{1}{\beta^{k-1} \Gamma(\alpha)} \int\limits_0^\infty (\beta x)^{k+\alpha-1}e^{-\beta x} dx\\ = \frac{1}{\beta^{k} \Gamma(\alpha)} \int\limits_0^\infty (\beta x)^{k+\alpha-1}e^{-\beta x} \beta dx\\ = \frac{\Gamma(k+\alpha)}{\beta^k \Gamma(\alpha)}\\ = \frac{\alpha (\alpha + 1) \dots (\alpha + k - 1)}{\beta^k}. \]
Por lo que, en particular, \(E(X^2) = \frac{\alpha (\alpha+1)}{\beta^2}\) y, por lo tanto, \(Var(X) = \frac{\alpha}{\beta^2}\).
Finalmente,
\[ \psi_X(t) = \int\limits_0^\infty e^{ts} \frac{\beta^\alpha}{\Gamma(\alpha)}x^{\alpha - 1}e^{-\beta x} dx\\ = \int\limits_0^\infty \frac{\beta^\alpha}{\Gamma(\alpha)}x^{\alpha - 1}e^{-(\beta - t) x} dx\\ = \left(\frac{\beta}{\beta-t}\right)^\alpha; t < \beta. \]
Una propiedad importante de las vv.aa. gamma es la siguiente:
\[ \psi_Y(t) = E(e^{tY})\\ = E\left(e^{t\sum\limits_{i=1}^n X_i}\right)\\ = E\left(\prod\limits_{i=1}^ne^{t X_i}\right)\\ = \prod\limits_{i=1}^n E\left(e^{t X_i}\right)\\ = \prod\limits_{i=1}^n \left(\psi_{X_i}(t)\right)\\ = \left(\frac{\beta}{\beta-t}\right)^{\sum\limits_{i=1}^n \alpha_i}. \]
Esta última expresión, como se puede ver, corresponde a la f.g.m. de una v.a. \(Gamma(\sum\limits_{i=1}^n \alpha_i, \beta)\).
La función de distribución gamma es muy importante porque tiene una gran cantidad de aplicaciones en una gran diversidad de campos cuando se desea modelar fenómenos cuyas mediciones son continuas positivas, en particular si los sub-eventos son aditivos y pueden ser modelados de la misma manera, por ejemplo:
Por otra parte, la distribución gamma es también importante porque otras distribuciones importantes pueden ser interpretadas como casos especiales de una distribución gamma.
\[ f_Y(y) = \frac{y^{\alpha-1}}{\beta^\alpha \Gamma(\alpha)} e^{-\frac{y}{\beta}}\\ f'_Y(y) = \frac{(\alpha - 1)y^{\alpha-2}}{\beta^\alpha \Gamma(\alpha)} e^{-\frac{y}{\beta}} - \frac{y^{\alpha-1}}{\beta^{\alpha+1} \Gamma(\alpha)} e^{-\frac{y}{\beta}}\\ \frac{(\alpha - 1)y^{\alpha-2}}{\beta^\alpha \Gamma(\alpha)} e^{-\frac{y}{\beta}} - \frac{y^{\alpha-1}}{\beta^{\alpha+1} \Gamma(\alpha)} e^{-\frac{y}{\beta}} = 0\\ \beta(\alpha - 1)y^{\alpha-2} e^{-\frac{y}{\beta}} - y^{\alpha-1} e^{-\frac{y}{\beta}} = 0\\ \beta(\alpha - 1)y^{\alpha-2} - y^{\alpha-1} = 0\\ \beta(\alpha - 1) - y = 0\\ y = \beta(\alpha - 1). \]
Por lo tanto, la moda de la v.a. se encuentra en el punto \(y = \beta(\alpha - 1)\).
\[ W = g(Y) = \sqrt{Y}\\ Y = g^{-1}(W) = W^2\\ f_W(w) = f_Y(g^{-1}(w))\left|\frac{d}{dW}g^{-1}(w)\right|\\ = \frac{(w^2)^{\alpha-1}}{\beta^\alpha \Gamma(\alpha)} e^{-\frac{w^2}{\beta}} \left|2w\right|\\ = \frac{2 w^{2\alpha-1}}{\beta^\alpha \Gamma(\alpha)} e^{-\frac{w^2}{\beta}}. \]
Uno de estos casos especiales de la distribución gamma se da cuando \(\alpha = 1\), entonces decimos que \(X \sim Exponencial(\beta)\) y, por lo tanto
\[ f_X(x)= \beta e^{-\beta x}; x \geq 0\\ F_X(x) = 1 - e^{-\beta x}\\ E(X) = \frac{1}{\beta}\\ Var(X) = \frac{1}{\beta^2}\\ \psi_X(t) = \frac{\beta}{\beta-t}. \]
Una propiedad importante de la distribución exponencial es el hecho de que
\[ P(X \geq t +h|X \geq t) = \frac{P(X \geq t+h)}{P(X \geq t)}\\ = \frac{e^{-\beta(t+h)}}{e^{-\beta t}}\\ = e^{-\beta h}\\ = P(X \geq h). \]
A esta propiedad se le conoce como la propiedad de falta de memoria y hace que la distribución exponencial sea particularmente útil para modelar fenómenos financieros o físicos (como el deterioro radioactivo).
\[ p(X) = \left\{\begin{array}{}3 & X \leq 1\\2 & 1 < X \leq 2\\1 & 2 < X \leq 3\\0 & e.o.c. \end{array}\right. \]
Por lo que buscamos
\[ E[p(X)] = \int\limits_{0}^1 3 \times \frac{1}{3}e^{-\frac{x}{3}}dx + \int\limits_{1}^2 2 \times \frac{1}{3}e^{-\frac{x}{3}}dx + \int\limits_{2}^3 1 \times \frac{1}{3}e^{-\frac{x}{3}}dx\\ = 3[e^0 - e^{-\frac{1}{3}}] + 2 [e^{-\frac{1}{3}} - e^{-\frac{2}{3}}] + [e^{-\frac{2}{3}} - e^{-1}]\\ = 1.402. \]
Otro caso especial de la distribución gamma se da cuando \(\alpha = \frac{n}{2}\) y \(\beta = \frac{1}{2}\), para cualquier \(n\) entera positiva. En este caso, decimos que \(X \sim \chi^2_n\) (ji cuadrada con \(n\) grados de libertad, el término “grados de libertad” quedará más claro para quienes avancen a cursos de estadística). Para este caso, entonces
\[ f_X(x)= \frac{1}{2^{n/2} \Gamma(n/2)} e^{-\frac{x}{2}}; x \geq 0\\ E(X) = n\\ Var(X) = 2n\\ \psi_X(t) = \left(\frac{1}{1-2t}\right)^{n/2}; t < 1/2. \]
En un trabajo de 1823, Gauss introdujo varias ideas muy importantes para lo que hoy estudiamos en las materias de probabilidad y estadística: el método de mínimos cuadrados, el método de máxima verosimilitud y la distribución normal (motivo por el cual también es conocida como distribución de Gauss). Posteriormente, trabajos de Laplace y Maxwell demostraron la importancia tanto teórica como práctica de la distribución descubierta por Gauss.
Así, se ha encontrado que fenómenos tanto físicos como sociales siguen un patrón de comportamiento que puede ser modelado con mucha precisión utilizando la distribución normal. Algunos otros, siguen el comportamiento de una distribución normal de manera más bien aproximada o bien, siguen un patrón que apropiadamente transformado sigue una distribución normal. Finalmente, resultados útiles en estadística hacen uso del hecho de que, cuando agregamos observaciones en forma aditiva (bajo ciertas condiciones adicionales) el agregado se comporta como una v.a. normal.
En resumen, esta distribución es, quizá, la distribución más importante que vamos a estudiar en este curso.
Se dice, entonces, que una v.a. \(X \sim Normal(\mu, \sigma^2)\) si
\[ f_X(x) = \frac{1}{\sqrt{2\pi} \sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}}; x \in \mathbb{R} \]
\[ \psi_X(t) = \int\limits_{-\infty}^\infty \frac{1}{\sqrt{2\pi} \sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}} e^{tx}dx\\ = \int\limits_{-\infty}^\infty \frac{1}{\sqrt{2\pi} \sigma} e^{tx-\frac{(x-\mu)^2}{2\sigma^2}}dx\\ \]
observemos que
\[ tx-\frac{(x-\mu)^2}{2\sigma^2} = tx-\frac{x^2 -2x\mu + \mu^2}{2\sigma^2}\\ = \frac{2tx\sigma^2-x^2 + 2x\mu - \mu^2}{2\sigma^2}\\ = \frac{-x^2 + 2x(\mu + t\sigma^2) - \mu^2}{2\sigma^2}\\ = - \frac{x^2 - 2x(\mu + t\sigma^2) + (\mu + t\sigma^2)^2 - (\mu + t\sigma^2)^2 + \mu^2}{2\sigma^2}\\ = - \frac{[x - (\mu + t\sigma^2)]^2 - (\mu + t\sigma^2)^2 + \mu^2}{2\sigma^2}\\ = - \frac{[x - (\mu + t\sigma^2)]^2 - \mu^2 - 2 t\mu\sigma^2 - t^2\sigma^4 + \mu^2}{2\sigma^2}\\ = - \frac{[x - (\mu + t\sigma^2)]^2 - 2 t\mu\sigma^2 - t^2\sigma^4}{2\sigma^2}\\ = - \frac{[x - (\mu + t\sigma^2)]^2}{2\sigma^2} + t\mu + \frac{t^2\sigma^2}{2}\\ \]
por lo que
\[ \psi_X(t) = \int\limits_{-\infty}^\infty \frac{1}{\sqrt{2\pi} \sigma} e^{- \frac{[x - (\mu + t\sigma^2)]^2}{2\sigma^2} + t\mu + \frac{t^2\sigma^2}{2}}dx\\ = e^{t\mu + \frac{t^2\sigma^2}{2}} \int\limits_{-\infty}^\infty \frac{1}{\sqrt{2\pi} \sigma} e^{- \frac{[x - (\mu + t\sigma^2)]^2}{2\sigma^2}}dx\\ = e^{t\mu + \frac{t^2\sigma^2}{2}}. \]
Por lo tanto
\[ \psi'_X(t) = (\mu + t \sigma^2) e^{t\mu + \frac{t^2\sigma^2}{2}}\\ \psi'_X(0) = \mu\\ \psi''_X(t) = \mu(\mu + t \sigma^2) e^{t\mu + \frac{t^2\sigma^2}{2}} + t \sigma^2(\mu + t \sigma^2) e^{t\mu + \frac{t^2\sigma^2}{2}} + \sigma^2e^{t\mu + \frac{t^2\sigma^2}{2}}\\ \psi''_X(0) = \mu^2 + \sigma^2\\ \]
y, entonces,
\[ Var(X) = \sigma^2 \]
\[ \psi_Y (t) = E(e^{tY})\\ = e^{bt} \psi_X (at)\\ = e^{bt} \left[e^{at\mu + \frac{a^2t^2\sigma^2}{2}}\right]\\ = e^{t(a\mu + b) + \frac{t^2a^2\sigma^2}{2}}\\ \]
que corresponde a la f.g.m. de una v.a. \(Normal(a\mu + b, a^2\sigma^2)\).
En particular, cuando \(\mu = 0\) y \(\sigma^2 = 1\) decimos que se trata de una v.a. normal estándar y, de la propiedad anterior, podemos ver que para cualquier v.a. \(X \sim Normal(\mu, \sigma^2)\), si \(Z = \frac{X - \mu}{\sigma}\) entonces \(Z \sim Normal(0,1)\).
\[ P(|X - \mu| \leq 1.5 \sigma) = P(-1.5 \sigma \leq X - \mu \leq 1.5 \sigma)\\ = P(-1.5 \leq \frac{X - \mu}{\sigma} \leq 1.5)\\ = P(-1.5 \leq Z \leq 1.5) \]
donde \(Z \sim N(0,1)\). Entonces \(P(-1.5 \leq Z \leq 1.5)=\)
## [1] 0.8663856
\[ P[|X - \mu| \leq 0.1] = 0.95\\ P[-0.1 \leq X - \mu \leq 0.1] = 0.95\\ P\left[\frac{-0.1}{\sigma} \leq \frac{X - \mu}{\sigma} \leq \frac{0.1}{\sigma}\right] = 0.95\\ P\left[\frac{-0.1}{\sigma} \leq Z \leq \frac{0.1}{\sigma}\right] = 0.95\\ \]
donde \(Z \sim Normal(0,1)\) por lo que
\[ \frac{0.1}{\sigma} = {_{0.975}Z}\\ \frac{0.1}{\sigma} = 1.959964\\ \sigma = 0.051021, \]
Con frecuencia nos vamos a encontrar en situaciones en las que nos interesa el comportamiento de dos o más variables simultáneamente. Pensemos, por ejemplo, en ejercicios demoscópicos: rara vez nos interesará simplemente conocer la opinión de las personas sino que nos interesa conocer la opinión de las personas al mismo tiempo que otras variables (sexo, nivel educativo, ingresos, lugar de residencia, etc.).
A las funciones que describen la manera en la que se comporta la probabilidad asociada a los valores de dos o más variables en forma conjunta les llamamos funciones de distribución conjuntas multivariadas (o, simplemente, funciones de distribución multivariadas).
\[ F(x_1,x_2,\dots,x_n) = P(X_1\leq x_1, X_2 \leq x_2, \dots, X_n \leq x_n). \]
Comencemos viendo el caso de dimensión dos: las distribuciones bi-variadas. Para el caso discreto, se dice entonces que las vv.aa. \(X\) y \(Y\) tienen una función de distribución discreta conjunta y su función de masa conjunta es la función \(p\) tal que, para cualquier punto \((x,y)\)
\[ p_{XY}(x,y) = P(X = x, Y = y). \]
Desde luego,
\[ \sum\limits_{x_i,y_j \in \Omega} p_{XY}(x,y) = 1. \]
De la misma manera, para cualquier subconjunto \(A \in \Omega\)
\[ P[(X,Y) \in A] = \sum\limits_{x_i,y_j \in A} p_{XY}(x,y). \]
Pasemos ahora al caso continuo. Decimos que dos vv.aa. \(X\) y \(Y\) tienen una distribución continua conjunta si existe \(f\), una función no negativa definida sobre el plano \(xy\) para la que, para cualquier subconjunto \(A\) del plano
\[ P(X \leq x, Y \leq y) = \int \int\limits_{A} f_{XY}(x,y)dxdy. \]
La función \(f\) es, desde luego, la función de densidad conjunta de \(X\) y \(Y\). Al igual que en el caso univariado (quizás incluso con mayor razón), la probabilidad asociada a cualquier punto \((x,y)\) es igual a 0 (de hecho, lo podemos extender a cualquier objeto unidimensional dentro del rango de \(f\)).
\[ f(x_1,x_2,\dots,x_n) = \frac{\partial^n F(x_1,x_2,\dots,x_n)}{\partial x_1 \partial x_2 \dots \partial x_n}. \]
Adicionalmente, si conocemos la función de distribución conjunta de \(\underline{X} = (X_1,X_2,\dots,X_n)\) entonces es posible obtener la función de distribución individual (conocida como la distribución marginal) de cualquiera de las vv.aa.:}
\[ F_i (x_i) = \lim\limits_{x_j \rightarrow \infty\\j \neq i} F(x_1,x_2,\dots,x_i,\dots,x_n). \]
O bien, es posible obtener la función de densidad marginal de \(X_i\) como
\[ f_i(x_i) = \int\limits_{-\infty}^{\infty} \int\limits_{-\infty}^{\infty} \dots \int\limits_{-\infty}^{\infty} f(x_1,x_2,\dots,x_n)dx_1 dx_2 \dots dx_n \ \ \text{(excepto x_i)}. \]
\[ P(X_1 \in A_1, X_2 \in A_2, \dots, X_n \in A_n) = P(X_1 \in A_1)P(X_2 \in A_2) \dots P(X_n \in A_n). \]
De lo anterior, entonces, es posible ver que se cumple que, si \(X_1,X_2,\dots,X_n\) son vv.aa.ii., entonces
\[ F(x_1, x_2, \dots, x_n) = F(x_1)F(x_2) \dots F(x_n) \]
y, derivando:
\[ f(x_1, x_2, \dots, x_n) = f(x_1)f(x_2) \dots f(x_n) \]
en el caso continuo. Para el caso discreto se tiene que
\[ p(x_1, x_2, \dots, x_n) = p(x_1)p(x_2) \dots p(x_n) \]
\[ f(x_1|x_2,\dots,x_n) = \frac{f(x_1,x_2,\dots,x_n)}{f(x_2,\dots,x_n)}. \]
Desde luego, es posible generalizar esta definición a sub-vectores \(\mathbf{Y}\) y \(\mathbf{Z}\), que forman una partición del vector \(\mathbf{X}\). La función de densidad condicional de \(\mathbf{Y}\) en \(\mathbf{Z}\) será igual a
\[ f(\mathbf{Y}|\mathbf{Z}) = \frac{f(\mathbf{X})}{f(\mathbf{Z})}. \]
| Y \ X | 0 | 1 | 2 |
|---|---|---|---|
| 0 | 0.10 | 0.04 | 0.02 |
| 1 | 0.08 | 0.20 | 0.06 |
| 2 | 0.06 | 0.14 | 0.30 |
\[ \int\limits_{20}^{30}\int\limits_{20}^{30} f(x,y)dxdy = 1\\ \int\limits_{20}^{30}\int\limits_{20}^{30} k (x^2+y^2)dxdy = 1\\ k\int\limits_{20}^{30}\int\limits_{20}^{30} (x^2+y^2)dxdy = 1\\ k \left. \left. \left(\frac{x^3y}{3} + \frac{y^3x}{3}\right) \right|_{x=20}^{30} \right|_{y=20}^{30} = 1\\ k \left. \left(\frac{30^3 y}{3} + \frac{30 y^3}{3} - \frac{20^3 y}{3} - \frac{20 y^3}{3}\right) \right|_{y=20}^{30} = 1\\ k \left(\frac{30^3 (30)}{3} + \frac{(30) 30^3}{3} - \frac{20^3 (30)}{3} - \frac{20 (30)^3}{3} - \frac{30^3 (20)}{3} - \frac{30 (20)^3}{3} + \frac{20^3 (20)}{3} + \frac{20 (20)^3}{3}\right) = 1\\ k \left(\frac{(2) 30^4}{3} - \frac{(2)(20^3) (30)}{3} - \frac{(2)(20) (30)^3}{3}+ \frac{(2) (20^4)}{3}\right) = 1\\ 2 k \left(\frac{30^4 - (20^3) (30) - (20) (30)^3 + (20^4)}{3}\right) = 1\\ 2 k \left(\frac{190000}{3}\right) = 1\\ k = \frac{3}{380000}. \]
\[ P(X \leq 26, Y \leq 26) = \int\limits_{20}^{26}\int\limits_{20}^{26} k (x^2+y^2)dxdy\\ = k \left. \left. \left(\frac{x^3y}{3} + \frac{y^3x}{3}\right) \right|_{x=20}^{26} \right|_{y=20}^{26} = 1\\ = 0.3024. \]
\[ P(|X-Y|\leq 2) = P(-2 \leq X -Y \leq 2)\\ = \int\limits_{20}^{30}\int\limits_{y-2}^{y+2} k (x^2+y^2)dxdy\\ = \int\limits_{20}^{30} k \left[\frac{(y+2)^3 - (y-2)^3}{3} + 4y^2\right]dy\\ = k \left. \left[\frac{(y+2)^4 - (y-2)^4}{12} + \frac{4}{3}y^3\right]\right|_{20}^{30}\\ = 0.4004. \]
\[ f(x) = \int\limits_{20}^{30} k (x^2+y^2)dy\\ = k \left. (x^2y + \frac{y^3}{3}) \right|_{y=20}^{30}\\ = \frac{3x^3}{380000} + \frac{1}{20}. \]
Es posible imaginar situaciones en las que se tiene, digamos, dos variables aleatorias cuyo comportamiento conjunto es de interés pero resulta que una de las variables es continua y la otra discreta (pensemos, por ejemplo, que nos interesa estudiar el comportamiento del ingreso de las personas considerando su sexo).
En estos casos, entonces, para determinar la probabilidad de que la pareja de variables aleatorias pertenezca a una determinada región deberá determinarse sumando sobre los valores de la variable discreta e integrando sobre los valores de la variable continua.
Notemos que cuando tenemos un vector aleatorio \(\mathbf{X}\) el concepto de \(E(\mathbf{X})\) no tiene exactamente la misma connotación que en el caso univariado (existe algo llamado el centroide de un objeto multivariado, pero eso es materia de otro curso). Sin embargo, si se tiene una función \(g\) tal que \(g(\mathbf{X}):\mathbb{R}^n \rightarrow \mathbb{R}\), entonces sí es posible definir
\[ E[g(\mathbf{X})] = \int_{S_g} g(x_1, x_2, \dots, x_n)f(x_1, x_2, \dots, x_n)dx_1 dx_2 \dots dx_n. \]
\[ E\left[\prod\limits_{i=1}^n g_i(x_i) \right] = \prod\limits_{i=1}^n E\left[ g_i(x_i) \right]. \]
Observa: esta propiedad aplica, desde luego, a la función identidad.
Si ahora consideramos a dos vv.aa. \(X\) y \(Y\) podemos definir a la esperanza condicional de X en Y como
\[ E(X|Y) = \int\limits_{S_X} x f(x|y) dx \]
para el caso continuo, o bien
\[ E(X|Y) = \sum\limits_{S_X} x p(x|y) \]
para el caso discreto.
Observa que, con frecuencia, la condicional en Y se refiere a un valor específico, concreto, de Y. Sin embargo, también puede ser una referencia a cualquier valor de Y, en cuyo caso \(E(X|Y)\) será una función de \(Y\) y, por lo tanto, una v.a.
Si \(a\) es una constante \(E(a|Y)=a\).
Para \(a\) y \(b\) constantes, \(E(aX + bZ|Y) = aE(X|Y) + b(Z|Y)\).
Si X y Y son vv.aa.ii. entonces \(E(X|Y)=E(X)\).
Si g es una función, \(E[g(Y)X|Y] = g(Y)E(X|Y)\).
\(E[E(X|Y)] = E(X)\).
De manera equivalente, podemos definir
\[ Var(X|Y) = E\{[X - E(X|Y)]^2|Y\}. \]
Propiedades:
\(Var(X|Y) > 0\).
Si a es una constante, entonces \(Var(a|Y)=0\).
\(Var(aX|Y) = a^2 Var(X|Y)\).
\(Var(X|Y) = E(X^2|Y) - E^2(X|Y)\).
Si \(E(X^2) < \infty\) entonces
\[ Var(X) = Var[E(X|Y)] + E[Var(X|Y)]. \]
Ya habíamos mencionado en este material que la distribución normal es, por su amplia aplicación tanto teórica como práctica, muy probablemente, la distribución más importante que estudiaremos. Es necesario entonces, también, extender nuestro estudio al caso multivariado.
\[ f_{\mathbf{X}}(\mathbf{x}) = \frac{1}{(2\pi)^{\frac{n}{2}}\left(|\mathbf{\Sigma}|\right)}e^{-\frac{1}{2}(\mathbf{x}-\mathbf{\mu})'\mathbf{\Sigma}^{-1}(\mathbf{x}-\mathbf{\mu})} \]
y decimos que \(\mathbf{X} \sim Normal_n (\mathbf{\mu},\mathbf{\Sigma})\).
El parámetro \(\mathbf{\mu}\) es el vector de medias. Es decir:
\[ \mathbf{\mu} = \{\mu_1, \mu_2, \dots, \mu_n\} \]
y se cumple que \(E(X_i) = \mu_i\).
Por su parte, la matriz \(\mathbf{\Sigma}\) es conocida como la matriz de varianzas y covarianzas:
\[ \mathbf{\Sigma} = \left[\begin{array}{}\sigma_1^2 & \sigma_{12} & \dots & \sigma_{1n}\\\sigma_{21} & \sigma_{2}^2 & \dots & \sigma_{2n}\\ \vdots & \vdots & \ddots & \vdots\\\sigma_{n1} & \sigma_{n2} & \dots & \sigma_{n}^2\\\end{array}\right] \]
es decir, es la matriz que contiene a la varianza de cada una de las variables en su diagonal, y la covarianza entre las variables por pares en los elementos diferentes a la diagonal.
En particular, para \(n= 2\) es posible ver que
\[ f(x,y) = \frac{1}{2\pi \sqrt{1-\rho^2}} e^{-\frac{1}{2(1-\rho^2)}\left[\left(\frac{x-\mu_x}{\sigma_x}\right)^2-2\rho\left(\frac{x - \mu_x}{\sigma_x}\right)\left(\frac{y - \mu_y}{\sigma_y}\right)+\left(\frac{y-\mu_y}{\sigma_y}\right)^2\right]}. \]
Para obtener la función generadora de momentos de una v.a. normal multivariada, primero observemos que \(\sum\limits_1^n t_i X_i = \mathbf{t'X}\) por lo que
\[ \psi_{\mathbf{X}}(\mathbf{t}) = E(e^{\mathbf{t'X}})\\ = \int_{S_{\mathbf{X}}} e^{\mathbf{t'X}} \frac{1}{(2\pi)^{\frac{n}{2}}\left(|\mathbf{\Sigma}|\right)}e^{-\frac{1}{2}(\mathbf{x}-\mathbf{\mu})'\mathbf{\Sigma}^{-1}(\mathbf{x}-\mathbf{\mu})} d\mathbf{x}\\ = e^{\mathbf{t}'\mathbf{\mu} + \frac{1}{2} \mathbf{t}'\mathbf{\Sigma}\mathbf{t}}\int_{S_{\mathbf{X}}} \frac{1}{(2\pi)^{\frac{n}{2}}\left(|\mathbf{\Sigma}|\right)}e^{-\frac{1}{2}[\mathbf{x}-(\mathbf{\mu}+\mathbf{\Sigma t})]'\mathbf{\Sigma}^{-1}[\mathbf{x}-(\mathbf{\mu}+\mathbf{\Sigma t})]} d\mathbf{x}\\ = e^{\mathbf{t}'\mathbf{\mu} + \frac{1}{2} \mathbf{t}'\mathbf{\Sigma}\mathbf{t}}. \]
Si \(\mathbf{X} \sim N_n(\mathbf{\mu},\mathbf{\Sigma})\) entonces
\(X_i\) y \(X_j\) son independientes si y solo si \(\sigma_{ij} = \sigma_{ji} = 0\).
Si \(\mathbf{A}_{m \times n}\) es una matriz constante, entonces \(\mathbf{AX} \sim N_n(A\mathbf{\mu},\mathbf{A \Sigma A'})\).
2.1 (Combinaciones lineales) Si \(\mathbf{a} = (a_1, \dots, a_n)'\) entonces \(\mathbf{aX} \sim N_n(\mathbf{a\mu},\mathbf{a \Sigma a'})\) y
\[ \mathbf{a\mu} = \sum\limits_{i=1}^n a_i\mu_i\\ \mathbf{a \Sigma a'} = \sum\limits_{i=1}^n\sum\limits_{j=1}^n a_i a_j \sigma_{ij}. \]
3.1. En general, dos vv.aa. con distribuciones marginales normales no tendrán una distribución conjunta normal.
\[ \mathbf{\mu} = (\mu_1, \mu_2)'\\ \mathbf{\Sigma} = \left[\begin{array}{}\Sigma_{11} & \Sigma_{12}\\\Sigma_{21} & \Sigma_{22}\end{array}\right]\\ \overline{\mathbf{\mu}} = \mathbf{\mu}_1 + \mathbf{\Sigma}_{12} \mathbf{\Sigma}_{22}^{-1}(a - \mathbf{\mu_2})\\ \overline{\mathbf{\Sigma}} = \Sigma_{11} - \Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}. \]
4.1. Si \(\mathbf{X} \sim N_2(\mathbf{\mu},\mathbf{\Sigma})\) entonces
\[ X_1 | (X_2 = a) \sim N(\mu_1 + \rho \frac{\sigma_{1}}{\sigma_2} (a-\mu_2), \sigma_1^2 - \rho \frac{\sigma_{1}}{\sigma_2} \sigma_{12})\\ \sim N(\mu_1 + \rho \frac{\sigma_{1}}{\sigma_2} (a-\mu_2), \sigma_1^2 - \rho \frac{\sigma_{1}}{\sigma_2} \rho \sigma_1 \sigma_2)\\ \sim N(\mu_1 + \rho \frac{\sigma_{1}}{\sigma_2} (a-\mu_2), \sigma_1^2 (1 - \rho^2)). \]
I y II se únicamente cuando toman el mismo camino, entonces, \(P(E) = \frac{10}{100} = 1/10\).
Acertar los 6 naturales.
5 naturales y el adicional.
5 naturales.
4 naturales.
3 naturales y el adicional.
Encuentra \(p_i\) la probabilidad de ganar el i-ésimo lugar.
\[p_1 = \frac{1}{C_{44,6}}\]
Para el segundo lugar es necesario obtener 1 número adicional, y las \(6 \times 38\) (no puede salir uno, si no, sería primer lugar) configuraciones de los 5 números naturales ganadores.
\[p_2 = \frac{1 \times 6 \times 38}{38 \times C_{44,6}} = \frac{6}{C_{44,6}}\]
Para el tercer lugar, es necesario obtener cualquiera de las \(6 \times 38\) configuraciones de los 5 números naturales ganadores y no obtener el adicional.
\[p_3 = \frac{37 \times 6 \times 38}{38 \times C_{44,6}} = \frac{6}{C_{44,6}}\]
Para el cuarto lugar, es necesario obtener cualquiera de las configuraciones de los 4 números naturales ganadores (dos números no pueden salir o sería un premio mayor) y el adicional no importa.
\[p_4 = \frac{38 \times C_{6,4} \times C_{38,2}}{38 \times C_{44,6}}.\]
Para el quinto lugar, es necesario obtener cualquiera de las configuraciones de 3 números naturales ganadores (tres números no pueden salir o sería un premio mayor) y el adicional.
\[p_5 = \frac{C_{6,3} \times C_{38,3}}{C_{44,6}} \frac{3}{38}.\]
\[P\left(\bigcup\limits_{i=1}^N E_i\right).\]
La probabilidad de que nadie se lleve su propio sombrero es
\[1 - P\left(\bigcup\limits_{i=1}^N E_i\right).\]
Ahora,
\[P\left(\bigcup\limits_{i=1}^N E_i\right) =\]
\[\sum\limits_{i = 1}^N P(E_i) - \sum\limits_{i_1 < i_2} P(E_{i_1} \cap E_{i_2}) + \sum\limits_{i_1 < i_2 < i_3} P(E_{i_1} \cap E_{i_2} \cap E_{i_3}) + \dots +\]
\[(-1)^{m+1}\sum\limits_{i_1 < \dots < i_m} P(E_{i_1} \cap \dots \cap E_{i_m}) + \dots + (-1)^{N+1} P(E_{i_1} \cap \dots \cap E_{i_N}).\]
Por otra parte:
\[P(E_{i_1} \cap \dots \cap E_{i_m}) = \frac{1}{P_{N,m}}\]
y existen \(C_{N,m}\) términos con esta probabilidad. Entonces:
\[\sum\limits_{i_1 < \dots < i_m} P(E_{i_1} \cap \dots \cap E_{i_m}) = \frac{C_{N,m}}{P_{N,m}}\]
\[= \frac{N!(N-m)!}{m!N!(N-m!)} = \frac{1}{m!}.\]
Entonces
\[P\left(\bigcup\limits_{i=1}^N E_i\right) = 1 - \frac{1}{2!} + \frac{1}{3!} + \dots + (-1)^{m+1} \frac{1}{m!} + \dots + (-1)^{N+1} \frac{1}{N!}.\]
Y, entonces,
\[P(E) = 1 - 1 + \frac{1}{2!} - \frac{1}{3!} + \dots - (-1)^{m+1} \frac{1}{m!} - \dots - (-1)^{N+1} \frac{1}{N!}.\]
Ahora, recordemos que
\[e^x = \sum\limits_{i = 0}^{\infty} \frac{x^i}{(i+1)!}.\]
Entonces:
\[\lim\limits_{N \rightarrow \infty} P\left(\bigcup\limits_{i=1}^N E_i\right) = 1 - e^{-1}.\]
Por lo tanto
\[\lim\limits_{N \rightarrow \infty} P(E) = e^{-1}.\]
Para la segunda pregunta, consideremos un grupo de \(k\) personas. Se pueden formar \(C_{N,k}\) grupos de \(k\) personas. Cada grupo de \(k\) personas se puede combinar con
\[(N-k)! \times \left[1 - P\left(\bigcup\limits_{i=1}^{N-k} E_i\right)\right]\]
diferentes grupos de \(N-k\) personas que no se llevaron su propio sombrero.
Entonces
\[P(E) = \frac{C_{N,k} \times (N-k)! \times \left[1 - P\left(\bigcup\limits_{i=1}^{N-k} E_i\right)\right]}{N!}\]
\[= \frac{\frac{N!}{k!(N-k)!} \times (N-k)! \times \left[\frac{1}{2!} - \frac{1}{3!} + \dots - (-1)^{m+1} \frac{1}{m!} - \dots - (-1)^{N-k+1} \frac{1}{(N-k)!}\right]}{N!}\]
\[= \frac{\frac{1}{2!} - \frac{1}{3!} + \dots - (-1)^{m+1} \frac{1}{m!} - \dots - (-1)^{N-k+1} \frac{1}{(N-k)!}}{k!}.\]
\[P(E) = \frac{\frac{4}{3} \pi \frac{l^3}{8}}{l^3} = \frac{\pi}{6}.\]
Ahora, para la cardinalidad de los eventos:
Hay 1 única manera de obtener $15, entonces \(P(E) = \frac{1}{C_{6,3}} = \frac{1}{\frac{6!}{3!3!}} = 0.05.\)
Para obtener $40 tienen que salir por fuerza las monedas de 25 y 10 y una de 5, pero hay tres de 5 por lo que \(P(E) = \frac{3}{20}\).
Veamos que, aún obteniendo las tres monedas más altas (50, 25 y 10) no se logran juntar $100, por lo tanto \(P(E) = 0\).
Para obtener más de $50 es necesario obtener la moneda de $50 por lo que \(P(E) = \frac{1 \times C_{5,2}}{20} = \frac{10}{20} = \frac{1}{2}\).
Para la cardinalidad del evento una alternativa es considerar el evento en el que al menos 1 pareja queda junta: \(6 \times 4!\).
¿?
\[P(E_1^c) = 1 - P(E_1) = 1 - P(Roja \cup Blanca) = 1 - 3/5 = \frac{2}{5}.\]
\[P(A \cup B) = P(A) + P(B) - P(A \cap B)\]
\[= 0.5 + 0.2 - 0.1\]
\[= 0.6.\]
Para la segunda probabilidad observemos que el evento de que ninguno de los dos repruebe es el complemento de que al menos uno de los dos repruebe. Por lo tanto, la probabilidad del evento es igual a \(1-0.6=0.4\).
La probabilidad de que solamente uno de los dos repruebe el examen es \(P(A) + P(B) - 2 \times P(A \cap B) = 0.5 + 0.2 - 2 \times 0.1 = 0.5\).
\(A \cap B = \emptyset\), por lo tanto, \(B \cap A^c = B\), de lo que se desprende que \(P(B \cap A^c) = P(B) = \frac{1}{2}\).
\(A \subset B\). Entonces \(B = A \cup (B \cap A^c)\), por lo que \(P(B) = P(A \cup (B \cap A^c))\) pero \(A \cap (B \cap A^c) = \emptyset\), entonces \(P(B) = P(A) + P(B \cap A^c)\), y despejando: \(P(B \cap A^c) = P(B) - P(A) = \frac{1}{2} - \frac{1}{3} = \frac{1}{6}\).
\(P(A \cap B) = \frac{1}{8}\). Observemos primero que \(B = (B \cap A) \cup (B \cap A^c)\) y que \((B \cap A) \cap (B \cap A^c) = \emptyset\). Entonces, \(P(B) = P(B \cap A) + P(B \cap A^c)\) y, despejando, \(P(B \cap A^c) = P(B) - P(B \cap A) = \frac{1}{2} - \frac{1}{8} = \frac{3}{8}\).
\[ \begin{aligned} P(A \cup B) &= P(A) + P(B) - P(A \cap B) \\ P(A \cap B) &= P(A) + P(B) - P(A \cup B) \\ &= 0.5 + 0.65 - 0.85 \\ &= 0.3. \end{aligned} \]
\[ P(A \cup B) = P(A) + P(B) - P(A \cap B) \\ P(A \cap B) = P(A) + P(B) - P(A \cup B) \\ P(A \cap B) = 0.4 + 0.7 - P(A \cup B) \\ P(A \cap B) = 1.1 - P(A \cup B). \]
Sabemos también que \(P(A \cap B) \leq 1\) por lo que \(P(A \cap B) \geq 0.1\). En particular, \(P(A \cap B)\) alcanza su máximo, \(P(A \cap B) = 1\), cuando \(P(A \cup B) = 0.1\). Este, sin embargo, es el caso trivial porque \(P(A \cap B) = 1\) implica que \(A = \Omega\) o \(B = \Omega\), pero por sus probabilidades sabemos que ni \(A\) ni \(B\) son iguales al espacio muestral. Entonces, tenemos tres casos:
\(A \cap B = \emptyset\), entonces \(P(A \cap B) = 0\);
\(B \subset A\), este caso no puede ser ya que \(P(A) < P(B)\).
\(A \subset B\), entonces \(P(A \cup B) = P(B) = 0.7\) por lo que \(P(A \cap B) = 1.1 - 0.7 = 0.4\)
Por otro lado, \(P(A \cap B)\) alcanza su mínimo, \(P(A \cap B) = 0.1\), cuando \(P(A \cup B) = 1\).
\[(A \cap B^c) \cup (B \cap A^c).\]
Entonces:
\[P[(A \cap B^c) \cup (B \cap A^c)] = P(A \cap B^c) + P(B \cap A^c) - P[(A \cap B^c) \cap (B \cap A^c)]\]
pero \(P[(A \cap B^c) \cap (B \cap A^c)] = 0\) por lo que
\[ P[(A \cap B^c) \cup (B \cap A^c)] = P(A \cap B^c) + P(B \cap A^c) \]
Ahora, observemos que \(A = (A \cap B^c) \cup (A \cap B)\) por lo que \(P(A) = P(A \cap B^c) + P(A \cap B)\) puesto que \((A \cap B^c) \cap (A \cap B) = \emptyset\). Y por lo tanto \(P(A \cap B^c) = P(A) + P(A \cap B)\). Por el mismo argumento \(P(B \cap A^c) = P(B) + P(A \cap B)\). Por lo tanto:
\[ P[(A \cap B^c) \cup (B \cap A^c)] = P(A) + P(A \cap B) + P(B) + P(A \cap B) \\ = P(A) + P(B) + 2P(A \cap B). \]
Solución :
\[ (x-\frac{1}{2})^2 + (y - \frac{1}{2})^2 = \frac{1}{4} \]
es la ecuación que describe a un círculo de radio \(\frac{1}{2}\) y centro en \((1/2, 1/2)\). Entonces, la desigualdad describe a todos los puntos que se encuentran fuera del circulo unitario inscrito en el cuadrado unitario.
El área del círculo unitario es igual a \(\pi \times \frac{1}{4}\), entonces el área fuera del círculo pero dentro del cuadrado es \(1 - \frac{\pi}{4}\).
\[ P(E) = 1 - 2 \times \frac{\frac{1}{2} \times \frac{1}{2}}{2} \\ = 1 - \frac{1}{4} = \frac{3}{4}. \]
\[ P(E) = \int\limits_0^1 (1 - x^2)dx \\ = (x - \frac{1}{3}x^3)|_0^1 \\ = 1 - \frac{1}{3} \\ = \frac{2}{3}. \]
\[P(\bigcup\limits_{i = 1}^n = \sum\limits_{i=1}^n P(B_i)\]
y que
\[P(\bigcup\limits_{i = 1}^{\infty} = \sum\limits_{i=1}^{\infty} P(B_i)\]
Veamos el caso de \(i = 2\):
\[ A_2 = (A_2 \cap A_1) \cup (A_2 \cap A_1^c) \\ = B_2 \cup (A_2 \cap B_1). \]
Entonces
\[ P(A_1 \cup A_2) = P(A_1) + P(A_2) - P(A_1 \cap A_2) \\ = P(B_1) + P(B_2 \cup (A_2 \cap B_1)) - P(A_1 \cap A_2) \\ = P(B_1) + P(B_2) + P(A_2 \cap B_1) - P(B_2 \cap B_1 \cap A_2)) - P(A_1 \cap A_2) \\ = P(B_1) + P(B_2) + P(A_2 \cap A_1) - P(A_1 \cap A_2) \\ = P(B_1) + P(B_2). \]
\(i = 3\):
\[ P(A_1 \cup A_2 \cup A_3) = P[(A_1 \cup A_2) \cup A_3] \\ = P[(A_1 \cup A_2)] + P(A_3) - P[(A_1 \cup A_2) \cap P(A_3)] \\ = P(B_1) + P(B_2) + P(A_3) - P[(A_1 \cup A_2) \cap P(A_3)] \\ = P(B_1) + P(B_2) + P[(A_3 \cap (A_2 \cup A_1)^c) \cup(A_3 \cap (A_2 \cup A_1))] - P[(A_1 \cup A_2) \cap P(A_3)] \\ = P(B_1) + P(B_2) + P[(A_3 \cap (A_2 \cup A_1)^c)] + P[(A_3 \cap (A_2 \cup A_1))] - P[(A_1 \cup A_2) \cap P(A_3)] \\ = P(B_1) + P(B_2) + P(B_3). \]
\(i = n\):
\[ P(A_1 \cup A_2 \cup \dots \cup A_n) = P[(A_1 \cup \dots \cup A_{n-1}) \cup A_3] \\ = P[(A_1 \cup \dots \cup A_{n-1})] + P(A_n) - P[(A_1 \cup \dots \cup A_{n-1}) \cap P(A_n)] \\ = P(B_1) + \dots + P(B_{n-1}) + P[(A_n \cap (A_{n-1} \cup \dots \cup A_1)^c) \cup (A_n \cap (A_{n-1} \cup \dots \cup A_1))] - P[(A_1 \cup \dots \cup A_{n-1}) \cap P(A_n)] \\ = P(B_1) + \dots + P(B_{n-1}) + P[(A_n \cap (A_{n-1} \cup \dots \cup A_1)^c)] + P[(A_n \cap (A_{n-1} \cup \dots \cup A_1))] - P[(A_1 \cup \dots \cup A_{n-1}) \cap P(A_n)] \\ = P(B_1) + P(B_2) + \dots + P(B_n). \]
Los modelos probabilísticos, en general, van a buscar asignar o describir las probabilidades asociadas a colecciones de posibles resultados. Al estudiar la probabilidad se hace, por lo tanto, frecuentemente uso de operaciones sobre conjuntos.
Un conjunto se una colección de objetos (los cuales son los elementos del conjunto). Si \(S\) es un conjunto y \(x\) es un elemento de \(S\), utilizamos la notación \(x \in S\). Por otra parte si \(x\) no es un elemento de \(S\), lo denotamos como \(x \notin S\). Un conjunto puede no contar con ningún elemento, en cuyo caso es llamado el conjunto vacío y lo denotamos con el símbolo \(\emptyset\).
Si \(S\) contiene un número finito o infinito de elementos que pueden ser listados, lo denotamos como \(S = \{ x_1, \dots, x_n \}\), o bien, \(S = \{ x_1, x_2, \dots \}\), según corresponda.
Alternativamente, podemos describir al conjunto por las propiedades que lo definen: \(S = \{ x|x \space \text{satisface} \space P \}\).
Conjuntos contables vs incontables
Subconjuntos: si cada elemento del conjunto \(S\) es también un elemento del conjunto \(T\), decimos que \(S\) es un subconjunto de \(T\) o, en notación, \(S \subset T\). Por otra parte, decimos que dos conjuntos son iguales si \(S \subset T\) y \(T \subset S\).
Conjunto universal: llamamos conjunto universal (típicamente denotado como \(\Omega\)) al conjunto que contiene todos los objetos que podrían concebirse como de interés dentro de un contexto en particular. Se sigue entonces que, dentro de ese contexto \(S \subset \Omega \space \forall \space S\).
Complemento: el complemento de un conjunto \(S\), con respecto a un universo \(\Omega\), es el conjunto \(S^c = \{ x \in \Omega | x \notin S \}\). Por definición \(\Omega^c = \emptyset\).
Unión: la unión de dos conjuntos \(S\) y \(T\) corresponde a todos los elementos de \(\Omega\) que pertenecen a \(S\) o a \(T\) (o ambos): \(S \cup T = \{ x|x \in S \space or \space x \in T \}\).
Intersección: la intersección de dos conjuntos \(S\) y \(T\) es el conjunto de elementos que pertenecen a ambos, \(S\) y \(T\): \(S \cap T = \{ x|x \in S \space and \space x \in T \}\). Cuando \(S \cap T = \emptyset\) decimos que \(S\) y \(T\) son disjuntos.
Partición: decimos que una colección de conjuntos forman una partición del conjunto \(S\) si son disjuntos y su unión es igual a \(S\).
Algunas propiedades de las operaciones con conjuntos:
\(S \cup T = T \cup S\)
\(S \cap (T \cup U) = (S \cap T) \cup (S \cap U)\)
\((S^c)^c = S\)
\(S \cup \Omega = \Omega\)
\(S \cup (T \cup U) = (S \cup T) \cup U\)
\(S \cup (T \cap U) = (S \cup T) \cap (S \cup U)\)
\(S \cap S^c = \emptyset\)
\(S \cap \Omega = S\)
Leyes de De Morgan:
\(\left( \bigcup\limits_{n} S_n \right)^c = \bigcap\limits_n S_{n}^c\)
\(\left( \bigcap\limits_{n} S_n \right)^c = \bigcup\limits_n S_{n}^c\)
Un axioma, en un cuerpo teórico, es una proposición sobre la cual descansan otros razonamientos y proposiciones que se deducen de esta. Pueden ser tanto afirmaciones que se consideran obvias o evidentes en sí mismas (y, por lo tanto, no son probadas) o bien puede tratarse de proposiciones o postulados a partir de los cuales se construye la teoría.↩︎
Georges-Louis Leclerc, Conde de Buffon, fue un noble francés del s. XVIII. Planteó este problema y su símil relativo al lanzamiento de una moneda. Estos problemas forman parte de los inicios del planteamiento de lo que puede ser llamado “probabilidad geométrica” (disciplina hoy en día dividida en dos ramas: geometría integral y geometría estocástica).↩︎
Originalmente desarrollada por Daniel Bernoulli.↩︎