library(ggplot2)
library(foreign)
library(kableExtra)
library(scales)
library(openxlsx)
library(reshape2)
library(latex2exp, quietly = TRUE, verbose = FALSE) # meschiari2022

EVALUACIÓN

  • 3 Exámenes parciales (20% cada uno)

    • 2025-02-14.

    • 2025-03-24.

    • 2025-04-23.

  • Examen final (30%)

  • Todos los exámenes son departamentales.

  • Tareas (10%)

  • Formulario: permitido. El formulario oficial lo pueden descargar de la página del Departamento.

CRITERIOS Y POLÍTICAS

  • El canal primario de comunicación entre nosotros será la Bandeja de Entrada de Canvas. Por favor, estén atentos también a la sección de Anuncios.

  • La asistencia no es obligatoria, pero les recomiendo enfáticamente que asistan a clase. No hay un sustituto claro para el aprendizaje activo. Aprovéchenlo.

  • Como cualquier materia, se espera que ustedes hagan una gran parte del trabajo por su cuenta (fuera de clase). Una parte de este trabajo es previo a la clase, revisando el material propuesto para cada tema. Otra parte, también muy importante, es el trabajo posterior a la clase (repaso y tareas).

    • Una buena regla “de dedo” es realizar, al menos, el mismo número de ejercicios que los realizados en clase y en las tareas de manera independiente.

    • Hagan y entreguen las tareas. La experiencia señala claramente que quienes hacen el trabajo son los que obtienen resultados aprobatorios.

  • Sobre las calificaciones:

    • Calificaciones parciales (exámenes y tareas) no se redondean; la calificación final, sí.

    • El redondeo es estricto, no hay negociaciones.

    • Acorde al Art. 27 del Reglamento de Alumnos, es condición necesaria aprobar el examen final.

    • La calificación del examen final no se redondea. Calificaciones menores a 6 (estricto) son reprobatorias.

  • En la calificación de los exámenes se evaluará (en la medida de lo posible): 1) planteamiento, 2) desarrollo y 3) resultado. El resultado correcto puede resultar en una valoración positiva; un resultado incorrecto, pero con buen planteamiento o desarrollo, puede aportar puntos; resultados incorrectos, sin planteamiento o desarrollo claros no permiten valoración alguna.

  • El estándar para la presentación de resultados será a 4 decimales.

  • Esta es una materia coordinada por el Departamento de Estadística. Algunas decisiones podrán estar subordinadas al criterio que el Departamento imponga.

BIBLIOGRAFÍA

  • Wackerly, Mendenhall, and Scheaffer (2008)
  • Ross (2010)
  • DeGroot (1988)
  • Evans and Rosenthal (2023)

FUNDAMENTOS DE PROBABILIDAD

Lecturas recomendadas
  • Wackerly, Mendenhall, and Scheaffer (2008), cap. 2.
  • DeGroot (1988), cap. 1.
  • Evans and Rosenthal (2023), cap. 1.1.

Del diccionario de la academia de la lengua española:

probabilidad
Del lat. probabilĭtas, -ātis.
    1. Verosimilitud o fundada apariencia de verdad.
    1. Cualidad de probable (‖ que se verificará o sucederá).
    1. Mat. En un proceso aleatorio, razón entre el número de casos favorables y el número de casos posibles.
verosímil
De verisímil.
  1. adj. Que tiene apariencia de verdadero.

  2. adj. Creíble por no ofrecer carácter alguno de falsedad.

aleatorio, ria
Del lat. aleatorius, der. de alea ‘juego de azar’, ‘azar, suerte’.
  1. adj. Que depende del azar (‖ casualidad). Un proceso aleatorio.

  2. adj. Perteneciente o relativo al juego de azar.

azar
Del ár. hisp. *azzahr, y este del ár. zahr ‘dado’; literalmente ‘flores’.
    1. Casualidad, caso fortuito.
    1. Desgracia imprevista.

La teoría de la probabilidad es la ciencia de la incertidumbre, esto es, es la rama de las matemáticas que estudia a los objetos matemáticos que nos permiten analizar y describir nuestra ignorancia. La teoría de la probabilidad, por lo tanto, nos proporciona el marco conceptual para trabajar con nuestro conocimiento limitado y para poder tomar decisiones con base en lo que sabemos y lo que no sabemos (Evans and Rosenthal 2023).

INTERPRETACIONES DE LA PROBABILIDAD

Lecturas recomendadas
  • Aven and Thekdi (2025), Cap. 3.1.

Aunque todos tenemos una noción de a qué cosa nos referimos cuando hablamos de la probabilidad, la realidad es que no existe una única definición universalmente aceptada en términos científicos. En general, se puede afirmar que existen tres grandes perspectivas desde las cuales típicamente se define lo que entendemos por probabilidad (DeGroot 1988):

Interpretación clásica
Esta perspectiva parte del argumento de que si se cuenta con n posibles resultados de un evento y se cree que todos los resultados son igualmente verosímiles, entonces decimos que los eventos son igualmente probables. Desde luego, en raras ocasiones percibimos cada uno de los posibles resultados como igualmente probables, por lo que esta interpretación, quizá, es utilizada para reflejar un cierto grado de ignorancia respecto de las probabilidades de ocurrencia.

Pensemos en el ejemplo de un “volado”: es posible argumentar que existen únicamente dos resultados igualmente posibles (suponiendo una moneda y un lanzador “justos”): “águila” o “sol”, por lo que diremos que son igualmente probables.

Interpretación frecuentista
Desde esta perspectiva se define como probabilidad a la frecuencia relativa (respecto de un total de observaciones) con la que se obtiene un resultado o se observa un evento. Desde luego, para que a esta frecuencia relativa la consideremos una probabilidad, generalmente requeriremos ciertas condiciones a la realización del evento (para que podamos considerarlo realmente resultado de un proceso azaroso o aleatorio). Un inconveniente de la perspectiva frecuentista es que generalmente requeriremos un número elevado de observaciones para poder afirmar que la frecuencia relativa obtenida es una buena aproximación a la probabilidad real, pero no sabemos qué tan grande tiene que ser el número de observaciones e incluso, en ocasiones, si es posible obtener un número grande de observaciones (o incluso si es posible obtener nuevas observaciones o repeticiones del evento observado).

En el ejemplo del “volado”: una observación es una muy mala aproximación a la probabilidad de obtener “águila” o “sol”; dos, probablemente también. ¿Cuántos volados necesitamos? Si realizamos una cantidad suficiente de volados seguramente se obtendrá una proporción cada vez más cercana a \(\frac{1}{2}\).

Tanto la interpretación clásica como la frecuentista tienen como inconveniente adicional que es complicado (imposible) aplicarlas cuando el número de posibles resultados es infinito. Esto puede hacernos reflexionar, por ejemplo, en la diferencia entre un resultado imposible y un resultado de probabilidad cero.

¿Cuál es la probabilidad asociada a seleccionar un número entero positivo al azar en específico? ¿Es un evento imposible?

Tampoco se prestan particularmente bien estas interpretaciones para el uso de probabilidades para describir situaciones que no han ocurrido nunca.

Por ejemplo, las asociadas a eventos en los que el contexto importa mucho y da lugar a circunstancias únicas: el resultado de un partido de basketball profesional.

Interpretación subjetiva
Esta perspectiva incorpora la información que cada persona tiene respecto del fenómeno siendo estudiado ya que postula que la probabilidad es una medida que refleja la opinión que dicha persona tiene sobre la verosimilitud de los posibles resultados de un evento. Es decir, que la probabilidad es una medida subjetiva que dependen en gran medida de la información con la se cuenta y la evidencia que se obtenga del fenómeno.

En el ejemplo del volado, nuevamente, podríamos argumentar contar con información sobre las características de la moneda, o bien que conocemos a la persona que hace los lanzamientos, por lo que podemos suponer que los resultados no son igualmente probables. Esta es, desde luego, nuestra probabilidad porque contamos con información que otras personas no tienen.

Cada una de estas perspectivas puede sernos útil, dependiendo del problema que intentemos resolver, pero también es importante observar que son posturas complementarias y, frecuentemente, puede observarse que las conclusiones a las que se llega son las mismas, independientemente de qué postura adoptemos respecto de la probabilidad.

Bernstein (1996)
“Probability has always carried this double meaning, one looking into the future, the other interpreting the past, one concerned with our opinions, the other concerned with what we actually know”.

La Teoría de la Probabilidad busca desarrollar las herramientas para describir la incertidumbre en términos de modelos probabilísticos. En probabilidad, llamamos experimento a cualquier proceso cuyos resultados no se conocen de antemano con certeza (DeGroot 1988) o bien, en otras palabras, un experimento es un proceso mediante el cual una observación es realizada (Wackerly, Mendenhall, and Scheaffer 2008). En contraste a un experimento (aleatorio), podemos pensar en eventos o procesos determinísticos, en los cuales dadas unas condiciones iniciales es posible determinar con absoluta certeza el resultado del proceso.

Matemáticamente, el trabajo a realizar en la Teoría de la Probabilidad está fundamentalmente enfocado a dos grandes problemas:

  • Determinar las probabilidades de ciertos sucesos a partir de las probabilidades especificadas para cada uno de los posibles resultados de un experimento;

  • Métodos para revisar las probabilidades de los sucesos una vez que contamos con información o evidencia nueva o adicional.

Más adelante definiremos matemáticamente lo que entenderemos por probabilidad, aunque para poder hacerlo necesitamos retomar algunos elementos de teoría de conjuntos.

El estudio de la Teoría de la Probabilidad comenzó a en el s. XVI con trabajos de Gerolamo Cardano con la aplicación de métodos matemáticos a problemas de juego (apuestas) y, después en el s. XVII, por parte de Blaise Pascal y Pierre de Fermat.

El estudio matemático moderno de la probabilidad surge en los 1920’s principalmente a partir del trabajo de matemáticos como Ronald Aylmer Fisher (cuyo nombre hoy a caído un tanto en desgracia por sus posturas raciales y eugenéticas), Norbert Wiener, William Feller, Joe Doob y Richard von Mises. Sin embargo, la teoría de la probabilidad recibió un muy fuerte impulso por parte de matemáticos rusos de la época, como Andrey Kolmogorov, Andrei Andreyevich Markov y Pafnuty L. Chebyshev.

Durante la mayor parte de la historia de las matemáticas el estudio de la probabilidad fue considerado como un esfuerzo despreciable por tratarse de una aplicación menor del conocimiento matemático (esta visión prevaleció en algunas escuelas hasta bien entrado el siglo XX).

Ejemplo
Determina a qué enfoque pertenecen los siguientes enunciados:
  1. Existe una probabilidad del 20% de que llueva pues ha llovido 2 de los 10 días anteriores.

  2. Según los expertos existe un 5% de probabilidad que un auto se accidente en el campo pues se considera que el riesgo es menor.

  3. Existe una probabilidad del 50% de escoger una botas pues hay 10 botas entre los 20 zapatos disponibles.


ESPACIOS MUESTRALES Y EVENTOS

Ya dijimos, entonces, que podemos entender a la probabilidad como una manera de asignar un valor a la incertidumbre asociada al resultado de un proceso aleatorio. A este proceso aleatorio que nos interesa observar le llamamos un experimento.

Ahora definiremos algunos conceptos adicionales que son fundamentales en el estudio de la probabilidad.

Definición
Llamamos espacio muestral, denotado comúnmente como \(\Omega\), al conjunto de todos los resultados posibles de un experimento aleatorio.
Definición
Llamamos evento, \(A\), a un subconjunto de \(A \subseteq \Omega\).

Observa que los eventos, al estar definidos como subconjuntos del espacio muestral, pueden ser simples (i.e., elementos individuales del espacio muestral que no pueden ser descompuestos o reducidos a unidades más pequeñas) o bien compuestos (i.e., un conjunto de elementos pertenecientes al espacio muestral).

Observa también que, dado que estamos hablando de conjuntos de “cosas” o resultados de un experimento, podemos pensar en que nuestro espacio muestral está compuesto de elementos contables, en cuyo caso lo llamaríamos un espacio muestral discreto. Sin embargo, es importante notar que con frecuencia nos interesan experimentos cuyos posibles resultados no forman parte de un conjunto contable, en cuyo caso estaríamos hablando de un espacio muestral continuo.

Ejemplo
Consideremos tres diferentes experimentos. Los tres experimentos consisten en preguntarle a la gente algo:
  1. ¿Qué categoría de automóviles prefiere usted? ¿Sedán, SUV o deportivo?

  2. ¿Cuántos hijos tiene usted?

  3. ¿Cuál es su estatura?

¿Qué tipo de espacios muestrales corresponden a cada experimento?


Ejemplo
La biblioteca de una universidad dispone de cinco ejemplares de un cierto texto en reserva. Dos ejemplares (1 y 2) son primeras impresiones y los otros tres (3, 4 y 5) son segundas impresiones. Un estudiante examina estos libros en orden aleatorio y se detiene solo cuando una segunda impresión ha sido seleccionada. Un posible resultado es (5) y otro (2,1,3).
  1. Ponga en lista los resultados en S el espacio muestral.

R :

(3), (4), (5), (1,3), (1,4), (1,5), (2,3), (2,4), (2,5), (1, 2, 3), (1, 2, 4), (1, 2, 5) (2, 1, 3), (2, 1, 4), (2, 1, 5)

  1. Sea A el evento en el que exactamente un libro debe ser examinado. ¿Qué resultados están en A?
R
(3), (4), (5),
  1. Sea B el evento en el que el libro 5 es seleccionado. ¿Qué resultados están en B?
R
(5), (1,5), (2,5), (1,2,5), (2,1,5)
  1. Sea C el evento en el que el libro 1 no es examinado. ¿Qué resultados están en C?

R : (3), (4), (5), (2,3), (2,4), (2,5),


Nota que estamos haciendo referencia a conjuntos por lo que es conveniente repasar brevemente un poco de teoría de conjuntos.

Es muy importante que, para la definición correcta del espacio muestral aprendamos a distinguir claramente entre los eventos (sobre los que normalmente se nos solicitará calcular la probabilidad) y el experimento. Recuerda que un evento puede estar compuesto por varios resultados del experimento.

ESPACIOS MUESTRALES EQUIPROBABLES Y NO EQUIPROBABLES

Una vez que contamos con un entendimiento de lo que es el espacio muestral de un experimento (y considerando las diferentes interpretaciones de la probabilidad) es posible notar que podemos encontrar dos diferentes relaciones del espacio muestral con la probabilidad. Para ello, consideremos un espacio muestral finito y discreto. Lógicamente, a cada elemento del espacio muestral corresponde una (y solo una) probabilidad. Entonces podemos asignar

  • la misma probabilidad a cada uno de los elementos del espacio muestral, en cuyo caso lo llamaremos un espacio muestral equiprobable o simple;

  • diferentes probabilidades a diferentes elementos del espacio muestral (no equiprobable).

Ejemplo
De los siguientes ejemplos de experimentos aleatorios, ¿cuáles consideras que tienen un espacio muestral equiprobable?
  • La lotería.

  • El resultado de un partido de futbol.

  • El color de ojos de un individuo.


Subrayemos nuevamente la importancia del entendimiento del experimento para la definición del espacio muestral. En ocasiones será posible definir al espacio muestral alternativamente como equiprobable o no, dando lugar a respuestas más sencillas o complejas.

Ejemplo
Se lanzan dos dados (justos) y se observa la suma del resultado. Define el espacio muestral e indica qué tipo de espacio muestral es.

CONTEO

Es claro, por lo que hemos visto hasta ahora que, además de la teoría de conjuntos, otra herramienta frecuentemente (no siempre) muy útil en el cálculo de probabilidades es el conteo. En lo ejemplos que hemos visto hasta ahora es claro que nos interesa siempre conocer el número de eventos simples que forman al espacio muestral así como el número de eventos simples que conforman al evento de interés.

Como es lógico suponer, no siempre será posible listar todos los eventos posibles y contarlos uno por uno. Necesitamos herramientas que nos ayuden a realizar esta tarea de forma más eficiente.

Regla de la multiplicación
Supongamos que un experimento se puede describir en \(k\) diferentes fases o partes, cada fase con \(n_i, i = 1, \dots, k\), posibles diferentes resultados (independientes de los resultados de las otras fases). Entonces, el número de eventos en el espacio muestral será igual a \(n_1 \times n_2 \times \dots \times n_k\).

Ejemplo
Determina el tamaño del espacio muestral del lanzamiento de seis monedas y un dado.
R
\(N = 2 \times 2 \times 2 \times 2 \times 2 \times 2 \times 6 = 2^6 \times 6 = 384\).

Muestreo sin reemplazo
Supongamos que de una colección de \(n\) objetos se seleccionan secuencialmente un total de \(r \ (r \leq n)\) objetos de manera que, una vez seleccionado uno de ellos, ya no puede volver a ser seleccionado. En este caso decimos que se está seleccionando una muestra sin reemplazo.

En un esquema de muestreo sin reemplazo nos interesa ahora preguntarnos, ¿cuál es el número total de diferentes muestras que es posible levantar? Para ello, utilizaremos la regla de la multiplicación. En la fase 1 de nuestro experimento tenemos \(n\) posibles resultados; en la fase 2, \(n-1\); en la fase 3, \(n-2\) y así sucesivamente hasta la fase \(k\) de nuestro experimento en la que tendremos \(n-k+1\) posibles diferentes resultados. Por lo tanto, por la regla de multiplicación, tendremos en total \(N = n \times (n-1) \times (n-2) \times \dots \times (n-k+1)\) diferentes posibles resultados. Ahora, recodemos que \(n! = n \times (n-1) \times (n-2) \times \dots \times (n-k+1) \times \dots \times 2 \times 1\) por lo que es relativamente sencillo observar que \(N = \frac{n!}{(n-k)!}\).

Permutación
Llamamos permutación al número de variaciones de \(n\) elementos tomados de \(k\) en \(k\) y lo denotamos como \(P_{k}^n = \frac{n!}{(n-k)!}\).

En el muestreo con reemplazo el objeto seleccionado en cada fase se devuelve a la colección, por lo que puede volver a ser seleccionado en la fase siguiente. ¿Cómo determinas el número total de posibles diferentes muestras de tamaño \(k\) en de una colección de tamaño \(n\) en un ejercicio de muestreo con reemplazo?

Ejemplo
Un club consta de 25 miembros y se elige de la lista de miembros a un presidente y un secretario. ¿Cuál es el número total diferentes maneras en las que se pueden cubrir los puestos si una persona no puede ocupar ambos puestos?
R
Estamos ante un problema de muestreo sin reemplazo, por lo que se trata de encontrar el número total de maneras de obtener una muestra de tamaño 2 de una colección de tamaño 25, es decir: \(P_2^{25} = \frac{25!}{23!} = 25 \times 24 = 600\).

Ejemplo
Una urna contiene \(10\) bolas numeradas. Se seleccionan al azar \(3\) bolas. Obtén una expresión para el número total de posibles diferentes resultados si:
  1. Cada que se extrae una bola de la urna, se registra el número obtenido y se devuelve la bola a la urna.
R
En este caso estamos en presencia de un ejercicio de muestreo con reemplazo por lo que tenemos un total de \(10^3\) posibles diferentes resultados.
  1. Se considerarán como válidos únicamente los resultados que no contengan números repetidos.
R
En este caso, el ejercicio planteado es equivalente a un muestreo sin reemplazo por lo que el número total de posibles resultados es igual a \(P_3^{10} = \frac{10!}{7!} = 10 \times 9 \times 8 = 720\).

Definición
Llamamos combinaciones a cada uno de los subconjuntos diferentes de tamaño \(k\) que es posible seleccionar de una población de tamaño \(n\). Al número de combinaciones lo denotamos como \(C_{k}^n\) o bien como \(n \choose k\).

Recordemos que un subconjunto es igual a otro si todos sus elementos son iguales. El orden en el que los elementos de los subconjuntos es presentado no importa. Por lo tanto, por ejemplo, de un conjunto formado por las letras \(\{a,b,c,d\}\) los subconjuntos \(\{a,b\}\) y \(\{b,a\}\) son iguales.

Si queremos entonces, determinar el número de combinaciones de tamaño \(k\) de un espacio muestral de tamaño \(n\) está claro que si contamos las variaciones totales (las permutaciones) estaríamos contando de más a algunas de estas combinaciones. Para determinar el número de combinaciones, entonces, tenemos que considerar que, una vez que se selecciona una determinada variación (permutación) de tamaño \(k\), esta tiene \(k!\) diferentes maneras de presentarse, por lo tanto:

\[ \begin{align*} k! C_{k}^n &= P_{k}^n\\ k! C_{k}^n &= \frac{n!}{(n-k)!}\\ C_{k}^n &= \frac{n!}{(n-k)!k!}\\ \end{align*} \]

Ejemplo (cont.)
El club del ejemplo anterior desea ahora conformar un comité de vigilancia. El comité debe estar formado por 8 personas. ¿De cuántas maneras se puede conformar el comité?
R
Estamos ahora ante un problema de combinaciones. Claramente, el orden en el que se elija a las personas que conforman el comité no altera la composición del comité por lo que nos piden calcular el número de combinaciones. Si recordamos que el club está conformado por 25 integrantes, entonces tenemos que contar el número de combinaciones de los miembros en grupos de 8:

\[ C_{8}^{25} = \frac{25!}{(25-8)!8!} = 1,081,575. \]


Finalmente, consideremos una situación en la que un espacio muestral de tamaño \(n\) se desea dividirlo en \(k\) grupos diferentes, cada uno de tamaño \(n_j \ (j = 1,2, \dots, k, \sum\limits_{j=1}^k n_j = n)\). ¿De cuantas maneras se pueden seleccionar los grupos?

Notemos que se pide que los grupos sean diferentes, es decir, nos piden calcular el número combinaciones posibles. Nuevamente, si contamos por partes, podemos observar que, para el primer grupo, de tamaño \(n_1\) es posible obtener \(C_{n_1}^n = \frac{n!}{(n-n_1)!{n_1}!}\) diferentes combinaciones; para el segundo, \(C_{n_2}^{n-n_1} = \frac{(n-n_1)!}{(n-n_1-n_2)!{n_2}!}\) y así sucesivamente. Por lo tanto, el número total de combinaciones será igual a:

\[ \frac{n!}{(n-n_1)!{n_1}!} \times \frac{(n-n_1)!}{(n-n_1-n_2)!{n_2}!} \times \dots \times \frac{(n-n_1 - \dots - n_{k-1})!}{(n-n_1-n_2- \dots - n_k)!{n_k}!} = \frac{n!}{{n_1}!{n_2}! \dots {n_k}!}. \]

Esta última expresión se conoce como el coeficiente multinomial.

Ejemplo (cont.)
El club ha decidido que contar solamente con comité de vigilancia no es suficiente, por lo que ha creado un comité de planeación (10 miembros) y otro de auditoría (7 miembros). Recordando que el comité de vigilancia es de 8 miembros, ¿de cuántas maneras diferentes pueden repartirse los comités los miembros del club si solo es posible estar en un comité?
R
Se nos pide ahora, entonces, considerar de cuántas maneras diferentes es posible organizar a 25 miembros en tres grupos diferentes de tamaños 10, 8 y 7:

\[ \frac{25!}{10!8!7!} = 21,034,470,600. \]


INTERPRETACIÓN MATEMÁTICA DE LA PROBABILIDAD

Con estas definiciones, podemos entonces retomar con un poco más de formalidad lo expuesto anteriormente sobre las interpretaciones de probabilidad. Dijimos entonces que una primera definición a la que generalmente se llega cuando pensamos en probabilidades consiste en definir la probabilidad asociada a un evento como el conteo del número de maneras en las que ese evento puede suceder dividido entre el número total de posibles resultados del experimento (cardinalidad del espacio muestral). Se le llama a esta definición la interpretación frecuentista, simple, naïve o ingenua de probabilidad (Blitzstein and Hwang 2014) porque es restrictiva y se basa en supuestos muy fuertes (p.e., supone que los posibles resultados del experimento constituyen un conjunto finito contable). Siguiendo esta definición, si \(A\) es el conjunto que representa al evento y \(\Omega\) al conjunto de todos los posibles resultados del experimento, entonces:

\[ P_{naive}(A) = \frac{|A|}{|\Omega|}. \]

Dijimos también que otra interpretación del concepto de probabilidad puede emanar de una visión subjetiva de la probabilidad. Esto es, interpretar la probabilidad como la verosimilitud que cada persona asigna a la obtención de un determinado resultado en un experimento. Esta interpretación, sin embargo, puede también dar pie a otro tipo de problemas.

En cualquier caso, puede establecerse una definición de probabilidad, desde un punto de vista matemático que, independientemente de la interpretación que hagamos de ella, nos permita desarrollar la teoría necesaria para el análisis de sus propiedades. Para ello, necesitamos considerar tres elementos fundamentales (que definen al espacio de probabilidad): el espacio muestral, una \(\sigma\)-álgebra (o campo) y una medida de probabilidad.

Definición
Una \(\sigma\)-álgebra es una colección de subconjuntos del espacio muestral (incluyendo al espacio muestral y al conjunto vacío), cerrada bajo uniones contables, intersecciones contables y el complemento.

La definición de \(\sigma\)-álgebra es importante por que define a todos los eventos para los cuales la probabilidad estará definida. Es importante notar que la \(\sigma\)-álgebra puede ser el conjunto potencia, pero no tiene que serlo.

Ejemplo
Si se juegan dos volados, podemos entonces definir el espacio muestral del experimento como

\[ \Omega = \{AA, AS, SS, SA\}. \]

Por otra parte, podemos definir una \(\sigma\)-álgebra como:

\[ \mathcal{F} = \{\emptyset, \Omega, \{AA, AS\}, \{SS, SA\}\} \]


Definición (interpretación matemática de probabilidad)
Si \(\mathcal{F}\) es una \(\sigma\)-álgebra, una probabilidad, \(P\), es una función que a cada evento \(A\) le asigna un número real, \(P(A)\), y que cumple con tres axiomas1:
  1. \(P(A) \geq 0 \ \forall A \in \Omega;\)

  2. \(P(\Omega) = 1;\)

  3. Si \(A_1, A_2, \dots\) son eventos tales que \(A_i \cap A_j = \emptyset \ \forall \ i \neq j\) entonces \(P\left(\bigcup\limits_{i=1}^{\infty} A_i \right) = \sum\limits_{i = 1}^{\infty} P(A_i)\).


Propiedades de las probabilidades
  1. \(P(\emptyset) = 0\)
Demostración
Considérese el evento \(A = \bigcup\limits_{i = 1}^\infty A_i; A_i = \emptyset \ \forall \ i\). Los eventos \(A_1, A_2, \dots\) son eventos disjuntos ya que \(A_i \cap A_j = \emptyset \ \forall \ i,j\). Entonces \(P(A) = P\left(\bigcup\limits_{i = 1}^\infty A_i\right) = \sum\limits_{i = 1}^\infty P(A_i)\) (por el axioma 3).

Sin embargo, observemos que \(\bigcup\limits_{i = 1}^\infty A_i = \bigcup\limits_{i = 1}^\infty \emptyset = \emptyset\) entonces \(P(A) = P(\emptyset) = \sum\limits_{i = 1}^\infty P(A_i) = \sum\limits_{i = 1}^\infty P(\emptyset)\). El único número perteneciente a los reales cuya suma es igual a si mismo es el cero, entonces:

\[P(A) = P(\emptyset) = 0\]

  1. Si \(A_1, \dots, A_n\) son ajenos dos a dos, entonces \(P(\bigcup\limits_{i=1}^{n} A_i) = \sum\limits_{i = 1}^{n} P(A_i)\)
Demostración
Para toda serie finita de eventos disjuntos siempre podemos construir la serie infinita:

\[P\left(\bigcup\limits_{i=1}^{n} A_i\right) = P\left(\bigcup\limits_{i=1}^{\infty} A_i\right)\]

donde \(A_i = \emptyset \ \forall \ i > n\). Entonces:

\[P\left(\bigcup\limits_{i=1}^{n} A_i\right) = \sum\limits_{i = 1}^\infty P(A_i)\]

\[= \sum\limits_{i = 1}^n P(A_i) + \sum\limits_{i = n+1}^\infty P(A_i)\]

\[= \sum\limits_{i = 1}^n P(A_i)\]

  1. \(P(A \cup B) = P(A) + P(B) - P(A \cap B); A, B \subseteq \Omega\)
Demostración

\[ \begin{align*} A \cup B &= (A \cap B^c) \cup (A^c \cap B) \cup (A \cap B)\\ P(A \cup B) &= P(A \cap B^c) + P(A^c \cap B) + P(A \cap B)\\ A &= (A \cap B^c) \cup(A \cap B)\\ P(A \cap B^c) &= P(A) - P(A \cap B)\\ P(A \cup B) &= P(A) - P(A \cap B) + P(B) - P(A \cap B) + P(A \cap B)\\ &= P(A) + P(B) - P(A \cap B). \end{align*} \]

  1. Si \(A \subseteq B \Rightarrow P(A) \leq P(B)\)
Demostración

\[A \subseteq B \Rightarrow B = A \cup (B \cap A^c)\]

\[A \cap (B \cap A^c) = \emptyset \Rightarrow\]

\[P(B) = P(A) + P(B \cap A^c)\]

\[P(A) = P(B) - P(B \cap A^c)\]

pero

\[P(B \cap A^c) \geq 0 \ \ \ \text{por el axioma 1}\]

entonces

\[P(A) \leq P(B).\]

  1. \(P(A^c) = 1 - P(A)\)
Demostración

\[P(\Omega) = P(A \cup A^c)\]

\[= P(A) + P(A^c) \ \ \ \text{Por el axioma 3.}\]

Entonces:

\[1 = P(\Omega) = P(A) + P(A^c)\]

\[P(A^c) = 1 - P(A).\]

  1. \(P(A) \leq 1\)
Demostración
Se sigue directamente de los axiomas 1 y 2, junto con la propiedad 5, arriba demostrada.

Ejemplo
Un fabricante tiene cinco terminales de cómputo aparentemente idénticas disponibles para su envío. No lo sabe, pero dos de las cinco son defectuosas. Ha llegado una orden de compra por dos terminales y se selecciona a dos de las cinco de manera aleatoria.
  1. Lista el espacio muestral para este experimento.
R
Primero, notemos que, si bien contamos con 5 equipos, es importante diferenciar entre ellos a los defectuosos de los no defectuosos. Podemos denotarlos entonces por \(D_1, D_2, C_1, C_2, C_3\). El espacio muestral está compuesto por todos los posibles eventos en los que se seleccionan dos equipos de cómputo. Entonces el espacio muestral está compuesto por todas las parejas:

\[ \Omega = \{(D_1,D_2), (D_1,C_1), (D_1,C_2), (D_1,C_3), (D_2,C_1), (D_2,C_2), (D_2,C_3), (C_1,C_2), (C_1,C_3), (C_2,C_3)\}. \]

  1. Sea \(A\) el evento de que la orden de compra sea satisfecha con dos unidades sin defectos. Lista elementos pertenecientes a \(A\).

R :

\[ A = \{(C_1,C_2), (C_1,C_3), (C_2,C_3)\}. \]

  1. Suponiendo que se sigue la interpretación clásica de la probabilidad. ¿Cuál es la probabilidad del evento \(A\)?
R
Bajo la interpretación clásica de la probabilidad cada uno de los elementos que constituyen al espacio muestral tienen la misma probabilidad por lo que cada uno de ellos tendrá una probabilidad de \(\frac{1}{10}\).

Dado que \(A\) es la unión de tres de estos elementos, por propiedades de probabilidad sabemos que \(P(A) = 3 \times \frac{1}{10} = \frac{3}{10}\).


Ejemplo
Un negocio de artículos de oficina tiene tres distribuidores \(V_1, V_2, V_3\). Se reciben órdenes de compra en dos días consecutivos, una orden por día (la pareja \((V_2, V_3)\) significa, por ejemplo, que \(V_2\) emitió la orden el primer día y \(V_3\) el segundo).
  1. Lista todos los elementos del espacio muestral del experimento que consiste en la recepción de órdenes en dos días consecutivos.
R
\(\Omega = \{(V_1, V_1), (V_1, V_2), (V_1, V_3),(V_2, V_1), (V_2, V_2),(V_2, V_3),(V_3, V_1),(V_3, V_2), (V_3, V_3)\}\).
  1. Si los distribuidores son seleccionados al azar cada día, asigna una probabilidad a cada elemento del espacio muestral.
R
Dado que tenemos 6 diferentes variaciones de recepción de órdenes y cada una igual de probable que las otras, entonces tenemos que cada variación tiene una probabilidad de ocurrencia de 1/9.
  1. Sea A el evento de el mismo distribuidor emite las dos órdenes de compra y B el evento de que \(V_2\) emita al menos una orden de compra. Encuentra \(P(A)\), \(P(B)\), \(P(A \cup B)\) y \(P(A \cap B)\).

R :

\[ P(A) = 3 \times \frac{1}{9} = \frac{1}{3}\\ P(B) = 5 \times \frac{1}{9} = \frac{5}{9}\\ P(A \cap B) = \frac{1}{9}\\ P(A \cup B) = P(A) + P(B) - P(A \cap B) = \frac{3}{9} + \frac{5}{9} - \frac{1}{9} = \frac{7}{9}. \]


[La aguja de Buffon2]
Supongamos que sobre un piso compuesto por tablas de ancho \(a\) se lanza una aguja de longitud \(l < a\), ¿cuál es la probabilidad de que la aguja corte alguna de las líneas?
R
Para el planteamiento de la solución, imaginemos un caso en concreto. Si tira la aguja sobre el suelo y entonces podemos observar que el extremo inferior de la aguja queda en una posición \(x\), ubicada entre los dos extremos de una de las tablas.

Si trazamos una linea paralela a los extremos de la tabla que pase por el punto \(x\), entonces podemos observar también que la aguja forma un ángulo \(\theta\) con esta línea paralela.

Nuestro espacio muestral consiste entonces en todas las posiciones en las que puede caer la aguja en la tabla, es decir, \(a \times \pi\) (todas las posiciones en las que puede caer su extremo inferior multiplicadas por todas las posiciones del ángulo).

Ahora, para poder definir nuestro evento, observemos que la aguja cortará el borde superior de la tabla únicamente si la altura de la aguja respecto de la paralela es mayor que la distancia de \(x\) al borde superior de la tabla, es decir, si \(a - x < l \sin \theta\) o \(a - l \sin \theta < x < a\).

Por lo tanto:

\[P(E) = \frac{\int\limits_{0}^{\pi} \int\limits_{a - l \sin \theta}^a dxd\theta}{a \pi}\]

\[= \frac{\int\limits_{0}^{\pi} a - (a - l \sin \theta) d\theta}{a \pi}\]

\[= \frac{\int\limits_{0}^{\pi} l \sin \theta d\theta}{a \pi}\]

\[= \frac{\left. -l \cos \theta \right|_{0}^{\pi}}{a \pi}\]

\[= \frac{l \cos 0 - l \cos \pi}{a \pi}\]

\[= \frac{2l}{a \pi}.\]


PROBABILIDAD CONDICIONAL

Lecturas recomendadas
  • Wackerly, Mendenhall, and Scheaffer (2008), cap. 2.7, 2.8.

  • DeGroot (1988), cap. 2.1.

  • Hsu (1997), cap. 1.6, 1.7.


En algún momento al inicio de este material caracterizamos a la probabilidad como una medida de nuestra ignorancia o incertidumbre respecto de la ocurrencia de los posibles resultados asociados a un proceso. Por lo tanto, resulta quizá también lógico pensar que la probabilidad se verá afectada en la medida en la que nuestro conocimiento sobre los posibles resultados de dicho proceso cambie.

Por ejemplo, pensemos en las probabilidades que asociaríamos al resultado del lanzamiento de un dado si la persona que lo lanzó, sin decirnos desde luego el resultado, nos dice que el valor es menor a 5, o que el resultado fue un número par. La probabilidad que asignaríamos a la ocurrencia de los diferentes posibles resultados cambiaría en comparación de cuando no contábamos con esa información adicional.

A lo descrito anteriormente nos referimos cuando hablamos de probabilidad condicional.

Definición
La probabilidad condicional de un evento \(A\) dado que un evento \(B\) ha ocurrido (la probabilidad de A dado B) es igual a

\[ P(A|B) = \frac{P(A \cap B)}{P(B)} \]


A la expresión \(P(A \cap B) = P(A|B)P(B) = P(B|A)P(A)\) se le conoce como la regla o ley de la multiplicación.

EVENTOS INDEPENDIENTES

Lecturas recomendadas
  • Wackerly, Mendenhall, and Scheaffer (2008), cap. 2.7, 2.8.

  • DeGroot (1988), capítulo 1.11.


Un caso que resulta de particular interés distinguir es aquél en el que se tienen dos eventos, \(A\) y \(B\), en los que la ocurrencia o no ocurrencia de alguno de ellos no tiene impacto o influencia en la ocurrencia del otro. Decimos en este caso que se trata de eventos independientes.

Matemáticamente:

Definición
Se dice que los eventos \(A, B \subset \Omega\) son eventos independientes si \(P[A \cap B] = P[A]P[B]\). Equivalentemente, \(P(A|B) = P(A)\) y \(P(B|A) = P(B)\).

La intuición de esta definición puede derivarse de la idea de que si tenemos dos eventos cuya ocurrencia no depende del otro evento la probabilidad de ocurrencia de ambos en forma simultánea (la intersección) será igual a la frecuencia relativa de ocurrencia de uno multiplicada por la frecuencia relativa de ocurrencia del otro (desde un punto de vista muy frecuentista de la probabilidad).

Teorema
Si dos eventos \(A\) y \(B\) son independientes, entonces los eventos \(A\) y \(B^c\) son independientes.
Demostración
Por definición \(P[A \cap B] = P[A]P[B]\), entonces

\[ \begin{aligned} P[A] &= P[(A \cap B) \cup (A \cap B^c)]\\ &= P[A \cap B] + P[A \cap B^c]\\ P[A \cap B^c] &= P[A] - P[A \cap B]\\ &= P[A] - P[A]P[B]\\ &= P[A](1 - P[B])\\ &= P[A]P[B^c]. \end{aligned} \]


Desde luego, en ocasiones puede ser necesario inferir la independencia de dos eventos a partir del contexto del problema. En particular, podemos asumir que existe independencia cuando no existe una relación física entre los eventos.

Ejemplo
En una fábrica se cuenta con dos máquinas. Una de ellas (máquina A) tiene una probabilidad de \(1/3\) de descomponerse en un periodo de 8 horas; la otra (máquina B), tiene una probabilidad de \(1/4\). Calcula la probabilidad de que alguna de las máquinas se estropee en las próximas 8 horas.
R
Dado que son dos máquinas diferentes (y no se nos indica información adicional) que permita suponer alguna especie de conexión entre ellas, podemos razonablemente suponer que los eventos relativos a que se despongan son independientes. Por lo tanto, se nos solicita calcular

\[ P(A \cup B) = P(A) + P(B) - P(A \cap B);\\ P(A) = \frac{1}{3};\\ P(B) = \frac{1}{4};\\ P(A \cap B) = P(A)P(B) = \frac{1}{3} \times \frac{1}{4} = \frac{1}{12};\\ P(A \cup B) = \frac{1}{2}. \]


Se puede extender la idea de independencia entre dos eventos a un número de eventos mayor a dos. Es decir, se dice que los eventos \(A_1, A_2, \dots, A_n\) son independientes si para cada subconjunto \(A_{i_1}, A_{i_2}, \dots, A_{i_j}\) y \(j = 2, 3, \dots, n\), se cumple que

\[ P[A_{i_1} \cap A_{i_2} \cap \dots \cap A_{i_j}] = P[A_{i_1}]P[A_{i_2}] \dots P[A_{i_j}]. \]

Ejemplo
Un estudio sobre el comportamiento después de tratamiento de una muestra grande de adictos a sustancias sugiere que la probabilidad de que sean arrestados después de dos años del tratamiento depende del nivel educativo de los individuos. Las proporciones del número de casos totales por categorías se muestran en la siguiente tabla:
EDUCACIÓN ARRESTADO NO ARRESTADO TOTAL
10 meses o más 0.10 0.30 0.40
9 meses o menos 0.27 0.33 0.60
Total 0.37 0.63 1.00

Si se selecciona un individuo al azar y se consideran los eventos

A: Tiene 10 o más meses de educación; B: Es arrestado.

Calcula:

  1. \(P(A)\)
R
0.4
  1. \(P(B)\)
R
0.37
  1. \(P(A \cap B)\)
R
0.10
  1. \(P(A \cup B)\)
R
\(0.40 + 0.37 - 0.10 = 0.67\)
  1. \(P(A^c)\)
R
0.60
  1. \(P((A \cup B)^c)\)
R
\(1 - 0.67 = 0.33\)
  1. \(P((A \cap B)^c)\)
R
\(1 - 0.10 = 0.90\)
  1. \(P(A|B)\)
R
\(\frac{P(A \cap B)}{P(B)} = 0.10/0.37 = 0.27\)
  1. \(P(B|A)\)
R
\(\frac{P(A \cap B)}{P(A)} = 0.10/0.40 = 0.25\)

Los eventos A y B, ¿son independientes?

R
No.

Finalmente, notemos que:

Teorema
Si dos eventos A y B son independientes, entonces \(A\) y \(B^c\) también son independientes.
Demostración

\[ P(A) = P[(A \cap B^c) \cup (A \cap B)] = P[(A \cap B^c)] + P[(A \cap B)]\\ P[(A \cap B^c)] = P(A) - P[(A \cap B)]\\ = P(A) - P(A)P(B)\\ = P(A)[1 - P(B)]\\ = P(A)P(B^c). \]

EL TEOREMA DE PROBABILIDAD TOTAL Y EL TEOREMA DE BAYES

Lecturas recomendadas
  • Wackerly, Mendenhall, and Scheaffer (2008), cap. 2.10.
  • DeGroot (1988), cap. 2.2.

Una situación en la que puede ser muy útil emplear nuestro conocimiento del concepto de probabilidad condicional es el caso en el que contamos con una manera de segmentar el espacio muestral en una partición. Si podemos hacer lo anterior, calcular la probabilidad de eventos pertenecientes a la \(\sigma\)-álgebra es posible mediante el siguiente teorema:

Teorema (probabilidad total)
Sea \(\{B_1, B_2, \dots, B_k\}\) una partición del espacio muestral \(\Omega\), entonces para cualquier subconjunto \(A \subseteq \Omega\)

\[ P(A) = \sum\limits_{i = 1}^{k} P(A|B_i)P(B_i). \]

Demostración
Dado que \(\{B_1, B_2, \dots, B_k\}\) es una partición de \(\Omega\), para cualquier \(A \subseteq \Omega\) se cumple que

\[ A = A \cap \Omega = A \cap (B_1 \cup B_2 \cup \dots \cup B_k) = (A \cap B_1) \cup (A \cap B_2) \cup \dots \cup (A \cap B_k) \]

por lo que

\[ P(A) = P(A \cap B_1) + P(A \cap B_2) + \dots + P(A \cap B_k) \\ = P(A | B_1)P(B_1) + P(A | B_2)P(B_2) + \dots + P(A | B_k)P(B_k). \]


Ahora, si bien esto nos puede ayudar en muchas circunstancias, podemos también aplicar este resultado para demostrar lo que se conoce como el Teorema de Bayes, que nos permite resolver el problema contrario, encontrar la probabilidad de uno de los eventos de una partición condicionado en la observación de otro evento:

Teorema
Sea \(\{B_1, B_2, \dots, B_k\}\) una partición del espacio muestral \(\Omega\), entonces para cualquier subconjunto \(A \subseteq \Omega\)

\[ P(B_j|A) = \frac{P(A|B_j)P(B_j)}{\sum\limits_{i=1}^k P(A|B_i)P(B_i)} \] ****

Ejemplo
Cinco urnas idénticas son llenadas con cinco bolas de color blanco y azul. Para cada urna el número de bolas blancas es igual a \(i\) y el número de bolas azules será, entonces, \(5 - i\) (donde \(i\) identifica a la urna, \(i = 1, 2, \dots, 5\)). Una urna es seleccionada al azar y de ella se extraen dos bolas (sin reemplazo).
  1. ¿Cuál es la probabilidad de que ambas bolas sean blancas?
R
Si \(A\) es el evento que representa la extracción de dos bolas blancas y \(B_i\) el evento que representa la selección de la urna \(i\), entonces por el teorema de probabilidad total sabemos que

\[ P(A) = \sum\limits_{i = 1}^5 P(A|B_i)P(B_i);\\ P(B_i) = \frac{1}{5};\\ P(A|B_1) = 0;\\ P(A|B_2) = \frac{2}{5} \times \frac{1}{4} = \frac{2}{20};\\ P(A|B_3) = \frac{3}{5} \times \frac{2}{4} = \frac{6}{20};\\ P(A|B_4) = \frac{4}{5} \times \frac{3}{4} = \frac{12}{20};\\ P(A|B_5) = 1;\\ P(A) = 0 \times \frac{1}{5} + \frac{2}{20} \times \frac{1}{5} + \frac{6}{20} \times \frac{1}{5} + \frac{12}{20} \times \frac{1}{5} + \frac{20}{20} \times \frac{1}{5}\\ = \frac{2}{5}. \]

  1. Dado que las dos pelotas seleccionadas son blancas, ¿cuál es la probabilidad de que la urna seleccionada sea la urna número 3?
R
Se nos pide ahora, entonces, calcular \(P(B_3|A)\), aplicando el teorema de Bayes:

\[ P(B_3|A) = \frac{P(A|B_3)P(B_3)}{\sum\limits_{i = 1}^5 P(A|B_i)P(B_i)} = \frac{6/20 \times 1/5}{2/5} = 3/20. \]


Ejemplo (Problema de Monty Hall)
En un concurso se presenta a una participante tres puertas a elegir. Detrás de una de las puertas se encuentra un premio (e.g., un auto); detrás de las otras dos no.

El anfitrión del concurso sabe detrás de cuál de las puertas se encuentra el premio. La dinámica del concurso sigue de manera que, una vez que la concursante ha escogido la puerta detrás de la cuál se encuentra el premio el anfitrión abre una de las puertas detrás de las cuales no hay premio y le presenta la alternativa de cambiar su elección.

Con base en lo estudiado hasta ahora, ¿le conviene a la concursante cambiar su elección? ¿le perjudica? ¿le es indistinto?

R
Quizás la manera más clara de dar respuesta a la pregunta plantea hace uso del concepto de probabilidad condicional. A lo mejor no es tan obvio, pero pensemos en que la elección del presentador respecto de qué puerta abrir está cargada de información ya que él sabe en qué puerta se encuentra el premio.

Si llamamos a la puerta que eligió la concursante la puerta número 1, denotamos a la puerta que abrió el presentador como \(P_2\) y denotamos al evento de que el premio esté en la puerta \(i\) como \(C_i\), entonces podemos intentar calcular las siguientes probabilidades:

\[ \begin{align*} P(P_2 | C_1) &= \frac{1}{2}\\ P(P_2 | C_2) &= 0\\ P(P_2 | C_3) &= 1\\ \end{align*} \]

Nota que la última probabilidad deriva del hecho de que, como la concursante escogió la puerta 1 y el presentador sabe que el premio está en la puerta 3, no tiene otra alternativa más que abrir la puerta 3.

Considerando lo anterior, entonces:

\[ \begin{align*} P(C_1 | P_2) &= \frac{P(P_2|C_1) \times P(C_1)}{P(P_2|C_1) \times P(C_1) + P(P_2|C_2) \times P(C_2)+ P(P_2|C_3) \times P(C_3)} \\ &= \frac{\frac{1}{2} \times \frac{1}{3}}{\frac{1}{2} \times \frac{1}{3} + 0 \times \frac{1}{3} + 1 \times \frac{1}{3}}\\ &= \frac{1}{3}\\ P(C_2 | P_2) &= 0\\ P(C_3 | P_2) &= \frac{P(P_2|C_3) \times P(C_3)}{P(P_2|C_1) \times P(C_1) + P(P_2|C_2) \times P(C_2)+ P(P_2|C_3) \times P(C_3)} \\ &= \frac{1 \times \frac{1}{3}}{\frac{1}{2}}\\ &= \frac{2}{3}. \end{align*} \]

Las probabilidades sugieren, por lo tanto, que la concursante debería cambiar su elección.

El problema de Monty Hall ha sido usado ampliamente para ejemplificar el hecho de que el cálculo de probabilidades no es algo intuitivo siempre y sirve para hacernos entender la mecánica detrás de algunas decisiones no triviales en presencia de incertidumbre. Como mínimo, es una llamada de atención a pensar detenidamente nuestra percepción de las probabilidades.


EJERCICIOS DE REPASO

Muestre que para cualquier par de eventos A y B se satisface que \(P(A) + P(B) − 1 \leq P(A ∩ B) \leq P(A ∪ B) \leq P(A) + P(B)\)

R
Sabemos que para cualesquiera eventos A y B \(P(A \cup B) = P(A) + P(B) - P(A \cap B)\) por lo tanto \(P(A \cap B) = P(A) + P(B) - P(A \cup B)\). Como \(P(A \cup B) \leq 1\) entonces \(- P(A \cup B) \geq - 1\) y \(P(A \cap B) = P(A) + P(B) - P(A \cup B) \geq P(A) + P(B) - 1\).

Ahora, sabemos que si \(A \subset B\) entonces \(P(B) \geq P(A)\) y \(P(A \cap B) = P(A)\) por lo tanto \(P(A \cup B) = P(A) + P(B) - P(A \cap B) = P(B)\). Si $ A B = $ entonces por fuerza \(P(A \cup B) \geq P(A \cap B)\) ya que \(P(\emptyset) = 0\).

Finalmente, sabemos que para cualesquiera eventos A, B \(P(A \cap B) \geq 0\), entonces \(P(A \cup B) \geq P(A) + P(B)\).


Considere un juego de poker. Hay cuatro tipos de cartas: corazones, diamantes, tréboles y picas. Hay 13 números: 2, 3, . . . , 9, 10, J, Q, K, A. Una corrida de 5 cartas puede ser: A, 2, 3, 4, 5; 2, 3, 4, 5, 6; . . . ; 10, J, Q, K, A. Calcule la probabilidad de cada una de las siguientes manos:

  1. Royal flush: (10, J, Q, K, A) del mismo tipo.
R
\(p = \frac{4}{C^{52}_{5}}\)
  1. Straight flush: 5 cartas consecutivas del mismo tipo.
R
\(p = \frac{9 \times 4}{C^{52}_{5}}\) (dado que se excluye al Royal Flush)
  1. Poker : (x, x, x, x, y), con \(x \neq y\).
R
\(p = \frac{13 \times 12 \times 4}{C^{52}_{5}}\)
  1. Full house: de la forma (x, x, x, y, y), con \(x \neq y\).
R
\(p = \frac{13 \times C^{4}_{3} \times 12 \times C^{4}_2}{C^{52}_{5}}\)
  1. Flush: 5 cartas del mismo tipo.
R
\(p = \frac{4 \times C^{13}_5 - 9 \times 4 - 4}{C^{52}_{5}}\)
  1. Straight: 5 cartas consecutivas independientemente del tipo.
R
\(p = \frac{10 \times 4^{5}}{C^{52}_{5}}\)
  1. Tercia: (x, x, x, y, z), con \(x \neq y, z\); \(y \neq z\).
R
\(p = \frac{13 \times C^{4}_3 \times 12 \times 4 \times 11 \times 4}{C^{52}_{5}}\)
  1. Dos pares: (x, x, y, y, z), con \(x \neq y, z\); \(y \neq z\).
R
\(p = \frac{13 \times C^{4}_2 \times 12 \times C^{4}_2 \times 11 \times 4}{C^{52}_{5}}\)
  1. Un par : (x, x, y, z, w), \(x \neq y, z, w\); \(y \neq z, w\); \(z \neq w\).
R
\(p = \frac{13 \times C^4_2 \times 12 \times 4 \times 11 \times 4 \times 10 \times 4}{C^{52}_{5}}\)

Un distrito electoral tiene 350 votantes, de los cuales 250 son demócratas y 100 son republicanos. Si se seleccionan aleatoriamente 30 votantes de la zona, ¿cuál es la probabilidad de que se seleccionen exactamente 18 demócratas?

R
Observemos que en este problema el orden en el que se seleccionan a los 30 votantes no es relevante, sino únicamente la composición de la muestra. Por lo tanto la probabilidad de seleccionar 18 demócratas estará dada por
  • El número de diferentes maneras en las que podemos seleccionar a 18 demócratas: \(C^{250}_{18}\);

  • El número de diferentes maneras en las que podemos seleccionar a 12 republicanos: \(C^{100}_{12}\);

  • El número de diferentes maneras en las que podemos seleccionar una muestra de 30 personas: \(C^{350}_{30}\).

Entonces: \(p = \frac{C^{250}_{18} \times C^{100}_{12}}{C^{350}_{30}}\).


Un minorista vende dos tipos de equipos de audio, ambos igualmente demandados. A su tienda entran cuatro clientes de manera sucesiva a comprar. Si el vendedor está interesado en sus preferencias:

  1. Lista las posibilidades de preferencias de los 4 clientes.
R
El espacio muestral está compuesto por \(2 \times 2 \times 2 \times 2\) diferentes posibles resultados:

\[ \Omega = \{ (T_1,T_1,T_1,T_1) ,(T_1,T_1,T_1,T_2) ,(T_1,T_1,T_2,T_1) ,(T_1,T_2,T_1,T_1) ,(T_2,T_1,T_1,T_1) ,(T_1,T_1,T_2,T_2) ,(T_1,T_2,T_1,T_2) ,(T_2,T_1,T_1,T_2) ,(T_1,T_2,T_2,T_1) ,(T_2,T_1,T_2,T_1) ,(T_2,T_2,T_1,T_1) ,(T_1,T_2,T_2,T_2) ,(T_2,T_1,T_2,T_2) ,(T_2,T_2,T_1,T_2) ,(T_2,T_2,T_2,T_1) ,(T_2,T_2,T_2,T_2) \} \]

  1. Asigna probabilidades a cada uno de los eventos en el espacio muestral.
R
Dado que ambos tipos de equipo son igualmente demandados por el público, cada posible resultado tendrá una probabilidad de ocurrir de \(1/16\).
  1. Calcula la probabilidad del evento correspondiente a que todos los clientes soliciten el mismo tipo de equipo.
R
Únicamente dos posibles resultados del total de posibles representan a este evento por lo que su probabilidad será igual a \(2/16 = 1/8\).

Sulley y Wazowski lanzan un par de dados alternadamente, sumando los resultados de las caras en cada lanzamiento. Sulley gana si obtiene una suma de 6 antes de que Wazowski obtenga una suma de 7 (en cuyo caso Wazowski gana). Si Sulley empieza el juego, ¿cuál es la probabilidad de que gane el juego? (Sugerencia: recuerde que \(\sum\limits_{x = j}^\infty p^x = \frac{p^j}{1 - p}\)).

R
Veamos paso a paso qué se requiere para que Sulley gane en un determinado número de lanzamientos (\(k\)):
  • \(k = 1\). Para que Sulley gane el primer lanzamiento necesita sacar una suma de 6. Esto lo puede hacer de 5 maneras diferentes de un total de 36 diferentes posibles lanzamientos que puede hacer de los dos dados. Por lo tanto, la probabilidad de ganar en el primer lanzamiento será igual a \(5/36\).

  • \(k = 2\). Para que Sulley gane en su segundo lanzamiento, forzosamente necesita perder en el primero y que Wazowski también pierda en su primer lanzamiento. La probabilidad de no sacar 6 en un lanzamiento es de \(31/36\). La probabilidad de no sacar 7 en un lanzamiento es \(1 - 1/6 = 30/36\). Por lo tanto, la probabilidad de que Sulley gane en su segundo lanzamiento será igual a \(\frac{31}{36} \times \frac{30}{36} \times \frac{5}{36}\).

  • \(k = 3\). Siguiendo el mismo razonamiento, la probabilidad de que Sulley gane en su tercer lanzamiento será igual a \((\frac{31}{36})^2 \times (\frac{30}{36})^2 \times \frac{5}{36} = (\frac{31 \times 30}{36 \times 36})^2 \times \frac{5}{36}\).

  • \(k = j\). \((\frac{31 \times 30}{36 \times 36})^{j-1} \times \frac{5}{36}\).

Entonces, la probabilidad que buscamos corresponde a

\[ \begin{aligned} \sum\limits_{x = 1}^\infty (\frac{31 \times 30}{36 \times 36})^{x-1} \times \frac{5}{36} &= \frac{5}{36} \sum\limits_{x = 1}^\infty (\frac{31 \times 30}{36 \times 36})^{x-1}\\ &= \frac{5}{36} \sum\limits_{x = 0}^\infty (\frac{31 \times 30}{36 \times 36})^{x}\\ &= \frac{5}{36} \times \frac{1}{1 - \frac{31 \times 30}{36 \times 36}}\\ &= \frac{5}{36} \times \frac{36 \times 36}{36 \times 36 - 31 \times 30}\\ &= \frac{5 \times 36}{36 \times 36 - 31 \times 30}\\ &= \frac{180}{366}\\ &= 0.4918. \end{aligned} \]


Para mantener sus estándares de calidad, la cafetería del ITAM seleccionó a dos personas para que valúen el servicio. Supongamos que cada persona independientemente asigna una calificación en el conjunto \(\{1,2,3,4,5\}\), uniformemente al azar.

  1. Escribe el espacio muestral del experimento y determina su cardinalidad.
R
Podemos expresar el espacio muestral como todas las parejas ordenadas \((x,y)\) tales que

\[ \Omega := \{(x,y) \backepsilon x,y \in \{1,2,3,4,5\}\}. \]

También podemos listarlas:

\[ \Omega = \{(1,1),(1,2),(1,3),(1,4),(1,5),(2,1),(2,2),(2,3),(2,4),(2,5),(3,1),(3,2),(3,3),(3,4),(3,5),(4,1),(4,2),(4,3),(4,4),(4,5),(5,1),(5,2),(5,3),(5,4),(5,5)\}. \]

La cardinalidad del espacio muestral es igual a \(|\Omega| = 5^2 \times 5^2 = 25\).

  1. Sea A el evento de que las dos personas asignan la misma calificación y B que la suma de las calificaciones asignadas sea 6. ¿Son A y B independientes? Justifica la respuesta.
R
Decimos que dos eventos son independientes si \(P(A \cap B) = P(A) P(B)\).

\[ P(A) = \frac{5}{25} = \frac{1}{5}; P(B) = \frac{5}{25} = \frac{1}{5}; P(A\cap B) = \frac{1}{25} = \frac{1}{5} \times \frac{1}{5} = P(A)P(B). \]

Por lo tanto, A y B son independientes.

  1. Calcula \(P(A^c|B^c)\).
R
\(A^c\) es el evento de que dos personas no asignen la misma calificación; \(B^c\) es el evento de que los resultados no sumen 6. La cardinalidad de \(A^c \cap B^c\) es igual a 16. Por lo tanto:

\[ P(A^c|B^c) = \frac{P(A^c \cap B^c)}{P(B^c)} = \frac{16}{20} = \frac{4}{5} \] ***

Una empresa tiene 15 vacantes disponibles, distribuidas de la siguiente manera: 5 en el área de administración, 6 en el área de finanzas y 4 en el área de análisis de datos. Si la empresa contrata a 10 egresados del ITAM para ocupar 10 de las 15 vacantes disponibles:

  1. ¿Cuál es la probabilidad de que 2 de los egresados del ITAM ocupen vacantes para el área de finanzas?

  2. Ahora supongamos que de los 10 egresados del ITAM recién contratados 4 ocupan el área de finanzas y 3 el área de análisis de datos. Si la empresa selecciona para una capacitación a 2 de los 10 egresados del ITAM, ¿cuál es la probabilidad de que al menos uno de ellos pertenezca al área de administración?


El autobús del ITAM llega a tiempo, o bien, llega tarde. La probabilidad de que llegue tarde es de 0.6. Si el autobús del ITAM llega tarde, la probabilidad condicional de que haya tráfico en la ciudad es de 0.7. Si el autobús del ITAM llega a tiempo, la probabilidad condicional de que haya tráfico es de 0.1. Si un día observas tráfico, ¿cuál es la probabilidad condicional de que el autobús del ITAM llegue tarde?


La cafetería del ITAM es visitada por Farah durante la hora de comida en un día de lunes a viernes con la misma probabilidad, a saber \(p\). Su visita es independiente entre los días. Un integrante de la facultad del ITAM asiste de lunes a viernes a la cafetería del ITAM a la hora de la comida.

  1. ¿Cuál es la probabilidad de que la persona se encuentre a Farah dos días?

  2. ¿Cuál es la probabilidad de que la persona vea a Farah por segunda vez en la semana el viernes?


Según las estadísticas de ventas del mes pasado, se sabe que el 10% de las personas que entran a la tienda del ITAM no compran nada, y aquellas que sí compran se llevan únicamente un peluche de Colmillo en alguno de los colores disponibles. El Colmillo gris es el más solicitado; de hecho, la probabilidad de que un visitante de la tienda ITAM se lleve un Colmillo gris es el doble que la de un Colmillo café.

Como parte de las estrategias de venta de la tienda ITAM, se ofrecen “combos Colmillo”. Al adquirirlos, la persona se lleva un peluche de Colmillo en uno de los colores, gris o café, además de un artículo que puede ser una taza o bien una bolsa. Cuando las personas piden el Colmillo gris, el 80% adquieren el combo con taza; por el contrario, cuando piden el Colmillo café, solo el 40% adquiere la bolsa.

Basándote en todo lo anterior, calcula la probabilidad de que una persona adquiera una taza.


VARIABLES ALEATORIAS

Lecturas sugeridas
  • Wackerly, Mendenhall, and Scheaffer (2008), cap. 3, 4.

  • Bertsekas and Tsitsiklis (2008), cap. 2.


Hasta ahora, hemos estado asignando probabilidades a eventos (subconjuntos) pertenecientes a una \(\sigma\)-álgebra, y estos subconjuntos los hemos formado de cualquier cosa. En la práctica, sin embargo, cuando calculamos probabilidades no trabajamos directamente con subconjuntos de cosas sino con números, subconjuntos de números. Esto se debe a que, por un lado, es frecuente que trabajemos con números en la práctica (por ejemplo, rara vez nos interesa la cosa en sí, sino una característica de la cosa, característica que típicamente podemos representar mediante un número: una medición). Por otro lado, los números tienen características interesantes y útiles que permiten manipularlos para nuestros fines de manera más apropiada que a las cosas en sí.

Por lo tanto, cuando trabajamos con probabilidades, normalmente trabajamos también con variables aleatorias.

Definición
Dado un espacio de probabilidad \((\Omega, \mathcal{F},P)\), una variable aleatoria es una función real cuyo dominio es un espacio muestral y para la que, para cualquier subconjunto \(B \in \mathbb{R}\) el conjunto \(\{\omega \in \Omega : x \in B\}\) es un subconjunto de \(\mathcal{F}\).

Ejemplo
Considera el experimento que consiste en lanzar una moneda diez veces. Si \(X\) es la variable aleatoria asociada al número de águilas obtenidas, ¿cuál es el codominio de la variable aleatoria?

Para simplificar la notación, es común referirse a \(X(\omega)\) únicamente como \(X\). Por lo que, al utilizar probabilidades, nos referiremos a \(P(X(\omega) = x)\) como \(P(X = x)\). Nota que se acostumbra representar a la variable aleatoria con una letra mayúscula (\(X\), en este caso), mientras que se usan letras minúsculas (\(x\)) para denotar un valor en particular que esta variable aleatoria puede tomar.

VARIABLES ALEATORIAS DISCRETAS Y VARIABLES ALEATORIAS CONTINUAS

Una variable aleatoria, por lo tanto, siempre tendrá como codominio un subconjunto de los números reales. Así pues, podemos dividir a las variables aleatorias en dos grandes grupos:

  • Discretas: variables aleatorias cuyo codominio es contable. En otras palabras, el codominio toma valores en un subconjunto de los números enteros. Las variables aleatorias discretas, por este motivo, frecuentemente representan conteos de cosas.

  • Continuas: variables aleatorias cuyo codomio es un intervalo de la recta real. Por su naturaleza, las variables aleatorias continuas con frecuencia representan mediciones de algún atributo o característica de un fenómeno o sujeto de interés.

Por definición, la probabilidad asociada a cualquier valor que no se encuentre en el codominio de la variable aleatoria es igual a cero.

Una observación que resulta interesante es el hecho de que una función aplicada a una variable aleatoria (recordemos que las variables aleatorias son funciones) define a una nueva variable aleatoria.

FUNCIÓN DE DISTRIBUCIÓN Y FUNCIÓN DE DENSIDAD

Lecturas sugeridas
  • DeGroot (1988), Cap. 3.3.

Anteriormente ya mencionamos que \(P(X = x)\) representa la probabilidad asignada al evento que consiste en que la variable aleatoria \(X\) tome el valor \(x\). En el caso discreto, a \(P(X = x)\) con frecuencia también se le representa como \(p_X(x)\) y se le conoce como la función de masa de probabilidad o función de densidad de la variable aleatoria \(X\).

En el caso discreto, en ocasiones también se le llama función de probabilidad. Sin embargo, este nombre es problemático cuando queremos generalizar su uso, por motivos que veremos más adelante.

Ejemplo
Si se considera el experimento que consiste en lanzar dos monedas y se define a la variable aleatoria \(X\) como el número de águilas conseguidas, determina la función de masa de probabilidad de \(X\).
R
Dado que \(X\) registra el número de águilas conseguidas en el lanzamiento de dos monedas entonces tenemos que \(X := \{0,1,2\}\). Ahora, para obtener \(p_X(x)\), suponiendo que las monedas son justas y los lanzamientos independientes, tenemos entonces que:

\[ p_X(x) = \left\{\begin{array}{}\frac{1}{4} & x = 0\\\frac{1}{2} & x=1\\\frac{1}{4} & x = 2\\0 & e.o.c.\end{array}\right. \]


Algunas propiedades importantes
  • \(p_X(x) = 0\) para toda \(x\) que no pertenezca al dominio de \(X\).

  • \(\sum\limits_x p_X(x) = 1\) (se sigue directamente de las propiedades de probabilidad).

  • Para cualquier \(S\), subconjunto del dominio de \(X\), \(P(X \in S) = \sum\limits_{x \in S} p_X(x)\).

Ejemplo (cont.)
Para el experimento del lanzamiento de dos monedas, calcula la probabilidad de que se obtenga al menos un águila.
R
La probabilidad de obtener al menos un ágila la podemos representar como

\[ P(1 \leq X \leq 2) = \sum\limits_{x = 1}^2 p_X(x) = \frac{1}{2} + \frac{1}{4} = \frac{3}{4}. \]


Podemos ahora también fijarnos en la probabilidad asociada a un conjunto de valores. En particular nos interesa \(P(X \leq x)\). Dado que estamos en el caso discreto, se desprende directamente de las propiedades de probabilidades que \(P(X \leq x) = \sum\limits_{k \leq x} P(X = k)\). A \(P(X \leq x)\) se le conoce como la función de distribución de \(X\) o función de probabilidad acumulada y se le denota normalmente como \(F_X(x)\).

Definición
Sea un espacio de probabilidad \((\Omega, \mathcal{F}, P)\) y sea \(X\) una v.a. Llamamos a la función

\[ F_X(x) := P(\{\omega \in \Omega : X(\omega) \leq x\}) = P(X \leq x) \]

la función de densidad de \(X\).


Observa que las funciones de distribución son siempre funciones monotónicas crecientes. Notemos que, entonces

\[ P(a < X \leq b) = P(X \leq b) - P(X \leq a) = F(b) - F(a). \]

¿Por qué?

En particular, es importante tener en cuenta las siguientes propiedades de cualquier función de distribución:

  • \(\lim\limits_{x \rightarrow -\infty} = 0\);

  • \(\lim\limits_{x \rightarrow \infty} = 1\);

  • Si \(x_1 < x_2\) entonces \(F(x_1) < F(x_2)\);

  • \(F(x)\) siempre es una función continua por la derecha. Es decir que \(\lim\limits_{y \rightarrow x\\y>x} F(y) = F(x)\) para toda \(x\).

Nota importante: observa que, para el caso discreto, \(P(X < x) \neq F(x)\).

¿Por qué?

Ejemplo (cont.)
¿Puedes construir \(F_X(x)\) para el ejemplo anterior?

R :

\[ F_X(x) = \left\{\begin{array}{}\frac{1}{4} & x \leq 0\\\frac{3}{4} & x \leq 1\\1 & x \leq 2\end{array}\right. \]


Ejemplo
Sea \(X\) la variable aleatoria que registra el número de personas que presentan efectos secundarios de un tratamiento cuando se sabe que la probabilidad de presentar efectos secundarios es igual a 0.05 y se aplica el tratamiento a 100 pacientes. Determina la función de distribución de esta v.a.

En el ejemplo anterior, ¿cuál sería la probabilidad de que a lo más 4.57 personas presenten efectos secundarios?

¿Y la probabilidad de que exactamente 4.57 personas presenten efectos secundarios?

Consideremos entonces ahora el caso continuo. ¿Cuál es \(P(X = x)\)? Informalmente, por el momento, nota que, dado que para una variable aleatoria continua existe siempre un número infinito de posibles resultados la probabilidad asignada a un punto sería igual a \(\frac{1}{\infty}\).

\([\dots]\) resulta matemáticamente imposible asignarle probabilidades diferentes de cero a todos los puntos dentro de un intervalo y satisfacer, al mismo tiempo, el requisito de que la suma de las probabilidades asignadas a todos los puntos sea igual a 1.

Para las vv.aa. continuas usaremos la misma definición de la función de distribución que utilizamos en el caso discreto. Esto no representa un problema porque la función de distribución la definimos como \(F_X(x) = P(X \leq x)\) por lo que estamos hablando de la probabilidad asignada a un intervalo, no a un punto. Entonces, para desarrollar definiciones equivalentes a las trabajadas en el caso discreto necesitamos observar lo siguiente. Si \(X\) es una v.a. continua, entonces por fuerza \(F_X(x)\) debe ser también una función continua y, suponiendo que \(F_X(x)\) es diferenciable, podemos utilizar el Teorema Fundamental del Cálculo para encontrar una función \(f_X(x)\) tal que

\[ f_X(x) = \frac{d}{dx}F_X(x) \]

o, equivalentemente

\[ F_X(x) = \int\limits_{-\infty}^x f_X(x) dx. \]

Intuitivamente, ¿puedes observar la similitud con el caso discreto?

A \(f_X(x)\) se le conoce como la función de densidad o masa de \(X\) (no probabilidad, recordemos que la probabilidad asociada a un punto de una v.a. continua es cero).

Definición
Sea \(X\) una v.a. continua tal que \(X \in S_X \subseteq \mathbb{R}\). Se le conoce como función de densidad de \(X\) a la función \(f_X(x)\) no-negativa integrable tal que

\[ P(a \leq X \leq b) = \int\limits_{a}^bf_X(x)dx \]

para cualquier intervalo \((a,b) \in S_X\)


Dijimos, para el caso discreto, que \(P(X < x) \neq F(x)\), ¿aplica esto para el caso continuo?

Ejemplo
Sea \(f(x) = \left\{\begin{array}{}3x^2 & 0 \leq x \leq 1\\0 & e.o.c\end{array}\right.\) la función de densidad de la v.a. \(X\). Encuentra su función de distribución.
R
Dijimos que la función de distribución de una variable aleatoria corresponde a la anti-derivada de la función de densidad. Por lo tanto:

\[ F(x) = \int\limits_{0}^x f(t)dt\\ = \int\limits_{0}^x 3t^2dt\\ = \left.3 \times \frac{1}{3} t^3\right|_{0}^x\\ = 3 \times \frac{1}{3} x^3\\ = x^3. \]

Ahora, observa que la expresión obtenida hasta aquí aplica únicamente al intervalo \(0 \leq x \leq 1\) ya que \(F(x) = 0\) para \(x < 0\) y \(F(x) = 1\) para \(x > 1\). Por lo tanto, la función de distribución completa será:

\[ F(x) = \left\{\begin{array}{}0 & x < 0\\x^3 & 0 \leq x \leq 1\\1 & x > 1\end{array}\right. \]


Es importante señalar que, con mucha frecuencia, trabajaremos con variables aleatorias cuyas funciones de distribución o de masa han sido previamente estudiadas ya que describen (modelan) razonablemente bien algunos fenómenos, o presentan características que nos resultan de interés o utilidad. En estos casos, por lo regular, estas funciones son estudiadas en su forma lo más generalizada posible por lo que se presentan como funciones cuya forma depende del valor que tomen algunos parámetros. En términos de notación, podemos pensarlas como:

\[ F_X(x|\Theta);\\ f_X(x|\Theta)\\ \]

donde la “condición”, no representa una dependencia de una variable aleatoria sino de un parámetro conocido.

Definición
A los argumentos de una función, diferentes de las variables especificadas en la definición de la función, que determinan la forma específica de la función se les llama parámetros. Al conjunto de los posibles valores que un parámetro puede adoptar se le conoce como el espacio paramétrico.

Ejemplo
Considera la función

\[ f(x) = \left\{\begin{array}{}\frac{1}{b-a} & x \in (a,b)\\0 & e.o.c.\end{array}\right. \]

Podemos ver que

\[ F(x) = \int\limits_{a}^x f(x)dx = \int\limits_{a}^x \frac{1}{b-a} dx = \frac{x-a}{b-a} \]

por lo que

\[ \int\limits_{a}^b f(x)dx = 1. \]

Adicionalmente, podemos ver que \(F(x)\) es creciente, continua y diferenciable para cualquier punto en el intervalo \((a,b)\). \(F(x)\) es, por tanto, una función de distribución continua y su derivada, \(f(x)\) es una función de densidad.

A \(F(X)\) se le conoce como la función de distribución uniforme (continua) con parámetros \((a,b)\).


Se usa el símbolo \(\sim\) para denotar la distribución que sigue una v.a. Así, en ejemplo anterior, para decir que la v.a. \(X\) sigue una distribución uniforme con parámetros \(a\) y \(b\) lo podemos escribir como: \(X \sim Uniforme(a,b)\).

Finalmente, es importante observar que nada impide que podamos definir vv. aa. mixtas, esto es, vv. aa. que pueda tomar valores en un conjunto de valores que resulta de unir un subconjunto de valores discretos y un intervalo continuo. Recordemos únicamente que su función de distribución debe cumplir con el requisito de continuidad por la derecha (motivo por el cual los ejemplos más frecuentes consisten en variables aleatorias discretas en un subconjunto y continuas a partir de un valor a la derecha del máximo valor del subconunto discreto).

Ejemplo
Sea X una v.a. con \(F_X(x) = \frac{x}{2} I_{(0,1]}(x) + \frac{\sqrt{x}}{2}I_{(1,4]}(x) + I_{(4,\infty]}(x)\). Verifica que \(F_X(x)\) es una f.d.a.
R
  1. \(\lim\limits_{x \rightarrow -\infty} F_X(x) \lim\limits_{x \rightarrow -\infty} \frac{x}{2} I_{(0,1]}(x)= 0\).

  2. \(\lim\limits_{x \rightarrow \infty} F_X(x) = \lim\limits_{x \rightarrow \infty} I_{(4,\infty]}(x) = 1\).

  3. Cada tramo en el que \(F_X(x)\) está definida es creciente por lo que \(F_X(x_1) \leq F_X(x_2)\) para todas \(x_1 \leq x_2\).

  4. Para toda \(x\) en el dominio de \(X\) se observa que \(\lim\limits_{h \rightarrow 0} F_X(x+h) = F_X(x)\). En particular, para \(x=1\) \(\lim\limits_{h \rightarrow 0} F_X(1+h) = \frac{1}{2}\); y para \(x=4\) \(\lim\limits_{h \rightarrow 0} F_X(4+h) = 1\).


CARACTERÍSTICAS DE UNA VARIABLE ALEATORIA

En estricto sentido, podríamos decir que si queremos describir a una v.a. toda la información que necesitamos está contenida en su función de distribución / densidad. Sin embargo, es claro que, dada la naturaleza de estas funciones, no es sencillo ni intuitivo para la mayoría de nosotros identificar rasgos relevantes de la v.a. simplemente por conocer la función de distribución. Normalmente recurrimos a ciertos valores o atributos de referencia que nos permiten describir o conocer características de la v.a. y que nos hablan de diferentes aspectos que tienen relación con su comportamiento. Los rasgos más comunes (aunque no los únicos) en los que nos fijamos para describir a la v.a. nos sirven para describir la ubicación de ciertos valores relevantes (p.e., medidas de “centralidad”) mientras que otros nos hablan de qué tan dispersos se encuentran los valores (i.e., medidas de “dispersión”).

CUANTILES

Los primeros valores de los que vamos a hablar tienen que ver con la ubicación de ciertos puntos relacionados con la función de distribución: los cuantiles de una v.a. Estos valores nos permiten saber en dónde se encuentran los valores de la v.a. hasta los cuales se acumula una determinada probabilidad de ocurrencia.

Definición
Si \(X\) es una v.a. con función de distribución \(F_X(x)\) entonces se le conoce como el \(p\)-ésimo cuantil de \(X\) al valor de \(X\) tal que \(P(X < x) < p \leq P(X \leq x)\) y se le denota como \(\phi_p\) o también como \(Q_X(p)\)

Algunos cuantiles frecuentemente utilizados son los llamados cuartiles (0.25, 0.5, 0.75) y los deciles (0.1, 0.2, …, 0.9). En especial al cuantil \(0.5\) se le conoce como la \(mediana\) de la v.a. La mediana es un cuantil particularmente importante porque es considerada una de las medidas de centralidad de referencia (ya que es el valor hasta el cual la v.a. acumula la mitad de la probabilidad). Los cuantiles, en términos generales, son importantes, por ejemplo, si queremos comparar dos variables aleatorias para determinar cuál acumula probabilidad “más rápido” o “más lento” que la otra.

Ejemplo (cont.)
Sea \(f(x) = \left\{\begin{array}{}3x^2 & 0 \leq x \leq 1\\0 & e.o.c\end{array}\right.\) la función de densidad de la v.a. \(X\). Anteriormente vimos que, entonces, para esta v.a.:

\[ F(x) = \left\{\begin{array}{}0 & x < 0\\x^3 & 0 \leq x \leq 1\\1 & x > 1\end{array}\right. \]

Encuentra su mediana.


Ejemplo
Sea \(X\) una v.a. con función de masa igual a

\[ p_X(x) = \left\{\begin{array}{}1/2 & x = 0\\1/4 & x = 1\\1/4 & x = 2\\0 & e.o.c. \end{array}\right. \]

Calcula el cuantil 0.2 de \(X\).


MODA

Definición
Sea \(X\) una v.a. Se le llama moda de \(X\) al valor de \(X\) para el cual se observa el máximo de su función de densidad o de masa de probabilidad, según sea el caso.

La moda se considera, al igual que la mediana, una medida de centralidad ya que ambos, de alguna manera, ubican un punto “central” de la distribución de los datos. En el caso de la moda, siempre será posible determinarla para vv.aa. discretas pero no siempre en el caso de las vv. aa. continuas.

Otro punto a cuidar cuando calculamos la moda de una v.a. es el recordar que algunas distribuciones pueden tener más de una moda (multi-modales), o bien, pueden tener modas locales.

Ejemplo (discreta)
Considera la v.a. \(X\) cuya función de distribución está dada por

\[ F_X(x) = \left\{\begin{array}{}0 & x < 1\\1/3 & 1 \leq x < 2\\4/9 & 2 \leq x < 3\\2/3 & 3 \leq x < 4\\8/9 & 4 \leq x < 5\\1 & 5 \leq x\end{array}\right. \]

Encuentra la moda de \(X\).

R
Dada la función de distribución, tenemos entonces que su función de masa es

\[ p_X(x) = \left\{\begin{array}{}3/9 & x=1\\1/9 & x = 2\\2/9 & x = 3\\2/9 & x = 4\\1/9 & x=5\end{array}\right. \]

por lo que la moda de \(X\) es igual a 1.


Ejemplo (continua)
Si \(X\) es una v.a. cuya función de distribución está dada por \(F_X(x) = x^3, \ \ 0 \leq x \leq 1\). Encuentra la moda de la v.a.
R
Sabemos que la moda es el punto en el cual la v.a. encuentra su máxima densidad. Por lo tanto, primero tenemos que encontrar la función de densidad de la v.a.:

\[ f_X(x) = \frac{d}{dx} F_X(x)\\ = \frac{d}{dx} x^3\\ = 3 x^2. \]

Para encontrar el máximo de esta función, entonces, primero derivamos e igualamos a cero:

\[ \frac{d}{dx} f_X(x) = 6x 6x = 0 x = 0. \]

Pero si calculamos la segunda derivada de la función:

\[ f''_X(x) = 6 > 0. \]

Entonces, la función de densidad tiene un mínimo, y no tiene un máximo global (aunque esto ya lo sabíamos, ¿no?). Sin embargo, sabemos que \(0 \leq x \leq 1\) por lo que \(0 \leq x^2 \leq x \leq 1\). Entonces, la función tiene un máximo local en 1.

Por lo tanto, la moda de la v.a. es igual a 1.


MEDIA

Lecturas sugeridas
  • Wackerly, Mendenhall, and Scheaffer (2008), cap. 3.3.
  • DeGroot (1988), cap. 4.1 y 4.2.

La media, esperanza o valor esperado de una v.a. es el valor promedio de los valores que puede tomar la v.a. No se trata de un promedio simple, sino del promedio ponderado por la probabilidad asignada a cada valor.

Definición
Si \(X\) es una v.a. aleatoria decimos que su media es igual a
  1. Si \(X \in \mathcal{I}\) es discreta:

\[ E(X) = \sum\limits_{x \in \mathcal{I}} xp_X(x); \]

  1. Si \(X \in S_X\) es continua:

\[ E(X) = \int\limits_{S_X} xf_X(x)dx. \]


Aunque no siempre, es común hacer referencia a la media de una variable aleatoria mediante la letra griega \(\mu\).

Conceptualmente, es clara la diferencia entre las dos principales medidas de “centralidad” de una v.a. Sin embargo, en la práctica las diferencias conceptuales tienen repercusiones importantes. Si bien es posible encontrar algunas vv.aa. para las cuales ambos valores arrojan valores muy similares (si no es que idénticos), por lo general se describe a la media como una medida que no es “robusta”. Esto quiere decir que si se cambian los valores de la v.a., y particularmente los valores de los extremos, la media de la v.a. tenderá a cambiar (y por lo general significativamente), mientras que el valor de la mediana no. Por lo tanto, la mediana se considera una medida más estable en la presencia de valores extremos. Si queremos conocer el comportamiento de una v.a. normalmente tendremos que ver ambas.

Propiedades
  1. Si \(c\) es una constante, \(X\) una v.a. y la \(E(X)\) existe, entonces \(E(cX) = cE(X)\).

  2. \(E(X + Y) = E(X) + E(Y)\).

  3. Si \(X > 0\), entonces \(E(X) > 0\).

  4. Si \(X \leq Y\) entonces \(E(X) \leq E(Y)\).

  5. Si \(g\) es una función convexa y \(g(E(X))\) existe, entonces \(g(E(X)) \leq E(g(X))\) (desigualdad de Jensen).

  6. Para cualquier evento \(A\), sea la v.a. \(X = I_A\). \(E(X) = P(A)\).

  7. Si \(X\) es una v.a. discreta que toma valores en los enteros no negativos, entonces

\[ E(X) = \sum\limits_{k = 0}^\infty P(X > k) \]

  1. Si \(X\) es una v.a. continua positiva, entonces

\[ E(X) = \int\limits_{0}^\infty (1 - F(x))dx. \]

  1. Si \(X\) es una v.a. y \(g(X)\) es una función real de \(X\), entonces

\[ E(g(X)) = \sum\limits_{x \in \mathcal{I}} g(x)p_X(x) \]

donde \(X\) es una v.a. discreta y \(p_X(x)\) es la función de masa de probabilidad de \(X\), o bien,

\[ E(g(X)) = \int\limits_{S_X} g(x)f_X(x)dx. \]

donde \(X\) es una v.a. continua y \(f_X(x)\) es la función de densidad de \(X\).

  1. \(E(X - \mu) = 0\).

Ejemplo
Se selecciona al azar un punto de un bastón de longitud 1 m. y se rompe en dos pedazos en ese punto. Determina el valor esperado de la longitud del trozo más grande.
R
Sean \(X\) la v.a. que representa al punto seleccionado al azar y \(L\) la v.a. que representa la longitud del trozo más grande de bastón. Entonces

\[ L = \left\{\begin{array}{}1 - X & X \leq 0.5\\ X & X \geq 0.5\end{array}\right. \]

entonces

\[ E(L) = \int\limits_0^{0.5} (1-x)dx + \int\limits_{0.5}^1 xdx\\ = \left. \left(x - \frac{x^2}{2} \right) \right|_0^{0.5} + \left. \frac{x^2}{2} \right|_{0.5}^{1}\\ = \frac{1}{2} - \frac{1}{8} + \frac{1}{2} - \frac{1}{8}\\ = 1 - \frac{2}{8}\\ = \frac{6}{8}\\ = \frac{3}{4}. \]


Ejemplo
La proporción de artículos defectuosos en una muestra de tamaño \(n\) es \(p\). Si \(X\) es la v.a. que registra el número de artículos defectuosos en la muestra y \(Y\) es la v.a. que registra el número de artículos no defectuosos, calcula \(E(X - Y)\).
R
Para resolver este problema, primero observemos que a la v.a. \(X\), que registra el número de éxitos en \(n\) intentos, la podemos re-expresar como la suma de \(n\) vv.aa. que toman el valor 1 con probabilidad \(p\) cuando se observa un artículo defectuoso. De esta manera, entonces, la \(E(X)\) la podemos re-expresar como

\[ E(X) = E\left(\sum\limits_{i=1}^n X_i\right) = \sum\limits_{i=1}^n E\left(X_i\right) = np. \]

Por otra parte, observemos también que la v.a. \(Y\) puede ser re-expresada como \(n-X\) por lo que:

\[ E(X-Y)=E(X-n+X)=E(2X-n)=2E(X)-n=2np-n=n(2p-1). \]


Ejemplo
La siguiente tabla presenta el número de familias que tienen un total de \(k\) hijos (\(k = 0,1,2, \dots\)) en una comunidad de 153 familias. Determina la media y la mediana del número de hijos por familia.
# hijos # familias
0 21
1 40
2 42
3 27
4 o más 23
R

\[ Media = \frac{0 \times 21 + 1 \times 40 + 2 \times 42 + 3 \times 27 + 4 \times 23}{153}\\ = 1.941. \]

Nota que para el cálculo de la media es necesario tomar una decisión sobre qué valor utilizar para la última categoría ya que podría haberse utilizado otro valor (mayor a 4, desde luego).

\[ Mediana = 2\\ P(X \leq 2) = 0.6732\\ P(X < 2) = 0.3986928. \]


Ejemplo
Si X es una v.a. continua no negativa con media 25, ¿qué se puede decir de
  1. \(E(X^3)\)?

  2. \(E(\sqrt{X})\)?

  3. \(E(\ln{X})\)?

  4. \(E(e^{-X})\)?

R
Sabemos por propiedades de la esperanza (desigualdad de Jensen) que, si \(g\) es una función convexa, entonces \(g[E(X)] \leq E[g(X)]\); si cóncava, \(g[E(X)] \geq E[g(X)]\). Por lo tanto:
  1. \(g(X) = X^3\) es una función convexa por lo que \(E(X^3) \geq E^3(X) = 25^3\).

  2. \(g(x) = \sqrt{X}\) es cóncava por lo que \(E(\sqrt{X}) \leq \sqrt{25} = 5\).

  3. \(g(X) = \ln X\) es cóncava por lo que \(E(\ln{X}) \leq \ln{25}\).

  4. \(g(X) = e^{-X}\) es convexa por lo que \(E(e^{-X}) \geq e^{-25}\).


VARIANZA

Otra característica que con frecuencia nos interesa conocer de las vv.aa. tiene que ver con qué tan dispersos se encuentran los valores de la v.a. Para esto, la medida más frecuentemente utilizada usa un valor de referencia: la media. En este sentido, por lo tanto, lo que queremos evaluar es qué tan dispersos se encuentran los valores de la v.a. respecto de la media de la distribución.

A esta medida se le conoce como la varianza de la v.a.

Definición
Sea \(X\) una v.a. con media \(E(X) = \mu\). La varianza de la v.a. es igual a

\[ Var(X) = E[(X-\mu)^2]; \]

su desviación estándar es igual a

\[ sd(X) = \sqrt{E[(X-\mu)^2]}. \]


A la varianza en ocasiones también se le conoce como el error cuadrático medio. ¿Puedes ver por qué? ¿Puedes ver por qué tiene que ser cuadrático? ¿Crees que es la única manera de resolver el problema?

De manera similar a la media, dado que se trata de un parámetro de uso muy frecuente, solemos reservar el uso los símbolos \(\sigma^2\) y \(\sigma\) para la varianza y desviación estándar, respectivamente.

Propiedades de la varianza
  1. \(Var(X) \geq 0\);

  2. Si \(c\) es una constante, entonces \(Var(c)=0\);

  3. \(Var(cX) = c^2Var(X)\);

  4. \(Var(X) = E(X^2) - E^2(X)\).


¿Puedes demostrar estas propiedades?

Ejemplo
Sea \(X\) una v.a. que toma valores \(-2,0,1.3,4\) con igual probabilidad. Calcula la desviación estándar de \(Y=4X-7\).

Ejemplo
¿Cuáles son la media y la varianza de la v.a. \(Y = \frac{X-\mu}{\sigma}\) si \(E(X) = \mu\) y \(Var(X)=\sigma^2\).

A la transformación del ejemplo anterior solemos referirnos como “estandarización”.

Con lo que ya sabemos de la media y la varianza de una variable aleatoria podemos entonces enunciar el resultado conocido como la desigualdad de Chebyshev:

Teorema
Sea \(X\) una v.a. cuya varianza existe. Entonces, para cualquier número \(t > 0\)

\[ P(|X - \mu| \geq t) \leq \frac{\sigma_X^2}{t^2} \]

Demostración
Sea \(Y = (X - \mu)^2\), entonces \(P(Y \geq t^2) = \sum\limits_{x \geq t^2} Y p_X(x)\) pero

\[ \sum\limits_{y \geq t^2} t^2 p_X(y) \leq \sum\limits_{y \geq t^2} y p_X(y) \leq \sum\limits_{y} y p_X(y) = Var(X)\\ t^2P(Y \geq t^2)) \leq Var(X)\\ P(Y \geq t^2) \leq \frac{Var(X)}{t^2}\\ P(|X - \mu| \geq t) \leq \frac{Var(X)}{t^2}. \]


¿Qué nos dice la desigualdad de Chebyshev y por qué es importante? Es importante por que nos dice que, sin importar nada más de la v.a., y conociendo su media y su varianza, podemos encontrar una cota superior para la probabilidad acumulada en la cola a partir de cualquier cuantil de la distribución.

Pensemos, por ejemplo, en \(t = 3\). La desigualdad de Chebyshev nos dice que para cualquier v.a. la probabilidad de que observemos valores que se salgan más allá de 3 unidades respecto de la media nunca será mayor a \(1/9\) de la varianza de la v.a.

Ejemplo
En un proceso de control de calidad se registra en una v.a. \(X\) para la que no conocemos su media el calibre de los tornillos fabricados; se sabe que su \(\sigma\) es igual a 2. ¿Cuántos tornillos se deben medir si se desea que la probabilidad de que la media aritmética de las mediciones no se aleje de la media de la v.a. en más de una unidad sea al menos igual a 0.99? [Hint: utiliza el hecho de que, para este problema, \(Var(\sum\limits_{i=1}^n X_i) = \sum\limits_{i=1}^n Var(X_i)\).]
R
Sabemos que la media aritmética se define como \(\bar{X} = \frac{\sum\limits_i X_i}{n}\). Por lo tanto, lo que el problema nos plantea es encontrar la \(n\) que hace que

\[ P(|\bar{X} - \mu| < 1) \leq 0.99. P(|\bar{X} - \mu| \geq 1) \leq 0.01. \]

Ahora bien, si \(Y = \frac{\sum\limits_i X_i}{n}\) entonces \(E(Y) = \mu\) y, por lo tanto

\[ P(|\bar{X} - \mu| \geq 1) \leq 0.01\\ 0.01 = \frac{\sum\limits_{i=1}^n Var(X_i)}{n^2}\\ 0.01 = \frac{n\sigma^2}{n^2}\\ n = \frac{4}{0.01}\\ n = 400. \]

Es decir, necesitamos al menos 400 mediciones de tornillos para asegurar que la media aritmética de las mediciones no exceda a la media teórica en más de una unidad con probabilidad de 0.99.


COEFICIENTE DE VARIACIÓN

En ocasiones, y en particular cuando analizamos información proveniente de dos vv.aa., aún cuando contemos con los valores de las medidas de posición y la varianza puede resultar complicado comparar a las dos vv. aa. Calcular el coeficiente de variación de las vv.aa., definido como \(CV(X) = \frac{\sqrt{Var(X)}}{|E(X)|}\) puede resultar de gran ayuda.

El principal problema de la varianza, cuando queremos analizar la distribución de una v.a., es que sus unidades no son las mismas que las de la v.a. La desviación estándar resuelve este problema, pero está definida en función de la media de la v.a. por lo que no es posible utilizarla en comparación con la desviación estándar de otra v.a. El CV resuelve este segundo problema al ser una medida relativa de la dispersión de los datos respecto de la media. Al ser una medida relativa su uso con fines de comparación es apropiado.

COEFICIENTE DE ASIMETRÍA

Una característica que nos interesa determinar son frecuencia es si la distribución es simétrica o no.

Definición
Decimos que una v.a. tiene una distribución simétrica al rededor de un valor fijo \(c\) si \(P(X \leq c - x) = P( X \geq c + x)\) para toda \(x\) en el rango de la v.a.

Nota que, si la v.a. es continua, entonces la simetría implica que \(f_X(c - x) = f_X(c + x)\).

¿Por qué?

Ahora, generalmente cuando hablamos de la simetría de una v.a. no nos referimos a la simetría respecto de un valor arbitrario ya que comúnmente usamos como punto de referencia la media de la distribución. Por lo tanto, podemos sustituir el valor \(c\) por \(\mu\): \(P(X \leq \mu - x) = P( X \geq \mu + x)\).

Para evaluar si una v.a. es simétrica se utiliza el coeficiente de asimetría definido como:

\[ \nu(X) = \frac{E[(X-\mu)^3]}{[Var(X)]^{3/2}}. \]

Para entender por qué usamos este valor observemos lo siguiente: si la v.a. \(Y = X - \mu\) es simétrica respecto del origen, entonces cualquier potencia impar de \(Y\) cumplirá con

\[ \begin{aligned} E(Y^{2k+1}) &= \int\limits_{-\infty}^{\infty}y^{2k+1}f(y)dy\\ &= \int\limits_{-\infty}^{0}y^{2k+1}f(y)dy + \int\limits_{0}^{\infty}y^{2k+1}f(y)dy\\ &= -\int\limits_{0}^{\infty}y^{2k+1}f(y)dy + \int\limits_{0}^{\infty}y^{2k+1}f(y)dy\\ &= 0. \end{aligned} \]

Por el lado del denominador, observemos que (salvo por el caso trivial) nunca será igual a cero.

Por lo tanto, tenemos que, para vv. aa. simétricas \(\nu\) será siempre igual a cero. Cuando \(\nu > 0\) decimos que la v. a. presenta un sesgo a la derecha (right-skewed, en inglés); si \(\nu < 0\), un sesgo a la izquierda (left-skewed, en inglés).

Positive skew Negative skew
Skewness. Imagen tomada de Wikipedia.

Si queremos determinar simplemente si la distribución es o no simétrica, suele también usarse como criterio la comparación entre la media y la mediana. Si estos valores no son iguales, significa que la distribución es asimétrica (si la media es mayor que la mediana, tendremos una distribución con sesgo positivo; si es menor, a la izquierda).

Si bien este no es un criterio general, ya que distribuciones con características “peculiares” pueden no cumplirlo, para la mayoría de los casos se considera un método aceptable para determinar asimetría.

COEFICIENTE DE CURTOSIS

La última característica que vamos a estudiar de las variables aleatorias nos habla de cómo se acumula probabilidad en las colas de la distribución (lo cual se visualiza mejor para vv.aa. continuas). Se suele hacer referencia en estos casos a la expresión “qué tan pesadas son las colas de la distribución”, aunque esta expresión es un poco ambigua. Otro aspecto en el que (gráficamente) influye esta característica tiene que ver con qué tan pronunciado es el pico relativo a la moda de la distribución.

La característica a la que hemos estado haciendo referencia es al curtosis de la distribución y típicamente se analiza en comparación a la curtosis de una distribución conocida de referencia (que más adelante conoceremos como la distribución Normal).

Aquellas variables aleatorias que presenten una curtosis mayor a la de referencia las llamaremos leptocúrticas; menor, platicúrticas e igual mesocúrticas.

La fórmula del coeficiente de curtosis es

\[ K = \frac{E[(X-\mu)^4]}{[Var(X)]^2} \]

Curtosis. Imagen tomada de Wikipedia.
Curtosis. Imagen tomada de Wikipedia.

MOMENTOS DE UNA VARIABLE ALEATORIA

Lecturas sugeridas
  • DeGroot (1988), Cap. 4.4.

Ya señalamos anteriormente que una propiedad de la esperanza de una v.a. es que, si \(g\) es una función bien definida de la v.a. \(X\) entonces \(E[g(X)] = \int g(x)f(x)dx\). En particular nos interesan ahora las funciones \(g\) de la forma \(g(X) = X^n\).

Definición
Sea \(X\) una v.a. con función de masa \(p_X(x)\) o bien función de densidad \(f_X(x)\). Llamamos a \(E(X^n)\) el momento de orden \(n\) de \(X\) y a \(E[(X - \mu)^n]\) (\(n \geq 2\); \(\mu = E(X)\)) el momento central de orden \(n\) de \(X\).

Vuelve a ver las fórmulas del coeficiente de asimétria y el coeficiente de curtosis. ¿Cómo puedes expresarlos en términos de los momentos de la v.a.?

FUNCIÓN GENERADORA DE MOMENTOS

Sea \(X\) una v.a. entonces para todo \(t \in \mathbb{R}\) se llama a la función

\[ \psi(t) = E(e^{tX}) \]

la función generadora de momentos de \(X\).

¿Por qué llamamos la función generadora de momentos? Es relativamente fácil ver que si \(\psi^{(n)}(t)\) representa a la derivada de orden \(n\) de \(\psi\) respecto de \(t\), entonces

\[ \psi^{(n)}(0) = E(X^n) \]

Una propiedad muy útil de las fgm es que si \(X\) es una v.a. y \(Y = aX + b\) entonces es relativamente sencillo probar que \(\psi_Y(t)\) = e^{bt}_X(t)$.

Por otro lado, también es cierto que, para dos vv.aa. \(X_1\) y \(X_2\), si es posible demostrar que sus f.g.m. son idénticas para todos los valores de \(t\) en un intervalo alrededor del 0, entonces sus distribuciones son idénticas.

Ejemplo
Los primeros tres momentos de una v.a. \(U\) son:

\[ M_1 = 0.5;\\ M_2 = 0.5;\\ M_3 = 0.75. \]

  1. Calcula \(E(U)\) y \(Var(U)\).
R
\(E(U) = M_1 = 0.5\).

\[ Var(U) = E(U^2) - E^2(U)\\ = M_2 - M_1^2\\ = 0.5 - (0.5)^2\\ = 0.5 - 0.25\\ = 0.25. \]

  1. Determine si la distribución de \(U\) es simétrica.
R
Para determinar si la distribución de \(U\) es simétrica tenemos que calcular su coeficientes de asimetría (aunque en realidad es suficiente calcular únicamente el tercer momento central pues únicamente necesitamos saber si el numerador es diferente de cero).

Una primera manera de resolverlo es la siguiente:

\[ E[(U - \mu_U)^3] = E[U^3 - 3 U^2 \mu_U + 3 \mu_U^2 U - \mu_U^3]\\ = E(U^3) - 3 \mu_U E(U^2) + 3 \mu_U^2 E(U) - \mu_U^3\\ = 0.75 - 3 \times 0.5 \times 0.5 + 3 \times (0.5)^2 \times 0.5 - (0.5)^3\\ = 0.75 - 3 \times (0.5)^2 + 3 \times (0.5)^3 - (0.5)^3\\ = 0.75 - 3 \times (0.5)^2 + 2 \times (0.5)^3\\ = 0.25. \]

Como el tercer momento central es diferente de cero, entonces la distribución es asimétrica.

Podemos resolverlo también utilizando la f.g.m. Sea \(Y = U - \mu\) entonces, por propiedades de la f.g.m. sabemos que

\[ \psi_Y(t) = e^{-\mu t}\psi_U(t)\\ \psi'_Y(t) = -\mu e^{-\mu t}\psi_U(t) + e^{-\mu t}\psi'_U(t)\\ \psi''_Y(t) = \mu^2 e^{-\mu t}\psi_U(t) - 2 \mu e^{-\mu t} \psi'_U(t) + e^{-\mu t} \psi''_U(t)\\ \psi'''_Y(t) = -\mu^3 e^{-\mu t} \psi_U(t) + 3 \mu^2 e^{-\mu t} \psi'_U(t) - 3 \mu e^{-\mu t} \psi''_U(t) + e^{-\mu t} \psi'''_U(t) \]

por lo que

\[ \psi'''_Y(0) = -\mu^3 + 3 \mu^2 \psi'_U(0) - 3 \mu \psi''_U(0) + \psi'''_U(0)\\ = -(0.5)^3 + 3 (0.5)^2 \times (0.5) - 3 (0.5) (0.5) + 0.75\\ = -(0.5)^3 + 3 (0.5)^3 - 3 (0.5)^2 + 0.75\\ = 2 (0.5)^3 - 3 (0.5)^2 + 0.75\\ = (0.5)^2 - 3 (0.5)^2 + 0.75\\ = - 2 (0.5)^2 + 0.75\\ = 0.25. \]


Sea \(Y\) una v.a. con f.d.p. \(f_Y(y)=e^y, y <0\).

  1. Calcula \(E(e^{3Y/2})\).
R

\[ E(e^{3Y/2}) = \int\limits_{-\infty}^{0}e^{3y/2} \times e^y dy\\ = \int\limits_{-\infty}^{0}e^{5y/2}dy\\ = \frac{2}{5}\int\limits_{-\infty}^{0}\frac{5}{2}e^{5y/2}dy\\ = \frac{2}{5} e^{5y/2}|_{\infty}^0\\ = \frac{2}{5} \left(1 - 0\right)\\ = \frac{2}{5}. \]

  1. Encuentra la f.g.m. de \(Y\).
R

\[ \psi_Y(t) = E(e^{tY})\\ = \int\limits_{-\infty}^{0}e^{ty} \times e^y dy\\ = \int\limits_{-\infty}^{0}e^{y(t+1)}dy\\ = \frac{1}{t+1} e^{y(t+1)}|_{\infty}^0\\ = \frac{1}{t+1}. \]

  1. Calcula \(Var(Y)\).

\[ E(Y) = \psi'_Y(0)\\ = \left.-\frac{1}{(t+1)^2}\right|_0\\ = -1. \]

\[ E(Y^2)= \psi''_Y(0)\\ = \left.\frac{2}{(t+1)^3}\right|_0\\ = 2. \]

\[ Var(Y)=E(Y^2)-E^2(Y)\\ = 2-1\\ = 1. \]


DISTRIBUCIÓN DE UNA FUNCIÓN DE UNA VARIABLE ALEATORIA

Lecturas recomendadas :

  • DeGroot (1988), cap. 3.8.

Con frecuencia también nos interesa poder determinar la función de distribución de una v.a. que es, a su vez, una función de una v.a. con función de distribución conocida. Es decir, sabemos que la v.a. \(X\) tiene una f.d. \(F_X(x)\). Si \(Y = g(X)\), ¿cómo podemos determinar \(F_Y(y)\)?

Sabemos que \(F_X(x) = P(X \leq x)\) entonces, cuando \(g(X)\) es una función creciente se puede ver que

\[ F_Y(y) = P(Y \leq y)\\ = P[g(X) \leq y]\\ = P[X \leq g^{-1}(y)]\\ = F_X[g^{-1}(y)]. \]

Ahora, cuando \(g(X)\) es decreciente, entonces

\[ F_Y(y) = P(Y \leq y)\\ = P[g(X) \leq y]\\ = P[X \geq g^{-1}(y)]\\ = 1 - P[X \leq g^{-1}(y)]\\ = 1 - F_X[g^{-1}(y)]. \]

Ahora, si queremos obtener la función de densidad de \(Y\) podemos simplemente derivar la función de distribución lo que, considerando la regla de la cadena y ambos casos (creciente y decreciente) podemos ver que da

\[ f_Y(y) = f_X(g^{-1}(y))\left| \frac{d}{dy} g^{-1}(y) \right|. \]

Ejemplo
Sea \(f_X(x) = e^{-x}\) para \(x > 0\), y sea \(Y = g(x) = \frac{1}{x}\). Calcula \(f_Y(y)\).
R
Si \(Y = g(x) = \frac{1}{x}\), entonces \(x = g^{-1}(y) = \frac{1}{y}\) por lo que

\[ f_Y(y) = f_X(g^{-1}(y)) \left| \frac{d}{dy} g^{-1}(y) \right|\\ = e^{-\frac{1}{y}} \left| -\frac{1}{y^2} \right|\\ = \frac{1}{y^2} e^{-\frac{1}{y}} \]

para \(y > 0\).


USO EN SIMULACIÓN

Hasta ahora hemos abordado el estudio de las variables aleatorias desde el análisis de sus funciones de masa / densidad / distribución de probabilidades. En ocasiones, sin embargo, nos interesa poder generar valores (al azar) de dichas vv.aa. de manera que podamos asegurar que dichos valores se distribuyen conforme a una determinada ley de probabilidad. A esto se le conoce coloquialmente como simulación de vv.aa. (más apropiadamente, generación de números pseudoaleatorios). Las técnicas de simulación hoy en día se encuentran en una gran variedad de aplicaciones.

Una técnica de simulación de valores aleatorios se basa precisamente en aplicar lo que ya sabemos sobre la distribución de funciones de vv.aa. Supongamos que nos es posible generar valores provenientes de una v.a. \(X \sim U(0,1)\) y nos interesa poder generar valores de una v.a. \(Y\) cuya función de distribución es \(F_Y(y)\). Entonces, si es posible obtener \(F^{-1}_Y(x)\), podemos garantizar que si \(g(x) = F^{-1}_Y(x)\), por lo que \(g^{-1}(y) = F_Y(y)\), entonces

\[ F_{g(X)}(g) = F_X(g^{-1}(y))\\ = g^{-1}(y)\\ = F_Y(y). \]

Es decir, que si podemos generar valores de una uniforme (0,1) y con estos valores alimentamos a la inversa de la función de distribución de al variable de interés, podemos garantizar que los valores que estamos obteniendo de la variable de interés se distribuyen bajo la ley de probabilidad deseada.

El problema es, ahora, ¿cómo podemos generar valores de una v.a. uniforme (0,1)? Aunque este tema en particular excede al alcance de este curso, basta señalar que existe una gran variedad de algoritmos computacionales, la mayoría de ellos relacionados con la selección de un número que no es fácil de replicar y que permite considerarlo como casi aleatorio.

DISTRIBUCIONES IMPORTANTES

DISCRETAS

UNIFORME

Lecturas recomendadas
  • DeGroot (1988), Cap.3.1.

Un tipo de vv.aa. al que ya hemos hecho referencia en este material es que corresponde al caso en el que una v.a. puede tomar valores en un conjunto de valores equiprobables. Este caso puede ser representado, entonces, con una V.a. \(X\) que toma valores en un intervalo de \(n\) enteros, \(X \in [a, a+1, a+2, \dots, b]\) donde \(b = a + n - 1\).

Cuando se considera que cualquier valor dentro de un subconjunto \(n\) enteros es igualmente probable, entonces se sigue que:

\[ p_X(x) = \left\{\begin{array}{} \frac{1}{n} & x = a, a+1,\dots, a+n-1\\0 & e.o.c.\end{array}\right. \]

A este tipo de vv.aa. se les conoce como vv.aa. uniformes (discretas) y son frecuentemente utilizadas para representar situaciones en las que se selecciona al azar un elemento de entre una colección de \(n\) elementos.

Entonces:

\[ F_X(x) = \sum\limits_{i = a}^x \frac{1}{n} = \frac{x - a + 1}{n} = \frac{x - a + 1}{b - a + 1} \]

\[ E(X) = \sum\limits_{i = a}^b \frac{i}{n} = \frac{1}{n} \times \frac{n(2a + n - 1)}{2} = \frac{a+b}{2}. \]

Ahora, supongamos que \(a = 1\), entonces

\[ E(X^2) = \frac{1}{n} \sum\limits_{x=1}^{n} x^2 = \frac{n^2(n+1)(2n+1)}{6n} = \frac{(n+1)(2n+1)}{6} \]

y entonces

\[ Var(X) = \frac{(n+1)(2n+1)}{6} - \frac{(n+1)^2}{4} = \frac{n^2 - 1}{12}. \]

Consideremos ahora el caso, nuevamente, en el que se tienen \(n\) posibles valores entre \(a\) y \(b\). Este caso es simplemente \(Y = X + a - 1\) por lo que

\[ Var(Y) = Var(X + a - 1) = Var(X) = \frac{n^2 - 1}{12}. \]

Finalmente

\[ \psi_X(t) = \frac{1}{n} \sum\limits_{x = 1}^n e^{tx}\\ = \frac{e^t}{n} \sum\limits_{x = 1}^n e^{t(x - 1)}\\ = \frac{e^t}{n} \sum\limits_{x = 0}^{n-1} e^{tx}\\ = \frac{e^t}{n} \times \frac{1 - e^{nt}}{1 - e^t}. \]

BERNOULLI

Lecturas sugeridas
  • DeGroot (1988), cap. 5.2
  • Bertsekas and Tsitsiklis (2008), cap. 2.2

Un experimento o variable aleatoria Bernoulli es aquél cuyo resultado es binario (puede tomar únicamente dos valores) y, por lo tanto, puede ser representado mediante los valores 0 y 1. Este tipo de variables aleatorias es usado frecuentemente para representar situaciones como:

  • El estatus de un proceso (ocupado / libre);

  • El estado de salud una persona (enfermo / sano);

  • Las preferencias de una persona (a favor / en contra);

  • El resultado de una prueba (éxito / fracaso);

  • El valor lógico de una afirmación (verdadero / falso).

Como se verá, el estudio de las variables Bernoulli es muy importante ya que otros tipos de experimentos / variables pueden ser descompuestos en experimentos más simples de tipo Bernoulli. En este sentido, las variables Bernoulli representan bloques básicos que permiten construir y entender otros tipos de variables aleatorias.

Decimos, entonces, que una v.a. sigue una distribución Bernoulli con parámetro \(p\) cuando la variable aleatoria puede tomar únicamente los valores 0 y 1 (siendo \(p\) la probabilidad de que la v.a. tome el valor 1) y, por lo tanto:

\[ p_X(x) = p^x(1-p)^{1-x}, x = 0,1. \]

Con frecuencia se dice que \(p\) representa la probabilidad de éxito en el experimento. Desde luego, la definición de lo que representa un éxito depende en gran medida del contexto del problema que nos interesa.

Podemos ver, ahora, que

\[ E(X) = \sum\limits_{x=0}^1 x p_X(x) = p \]

y

\[ E(X^2) = \sum\limits_{x=0}^1 x^2 p_X(x) = p \]

por lo que

\[ Var(X) = p - p^2 = p(1-p) \]

y, de igual forma:

\[ \psi_X(t) = E(e^{tX}) = \sum\limits_{x=0}^1 e^{tx} p_X(x) = e^tp + (1-p). \]

Ejemplo
Sea X una v.a. para la cual \(E(X^k) = 1/3\) para \(k=1,2,\dots\). Suponiendo que no puede haber más de una distribución con esta misma sucesión de momentos, determina la distribución de \(X\).
R
Sabemos que la distribución Bernoulli cumple con la propiedad señalada en el enunciado del problema ya que

\[ \psi_X(t) = e^tp + (1-p)\\ \psi'_X(t) = e^tp\\ \psi''_X(t) = e^tp\\ \dots \]

por lo que

\[ E(X) = 1/3\\ p \times e^0 = 1/3\\ p = 1/3. \]

Por lo que, dado que se nos dice que no puede haber otra distribución que cumple con la restricción, podemos asegurar que la v.a. sigue una distribución Bernoulli(p = 1/3).


BINOMIAL

Lecturas sugeridas
  • Bertsekas and Tsitsiklis (2008), cap. 2.2.
  • DeGroot (1988), cap. 3.1.

Las variables aleatorias binomiales se usan para asignar probabilidades al número de éxitos observados en \(n\) intentos o instancias de un experimento cuando la probabilidad de observar un éxito es igual a \(p\). De manera general, decimos que un experimento sigue una distribución binomial con parámetros \(n\) y \(p\) cuando

\[ p_X(x) = C^n_x p^x (1- p)^{n-x}, x = 0, 1, \dots,n \]

y, en consecuencia:

\[ F_X(x) = \sum\limits_{i=0}^x C^n_i p^i (1- p)^{n-i}. \]

También es importante observar que suele ser complicado calcular el valor de las probabilidades binomiales cuando el valor de \(n\) es grande. Los paquetes de software estadístico nos permiten calcular las probabilidades para prácticamente cualquier valor de los parámetros (y en cursos más avanzados estudiarás maneras de aproximar los valores de esta distribución) pero si queremos calcularlos con calculadoras manuales por lo general puede ser complicado. Por ello, existen valores pre-calculados para diferentes combinaciones de los parámetros y registrados en tablas.

Es importante familizarse con el uso de tablas de probabilidades, en particular para los exámenes.

Nota, como dijimos anteriormente, que una variable aleatoria binomial puede ser vista como la suma de \(n\) variables aleatorias Bernoulli. Por lo tanto, si \(X \sim Binomial(n,p)\) y \(X_i \sim Bernoulli(p)\):

\[ E(X) = E\left(\sum\limits_{i=1}^n X_i \right) = np\\ Var(X) = Var\left(\sum\limits_{i=1}^n X_i \right) = npq\\ \psi_X(t) = \prod\limits_{i=1}^n \psi_{X_i}(t) = (pe^t + q)^n. \]

Otra propiedad importante de las vv.aa. binomiales es la siguiente. Supóngase que \(X_1\) y \(X_2\) son vv.aa.ii. y que \(X_1 \sim Binomial(n_1, p)\) y \(X_2 \sim Binomial(n_2, p)\), entonces, \(X_1+X_2\sim Binomial(n_1+n_2,p)\).

Demostración
De las propiedades de las vv.aa. binomiales tenemos que

\[ \psi_{X_1}(t) = (pe^t + q)^{n_1}\\ \psi_{X_2}(t) = (pe^t + q)^{n_2}\\ \psi_{X_1}(t) = (pe^t + q)^{n_1}\\ \psi_{X_1 + X_2}(t) = E[e^{t(X_1 + X_2)}]\\ = E[e^{tX_1 + tX_2}]\\ = E[e^{tX_1}e^{tX_2}]\\ = E[e^{tX_1}]E[e^{tX_2}]\\ = (pe^t + q)^{n_1}(pe^t + q)^{n_2}\\ = (pe^t + q)^{n_1+n_2}. \]

Como se puede observar, la última expresión corresponde a la f.g.m. de una v.a. \(Binomial(n_1+n_2,p)\). Por el teorema de unicidad de la f.g.m. queda entonces demostrado que \(X_1 + X_2 \sim Binomial(n_1+n_2,p)\).


Ejemplo
De los consumidores de una estación de gas, 30% seleccionan gasolina regular, 20% prefieren premium y 50% diesel. De 100 de los siguientes consumidores, ¿cuál es la media y la varianza del número de consumidores que seleccionan gasolina regular?
R
Si definimos como casos de éxito a aquellos en los que el cliente seleccionó gasolina regular, entonces podemos pensar que la v.a. \(X\), que registra el número de consumidores de gasolina regular en una muestra de 100, se distribuye \(Binomial(n = 100, p = 0.3)\) (podríamos pensar que se trata de una hipergeométrica ya que sería muy raro que un cliente regresar a cargar dentro de los 100 siguientes clientes, pero desconocemos el tamaño de la población lo que la hace, para fines prácticos, infinita).

Entonces

\[ E(X) = np = 30\\ Var(X) = npq = 21. \]


HIPERGEOMÉTRICA

Lecturas sugeridas
  • DeGroot (1988), cap. 5.3.

Consideremos ahora problemas en los que se tiene un conjunto de elementos, de tamaño \(N\), y dicho conjunto está conformado por elementos de dos clases, digamos \(A\) y \(B\), de tamaño \(N_A\) y \(N_B\), respectivamente. Se desea obtener una muestra sin reemplazo de tamaño \(n\) del conjunto de elementos.

Si \(X\) es la v.a. que registra el número de elementos del subconjunto \(A\) que aparecen en la muestra, entonces decimos que \(X \sim Hipergeometrica(N_A, N_B, n)\) y, por lo que sabemos de conteo, podemos determinar que

\[ p_X(x) = \frac{C^{N_A}_x C^{N_B}_{n-x}}{C^N_n}, x \in [0,1,2,\dots] \]

y también

\[ F_X(x) = \sum\limits_{i=0}^x \frac{C^{N_A}_i C^{N_B}_{n-i}}{C^N_n}. \]

Ahora, la manera más sencilla de derivar el resto de las propiedades de la v.a. hipergeométrica consiste en observar que, nuevamente, estamos ante una v.a. que puede ser re-definida como la suma de vv.aa. Bernoulli. En este caso \(X = \sum\limits_{i=1}^n X_i\) donde \(X_i\) es la v.a. que registra un valor igual 1 si el i-ésimo elemento muestreado es del tipo A (éxito) por lo que

\[ P(X_1 = 1) = \frac{N_A}{N}\\ P(X_2 = 1) = P(X_2=1|X_1=0)P(X_1=0) + P(X_2=1|X_1=1)P(X_1=1)\\ = \frac{N_A}{N-1} \frac{N_B}{N} + \frac{N_A - 1}{N - 1}\frac{N_A}{N}\\ = \frac{N_A N_B + (N_A - 1)N_A}{N(N-1)}\\ = \frac{N_A (N_B + N_A - 1)}{N(N-1)}\\ = \frac{N_A (N - 1)}{N(N-1)}\\ = \frac{N_A}{N}\\ \dots \]

Entonces

\[ E(X) = E(\sum\limits_{i=1}^n X_i) = \sum\limits_{i=1}^n E(X_i) = \frac{nN_A}{N}. \]

Para obtener el valor de la varianza es necesario recordar que las vv.aa. Bernoulli en las que descompusimos a la v.a. hipergeométrica no son independientes, por lo que la propiedad que hemos usado anteriormente para distribuir la varianza sobre la suma no aplica. Por el momento, consideraremos (sin probarlo) que

\[ Var(X) = n \times \frac{N_A}{N} \times \frac{N_B}{N} \times \frac{N-n}{N-1}. \]

A la distribución hipergeomtría es posible aproximarla mediante una distribución binomial ya que sus valores son muy similares en la medida en la que la población es significativamente más grande que la muestra. Como “regla de dedo” se considera que para poblaciones 20 veces mayores a la muestra, la binomial resulta una buena aproximación a la hipergeométrica.

Ejemplo
El departamento de reclutamiento de una empresa debe seleccionar a 10 candidatos a investigadores de entre 20 estudiantes de doctorado. ¿Cuál es la probabilidad de que 10 seleccionados incluyan a los 5 mejores si deciden seleccionar al azar?
R
El problema plantea realizar una muestra de los candidatos, y por la naturaleza del problema se trata de una muestra sin reemplazo, de tamaño 10 de entre una población de 20 personas, que a su vez está compuesta por dos subgrupos de tamaños 5 (los 5 mejores) y 15 (el resto).

Entonces, si definimos como “éxito” a seleccionar a una persona identificada como uno de los 5 mejores, podemos ver que \(X\), el número estudiantes del grupo de los 5 mejores en la muestra de tamaño 10, se distribuye \(Hipergeométrica(N_A = 5, N_B = 15, n = 10)\) por lo que

\[ P(X = 5) = \frac{C^5_5 C^{15}_5}{C^{20}_{10}} = 0.0162. \]


Ejemplo
En un lote (grande) de \(T\) artículos manufacturados, el 30% de los artículos son defectuosos y el 70% no lo son. Se seleccionan al azar sin reemplazo 10 artículos del lote. Determina una expresión exacta para la probabilidad de que no se obtenga más de un artículo defectuoso y una expresión aproximada basada en la distribución binomial.
R
Si \(X\) es el número de artículos defectuosos en la muestra de 10 artículos tomada de los \(T\) artículos, entonces \(X \sim Hipergeométrica(N_A = 0.3T, N_B = 0.7T, n = 10)\) por lo que buscamos

\[ P(X \leq 1) = \frac{C^{0.3T}_1 C^{0.7T}_9 + C^{0.3T}_0 C^{0.7T}_10}{C^{T}_{10}}. \]

Ahora, sabemos que si \(X \sim Hipergeométrica(N_A = 0.3T, N_B = 0.7T, n = 10)\) entonces \(X \approx Binomial(n = 10, p = 0.3)\) por lo que

\[ P(X \leq 1) \approx C^{10}_0 \times 0.3^{0} 0.7^{10} + C^{10}_1 \times 0.3^{1} 0.7^{9}. \]


GEOMÉTRICA Y BINOMIAL NEGATIVA

Lecturas sugeridas
  • Bertsekas and Tsitsiklis (2008), cap. 2.2

Si ahora nos preguntamos no por el número de éxitos observados sino por el número de intentos requeridos para observar el primer éxito (con probabilidad \(p\) de ocurrir) entonces nos referimos ahora a una variable aleatoria geométrica. Por ejemplo, podemos preguntarnos cuántas veces requiere un candidato a una certificación presentar un examen para pasarlo.

Más formalmente, decimos que una v.a. sigue una distribución geométrica si

\[ p_X(x) = p(1-p)^{x}; x = 0,1,2,\dots \]

Ahora, si lo que nos interesa es conocer el número de fracasos que es necesario observar antes de conseguir \(r\) éxitos entonces decimos que \(Y \sim BinNeg(p,r)\). Podemos entonces, desde luego, considerar a la distribución geométrica como un caso especial de la distribución binomial negativa cuando \(r=1\). Entonces, ahora

\[ p_Y(y) = C^{r+y-1}_xp^r(1-p)^{y}; y = 0,1,2,\dots \]

Ahora bien, también es posible observar que una variable binomial negativa es posible entenderla como la suma de \(r\) vv.aa. geométricas independientes. Por lo tanto, si

\[ \psi_X(t) = E(e^{tX})\\ = \sum\limits_{x=0}^\infty e^{tx}p(1-p)^{x}\\ = p\sum\limits_{x=0}^\infty e^{tx}(1-p)^{x}\\ = p\sum\limits_{x=0}^\infty [e^{t}(1-p)]^x\\ = \frac{p}{1 - (1-p)e^t}\\ \]

es la f.g.m. de una v.a. geométrica, entonces

\[ \psi_Y(t) = E(e^{tY})\\ = E\left(e^{t\sum\limits_{i=1}^r X_i}\right)\\ = E\left(\prod\limits_{i=1}^r e^{tX_i}\right)\\ = \prod\limits_{i=1}^r E\left(e^{tX_i}\right)\\ = \left[\frac{p}{1 - (1-p)e^t}\right]^r. \]

Utilizando ahora la f.g.m. para obtener \(E(X)\) y \(E(X^2)\) podemos entonces ver que

\[ E(X) = \frac{1-p}{p}\\ Var(X) = \frac{1-p}{p^2}\\ E(Y) = \frac{r(1-p)}{p}\\ Var(Y)= \frac{r(1-p)}{p^2}. \]

Ejemplo
Un equipo puede generar un error durante 1 hora de operación con probabilidad igual a 0.02. Si \(X\) es el número de intervalos de 1 hora en los que el equipo funcionó sin errores hasta que marcó el primer error, encuentra la media y la desviación estándar de \(X\).
R
Si definimos como “éxito” a la generación de un error, entonces podemos ver que \(X \sim Geométrica(p = 0.02)\). Por lo tanto

\[ E(X) = \frac{1}{0.02} = 50\\ Var(X) = \frac{1-p}{p^2} = \frac{0.98}{0.0004} = 2450\\ \sigma = \qrt{2450} = 49.4975. \]


POISSON

Existen casos en los que nos interesa asignar probabilidades al número de éxitos observados en una sucesión de experimentos (generalmente delimitados dentro de un determinado espacio / tiempo).

Por ejemplo, con frecuencia se utilizan vv.aa. Poisson para modelar:

  • el número de accidentes vehiculares en un determinado tramo de una vialidad durante un día;

  • el número de clientes que llegan al mostrador de un comercio en un intervalo de tiempo;

  • el número de llamadas telefónicas recibidas en un intervalo de tiempo;

  • el número de intentos de acceso a un servidor en un minuto;

  • el número de accidentes del personal de una empresa en un mes;

  • el número de fraudes sufridos durante un trimestre en un banco;

  • el número de reclamos realizados a una aseguradora en un año.

Claramente, no estamos ya en el caso en el que nos interesa contar el número de éxitos en \(n\) experimentos (dist. binomial) ya que, a diferencia de la situación planteada cuando describimos la distribución binomial, el número de intentos o instancias del experimento es (potencialmente) infinita. Sin embargo, es posible establecer una conexión entre ambos casos.

Hagamos el siguiente experimento mental: sabemos que el experimento que queremos observar está acotado en un determinado intervalo de tiempo o espacio entonces, supongamos que dividimos el intervalo de tiempo en sub-intervalos. Estos sub-intervalos los haremos arbitrariamente pequeños. De hecho, buscamos hacerlos tan pequeños que la probabilidad de observar más de un éxito en dichos sub-intervalos sea cero. Entonces, resulta que cada sub-intervalo lo podemos describir mediante una v.a. Bernoulli (con probabilidad \(p\)). Si \(n\) es el número de intervalos al que tuvimos que recurrir para lograr esto y \(X\) es la v.a. que registra el número de éxitos observados en el intervalo de tiempo original, entonces \(x \sim Bin(n,p)\). Entonces, dado que hicimos que \(n\) fuera arbitrariamente grande, podemos considerar que, lo que buscamos es

\[ P(X=x) = \lim\limits_{n \rightarrow \infty} C^{n}_x p^x(1-p)^{n-x}\\ = \lim\limits_{n \rightarrow \infty} \frac{n(n-1)(n-2)(n-3)\dots(n-x+1)}{x!} p^x(1-p)^{n-x}. \]

Si ahora hacemos \(p=\frac{\lambda}{n}\) (esto es un recurso, \(\lambda\) por el momento no significa nada en particular):

\[ P(X=x) = \lim\limits_{n \rightarrow \infty} \frac{n(n-1)(n-2)(n-3)\dots(n-x+1)}{x!} \left(\frac{\lambda}{n}\right)^x \left(1-\frac{\lambda}{n}\right)^{n-x}\\ = \lim\limits_{n \rightarrow \infty} \frac{n(n-1)(n-2)(n-3)\dots(n-x+1)}{x!} \left(\frac{\lambda}{n}\right)^x \left(1-\frac{\lambda}{n}\right)^{n-x}\\ = \frac{\lambda^x}{x!} \lim\limits_{n \rightarrow \infty} \frac{n(n-1)(n-2)(n-3)\dots(n-x+1)}{n^x} \left(1-\frac{\lambda}{n}\right)^{n-x}\\ = \frac{\lambda^x}{x!} \lim\limits_{n \rightarrow \infty} \frac{n}{n}\frac{n-1}{n}\frac{n-2}{n}\dots\frac{n-x+1}{n} \left(1-\frac{\lambda}{n}\right)^{n-x}\\ = \frac{\lambda^x}{x!} \lim\limits_{n \rightarrow \infty} \left(1-\frac{1}{n}\right)\left(1-\frac{n-2}{n}\right)\dots\left(1-\frac{n-x+1}{n}\right) \left(1-\frac{\lambda}{n}\right)^{n-x}\\ = \frac{\lambda^x}{x!} \lim\limits_{n \rightarrow \infty} \left(1-\frac{1}{n}\right)\left(1-\frac{2}{n}\right)\dots\left(1-\frac{x+1}{n}\right) \left(1-\frac{\lambda}{n}\right)^{n-x}\\ = \frac{\lambda^x}{x!} \lim\limits_{n \rightarrow \infty} \left(1-\frac{\lambda}{n}\right)^{n}\\ = \frac{\lambda^x}{x!} e^{-\lambda}. \]

Se dice, entonces, que una v.a. \(X\) sigue una distribución Poisson con parámetro \(\lambda\) cuando

\[ p_X(x) = e^{-\lambda} \frac{\lambda^{x}}{x!}, x = 0, 1, 2, \dots \]

Observemos que

\[ \sum\limits_{x = 0}^{\infty} p_X(x) = \sum\limits_{x = 0}^{\infty} e^{-\lambda} \frac{\lambda^{x}}{x!} = e^{-\lambda} \sum\limits_{x = 0}^{\infty} \frac{\lambda^{x}}{x!} = e^{-\lambda} e^{\lambda} = 1. \]

También es posible observar que

\[ e^{-\lambda} \frac{\lambda^{x}}{x!} \approx C^n_x p^x(1-p)^{n-x} \]

para \(n\) grande, \(p\) pequeño y \(\lambda = np\). Por lo tanto, es posible utilizar la distribución Poisson para aproximar razonablemente bien a la distribución binomial cuando los parámetros de la distribución binomial resultan en valores difíciles de calcular (y se cumplen las condiciones señaladas).

Ahora

\[ E(X) = \sum\limits_{x=0}^{\infty} x\frac{\lambda^x}{x!} e^{-\lambda}\\ = \sum\limits_{x=1}^{\infty} x\frac{\lambda^x}{x!} e^{-\lambda}\\ = \sum\limits_{x=1}^{\infty} \frac{\lambda^x}{(x-1)!} e^{-\lambda}\\ = \sum\limits_{x=0}^{\infty} \frac{\lambda^{x+1}}{x!} e^{-\lambda}\\ = \lambda. \]

Para obtener la expresión para la varianza, primer recurriremos a calcular

\[ E[X(X-1)] = \sum\limits_{x=0}^{\infty} x(x-1)\frac{\lambda^x}{x!} e^{-\lambda}\\ = \sum\limits_{x=2}^{\infty} x(x-1)\frac{\lambda^x}{x!} e^{-\lambda}\\ = \sum\limits_{x=2}^{\infty} \frac{\lambda^x}{(x-2)!} e^{-\lambda}\\ = \sum\limits_{x=0}^{\infty} \frac{\lambda^{x+2}}{x!} e^{-\lambda}\\ = \lambda^2. \]

Entonces

\[ E(X^2 - X) = E(X^2) - E(X)\\ = \lambda^2\\ E(X^2) = \lambda^2 - \lambda\\ Var(X) = E(X^2) - E^2(X)\\ = \lambda. \]

Ejemplo
Un artículo en el Los Angeles Times reporta que una en doscientas personas tiene un gen defectivo. En una muestra de 1,000 individuos, ¿cuál es la distribución aproximada del número de personas que tienen este gen? Usa esta distribución aproximada para calcular la probabilidad de que:
  1. Entre 4 y 7 personas (inclusive) tengan este gen.
R
Estrictamente hablando, el número de personas con el gen defectivo en una muestra de 1,000 seguiría una distribución hipergeométrica. Sin embargo, sabemos que esta distribución la podemos aproximar con una binomial y, a su vez, a la binomial la podemos aproximar con una distribución Poisson. Por lo tanto podemos decir que \(X\), el número de personas con el gen defectivo en la muestra, sigue aproximadamente una distribución \(Poisson(\lambda = \frac{1000}{200} = 5)\) (recordemos que \(\lambda = np\)).

Entonces,

\[ P(4 \leq X \leq 7) = e^{-5}\left(\frac{5^4}{4!} + \frac{5^5}{5!} + \frac{5^6}{6!} + \frac{5^7}{7!}\right)\\ = 0.602. \]

  1. Al menos 8 tengan este gen defectivo.
R

\[ P(X \geq 8) = 1 - P(X < 8)\\ = 1 - P(X \leq 7)\\ = 0.133. \]


Ejemplo
Una línea aérea vende 200 boletos para un vuelo en el que caben únicamente 198 personas porque, en promedio, el 1% de los pasajeros no se presentan al momento del abordaje. Calcula la probabilidad de que todos los que lleguen al momento de abordar tengan asiento.
R
Si definimos a la v.a. \(X\) como el número de pasajeros que no llegarán al momento de abordar, podemos pensar que \(X \sim Binomial(n = 200, p = 0.01)\) y buscamos entonces

\[ P(X \geq 2) = 1-P(X = 0) + P(X = 199)\\ = C^{200}_{0}(0.99)^{200}(0.01)^0 + C^{200}_{1}(0.99)^{199}(0.01)^1. \]

Esta probabilidad la podemos aproximar con la probabilidad

\[ P(Y \geq 2) = 1 - P(Y \leq 1)\\ = 0.5939942. \]

donde \(Y \sim Poisson(\lambda = 200 \times 0.01)\).


CONTINUAS

UNIFORME

Lecturas recomendadas
  • DeGroot (1988), Cap.3.2

Cuando una v.a. puede tomar valores en un intervalo de la recta real \((a,b)\) de forma que la probabilidad asociada a cualquier subintervalo de este es proporcional a la longitud del intervalo \((a,b)\) decimos que la v.a. \(X\) sigue una distribución uniforme (continua) con parámetros \(a\) y \(b\).

Este tipo de vv.aa. se usa para describir aquellos casos en los que los resultados de un experimento pueden resultar arbitrariamente en cualquier valor de un determinado intervalo.

La función de densidad de la variable aleatoria \(X\) será

\[ f_X(x) = \frac{1}{a-b}, a \leq x \leq b. \]

Por lo tanto, la función de distribución será

\[ F_X(x) = \int\limits_{a}^x f_X(x)dx\\ = \int\limits_{a}^x \frac{dx}{a-b}\\ = \frac{x-a}{b-a} \ \ \ x \in (a,b). \]

\[ E(X) = \int\limits_{a}^b xf_X(x)dx\\ = \int\limits_{a}^b \frac{xdx}{a-b}\\ = \frac{b^2 - a^2}{2(a-b)}\\ = \frac{b+a}{2}. \]

\[ E(X^2) = \int\limits_{a}^b x^2 f_X(x)dx\\ = \int\limits_{a}^b \frac{x^2 dx}{a-b}\\ = \frac{b^3 - a^3}{3(a-b)}. \]

\[ Var(X) = E(X^2) - E^2(X)\\ = \frac{b^3 - a^3}{3(a-b)} - \frac{(b+a)^2}{4}\\ = \frac{4(b^3 - a^3)- 3(a-b)(b+a)^2}{12(a-b)}\\ = \frac{4(b^3 - a^3)- 3(a-b)(b+a)^2}{12(a-b)}\\ = \frac{b^3 - a^3- 3ab^2 + 3a^2b}{12(a-b)}\\ = \frac{(b-a)^2}{12}. \]

\[ \psi_X(t) = E(e^{tX})\\ = \int\limits_{a}^b \frac{e^{tx}}{b-a}dx\\ = \frac{e^{bt}-e^{at}}{t(b-a)}. \]

Es importante notar que, en vista de que estamos tratando con una v.a. continua, es indistinto si el intervalo \((a,b)\) es abierto o cerrado.

Ejemplo
\(W \sim U(1,5)\). ¿Cuál es la probabilidad de que las dos raíces de \(4x^2+ 4xW + W + 2 = 0\) sean reales?
R
Las raíces de la ecuación \(4x^2 + 4Wx + (W + 2) = 0\) serán reales únicamente cuando el determinante de la ecuación sea positivo. Es decir, cuando

\[ (4W)^2 - 4(4)(W+2) > 0\\ 16W^2 - 16W - 32 > 0\\ W^2 - W - 2 > 0\\ (W - 2)(W + 1) > 0. \]

Dado que \(W \sim U(1,5)\) entonces para que las raíces sean reales tiene que cumplirse que \(W > 2\). Por lo tanto

\[ P(W > 2) = \int\limits_2^5 \frac{dx}{5}\\ = \frac{3}{5}. \]


Ejemplo
Ud. planea un viaje a Canadá. El tiempo de entrega de la visa, en días, es una variable aleatoria uniforme y puede tomar entre 1 y 5 días. El costo del boleto de avión está en función del tiempo que se tarde en comprarlo y sigue la siguiente relación: \(C = c_0 + c_1 Y^2\).
  1. Determina el costo esperado del boleto de avión.
R

\[ E(C) = E(c_0 + c_1 Y^2)\\ = c_0 + c_1 E(Y^2)\\ = c_0 + c_1 \int_1^5 \frac{y^2}{4} dy\\ = c_0 + c_1 \left. \frac{y^3}{12} \right|_1^5\\ = c_0 + c_1 \frac{125-1}{12}\\ = c_0 + \frac{31}{3}c_1. \]

  1. ¿Cuál es la probabilidad de que la visa tarde en llegar más de dos días?
R

\[ P(Y > 2) = \int\limits_2^5 \frac{dx}{4} = \frac{3}{4} = 0.75. \]

  1. Si ya ha pasado un día y medio y no le ha llegado su visa, calcule la probabilidad de que tarde más de dos días.
R

\[ P(Y > 2 | Y > 1.5) = \frac{P(Y > 2, Y > 1.5)}{P(Y > 1.5)}\\ = \frac{P(Y > 2)}{P(Y > 1.5)}\\ = \frac{\int\limits_2^5 \frac{dx}{4}}{\int\limits_{1.5}^5 \frac{dx}{4}}\\ = \frac{\frac{3}{4}}{\frac{3.5}{4}}\\ = \frac{3}{3.5}\\ = \frac{6}{7}. \]


GAMMA

Lecturas recomendadas
  • DeGroot (1988), Cap. 5.9.

Se conoce como función gamma a la función

\[ \Gamma (\alpha) = \int\limits_0^{\infty} x^{\alpha-1} e^{-x} dx. \]

La función gamma3 se puede considerar como una extensión del concepto de factorial a los números complejos ya que, si integramos por partes, es posible ver que

\[ \Gamma(\alpha) = (\alpha - 1)\Gamma(\alpha - 1) \]

y, por lo tanto, si \(\alpha \in \mathbb{Z}^{+}\) entonces

\[ \Gamma(\alpha) = (\alpha-1)! \]

Ahora, se dice que \(X \sim Gamma(\alpha, \beta)\), \(\alpha > 0, \beta>0\), si

\[ f_X(x) = \frac{\beta^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\beta x}; x > 0. \]

Entonces, tendremos que

\[ F_X(x) = \int\limits_0^x \frac{\beta^\alpha}{\Gamma(\alpha)}t^{\alpha-1}e^{-\beta t}. \]

Podemos ver también que

\[ E(X) = \int\limits_0^\infty \frac{\beta^\alpha}{\Gamma(\alpha)}x^{\alpha}e^{-\beta x} dx\\ = \frac{1}{\beta \Gamma(\alpha)} \int\limits_0^\infty (\beta x)^{\alpha}e^{-\beta x} \beta dx\\ = \frac{\Gamma(\alpha+1)}{\beta \Gamma(\alpha)}\\ = \frac{\alpha}{\beta}. \]

\[ E(X^k) = \int\limits_0^\infty \frac{\beta^\alpha}{\Gamma(\alpha)}x^{k + \alpha - 1}e^{-\beta x} dx\\ = \frac{1}{\beta^{k-1} \Gamma(\alpha)} \int\limits_0^\infty (\beta x)^{k+\alpha-1}e^{-\beta x} dx\\ = \frac{1}{\beta^{k} \Gamma(\alpha)} \int\limits_0^\infty (\beta x)^{k+\alpha-1}e^{-\beta x} \beta dx\\ = \frac{\Gamma(k+\alpha)}{\beta^k \Gamma(\alpha)}\\ = \frac{\alpha (\alpha + 1) \dots (\alpha + k - 1)}{\beta^k}. \]

Por lo que, en particular, \(E(X^2) = \frac{\alpha (\alpha+1)}{\beta^2}\) y, por lo tanto, \(Var(X) = \frac{\alpha}{\beta^2}\).

Finalmente,

\[ \psi_X(t) = \int\limits_0^\infty e^{ts} \frac{\beta^\alpha}{\Gamma(\alpha)}x^{\alpha - 1}e^{-\beta x} dx\\ = \int\limits_0^\infty \frac{\beta^\alpha}{\Gamma(\alpha)}x^{\alpha - 1}e^{-(\beta - t) x} dx\\ = \left(\frac{\beta}{\beta-t}\right)^\alpha; t < \beta. \]

Una propiedad importante de las vv.aa. gamma es la siguiente:

Teorema
Si \(X_1, \dots, X_n\) son vv.aa.ii. y \(X_i \sim Gamma(\alpha_i, \beta)\), entonces \(\sum\limits_{i=1}^n X_i \sim Gamma(\sum\limits_{i=1}^n \alpha_i, \beta)\).
Demostración
Recordemos que dos vv.aa. tienen la misma distribución si tienen la misma f.g.m. Sea \(Y = \sum\limits_{i=1}^n X_i\) entonces

\[ \psi_Y(t) = E(e^{tY})\\ = E\left(e^{t\sum\limits_{i=1}^n X_i}\right)\\ = E\left(\prod\limits_{i=1}^ne^{t X_i}\right)\\ = \prod\limits_{i=1}^n E\left(e^{t X_i}\right)\\ = \prod\limits_{i=1}^n \left(\psi_{X_i}(t)\right)\\ = \left(\frac{\beta}{\beta-t}\right)^{\sum\limits_{i=1}^n \alpha_i}. \]

Esta última expresión, como se puede ver, corresponde a la f.g.m. de una v.a. \(Gamma(\sum\limits_{i=1}^n \alpha_i, \beta)\).

La función de distribución gamma es muy importante porque tiene una gran cantidad de aplicaciones en una gran diversidad de campos cuando se desea modelar fenómenos cuyas mediciones son continuas positivas, en particular si los sub-eventos son aditivos y pueden ser modelados de la misma manera, por ejemplo:

  • tiempos de espera;
  • división celular;
  • montos de reclamos de pólizas de seguros;
  • edades en la incidencia de enfermedades.

Por otra parte, la distribución gamma es también importante porque otras distribuciones importantes pueden ser interpretadas como casos especiales de una distribución gamma.

Ejemplo
Sea \(Y \sim Gamma(\alpha,\beta)\).
  1. Si \(\alpha > 1\), encuentra la moda de \(Y\).
R

\[ f_Y(y) = \frac{y^{\alpha-1}}{\beta^\alpha \Gamma(\alpha)} e^{-\frac{y}{\beta}}\\ f'_Y(y) = \frac{(\alpha - 1)y^{\alpha-2}}{\beta^\alpha \Gamma(\alpha)} e^{-\frac{y}{\beta}} - \frac{y^{\alpha-1}}{\beta^{\alpha+1} \Gamma(\alpha)} e^{-\frac{y}{\beta}}\\ \frac{(\alpha - 1)y^{\alpha-2}}{\beta^\alpha \Gamma(\alpha)} e^{-\frac{y}{\beta}} - \frac{y^{\alpha-1}}{\beta^{\alpha+1} \Gamma(\alpha)} e^{-\frac{y}{\beta}} = 0\\ \beta(\alpha - 1)y^{\alpha-2} e^{-\frac{y}{\beta}} - y^{\alpha-1} e^{-\frac{y}{\beta}} = 0\\ \beta(\alpha - 1)y^{\alpha-2} - y^{\alpha-1} = 0\\ \beta(\alpha - 1) - y = 0\\ y = \beta(\alpha - 1). \]

Por lo tanto, la moda de la v.a. se encuentra en el punto \(y = \beta(\alpha - 1)\).

  1. Encuentra la función de densidad de \(W = \sqrt{Y}\).
R

\[ W = g(Y) = \sqrt{Y}\\ Y = g^{-1}(W) = W^2\\ f_W(w) = f_Y(g^{-1}(w))\left|\frac{d}{dW}g^{-1}(w)\right|\\ = \frac{(w^2)^{\alpha-1}}{\beta^\alpha \Gamma(\alpha)} e^{-\frac{w^2}{\beta}} \left|2w\right|\\ = \frac{2 w^{2\alpha-1}}{\beta^\alpha \Gamma(\alpha)} e^{-\frac{w^2}{\beta}}. \]


EXPONENCIAL

Uno de estos casos especiales de la distribución gamma se da cuando \(\alpha = 1\), entonces decimos que \(X \sim Exponencial(\beta)\) y, por lo tanto

\[ f_X(x)= \beta e^{-\beta x}; x \geq 0\\ F_X(x) = 1 - e^{-\beta x}\\ E(X) = \frac{1}{\beta}\\ Var(X) = \frac{1}{\beta^2}\\ \psi_X(t) = \frac{\beta}{\beta-t}. \]

Una propiedad importante de la distribución exponencial es el hecho de que

\[ P(X \geq t +h|X \geq t) = \frac{P(X \geq t+h)}{P(X \geq t)}\\ = \frac{e^{-\beta(t+h)}}{e^{-\beta t}}\\ = e^{-\beta h}\\ = P(X \geq h). \]

A esta propiedad se le conoce como la propiedad de falta de memoria y hace que la distribución exponencial sea particularmente útil para modelar fenómenos financieros o físicos (como el deterioro radioactivo).

Ejemplo
El costo inicial de una máquina es de $3. El tiempo de vida de la máquina se distribuye exponencial con media igual a 3 años. El fabricante considera ofrecer una garantía que paga $3 si la máquina se descompone en el primer año; $2, si se descompone durante el segundo y $1 si lo hace durante el tercero. Calcula el pago esperado de la garantía.
R
El pago de la garantía es una función de la v.a. tiempo de vida:

\[ p(X) = \left\{\begin{array}{}3 & X \leq 1\\2 & 1 < X \leq 2\\1 & 2 < X \leq 3\\0 & e.o.c. \end{array}\right. \]

Por lo que buscamos

\[ E[p(X)] = \int\limits_{0}^1 3 \times \frac{1}{3}e^{-\frac{x}{3}}dx + \int\limits_{1}^2 2 \times \frac{1}{3}e^{-\frac{x}{3}}dx + \int\limits_{2}^3 1 \times \frac{1}{3}e^{-\frac{x}{3}}dx\\ = 3[e^0 - e^{-\frac{1}{3}}] + 2 [e^{-\frac{1}{3}} - e^{-\frac{2}{3}}] + [e^{-\frac{2}{3}} - e^{-1}]\\ = 1.402. \]


\(\chi^2\) (JI-CUADRADA)

Lecturas sugeridas
  • DeGroot (1988), cap. 7.2.

Otro caso especial de la distribución gamma se da cuando \(\alpha = \frac{n}{2}\) y \(\beta = \frac{1}{2}\), para cualquier \(n\) entera positiva. En este caso, decimos que \(X \sim \chi^2_n\) (ji cuadrada con \(n\) grados de libertad, el término “grados de libertad” quedará más claro para quienes avancen a cursos de estadística). Para este caso, entonces

\[ f_X(x)= \frac{1}{2^{n/2} \Gamma(n/2)} e^{-\frac{x}{2}}; x \geq 0\\ E(X) = n\\ Var(X) = 2n\\ \psi_X(t) = \left(\frac{1}{1-2t}\right)^{n/2}; t < 1/2. \]

NORMAL

Lecturas sugeridas
  • DeGroot (1988), cap. 5.6.

En un trabajo de 1823, Gauss introdujo varias ideas muy importantes para lo que hoy estudiamos en las materias de probabilidad y estadística: el método de mínimos cuadrados, el método de máxima verosimilitud y la distribución normal (motivo por el cual también es conocida como distribución de Gauss). Posteriormente, trabajos de Laplace y Maxwell demostraron la importancia tanto teórica como práctica de la distribución descubierta por Gauss.

Así, se ha encontrado que fenómenos tanto físicos como sociales siguen un patrón de comportamiento que puede ser modelado con mucha precisión utilizando la distribución normal. Algunos otros, siguen el comportamiento de una distribución normal de manera más bien aproximada o bien, siguen un patrón que apropiadamente transformado sigue una distribución normal. Finalmente, resultados útiles en estadística hacen uso del hecho de que, cuando agregamos observaciones en forma aditiva (bajo ciertas condiciones adicionales) el agregado se comporta como una v.a. normal.

En resumen, esta distribución es, quizá, la distribución más importante que vamos a estudiar en este curso.

Se dice, entonces, que una v.a. \(X \sim Normal(\mu, \sigma^2)\) si

\[ f_X(x) = \frac{1}{\sqrt{2\pi} \sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}}; x \in \mathbb{R} \]

\[ \psi_X(t) = \int\limits_{-\infty}^\infty \frac{1}{\sqrt{2\pi} \sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}} e^{tx}dx\\ = \int\limits_{-\infty}^\infty \frac{1}{\sqrt{2\pi} \sigma} e^{tx-\frac{(x-\mu)^2}{2\sigma^2}}dx\\ \]

observemos que

\[ tx-\frac{(x-\mu)^2}{2\sigma^2} = tx-\frac{x^2 -2x\mu + \mu^2}{2\sigma^2}\\ = \frac{2tx\sigma^2-x^2 + 2x\mu - \mu^2}{2\sigma^2}\\ = \frac{-x^2 + 2x(\mu + t\sigma^2) - \mu^2}{2\sigma^2}\\ = - \frac{x^2 - 2x(\mu + t\sigma^2) + (\mu + t\sigma^2)^2 - (\mu + t\sigma^2)^2 + \mu^2}{2\sigma^2}\\ = - \frac{[x - (\mu + t\sigma^2)]^2 - (\mu + t\sigma^2)^2 + \mu^2}{2\sigma^2}\\ = - \frac{[x - (\mu + t\sigma^2)]^2 - \mu^2 - 2 t\mu\sigma^2 - t^2\sigma^4 + \mu^2}{2\sigma^2}\\ = - \frac{[x - (\mu + t\sigma^2)]^2 - 2 t\mu\sigma^2 - t^2\sigma^4}{2\sigma^2}\\ = - \frac{[x - (\mu + t\sigma^2)]^2}{2\sigma^2} + t\mu + \frac{t^2\sigma^2}{2}\\ \]

por lo que

\[ \psi_X(t) = \int\limits_{-\infty}^\infty \frac{1}{\sqrt{2\pi} \sigma} e^{- \frac{[x - (\mu + t\sigma^2)]^2}{2\sigma^2} + t\mu + \frac{t^2\sigma^2}{2}}dx\\ = e^{t\mu + \frac{t^2\sigma^2}{2}} \int\limits_{-\infty}^\infty \frac{1}{\sqrt{2\pi} \sigma} e^{- \frac{[x - (\mu + t\sigma^2)]^2}{2\sigma^2}}dx\\ = e^{t\mu + \frac{t^2\sigma^2}{2}}. \]

Por lo tanto

\[ \psi'_X(t) = (\mu + t \sigma^2) e^{t\mu + \frac{t^2\sigma^2}{2}}\\ \psi'_X(0) = \mu\\ \psi''_X(t) = \mu(\mu + t \sigma^2) e^{t\mu + \frac{t^2\sigma^2}{2}} + t \sigma^2(\mu + t \sigma^2) e^{t\mu + \frac{t^2\sigma^2}{2}} + \sigma^2e^{t\mu + \frac{t^2\sigma^2}{2}}\\ \psi''_X(0) = \mu^2 + \sigma^2\\ \]

y, entonces,

\[ Var(X) = \sigma^2 \]

Teorema
Si \(X \sim Normal(\mu, \sigma^2)\) y \(Y = aX+b\) entonces \(Y \sim Normal(a\mu + b, a^2\sigma^2)\).
Demostración

\[ \psi_Y (t) = E(e^{tY})\\ = e^{bt} \psi_X (at)\\ = e^{bt} \left[e^{at\mu + \frac{a^2t^2\sigma^2}{2}}\right]\\ = e^{t(a\mu + b) + \frac{t^2a^2\sigma^2}{2}}\\ \]

que corresponde a la f.g.m. de una v.a. \(Normal(a\mu + b, a^2\sigma^2)\).


En particular, cuando \(\mu = 0\) y \(\sigma^2 = 1\) decimos que se trata de una v.a. normal estándar y, de la propiedad anterior, podemos ver que para cualquier v.a. \(X \sim Normal(\mu, \sigma^2)\), si \(Z = \frac{X - \mu}{\sigma}\) entonces \(Z \sim Normal(0,1)\).

Teorema
Si \(X_1, X_2, \dots, X_n\) son vv.aa. normales independientes con media \(\mu_i\) y varianza \(\sigma_i^2\) entonces \(Y = \sum\limits_{i=1}^n \sim Normal\left(\sum\limits_{i=1}^n \mu_i, \sum\limits_{i=1}^n \sigma_i^2\right)\).

Ejemplo
El diámetro de un cojinete se distribuye normal, ¿cuál es la probabilidad de que se encuentre entre 1.5 desviaciones estándar de la media?
R
Si \(X\) es la v.a. que registra el díametro del cojinete, entonces

\[ P(|X - \mu| \leq 1.5 \sigma) = P(-1.5 \sigma \leq X - \mu \leq 1.5 \sigma)\\ = P(-1.5 \leq \frac{X - \mu}{\sigma} \leq 1.5)\\ = P(-1.5 \leq Z \leq 1.5) \]

donde \(Z \sim N(0,1)\). Entonces \(P(-1.5 \leq Z \leq 1.5)=\)

pnorm(q=1.5) - pnorm(q=-1.5)
## [1] 0.8663856

Ejemplo
Las lecturas de temperatura de un termopar puesto en un medio a temperatura constante se distribuyen \(Normal(\mu, \sigma^2)\). ¿Cúal debe ser el valor de \(\sigma\) para que el 95% de las lecturas estén entre 0.1 grados de \(\mu\)?
R
Buscamos entonces que

\[ P[|X - \mu| \leq 0.1] = 0.95\\ P[-0.1 \leq X - \mu \leq 0.1] = 0.95\\ P\left[\frac{-0.1}{\sigma} \leq \frac{X - \mu}{\sigma} \leq \frac{0.1}{\sigma}\right] = 0.95\\ P\left[\frac{-0.1}{\sigma} \leq Z \leq \frac{0.1}{\sigma}\right] = 0.95\\ \]

donde \(Z \sim Normal(0,1)\) por lo que

\[ \frac{0.1}{\sigma} = {_{0.975}Z}\\ \frac{0.1}{\sigma} = 1.959964\\ \sigma = 0.051021, \]


DISTRIBUCIONES MULTIVARIADAS

Lecturas sugeridas
  • DeGroot (1988), cap. 3.4.

Con frecuencia nos vamos a encontrar en situaciones en las que nos interesa el comportamiento de dos o más variables simultáneamente. Pensemos, por ejemplo, en ejercicios demoscópicos: rara vez nos interesará simplemente conocer la opinión de las personas sino que nos interesa conocer la opinión de las personas al mismo tiempo que otras variables (sexo, nivel educativo, ingresos, lugar de residencia, etc.).

A las funciones que describen la manera en la que se comporta la probabilidad asociada a los valores de dos o más variables en forma conjunta les llamamos funciones de distribución conjuntas multivariadas (o, simplemente, funciones de distribución multivariadas).

FUNCIÓN DE DISTRIBUCIÓN CONJUNTA

Lecturas recomendadas
  • DeGroot (1988), Cap. 3.4.
  • DeGroot (1988), Cap. 3.7.

Definición
Decimos que \(F\) es la función de distribución conjunta de las vv.aa. \(X_1, X_2, \dots, X_n\) para un punto \((x_1,x_2,\dots,x_n)\) si

\[ F(x_1,x_2,\dots,x_n) = P(X_1\leq x_1, X_2 \leq x_2, \dots, X_n \leq x_n). \]


Comencemos viendo el caso de dimensión dos: las distribuciones bi-variadas. Para el caso discreto, se dice entonces que las vv.aa. \(X\) y \(Y\) tienen una función de distribución discreta conjunta y su función de masa conjunta es la función \(p\) tal que, para cualquier punto \((x,y)\)

\[ p_{XY}(x,y) = P(X = x, Y = y). \]

Desde luego,

\[ \sum\limits_{x_i,y_j \in \Omega} p_{XY}(x,y) = 1. \]

De la misma manera, para cualquier subconjunto \(A \in \Omega\)

\[ P[(X,Y) \in A] = \sum\limits_{x_i,y_j \in A} p_{XY}(x,y). \]

Pasemos ahora al caso continuo. Decimos que dos vv.aa. \(X\) y \(Y\) tienen una distribución continua conjunta si existe \(f\), una función no negativa definida sobre el plano \(xy\) para la que, para cualquier subconjunto \(A\) del plano

\[ P(X \leq x, Y \leq y) = \int \int\limits_{A} f_{XY}(x,y)dxdy. \]

La función \(f\) es, desde luego, la función de densidad conjunta de \(X\) y \(Y\). Al igual que en el caso univariado (quizás incluso con mayor razón), la probabilidad asociada a cualquier punto \((x,y)\) es igual a 0 (de hecho, lo podemos extender a cualquier objeto unidimensional dentro del rango de \(f\)).

\[ f(x_1,x_2,\dots,x_n) = \frac{\partial^n F(x_1,x_2,\dots,x_n)}{\partial x_1 \partial x_2 \dots \partial x_n}. \]

Adicionalmente, si conocemos la función de distribución conjunta de \(\underline{X} = (X_1,X_2,\dots,X_n)\) entonces es posible obtener la función de distribución individual (conocida como la distribución marginal) de cualquiera de las vv.aa.:}

\[ F_i (x_i) = \lim\limits_{x_j \rightarrow \infty\\j \neq i} F(x_1,x_2,\dots,x_i,\dots,x_n). \]

O bien, es posible obtener la función de densidad marginal de \(X_i\) como

\[ f_i(x_i) = \int\limits_{-\infty}^{\infty} \int\limits_{-\infty}^{\infty} \dots \int\limits_{-\infty}^{\infty} f(x_1,x_2,\dots,x_n)dx_1 dx_2 \dots dx_n \ \ \text{(excepto x_i)}. \]

Definición
Se dice que \(n\) vv.aa. \(X_1,X_2,\dots,X_n\) son independientes si, para conjuntos \(A_1,A_2,\dots,A_n\)

\[ P(X_1 \in A_1, X_2 \in A_2, \dots, X_n \in A_n) = P(X_1 \in A_1)P(X_2 \in A_2) \dots P(X_n \in A_n). \]


De lo anterior, entonces, es posible ver que se cumple que, si \(X_1,X_2,\dots,X_n\) son vv.aa.ii., entonces

\[ F(x_1, x_2, \dots, x_n) = F(x_1)F(x_2) \dots F(x_n) \]

y, derivando:

\[ f(x_1, x_2, \dots, x_n) = f(x_1)f(x_2) \dots f(x_n) \]

en el caso continuo. Para el caso discreto se tiene que

\[ p(x_1, x_2, \dots, x_n) = p(x_1)p(x_2) \dots p(x_n) \]

Definición (densidad condicional)
Para un conjunto de vv.aa. \(\{X_1, X_2, \dots, X_n\}\) se define a la función de densidad condicional de \(X_1\) en \(X_2, X_3, \dots, X_n\) como

\[ f(x_1|x_2,\dots,x_n) = \frac{f(x_1,x_2,\dots,x_n)}{f(x_2,\dots,x_n)}. \]


Desde luego, es posible generalizar esta definición a sub-vectores \(\mathbf{Y}\) y \(\mathbf{Z}\), que forman una partición del vector \(\mathbf{X}\). La función de densidad condicional de \(\mathbf{Y}\) en \(\mathbf{Z}\) será igual a

\[ f(\mathbf{Y}|\mathbf{Z}) = \frac{f(\mathbf{X})}{f(\mathbf{Z})}. \]

Ejemplo
En una estación de servicio se tienen dos despachadores: uno es de autoservicio y otro de servicio completo. Sean X y Y las vv.aa. que denotan el número de mangueras ocupadas en una hora en particular, en el despachador de autoservicio y de servicio completo, respectivamente. La f.m.p. conjunta de X y Y está dada por:
Y \ X 0 1 2
0 0.10 0.04 0.02
1 0.08 0.20 0.06
2 0.06 0.14 0.30
  1. Calcula \(P(X = 1, Y = 1)\).
R
De la tabla se puede extraer la probabilidad correspondiente a la coordenada (1,1). Por lo tanto \(P(X = 1, Y = 1) = 0.20\).
  1. Calcula \(P(X \leq 1, Y \leq 1)\).
R
Esta probabilidad corresponde a la suma de todos los valores para los que Y es menor o igual a 1 y X es menor o igual a 1, por lo tanto \(P(X \leq 1, Y \leq 1) = 0.20 + 0.08 + 0.04 + 0.10 = 0.42\).
  1. Explica el significado del evento \(\{X \neq 0, Y \neq 0\}\).
R
El evento \(\{X \neq 0, Y \neq 0\}\) representa cualquier situación en la que ninguno de los dos despachadores está desocupado (ambos tienen, al menos, una manguera ocupada).

Ejemplo
Cada neumático delantero de un automóvil se llena a una presión de 26 \(lb/pulg^2\). Suponga que la presión del aire de cada neumático es una v.a. (X para el derecho; Y el izquierdo). La f.d.p. conjunta es \(f(x,y) = k (x^2+y^2)I_{(20\leq x \leq30, 20\leq y \leq30)}(x,y)\).
  1. ¿Cuál es el valor de \(k\)?
R
Para que \(f\) sea una f.d.p. tiene que cumplirse que

\[ \int\limits_{20}^{30}\int\limits_{20}^{30} f(x,y)dxdy = 1\\ \int\limits_{20}^{30}\int\limits_{20}^{30} k (x^2+y^2)dxdy = 1\\ k\int\limits_{20}^{30}\int\limits_{20}^{30} (x^2+y^2)dxdy = 1\\ k \left. \left. \left(\frac{x^3y}{3} + \frac{y^3x}{3}\right) \right|_{x=20}^{30} \right|_{y=20}^{30} = 1\\ k \left. \left(\frac{30^3 y}{3} + \frac{30 y^3}{3} - \frac{20^3 y}{3} - \frac{20 y^3}{3}\right) \right|_{y=20}^{30} = 1\\ k \left(\frac{30^3 (30)}{3} + \frac{(30) 30^3}{3} - \frac{20^3 (30)}{3} - \frac{20 (30)^3}{3} - \frac{30^3 (20)}{3} - \frac{30 (20)^3}{3} + \frac{20^3 (20)}{3} + \frac{20 (20)^3}{3}\right) = 1\\ k \left(\frac{(2) 30^4}{3} - \frac{(2)(20^3) (30)}{3} - \frac{(2)(20) (30)^3}{3}+ \frac{(2) (20^4)}{3}\right) = 1\\ 2 k \left(\frac{30^4 - (20^3) (30) - (20) (30)^3 + (20^4)}{3}\right) = 1\\ 2 k \left(\frac{190000}{3}\right) = 1\\ k = \frac{3}{380000}. \]

  1. ¿Cuál es la probabilidad de que ambos neumáticos tengan menor presión a la requerida?
R
Buscamos entonces

\[ P(X \leq 26, Y \leq 26) = \int\limits_{20}^{26}\int\limits_{20}^{26} k (x^2+y^2)dxdy\\ = k \left. \left. \left(\frac{x^3y}{3} + \frac{y^3x}{3}\right) \right|_{x=20}^{26} \right|_{y=20}^{26} = 1\\ = 0.3024. \]

  1. ¿Cuál es la probabilidad de que la diferencia de presión entre los dos neumáticos sea a lo más de 2 \(lb/pulg^2\)?
R
Ahora buscamos

\[ P(|X-Y|\leq 2) = P(-2 \leq X -Y \leq 2)\\ = \int\limits_{20}^{30}\int\limits_{y-2}^{y+2} k (x^2+y^2)dxdy\\ = \int\limits_{20}^{30} k \left[\frac{(y+2)^3 - (y-2)^3}{3} + 4y^2\right]dy\\ = k \left. \left[\frac{(y+2)^4 - (y-2)^4}{12} + \frac{4}{3}y^3\right]\right|_{20}^{30}\\ = 0.4004. \]

  1. Encuentra la f.d.p. de la presión del neumático derecho.
R
Buscamos entonces la marginal de X:

\[ f(x) = \int\limits_{20}^{30} k (x^2+y^2)dy\\ = k \left. (x^2y + \frac{y^3}{3}) \right|_{y=20}^{30}\\ = \frac{3x^3}{380000} + \frac{1}{20}. \]


FUNCIONES DE DISTRIBUCIÓN CONJUNTAS MIXTAS (OPCIONAL)

Es posible imaginar situaciones en las que se tiene, digamos, dos variables aleatorias cuyo comportamiento conjunto es de interés pero resulta que una de las variables es continua y la otra discreta (pensemos, por ejemplo, que nos interesa estudiar el comportamiento del ingreso de las personas considerando su sexo).

En estos casos, entonces, para determinar la probabilidad de que la pareja de variables aleatorias pertenezca a una determinada región deberá determinarse sumando sobre los valores de la variable discreta e integrando sobre los valores de la variable continua.

VALOR ESPERADO DE UNA FUNCIÓN DE VARIABLES ALEATORIAS

Notemos que cuando tenemos un vector aleatorio \(\mathbf{X}\) el concepto de \(E(\mathbf{X})\) no tiene exactamente la misma connotación que en el caso univariado (existe algo llamado el centroide de un objeto multivariado, pero eso es materia de otro curso). Sin embargo, si se tiene una función \(g\) tal que \(g(\mathbf{X}):\mathbb{R}^n \rightarrow \mathbb{R}\), entonces sí es posible definir

\[ E[g(\mathbf{X})] = \int_{S_g} g(x_1, x_2, \dots, x_n)f(x_1, x_2, \dots, x_n)dx_1 dx_2 \dots dx_n. \]

Propiedad.
Si \(X_1, X_2, \dots, X_n\) son \(n\) vv.aa.ii., \(g_i(x_i)\) son funciones tales que \(g_i(x_i): \mathbb{R} \rightarrow \mathbb{R}\) y \(E[g_i(x_i)]\) existe, entonces

\[ E\left[\prod\limits_{i=1}^n g_i(x_i) \right] = \prod\limits_{i=1}^n E\left[ g_i(x_i) \right]. \]

Observa: esta propiedad aplica, desde luego, a la función identidad.

ESPERANZA CONDICIONAL

Lecturas recomendadas
  • DeGroot (1988), Cap. 4.7.

Si ahora consideramos a dos vv.aa. \(X\) y \(Y\) podemos definir a la esperanza condicional de X en Y como

\[ E(X|Y) = \int\limits_{S_X} x f(x|y) dx \]

para el caso continuo, o bien

\[ E(X|Y) = \sum\limits_{S_X} x p(x|y) \]

para el caso discreto.

Observa que, con frecuencia, la condicional en Y se refiere a un valor específico, concreto, de Y. Sin embargo, también puede ser una referencia a cualquier valor de Y, en cuyo caso \(E(X|Y)\) será una función de \(Y\) y, por lo tanto, una v.a.

Propiedades de la esperanza condicional
  1. Si \(a\) es una constante \(E(a|Y)=a\).

  2. Para \(a\) y \(b\) constantes, \(E(aX + bZ|Y) = aE(X|Y) + b(Z|Y)\).

  3. Si X y Y son vv.aa.ii. entonces \(E(X|Y)=E(X)\).

  4. Si g es una función, \(E[g(Y)X|Y] = g(Y)E(X|Y)\).

  5. \(E[E(X|Y)] = E(X)\).

VARIANZA CONDICIONAL

De manera equivalente, podemos definir

Definición (varianza condicional)

\[ Var(X|Y) = E\{[X - E(X|Y)]^2|Y\}. \]

Propiedades:

  1. \(Var(X|Y) > 0\).

  2. Si a es una constante, entonces \(Var(a|Y)=0\).

  3. \(Var(aX|Y) = a^2 Var(X|Y)\).

  4. \(Var(X|Y) = E(X^2|Y) - E^2(X|Y)\).

  5. Si \(E(X^2) < \infty\) entonces

\[ Var(X) = Var[E(X|Y)] + E[Var(X|Y)]. \]

FUNCIÓN GENERADORA DE MOMENTOS CONJUNTA

DISTRIBUCIÓN NORMAL MULTIVARIADA

Lecturas recomendadas
  • DeGroot (1988), cap. 5.12;
  • Wackerly, Mendenhall, and Scheaffer (2008), cap. 5.10.

Ya habíamos mencionado en este material que la distribución normal es, por su amplia aplicación tanto teórica como práctica, muy probablemente, la distribución más importante que estudiaremos. Es necesario entonces, también, extender nuestro estudio al caso multivariado.

FUNCIÓN DE DENSIDAD CONJUNTA

Definición
Un conjunto de vv.aa. \(\mathbf{X} = \{X_1,X_2,\dots,X_n\}\) decimos que tienen una distribución conjunta normal multivariada si su función de densidad conjunta es de la forma

\[ f_{\mathbf{X}}(\mathbf{x}) = \frac{1}{(2\pi)^{\frac{n}{2}}\left(|\mathbf{\Sigma}|\right)}e^{-\frac{1}{2}(\mathbf{x}-\mathbf{\mu})'\mathbf{\Sigma}^{-1}(\mathbf{x}-\mathbf{\mu})} \]

y decimos que \(\mathbf{X} \sim Normal_n (\mathbf{\mu},\mathbf{\Sigma})\).

PARÁMETROS

El parámetro \(\mathbf{\mu}\) es el vector de medias. Es decir:

\[ \mathbf{\mu} = \{\mu_1, \mu_2, \dots, \mu_n\} \]

y se cumple que \(E(X_i) = \mu_i\).

Por su parte, la matriz \(\mathbf{\Sigma}\) es conocida como la matriz de varianzas y covarianzas:

\[ \mathbf{\Sigma} = \left[\begin{array}{}\sigma_1^2 & \sigma_{12} & \dots & \sigma_{1n}\\\sigma_{21} & \sigma_{2}^2 & \dots & \sigma_{2n}\\ \vdots & \vdots & \ddots & \vdots\\\sigma_{n1} & \sigma_{n2} & \dots & \sigma_{n}^2\\\end{array}\right] \]

es decir, es la matriz que contiene a la varianza de cada una de las variables en su diagonal, y la covarianza entre las variables por pares en los elementos diferentes a la diagonal.

En particular, para \(n= 2\) es posible ver que

\[ f(x,y) = \frac{1}{2\pi \sqrt{1-\rho^2}} e^{-\frac{1}{2(1-\rho^2)}\left[\left(\frac{x-\mu_x}{\sigma_x}\right)^2-2\rho\left(\frac{x - \mu_x}{\sigma_x}\right)\left(\frac{y - \mu_y}{\sigma_y}\right)+\left(\frac{y-\mu_y}{\sigma_y}\right)^2\right]}. \]

FUNCIÓN GENERADORA DE MOMENTOS

Para obtener la función generadora de momentos de una v.a. normal multivariada, primero observemos que \(\sum\limits_1^n t_i X_i = \mathbf{t'X}\) por lo que

\[ \psi_{\mathbf{X}}(\mathbf{t}) = E(e^{\mathbf{t'X}})\\ = \int_{S_{\mathbf{X}}} e^{\mathbf{t'X}} \frac{1}{(2\pi)^{\frac{n}{2}}\left(|\mathbf{\Sigma}|\right)}e^{-\frac{1}{2}(\mathbf{x}-\mathbf{\mu})'\mathbf{\Sigma}^{-1}(\mathbf{x}-\mathbf{\mu})} d\mathbf{x}\\ = e^{\mathbf{t}'\mathbf{\mu} + \frac{1}{2} \mathbf{t}'\mathbf{\Sigma}\mathbf{t}}\int_{S_{\mathbf{X}}} \frac{1}{(2\pi)^{\frac{n}{2}}\left(|\mathbf{\Sigma}|\right)}e^{-\frac{1}{2}[\mathbf{x}-(\mathbf{\mu}+\mathbf{\Sigma t})]'\mathbf{\Sigma}^{-1}[\mathbf{x}-(\mathbf{\mu}+\mathbf{\Sigma t})]} d\mathbf{x}\\ = e^{\mathbf{t}'\mathbf{\mu} + \frac{1}{2} \mathbf{t}'\mathbf{\Sigma}\mathbf{t}}. \]

PROPIEDADES

Si \(\mathbf{X} \sim N_n(\mathbf{\mu},\mathbf{\Sigma})\) entonces

  1. \(X_i\) y \(X_j\) son independientes si y solo si \(\sigma_{ij} = \sigma_{ji} = 0\).

  2. Si \(\mathbf{A}_{m \times n}\) es una matriz constante, entonces \(\mathbf{AX} \sim N_n(A\mathbf{\mu},\mathbf{A \Sigma A'})\).

2.1 (Combinaciones lineales) Si \(\mathbf{a} = (a_1, \dots, a_n)'\) entonces \(\mathbf{aX} \sim N_n(\mathbf{a\mu},\mathbf{a \Sigma a'})\) y

\[ \mathbf{a\mu} = \sum\limits_{i=1}^n a_i\mu_i\\ \mathbf{a \Sigma a'} = \sum\limits_{i=1}^n\sum\limits_{j=1}^n a_i a_j \sigma_{ij}. \]

  1. (Distribución marginal) \(X_i \sim N(\mu_i, \sigma_i^2)\) (esto se puede extender a cualquier subconjunto de las variables del vector aleatorio, con la debida precaución de considerar las entradas correspondientes en la matriz de varianzas y covarianzas).

3.1. En general, dos vv.aa. con distribuciones marginales normales no tendrán una distribución conjunta normal.

  1. (Distribución condicional) Si \(\mathbf{X}_1\) y \(\mathbf{X}_2\) son dos particiones del vector aleatorio \(\mathbf{X}\) de tamaño \(p\) y \(q\), respectivamente, entonces \(\mathbf{X}_1|(\mathbf{X}_2=\mathbf{a}) \sim N_p\left(\overline{\mathbf{\mu}},\overline{\mathbf{\Sigma}}\right)\), donde

\[ \mathbf{\mu} = (\mu_1, \mu_2)'\\ \mathbf{\Sigma} = \left[\begin{array}{}\Sigma_{11} & \Sigma_{12}\\\Sigma_{21} & \Sigma_{22}\end{array}\right]\\ \overline{\mathbf{\mu}} = \mathbf{\mu}_1 + \mathbf{\Sigma}_{12} \mathbf{\Sigma}_{22}^{-1}(a - \mathbf{\mu_2})\\ \overline{\mathbf{\Sigma}} = \Sigma_{11} - \Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}. \]

4.1. Si \(\mathbf{X} \sim N_2(\mathbf{\mu},\mathbf{\Sigma})\) entonces

\[ X_1 | (X_2 = a) \sim N(\mu_1 + \rho \frac{\sigma_{1}}{\sigma_2} (a-\mu_2), \sigma_1^2 - \rho \frac{\sigma_{1}}{\sigma_2} \sigma_{12})\\ \sim N(\mu_1 + \rho \frac{\sigma_{1}}{\sigma_2} (a-\mu_2), \sigma_1^2 - \rho \frac{\sigma_{1}}{\sigma_2} \rho \sigma_1 \sigma_2)\\ \sim N(\mu_1 + \rho \frac{\sigma_{1}}{\sigma_2} (a-\mu_2), \sigma_1^2 (1 - \rho^2)). \]

EJERCICIOS

  • En el mapa, para ir de la casa a la escuela solo vale ir de izquierda a derecha y de abajo a arriba; de la escuela a la casa, de derecha a izquierda y de arriba a abajo. Si I va de la casa a la escuela y II va de la escuela a la casa, ¿cuál es la probabilidad de que se encuentren?
mapa
mapa
Solución
El espacio muestral consiste en todas las opciones de caminos que I y II pueden tomar. Dado que I va de la casa a la escuela, I puede tomar diferentes rutas; II puede tomar otros 10 diferentes caminos. En total, entonces, la cardinalidad del espacio muestral es de 100.

I y II se únicamente cuando toman el mismo camino, entonces, \(P(E) = \frac{10}{100} = 1/10\).


  • Del conjunto \(\{1, 2, \dots, 44\}\) se eligen 7 números al azar. El día del sorteo se seleccionan 6 llamados “naturales” y otro, llamado “adicional”. El orden en el que se obtienen los números no importa. Los premios son:
  1. Acertar los 6 naturales.

  2. 5 naturales y el adicional.

  3. 5 naturales.

  4. 4 naturales.

  5. 3 naturales y el adicional.

Encuentra \(p_i\) la probabilidad de ganar el i-ésimo lugar.

Solución

\[p_1 = \frac{1}{C_{44,6}}\]

Para el segundo lugar es necesario obtener 1 número adicional, y las \(6 \times 38\) (no puede salir uno, si no, sería primer lugar) configuraciones de los 5 números naturales ganadores.

\[p_2 = \frac{1 \times 6 \times 38}{38 \times C_{44,6}} = \frac{6}{C_{44,6}}\]

Para el tercer lugar, es necesario obtener cualquiera de las \(6 \times 38\) configuraciones de los 5 números naturales ganadores y no obtener el adicional.

\[p_3 = \frac{37 \times 6 \times 38}{38 \times C_{44,6}} = \frac{6}{C_{44,6}}\]

Para el cuarto lugar, es necesario obtener cualquiera de las configuraciones de los 4 números naturales ganadores (dos números no pueden salir o sería un premio mayor) y el adicional no importa.

\[p_4 = \frac{38 \times C_{6,4} \times C_{38,2}}{38 \times C_{44,6}}.\]

Para el quinto lugar, es necesario obtener cualquiera de las configuraciones de 3 números naturales ganadores (tres números no pueden salir o sería un premio mayor) y el adicional.

\[p_5 = \frac{C_{6,3} \times C_{38,3}}{C_{44,6}} \frac{3}{38}.\]


  • \(N\) personas que llegan a una fiesta dejan su sombrero. Al salir, se llevan uno al azar. ¿Cuál es la probabilidad de que nadie se lleve su propio sombrero? ¿Cuál la de que exactamente \(k\) personas se lleven su propio sombrero?
Solución
Sea \(E_i\) el evento de que la persona \(i\) se lleve su propio sombrero. Entonces \(\bigcup\limits_{i=1}^N E_i\) es el evento de que al menos una persona se lleve su propio sombrero.

\[P\left(\bigcup\limits_{i=1}^N E_i\right).\]

La probabilidad de que nadie se lleve su propio sombrero es

\[1 - P\left(\bigcup\limits_{i=1}^N E_i\right).\]

Ahora,

\[P\left(\bigcup\limits_{i=1}^N E_i\right) =\]

\[\sum\limits_{i = 1}^N P(E_i) - \sum\limits_{i_1 < i_2} P(E_{i_1} \cap E_{i_2}) + \sum\limits_{i_1 < i_2 < i_3} P(E_{i_1} \cap E_{i_2} \cap E_{i_3}) + \dots +\]

\[(-1)^{m+1}\sum\limits_{i_1 < \dots < i_m} P(E_{i_1} \cap \dots \cap E_{i_m}) + \dots + (-1)^{N+1} P(E_{i_1} \cap \dots \cap E_{i_N}).\]

Por otra parte:

\[P(E_{i_1} \cap \dots \cap E_{i_m}) = \frac{1}{P_{N,m}}\]

y existen \(C_{N,m}\) términos con esta probabilidad. Entonces:

\[\sum\limits_{i_1 < \dots < i_m} P(E_{i_1} \cap \dots \cap E_{i_m}) = \frac{C_{N,m}}{P_{N,m}}\]

\[= \frac{N!(N-m)!}{m!N!(N-m!)} = \frac{1}{m!}.\]

Entonces

\[P\left(\bigcup\limits_{i=1}^N E_i\right) = 1 - \frac{1}{2!} + \frac{1}{3!} + \dots + (-1)^{m+1} \frac{1}{m!} + \dots + (-1)^{N+1} \frac{1}{N!}.\]

Y, entonces,

\[P(E) = 1 - 1 + \frac{1}{2!} - \frac{1}{3!} + \dots - (-1)^{m+1} \frac{1}{m!} - \dots - (-1)^{N+1} \frac{1}{N!}.\]

Ahora, recordemos que

\[e^x = \sum\limits_{i = 0}^{\infty} \frac{x^i}{(i+1)!}.\]

Entonces:

\[\lim\limits_{N \rightarrow \infty} P\left(\bigcup\limits_{i=1}^N E_i\right) = 1 - e^{-1}.\]

Por lo tanto

\[\lim\limits_{N \rightarrow \infty} P(E) = e^{-1}.\]

Para la segunda pregunta, consideremos un grupo de \(k\) personas. Se pueden formar \(C_{N,k}\) grupos de \(k\) personas. Cada grupo de \(k\) personas se puede combinar con

\[(N-k)! \times \left[1 - P\left(\bigcup\limits_{i=1}^{N-k} E_i\right)\right]\]

diferentes grupos de \(N-k\) personas que no se llevaron su propio sombrero.

Entonces

\[P(E) = \frac{C_{N,k} \times (N-k)! \times \left[1 - P\left(\bigcup\limits_{i=1}^{N-k} E_i\right)\right]}{N!}\]

\[= \frac{\frac{N!}{k!(N-k)!} \times (N-k)! \times \left[\frac{1}{2!} - \frac{1}{3!} + \dots - (-1)^{m+1} \frac{1}{m!} - \dots - (-1)^{N-k+1} \frac{1}{(N-k)!}\right]}{N!}\]

\[= \frac{\frac{1}{2!} - \frac{1}{3!} + \dots - (-1)^{m+1} \frac{1}{m!} - \dots - (-1)^{N-k+1} \frac{1}{(N-k)!}}{k!}.\]


  • Considera un cubo de lado \(l\). Se elige un punto aleatoriamente dentro del cubo. ¿Cuál es la probabilidad de que esté en la esfera inscrita?
Solución
El espacio muestral de nuestro problema son todos los puntos contenidos dentro del cubo (volumen). La cardinalidad del evento corresponde al volumen de la esfera inscrita en el cubo. Por lo tanto:

\[P(E) = \frac{\frac{4}{3} \pi \frac{l^3}{8}}{l^3} = \frac{\pi}{6}.\]


  • Se tienen 3 monedas de $5, una de $10, una de $25 y una de $50. Se eligen 3 monedas al azar. ¿Cuál es la probabilidad de que su valor sea a) $15, b) $40, c) $100 o d) más de $50?
Solución
El espacio muestral del problema consiste en todas las combinaciones (el orden no importa) de 6 en 3.

Ahora, para la cardinalidad de los eventos:

  • Hay 1 única manera de obtener $15, entonces \(P(E) = \frac{1}{C_{6,3}} = \frac{1}{\frac{6!}{3!3!}} = 0.05.\)

  • Para obtener $40 tienen que salir por fuerza las monedas de 25 y 10 y una de 5, pero hay tres de 5 por lo que \(P(E) = \frac{3}{20}\).

  • Veamos que, aún obteniendo las tres monedas más altas (50, 25 y 10) no se logran juntar $100, por lo tanto \(P(E) = 0\).

  • Para obtener más de $50 es necesario obtener la moneda de $50 por lo que \(P(E) = \frac{1 \times C_{5,2}}{20} = \frac{10}{20} = \frac{1}{2}\).


  • Hay 3 parejas y se forman en línea recta al azar. ¿Cuál es la probabilidad de que nadie quede junto a su pareja?
Solución
El espacio muestral consiste en todas las disposiciones de las personas en la línea, \(6! = 720\).

Para la cardinalidad del evento una alternativa es considerar el evento en el que al menos 1 pareja queda junta: \(6 \times 4!\).

¿?


  • Un estudiante seleccionado de una clase puede ser chico o chica. Si la probabilidad de que un chico sea seleccionado es 0.3, ¿cuál es la probabilidad de que sea seleccionada una chica?
Solución
Sea \(E_1\) el evento de que se seleccione a un chico y \(E_2\) el evento de que se seleccione a una chica. \(E_1 \cap E_2 = \emptyset\) por lo tanto \(1 = P(E_1) + P(E_2)\). La probabilidad de que se seleccione a una chica, por lo tanto, es igual a 0.7.

  • Se selecciona una bola de una urna que contiene bolas rojas, blancas, azules, amarillas y verdes. Si la probabilidad de seleccionar una bola roja es de 1/5 y la de seleccionar una blanca es 2/5, ¿cuál es la probabilidad de seleccionar una bola azul, amarilla o verde?
Solución
Si \(E_1\) es el evento que consiste en seleccionar una bola roja o una bola blanca, entonces \(E_1^c\) es el evento que consiste en seleccionar una bola azul, amarilla o verde. Entonces:

\[P(E_1^c) = 1 - P(E_1) = 1 - P(Roja \cup Blanca) = 1 - 3/5 = \frac{2}{5}.\]


  • Si la probabilidad de que un estudiante A repruebe su examen de probabilidad es de 0.5, la de B es de 0.2 y la de que A y B es de 0.1, ¿cuál es la probabilidad de que al menos uno de los dos repruebe? ¿Cuál es la probabilidad de que ni A ni B reprueben el examen? ¿Cuál es la probabilidad de que exactamente uno de los dos estudiantes repruebe el examen?
Solución
El problema nos pide primero calcular la probabilidad \(P(A \cup B)\). Por las propiedades de probabilidad sabemos que:

\[P(A \cup B) = P(A) + P(B) - P(A \cap B)\]

\[= 0.5 + 0.2 - 0.1\]

\[= 0.6.\]

Para la segunda probabilidad observemos que el evento de que ninguno de los dos repruebe es el complemento de que al menos uno de los dos repruebe. Por lo tanto, la probabilidad del evento es igual a \(1-0.6=0.4\).

La probabilidad de que solamente uno de los dos repruebe el examen es \(P(A) + P(B) - 2 \times P(A \cap B) = 0.5 + 0.2 - 2 \times 0.1 = 0.5\).


  • Considérense dos sucesos A y B tales que \(P(A) = \frac{1}{3}\) y \(P(B) = \frac{1}{2}\). Determínese el valor de \(P(B \cap A^c)\) para cada una de las siguientes condiciones: a) \(A \cap B = \emptyset\), b) \(A \subset B\), c) \(P(A \cap B) = \frac{1}{8}\).
Solución
  1. \(A \cap B = \emptyset\), por lo tanto, \(B \cap A^c = B\), de lo que se desprende que \(P(B \cap A^c) = P(B) = \frac{1}{2}\).

  2. \(A \subset B\). Entonces \(B = A \cup (B \cap A^c)\), por lo que \(P(B) = P(A \cup (B \cap A^c))\) pero \(A \cap (B \cap A^c) = \emptyset\), entonces \(P(B) = P(A) + P(B \cap A^c)\), y despejando: \(P(B \cap A^c) = P(B) - P(A) = \frac{1}{2} - \frac{1}{3} = \frac{1}{6}\).

  3. \(P(A \cap B) = \frac{1}{8}\). Observemos primero que \(B = (B \cap A) \cup (B \cap A^c)\) y que \((B \cap A) \cap (B \cap A^c) = \emptyset\). Entonces, \(P(B) = P(B \cap A) + P(B \cap A^c)\) y, despejando, \(P(B \cap A^c) = P(B) - P(B \cap A) = \frac{1}{2} - \frac{1}{8} = \frac{3}{8}\).


  • Si el 50% de las familias de cierta ciudad están suscritas al periódico matinal, el 65% de las familias al periódico vespertino y el 85% al menos a uno de los dos periódicos, ¿cuál es la proporción de familias que están suscritas a los dos periódicos?
Solución
Si el evento \(A\) representa que una familia esté suscrita al periódico matutino y el evento \(B\) que esté suscrita al periódico vespertino, entonces \(A \cup B\) es el conjunto de quienes están suscritos a al menos uno de los periódicos y \(A \cap B\) el conjunto de quienes están suscritos a ambos periódicos. Entonces:

\[ \begin{aligned} P(A \cup B) &= P(A) + P(B) - P(A \cap B) \\ P(A \cap B) &= P(A) + P(B) - P(A \cup B) \\ &= 0.5 + 0.65 - 0.85 \\ &= 0.3. \end{aligned} \]


  • Considérense dos sucesos A y B con \(P(A)=0.4\) y \(P(B)=0.7\). Determínense los posibles valores máximo y mínimo de \(P(A \cap B)\) y las condiciones en las cuales se consigue cada uno de esos valores.
Solución
Sabemos por las propiedades de las probabilidades que:

\[ P(A \cup B) = P(A) + P(B) - P(A \cap B) \\ P(A \cap B) = P(A) + P(B) - P(A \cup B) \\ P(A \cap B) = 0.4 + 0.7 - P(A \cup B) \\ P(A \cap B) = 1.1 - P(A \cup B). \]

Sabemos también que \(P(A \cap B) \leq 1\) por lo que \(P(A \cap B) \geq 0.1\). En particular, \(P(A \cap B)\) alcanza su máximo, \(P(A \cap B) = 1\), cuando \(P(A \cup B) = 0.1\). Este, sin embargo, es el caso trivial porque \(P(A \cap B) = 1\) implica que \(A = \Omega\) o \(B = \Omega\), pero por sus probabilidades sabemos que ni \(A\) ni \(B\) son iguales al espacio muestral. Entonces, tenemos tres casos:

  • \(A \cap B = \emptyset\), entonces \(P(A \cap B) = 0\);

  • \(B \subset A\), este caso no puede ser ya que \(P(A) < P(B)\).

  • \(A \subset B\), entonces \(P(A \cup B) = P(B) = 0.7\) por lo que \(P(A \cap B) = 1.1 - 0.7 = 0.4\)

Por otro lado, \(P(A \cap B)\) alcanza su mínimo, \(P(A \cap B) = 0.1\), cuando \(P(A \cup B) = 1\).


  • Demuéstrese que para dos sucesos A y B cualesquiera, la probabilidad de que exactamente uno de los dos sucesos ocurra está dada por la expresión \(P(A) + P(B) - 2 P(A \cap B)\).
Solución
Al evento de que exactamente uno de los dos eventos suceda lo podemos expresar como:

\[(A \cap B^c) \cup (B \cap A^c).\]

Entonces:

\[P[(A \cap B^c) \cup (B \cap A^c)] = P(A \cap B^c) + P(B \cap A^c) - P[(A \cap B^c) \cap (B \cap A^c)]\]

pero \(P[(A \cap B^c) \cap (B \cap A^c)] = 0\) por lo que

\[ P[(A \cap B^c) \cup (B \cap A^c)] = P(A \cap B^c) + P(B \cap A^c) \]

Ahora, observemos que \(A = (A \cap B^c) \cup (A \cap B)\) por lo que \(P(A) = P(A \cap B^c) + P(A \cap B)\) puesto que \((A \cap B^c) \cap (A \cap B) = \emptyset\). Y por lo tanto \(P(A \cap B^c) = P(A) + P(A \cap B)\). Por el mismo argumento \(P(B \cap A^c) = P(B) + P(A \cap B)\). Por lo tanto:

\[ P[(A \cap B^c) \cup (B \cap A^c)] = P(A) + P(A \cap B) + P(B) + P(A \cap B) \\ = P(A) + P(B) + 2P(A \cap B). \]


  • Se selecciona un punto \((x,y)\) del cuadrado unitario \(S\). Supóngase que la probabilidad de que el punto seleccionado pertenezca a cualquier subconjunto específico de \(S\) es igual al área de ese subconjunto. Determínese la probabilidad de cada uno de los siguientes subconjuntos: a) el subconjunto de puntos tales que \((x-\frac{1}{2})^2 + (y - \frac{1}{2})^2 \geq \frac{1}{4}\), b) el subconjunto de puntos tales que \(\frac{1}{2} < x + y < \frac{3}{2}\), c) el subconjunto de puntos tales que \(y \leq 1 - x^2\), d) el subconjunto de puntos tales que \(x = y\).

Solución :

  1. Queremos obtener el área dentro del cuadrado unitario para la cual \((x-\frac{1}{2})^2 + (y - \frac{1}{2})^2 \geq \frac{1}{4}\). Observemos primero que

\[ (x-\frac{1}{2})^2 + (y - \frac{1}{2})^2 = \frac{1}{4} \]

es la ecuación que describe a un círculo de radio \(\frac{1}{2}\) y centro en \((1/2, 1/2)\). Entonces, la desigualdad describe a todos los puntos que se encuentran fuera del circulo unitario inscrito en el cuadrado unitario.

El área del círculo unitario es igual a \(\pi \times \frac{1}{4}\), entonces el área fuera del círculo pero dentro del cuadrado es \(1 - \frac{\pi}{4}\).

  1. Ahora \(\frac{1}{2} < x + y < \frac{3}{2}\), es decir que \(\frac{1}{2} - x< y < \frac{3}{2} - x\), en otras palabras, es necesario calcular el área en la franja señalada. Podemos calcular esta área como la diferencia del área del cuadrado con el área de los dos triángulos formados por las rectas:

\[ P(E) = 1 - 2 \times \frac{\frac{1}{2} \times \frac{1}{2}}{2} \\ = 1 - \frac{1}{4} = \frac{3}{4}. \]

  1. \(y \leq 1 - x^2\), entonces, buscamos el área bajo la curva \(y = 1 - x^2\) para valores de \(x\) entre 0 y 1:

\[ P(E) = \int\limits_0^1 (1 - x^2)dx \\ = (x - \frac{1}{3}x^3)|_0^1 \\ = 1 - \frac{1}{3} \\ = \frac{2}{3}. \]

  1. Finalmente, para la probabilidad de que el punto seleccionado caiga en la recta \(x = y\), recordemos que una recta no tiene área, por lo que \(P(E) = 0\).

  • Sea \(A_1, A_2, \dots\) cualquier sucesión infinita de sucesos y sea \(B_1, B_2, \dots\) otra sucesión infinita de sucesos definida como sigue: \(B_1 = A_1, B_2 = A_1^c \cap A_2, B_3 = A_1^c \cap A_2^c \cap A_3, \dots\). Demuéstrese que:

\[P(\bigcup\limits_{i = 1}^n = \sum\limits_{i=1}^n P(B_i)\]

y que

\[P(\bigcup\limits_{i = 1}^{\infty} = \sum\limits_{i=1}^{\infty} P(B_i)\]

Solución
En primer lugar, observemos que \(A_i \cap B_i\).

Veamos el caso de \(i = 2\):

\[ A_2 = (A_2 \cap A_1) \cup (A_2 \cap A_1^c) \\ = B_2 \cup (A_2 \cap B_1). \]

Entonces

\[ P(A_1 \cup A_2) = P(A_1) + P(A_2) - P(A_1 \cap A_2) \\ = P(B_1) + P(B_2 \cup (A_2 \cap B_1)) - P(A_1 \cap A_2) \\ = P(B_1) + P(B_2) + P(A_2 \cap B_1) - P(B_2 \cap B_1 \cap A_2)) - P(A_1 \cap A_2) \\ = P(B_1) + P(B_2) + P(A_2 \cap A_1) - P(A_1 \cap A_2) \\ = P(B_1) + P(B_2). \]

\(i = 3\):

\[ P(A_1 \cup A_2 \cup A_3) = P[(A_1 \cup A_2) \cup A_3] \\ = P[(A_1 \cup A_2)] + P(A_3) - P[(A_1 \cup A_2) \cap P(A_3)] \\ = P(B_1) + P(B_2) + P(A_3) - P[(A_1 \cup A_2) \cap P(A_3)] \\ = P(B_1) + P(B_2) + P[(A_3 \cap (A_2 \cup A_1)^c) \cup(A_3 \cap (A_2 \cup A_1))] - P[(A_1 \cup A_2) \cap P(A_3)] \\ = P(B_1) + P(B_2) + P[(A_3 \cap (A_2 \cup A_1)^c)] + P[(A_3 \cap (A_2 \cup A_1))] - P[(A_1 \cup A_2) \cap P(A_3)] \\ = P(B_1) + P(B_2) + P(B_3). \]

\(i = n\):

\[ P(A_1 \cup A_2 \cup \dots \cup A_n) = P[(A_1 \cup \dots \cup A_{n-1}) \cup A_3] \\ = P[(A_1 \cup \dots \cup A_{n-1})] + P(A_n) - P[(A_1 \cup \dots \cup A_{n-1}) \cap P(A_n)] \\ = P(B_1) + \dots + P(B_{n-1}) + P[(A_n \cap (A_{n-1} \cup \dots \cup A_1)^c) \cup (A_n \cap (A_{n-1} \cup \dots \cup A_1))] - P[(A_1 \cup \dots \cup A_{n-1}) \cap P(A_n)] \\ = P(B_1) + \dots + P(B_{n-1}) + P[(A_n \cap (A_{n-1} \cup \dots \cup A_1)^c)] + P[(A_n \cap (A_{n-1} \cup \dots \cup A_1))] - P[(A_1 \cup \dots \cup A_{n-1}) \cap P(A_n)] \\ = P(B_1) + P(B_2) + \dots + P(B_n). \]


ANEXOS

CONJUNTOS

Lecturas recomendadas
  • Wackerly, Mendenhall, and Scheaffer (2008), cap. 2.3.

Los modelos probabilísticos, en general, van a buscar asignar o describir las probabilidades asociadas a colecciones de posibles resultados. Al estudiar la probabilidad se hace, por lo tanto, frecuentemente uso de operaciones sobre conjuntos.

Un conjunto se una colección de objetos (los cuales son los elementos del conjunto). Si \(S\) es un conjunto y \(x\) es un elemento de \(S\), utilizamos la notación \(x \in S\). Por otra parte si \(x\) no es un elemento de \(S\), lo denotamos como \(x \notin S\). Un conjunto puede no contar con ningún elemento, en cuyo caso es llamado el conjunto vacío y lo denotamos con el símbolo \(\emptyset\).

Si \(S\) contiene un número finito o infinito de elementos que pueden ser listados, lo denotamos como \(S = \{ x_1, \dots, x_n \}\), o bien, \(S = \{ x_1, x_2, \dots \}\), según corresponda.

Alternativamente, podemos describir al conjunto por las propiedades que lo definen: \(S = \{ x|x \space \text{satisface} \space P \}\).

Conjuntos contables vs incontables

Subconjuntos: si cada elemento del conjunto \(S\) es también un elemento del conjunto \(T\), decimos que \(S\) es un subconjunto de \(T\) o, en notación, \(S \subset T\). Por otra parte, decimos que dos conjuntos son iguales si \(S \subset T\) y \(T \subset S\).

Conjunto universal: llamamos conjunto universal (típicamente denotado como \(\Omega\)) al conjunto que contiene todos los objetos que podrían concebirse como de interés dentro de un contexto en particular. Se sigue entonces que, dentro de ese contexto \(S \subset \Omega \space \forall \space S\).

OPERACIONES CON CONJUNTOS

Complemento: el complemento de un conjunto \(S\), con respecto a un universo \(\Omega\), es el conjunto \(S^c = \{ x \in \Omega | x \notin S \}\). Por definición \(\Omega^c = \emptyset\).

Unión: la unión de dos conjuntos \(S\) y \(T\) corresponde a todos los elementos de \(\Omega\) que pertenecen a \(S\) o a \(T\) (o ambos): \(S \cup T = \{ x|x \in S \space or \space x \in T \}\).

Intersección: la intersección de dos conjuntos \(S\) y \(T\) es el conjunto de elementos que pertenecen a ambos, \(S\) y \(T\): \(S \cap T = \{ x|x \in S \space and \space x \in T \}\). Cuando \(S \cap T = \emptyset\) decimos que \(S\) y \(T\) son disjuntos.

Partición: decimos que una colección de conjuntos forman una partición del conjunto \(S\) si son disjuntos y su unión es igual a \(S\).

ÁLGEBRA DE CONJUNTOS

Algunas propiedades de las operaciones con conjuntos:

  • \(S \cup T = T \cup S\)

  • \(S \cap (T \cup U) = (S \cap T) \cup (S \cap U)\)

  • \((S^c)^c = S\)

  • \(S \cup \Omega = \Omega\)

  • \(S \cup (T \cup U) = (S \cup T) \cup U\)

  • \(S \cup (T \cap U) = (S \cup T) \cap (S \cup U)\)

  • \(S \cap S^c = \emptyset\)

  • \(S \cap \Omega = S\)

  • Leyes de De Morgan:

    • \(\left( \bigcup\limits_{n} S_n \right)^c = \bigcap\limits_n S_{n}^c\)

    • \(\left( \bigcap\limits_{n} S_n \right)^c = \bigcup\limits_n S_{n}^c\)

CADENAS DE MARKOV

LA RUINA DEL JUGADOR

SELECCIÓN DEL MEJOR ELEMENTO

REFERENCIAS


Aven, Terje, and Shital Thekdi. 2025. Risk Science: An Introduction. Routledge.
Bernstein, Peter L. 1996. Against the Gods: The Remarkable Story of Risk. John Wiley & Sons, Inc.
Bertsekas, Dimitri P., and John N. Tsitsiklis. 2008. Introduction to Probability. Vol. 2nd. Athena Scientific.
Blitzstein, Joseph K., and Jessica Hwang. 2014. Introduction to Probability. CRC Press.
DeGroot, Morris H. 1988. Probabilidad y Estadística. 2nd ed. Addison-Wesley Iberoamericana.
Evans, Michael J., and Jeffrey S. Rosenthal. 2023. Probability and Statistics. University of Toronto.
Hsu, Hwei P. 1997. Schaum’s Outline of Theory and Problems of Probability, Random Variables, and Random Processes. Schaum’s Outlines Series. McGraw-Hill.
Mendenhall, William, and Terry Sincich. 1996. A Second Course in Statistics: Regression Analysis. 5th ed. Prentice Hall.
Meschiari, Stefano. 2022. Latex2exp: Use LaTeX Expressions in Plots. https://CRAN.R-project.org/package=latex2exp.
R Core Team. 2020. R: A Language and Environment for Statistical Computing. Vienna, Austria: R Foundation for Statistical Computing. https://www.R-project.org/.
Rosenthal, Jeffrey S. 2006. A First Look at Rigorous Probability Theory. 2nd ed. World Scientific Publishing.
Ross, Sheldon. 2010. A First Course in Probability. 8th ed. Prentice Hall.
Wackerly, Dennis D, William Mendenhall, and Richard L Scheaffer. 2008. Mathematical Statistics with Applications. Thomson Brooks/Cole Belmont, CA.
Wickham, Hadley. 2016. Ggplot2: Elegant Graphics for Data Analysis. Springer-Verlag New York. https://ggplot2.tidyverse.org.

  1. Un axioma, en un cuerpo teórico, es una proposición sobre la cual descansan otros razonamientos y proposiciones que se deducen de esta. Pueden ser tanto afirmaciones que se consideran obvias o evidentes en sí mismas (y, por lo tanto, no son probadas) o bien puede tratarse de proposiciones o postulados a partir de los cuales se construye la teoría.↩︎

  2. Georges-Louis Leclerc, Conde de Buffon, fue un noble francés del s. XVIII. Planteó este problema y su símil relativo al lanzamiento de una moneda. Estos problemas forman parte de los inicios del planteamiento de lo que puede ser llamado “probabilidad geométrica” (disciplina hoy en día dividida en dos ramas: geometría integral y geometría estocástica).↩︎

  3. Originalmente desarrollada por Daniel Bernoulli.↩︎