Revisión de Conceptos de Probabilidad y Variables Aleatorias

EP7120-Modelos Lineales Generalizados Aplicados

Enver Gerald Tarazona Vargas

etarazona@lamolina.edu.pe

Universidad Nacional Agraria La Molina (UNALM), Perú

Probabilidad

Experimento aleatorio

Un experimento aleatorio es un procedimiento u observación cuyo resultado no puede predecirse con certeza antes de realizarse, aun cuando se conozcan las condiciones en que ocurre.

Características

Puede repetirse bajo las mismas condiciones o bajo condiciones comparables.
Genera uno entre varios resultados posibles bien definidos.
Es posible describir el conjunto o el número de resultados posibles.
Puede asociarse a un modelo matemático probabilístico.

Ejemplos

Lanzar una moneda.
Lanzar un dado.
Extraer una carta de una baraja.
Observar si mañana estará nublado o no.
Registrar el tiempo que tarda una persona en llegar a la universidad.

Idea clave: La teoría de probabilidad estudia experimentos cuyos resultados individuales no pueden anticiparse con certeza, pero cuyo comportamiento global puede modelarse matemáticamente.

Espacio muestral: definición y tipos

El espacio muestral, denotado por \(\Omega\), es el conjunto de todos los resultados posibles de un experimento aleatorio.

Según el número y la naturaleza de sus elementos, un espacio muestral puede ser:

Finito: tiene un número finito de resultados posibles.
Infinito numerable: tiene infinitos resultados, pero estos pueden ponerse en correspondencia con los números naturales.
Infinito no numerable: tiene infinitos resultados que no pueden enumerarse uno a uno.

Clasificación práctica

Discreto: si sus resultados son finitos o infinitos numerables.
Continuo: si sus resultados forman un conjunto infinito no numerable.

Espacio muestral: ejemplos

Ejemplos

Lanzar una moneda
\(\Omega = \{\text{cara}, \text{sello}\}\)
Lanzar un dado
\(\Omega = \{1,2,3,4,5,6\}\)
Número de llamadas que llegan en una hora
\(\Omega = \{0,1,2,3,\dots\}\)
Tiempo que demora una persona en llegar a la universidad
\(\Omega = [0,\infty)\)

Idea clave: El espacio muestral define formalmente el universo de resultados posibles sobre el cual se construyen los eventos.

Punto muestral

Un punto muestral es cada uno de los resultados individuales que pertenecen al espacio muestral.

Si el espacio muestral es

\[ \Omega = \{\omega_1, \omega_2, \omega_3, \dots, \omega_n\}, \]

entonces cada elemento \(\omega_i\) es un punto muestral.

Ejemplos

Si se lanza una moneda, los puntos muestrales son:
\(\text{cara}\) y \(\text{sello}\).
Si se lanza un dado, los puntos muestrales son:
\(1,2,3,4,5,6\).
Si se observa el número de llamadas que llegan en una hora, cada valor posible
\(0,1,2,\dots\) constituye un punto muestral.

Idea clave: Un punto muestral es un resultado específico; el espacio muestral es el conjunto de todos ellos.

Evento

Un evento es cualquier subconjunto del espacio muestral \(\Omega\).

Se dice que un evento \(A\) ocurre cuando el resultado observado del experimento pertenece a dicho subconjunto.

Observaciones

Los eventos suelen representarse con letras mayúsculas: \(A\), \(B\), \(C\),
El propio espacio muestral \(\Omega\) es un evento, llamado evento seguro.
El conjunto vacío \(\varnothing\) también es un evento, llamado evento imposible.

Evento

Formas de definir un evento

Por extensión: listando sus elementos.
Por comprensión: describiendo la propiedad que cumplen sus elementos.

Ejemplo

Si se lanza un dado y

\[ \Omega = \{1,2,3,4,5,6\}, \]

podemos definir el evento

\[ A = \{2,4,6\}, \]

que representa el evento: “obtener un número par”.

Operaciones básicas con eventos

Sean \(A\) y \(B\) dos eventos.

Unión: \(A \cup B\)
Ocurre cuando al menos uno de los eventos ocurre.
Intersección: \(A \cap B\)
Ocurre cuando ambos eventos ocurren.
Complemento: \(A^c\)
Ocurre cuando el evento \(A\) no ocurre.

Definición axiomática de probabilidad

Sea \(\Omega\) un espacio muestral y \(\mathcal{F}\) una colección de eventos sobre \(\Omega\).

Una probabilidad es una función

\[ P: \mathcal{F} \to \mathbb{R} \]

que asigna a cada evento \(A \in \mathcal{F}\) un número real \(P(A)\) y satisface los siguientes axiomas:

No negatividad \[ P(A) \geq 0, \qquad \forall A \in \mathcal{F} \]
Normalización \[ P(\Omega) = 1 \]
Aditividad numerable Si \(A_1, A_2, \dots\) son eventos mutuamente excluyentes dos a dos, entonces \[ P\left(\bigcup_{i=1}^{\infty} A_i\right) = \sum_{i=1}^{\infty} P(A_i) \]

Propiedades inmediatas de la probabilidad

A partir de los axiomas de probabilidad se obtienen las siguientes propiedades:

Probabilidad del evento imposible \[ P(\varnothing)=0 \]
Complemento \[ P(A^c)=1-P(A) \]
Monotonía

Si \(A \subseteq B\), entonces \[ P(A)\leq P(B) \]
Unión de dos eventos \[ P(A\cup B)=P(A)+P(B)-P(A\cap B) \]

Definición clásica y frecuencial de probabilidad

Definición clásica

Si un experimento aleatorio tiene un número finito de resultados posibles, mutuamente excluyentes e igualmente probables, entonces

\[ P(A)=\frac{n(A)}{n(\Omega)} \]

donde \(n(A)\) es el número de casos favorables y \(n(\Omega)\) el número total de casos posibles.

Definición frecuencial

Si un experimento se repite \(n\) veces bajo las mismas condiciones y el evento \(A\) ocurre \(n_A\) veces, entonces su frecuencia relativa es

\[ f_r(A)=\frac{n_A}{n}. \]

Cuando \(n\) crece, la probabilidad puede interpretarse como el límite de dicha frecuencia relativa:

\[ P(A)=\lim_{n\to\infty}\frac{n_A}{n}. \]

Probabilidad geométrica

Cuando el espacio muestral es continuo y los resultados se distribuyen uniformemente sobre una región, la probabilidad de un evento \(A\) se define como

\[ P(A)=\frac{m(A)}{m(\Omega)}, \]

donde \(m(\cdot)\) representa una medida de la región correspondiente, como longitud, área o volumen.

Probabilidad condicional

Sean \(A\) y \(B\) dos eventos tales que \(P(B)>0\). La probabilidad condicional de \(A\) dado \(B\) se define como

\[ P(A\mid B)=\frac{P(A\cap B)}{P(B)}. \]

Esta probabilidad representa la ocurrencia de \(A\) bajo la condición de que el evento \(B\) ya ha ocurrido.

Regla de multiplicación

A partir de la definición de probabilidad condicional se obtiene:

\[ P(A\cap B)=P(A)\,P(B\mid A)=P(B)\,P(A\mid B). \]

Para tres eventos \(A\), \(B\) y \(C\),

\[ P(A\cap B\cap C)=P(A)\,P(B\mid A)\,P(C\mid A\cap B). \]

En general, para \(n\) eventos \(A_1,A_2,\dots,A_n\),

\[ P\left(\bigcap_{i=1}^n A_i\right) = P(A_1)\,P(A_2\mid A_1)\,P(A_3\mid A_1\cap A_2)\cdots P\left(A_n\mid \bigcap_{i=1}^{n-1} A_i\right). \]

Independencia de eventos

Dos eventos \(A\) y \(B\) son independientes si la ocurrencia de uno no altera la probabilidad de ocurrencia del otro.

Formalmente, \(A\) y \(B\) son independientes si

\[ P(A\cap B)=P(A)\,P(B). \]

De manera equivalente, si \(P(B)>0\),

\[ P(A\mid B)=P(A). \]

Teorema de la probabilidad total

Sean \(A_1, A_2, \dots, A_k\) eventos que forman una partición de \(\Omega\); es decir:

\(A_i \cap A_j = \varnothing\), si \(i \neq j\)
\(\displaystyle \bigcup_{i=1}^k A_i = \Omega\)

y sea \(B\) un evento cualquiera. Entonces,

\[ P(B)=\sum_{i=1}^{k} P(B\mid A_i)\,P(A_i). \]

Interpretación

La probabilidad de \(B\) se obtiene sumando las probabilidades de \(B\) dentro de cada caso posible \(A_i\), ponderadas por la probabilidad de cada \(A_i\).

Teorema de Bayes

Sean \(A_1, A_2, \dots, A_k\) eventos que forman una partición de \(\Omega\), y sea \(B\) un evento con \(P(B)>0\).

El teorema de Bayes permite calcular la probabilidad posterior de \(A_i\) dado que se ha observado \(B\):

\[ P(A_i\mid B)=\frac{P(B\mid A_i)\,P(A_i)}{P(B)}, \qquad i=1,2,\dots,k. \]

Como

\[ P(B)=\sum_{j=1}^{k} P(B\mid A_j)\,P(A_j), \]

entonces

\[ P(A_i\mid B)= \frac{P(B\mid A_i)\,P(A_i)} {\sum_{j=1}^{k} P(B\mid A_j)\,P(A_j)}. \]

Interpretación

\(P(A_i)\): probabilidad a priori de \(A_i\)
\(P(B\mid A_i)\): verosimilitud de observar \(B\) si ocurre \(A_i\)
\(P(A_i\mid B)\): probabilidad posterior de \(A_i\) luego de observar \(B\)

Independencia condicional

Sean \(A\), \(B\) y \(C\) eventos con \(P(C)>0\).

Se dice que \(A\) y \(B\) son condicionalmente independientes dado \(C\) si, una vez conocida la ocurrencia de \(C\), la ocurrencia de uno de ellos no altera la probabilidad condicional del otro.

Formalmente,

\[ P(A \cap B \mid C)=P(A \mid C)\,P(B \mid C). \]

De manera equivalente, si además \(P(B \cap C)>0\),

\[ P(A\mid B \cap C)=P(A\mid C). \]

Análogamente, si \(P(A \cap C)>0\),

\[ P(B\mid A \cap C)=P(B\mid C). \]

Variables Aleatorias

Variable aleatoria

Sea \((\Omega,\mathcal{F},P)\) un espacio de probabilidad. Una variable aleatoria es una función medible

\[ X:\Omega \to \mathbb{R}, \]

que asigna a cada resultado elemental \(\omega \in \Omega\) un número real \(X(\omega)\).

La exigencia de medibilidad garantiza que, para todo conjunto boreliano \(B \subseteq \mathbb{R}\), el conjunto de preimágenes

\[ \{\omega \in \Omega : X(\omega)\in B\} = X^{-1}(B) \]

pertenece a \(\mathcal{F}\), de modo que es posible asignarle probabilidad. En particular, para cualquier \(x\in\mathbb{R}\), eventos del tipo

\[ \{X\le x\}, \qquad \{X=x\}, \qquad \{a<X\le b\} \]

son eventos probabilísticos bien definidos.

Así, una variable aleatoria no es simplemente una “cantidad que varía”, sino un mecanismo que traduce resultados aleatorios en valores numéricos, permitiendo estudiar probabilísticamente magnitudes como conteos, tiempos, proporciones, ingresos o respuestas binarias.

Clasificación de variables aleatorias

Según la naturaleza de su distribución, una variable aleatoria puede ser:

Discreta, si existe un conjunto finito o numerable \(\{x_1,x_2,\dots\}\) tal que \[ P(X\in\{x_1,x_2,\dots\})=1. \]
Absolutamente continua, si existe una función no negativa \(f_X(x)\) tal que, para todo conjunto boreliano \(B\), \[ P(X\in B)=\int_B f_X(x)\,dx. \]
Mixta, si combina una parte discreta y una parte absolutamente continua.

En general, esta clasificación determina la forma en que se describe la distribución de la variable y el tipo de herramienta matemática que se utiliza para estudiarla.

Ejemplos

Variable aleatoria discreta

Número de llamadas que llegan en una hora.
Número de éxitos en \(n\) ensayos.

Variable aleatoria continua

Tiempo de espera.
Tiempo de supervivencia.
Ingreso mensual.

Variable aleatoria mixta

Gasto en salud de una persona en un mes, cuando puede ser 0 con probabilidad positiva, pero si es positivo se distribuye continuamente.

Función de probabilidad y función de densidad

La forma específica de describir una distribución depende del tipo de variable aleatoria.

Variable aleatoria discreta

Si \(X\) es discreta, su distribución puede describirse mediante la función de probabilidad

\[ p_X(x)=P(X=x), \qquad x\in\mathbb{R}. \]

Esta función satisface:

\[ p_X(x)\ge 0 \qquad\text{y}\qquad \sum_x p_X(x)=1. \]

Además, para cualquier conjunto numerable \(A\),

\[ P(X\in A)=\sum_{x\in A} p_X(x). \]

Función de probabilidad y función de densidad

Variable aleatoria continua

Si \(X\) es absolutamente continua, su distribución puede describirse mediante una función de densidad \(f_X(x)\) tal que

\[ f_X(x)\ge 0, \qquad \int_{-\infty}^{\infty} f_X(x)\,dx=1, \]

y, para cualquier conjunto boreliano \(B\),

\[ P(X\in B)=\int_B f_X(x)\,dx. \]

Nota: un conjunto de Borel es, en términos simples, un conjunto de valores para los que tiene sentido asignar probabilidad, como intervalos, uniones de intervalos y otros conjuntos construidos a partir de ellos.

Función de distribución

Sea \(X\) una variable aleatoria. La función de distribución acumulada de \(X\) se define por

\[ F_X(x)=P(X\le x)=\begin{cases} \displaystyle \sum_{t\le x} p_X(t), & \text{si } X \text{ es discreta},\\[1.2em] \displaystyle \int_{-\infty}^{x} f_X(t)\,dt, & \text{si } X \text{ es absolutamente continua}. \end{cases}, \qquad x\in\mathbb{R}. \]

La función de distribución caracteriza completamente la distribución de la variable aleatoria.

Propiedades

\(0 \leq F_X(x) \leq 1\)
\(F_X\) es no decreciente y continua por la derecha, es decir, \(\lim_{h\to 0^+} F_X(x+h)=F_X(x)\)
\(\displaystyle \lim_{x\to -\infty} F_X(x)=0\) y \(\displaystyle \lim_{x\to +\infty} F_X(x)=1\)
Si \(X\) es absolutamente continua y \(F_X\) es derivable en \(x\), entonces \(F_X'(x)=f_X(x).\)

En particular, para \(a<b\),

\[ P(a<X\le b)=F_X(b)-F_X(a). \]

Esperanza matemática

La esperanza matemática o valor esperado de una variable aleatoria \(X\), denotada por \(E(X)\), representa su valor promedio teórico o media poblacional.

Se define por

\[ E(X)= \begin{cases} \displaystyle \sum_x x\,p_X(x), & \text{si } X \text{ es discreta},\\[1.2em] \displaystyle \int_{-\infty}^{\infty} x\,f_X(x)\,dx, & \text{si } X \text{ es absolutamente continua}, \end{cases} \]

siempre que converjan absolutamente, es decir \(E(|X|)<\infty.\)

Más generalmente, si \(g(X)\) es una función de la variable aleatoria, entonces

\[ E[g(X)]= \begin{cases} \displaystyle \sum_x g(x)\,p_X(x), & \text{si } X \text{ es discreta},\\[1.2em] \displaystyle \int_{-\infty}^{\infty} g(x)\,f_X(x)\,dx, & \text{si } X \text{ es absolutamente continua}, \end{cases} \]

siempre que \(E(|g(X)|)<\infty\).

Varianza

La varianza de una variable aleatoria \(X\), denotada por \(\operatorname{Var}(X)\), mide la dispersión de sus valores alrededor de su esperanza matemática.

Se define por

\[ \operatorname{Var}(X)=E\big[(X-E(X))^2\big], \]

siempre que \(E(X^2)<\infty\).

Una expresión equivalente, útil en la práctica, es

\[ \operatorname{Var}(X)=E(X^2)-[E(X)]^2. \]

La desviación estándar de \(X\) se define como

\[ \operatorname{DE}(X)=\sqrt{\operatorname{Var}(X)}. \]

Propiedades de la esperanza

Sean \(X_1,\dots,X_n\) variables aleatorias, y \(a_1,\dots,a_n,c \in \mathbb{R}\).

\[ E(c)=c \]

\[ E(aX+b)=aE(X)+b \]

Más generalmente,

\[ E\left(\sum_{i=1}^n a_iX_i + c\right) = \sum_{i=1}^n a_iE(X_i)+c \]

En particular,

\[ E(aX+bY+c)=aE(X)+bE(Y)+c \]

Propiedades de la varianza

Sean \(X_1,\dots,X_n\) variables aleatorias, y \(a_1,\dots,a_n,c \in \mathbb{R}\).

\[ \operatorname{Var}(c)=0 \]

\[ \operatorname{Var}(aX+b)=a^2\operatorname{Var}(X) \]

Si \(X_1,\dots,X_n\) son independientes, entonces

\[ \operatorname{Var}\left(\sum_{i=1}^n a_iX_i\right) = \sum_{i=1}^n a_i^2\operatorname{Var}(X_i) \]

En particular,

\[ \operatorname{Var}(X+Y)=\operatorname{Var}(X)+\operatorname{Var}(Y) \qquad \text{si } X \text{ e } Y \text{ son independientes.} \]

Cuantiles

Sea \(X\) una variable aleatoria con función de distribución \(F_X\).

El cuantil de orden \(p\), con \(0<p<1\), es un valor \(x_p\) tal que

\[ F_X(x_p)\ge p. \]

Cuando \(F_X\) es estrictamente creciente y continua, el cuantil de orden \(p\) se define como

\[ x_p = F_X^{-1}(p). \]

Casos particulares importantes:

Mediana: cuantil de orden \(0.5\)
Primer cuartil: cuantil de orden \(0.25\)
Tercer cuartil: cuantil de orden \(0.75\)

Los cuantiles permiten resumir la localización de una distribución y dividirla en partes con probabilidades acumuladas prefijadas.

Momentos de una variable aleatoria

Los momentos son cantidades numéricas que resumen características de una distribución.

El momento de orden \(r\) respecto del origen se define como \[ E(X^r), \] siempre que exista.
El momento central de orden \(r\) se define como \[ E[(X-\mu)^r], \qquad \mu=E(X). \]

En particular:

el momento de primer orden respecto del origen es la media;
el momento central de segundo orden es la varianza.

Los momentos permiten describir propiedades de una distribución como localización, dispersión y forma.

Ley fuerte de los grandes números

Sean \(X_1, X_2, \dots\) variables aleatorias independientes e idénticamente distribuidas, con

\[ E(X_i)=\mu \]

y sea

\[ \overline{X}_n=\frac{1}{n}\sum_{i=1}^n X_i \]

la media muestral de las primeras \(n\) observaciones.

La ley fuerte de los grandes números establece que

\[ \overline{X}_n \xrightarrow{c.s.} \mu \qquad \text{cuando } n\to\infty, \]

es decir, la media muestral converge casi seguramente al valor esperado de la población.

Interpretación

Cuando el número de observaciones crece, el promedio muestral tiende a estabilizarse alrededor de la media poblacional.

Esta ley proporciona fundamento teórico a la interpretación frecuencial de la probabilidad y al uso de promedios muestrales para estimar parámetros poblacionales.

Ley fuerte de los grandes números y frecuencias relativas

Más formalmente, sea \(X_1, X_2, \dots, X_n\) una muestra aleatoria de una variable aleatoria \(X\), sea \(A \subseteq \mathbb{R}\) y sea \(\bar p_n\) la proporción de observaciones muestrales que pertenecen a \(A\). Entonces, la ley fuerte de los grandes números garantiza que

\[ \bar p_n \xrightarrow{c.s.} P(X \in A), \qquad \text{cuando } n\to\infty. \]

Es decir, con probabilidad 1, la proporción muestral de valores que caen en el conjunto \(A\) converge a la probabilidad poblacional correspondiente.

Esta idea da sustento teórico a la interpretación frecuencial de la probabilidad.

Ejercicio 1

Una fábrica tiene dos líneas de producción que trabajan en forma independiente. Según estudios realizados, la probabilidad de que, en un día, la línea de producción 1 tenga problemas en su funcionamiento es 0.1; mientras que, para la línea de producción 2, la probabilidad correspondiente es 0.05.

Determine y grafique la función de probabilidad para la variable \[ X=\text{número de líneas de producción que tuvieron problemas de funcionamiento durante un día}. \]
Halle y grafique la función de distribución acumulada.
¿Cuál es la probabilidad de que al menos una línea de producción tenga problemas de funcionamiento?
Suponga ahora que, en un día sin problemas, la fábrica pierde 2 miles de soles por costos operativos. Además, por cada línea de producción que presenta problemas de funcionamiento, la pérdida diaria aumenta en 5 miles de soles. Determine los valores de la media y el coeficiente de variabilidad de la distribución de la pérdida económica diaria. Interprete la media.

Ejercicio 2

Una gasolinera opera dos bombas, cada una de las cuales puede bombear hasta 10000 galones de gasolina en un mes. La cantidad total de gasolina bombeada en un mes se modela mediante una variable aleatoria continua \(X\), medida en decenas de miles de galones, cuya función de densidad está dada por

\[ f_X(x)= \begin{cases} x, & 0<x<1,\\ 2-x, & 1\le x<2,\\ 0, & \text{en otros casos.} \end{cases} \]

Verifique que \(f_X(x)\) es una función de densidad de probabilidad.
Halle la función de distribución acumulada de \(X\).
Calcule la probabilidad de que, en un mes, la gasolinera bombee más de 10000 galones.
Dado que en un mes particular la gasolinera bombeó más de 10000 galones, encuentre la probabilidad de que haya bombeado más de 15000 galones durante ese mes.
Calcule e interprete la mediana.
Suponga ahora que la gasolinera estima su costo mensual de mantenimiento de la siguiente manera: siempre destina doscientos soles a la revisión general de las bombas y, además, considera que cuando el volumen bombeado aumenta, el desgaste del sistema crece cada vez más rápido. Por ello, para estimar ese desgaste, la empresa agrega un monto igual al cuadrado de la cantidad bombeada durante el mes. Calcule el valor esperado del costo mensual de mantenimiento e interprételo.

Cierre y transición

Hasta este punto, hemos revisado conceptos fundamentales para el estudio de variables aleatorias y distribuciones de probabilidad:

probabilidad y sus principales reglas de cálculo;
probabilidad condicional, independencia, probabilidad total y teorema de Bayes;
variable aleatoria y su clasificación;
función de probabilidad, densidad y función de distribución;
esperanza, varianza, cuantiles y momentos.

Estos elementos permiten describir formalmente el comportamiento aleatorio de una variable y constituyen la base para el estudio de distribuciones de probabilidad.

En la siguiente parte revisaremos distribuciones discretas y continuas de especial interés para los modelos lineales generalizados, con énfasis en aquellas que pertenecen a la familia exponencial.

Referencias

Agresti, A. (2015). Foundations of linear and generalized linear models. Wiley.

Blitzstein, J. K., & Hwang, J. (2019). Introduction to probability (2nd ed.). Chapman; Hall/CRC.

Casella, G., & Berger, R. L. (2002). Statistical inference (2nd ed.). Duxbury.

DeGroot, M. H., & Schervish, M. J. (2012). Probability and statistics (4th ed.). Pearson.

Dobson, A. J., & Barnett, A. G. (2018). An introduction to generalized linear models (4th ed.). Chapman; Hall/CRC.

Faraway, J. J. (2016). Extending the linear model with R: Generalized linear, mixed effects and nonparametric regression models (2nd ed.). Chapman; Hall/CRC.

Hogg, R. V., McKean, J. W., & Craig, A. T. (2019). Introduction to mathematical statistics (8th ed.). Pearson.

Larsen, R. J., & Marx, M. L. (2008). An introduction to mathematical statistics and its applications (4th ed.). Pearson.

McCullagh, P., & Nelder, J. A. (1989). Generalized linear models (2nd ed.). Chapman; Hall.

Pawitan, Y. (2001). In all likelihood: Statistical modelling and inference using likelihood. Oxford University Press.

Pitman, J. (1993). Probability. Springer.

Rice, J. A. (2006). Mathematical statistics and data analysis (3rd ed.). Duxbury Press.

Ross, S. (2014). A first course in probability (9th ed.). Pearson.

Wackerly, D. D., Mendenhall, W., & Scheaffer, R. L. (2008). Mathematical statistics with applications (7th ed.). Thomson Brooks/Cole.

Weisberg, S. (2014). Applied linear regression (4th ed.). Wiley.