Variables aleatorias

Autor/a

Prof. Pablo Bazzano

¿Qué es una variable aleatoria?

Como se ha explicado anteriormente, un experimento aleatorio es cualquier procedimiento bien definido que produce un resultado observable que no se puede predecir con precisión de antemano. Un experimento aleatorio debe estar bien definido para eliminar cualquier imprecisión o sorpresa. Por lo tanto, aunque el resultado no se puede predecir, sí se conoce el conjunto de todos los resultados posibles, que se denomina espacio muestral y por lo general se denota con \(\Omega\).

Una variable aleatoria, también llamada variable estocástica, \(X\) es una función que asocia a los elementos de un espacio muestral \(\Omega\) un número real medible u observable.

Por ejemplo, si el experimento aleatorio consiste en tirar dos dados y la variable aleatoria \(X\) es la suma de los números que esos dados presentan, entonces el rango o recorrido de \(X\), es decir, el conjunto de los valores que puede tomar la variable aleatoria, es \(R_X=\{2,3,\dots,12\}\). Como esta variable solamente puede tomar valores en un subconjunto de los números enteros, se dice que es una variable aleatoria discreta.

como se ve, el valor de \(X\) depende del resultado de un experimento aleatorio subyacente.

En otro ejemplo, sea \(X\) la temperatura en grados Celsius registrada en una determinada localidad en un cierto día del año. En principio, esta variable podría tomar cualquier valor en el intervalo \([-273.15, \infty)\), aunque por supuesto que el rango en la práctica sería mucho más acotado. El rango de los registros máximos y mínimos históricos es aproximadamente \([-90,55]\). Sin embargo, corresponden a localidades muy diferentes: el primero casi se alcanzó en la base rusa Vóstok en la Antártida (el registro fue de \(-89.2\)) y el segundo, en Túnez. Si se restringiera más la localización, por ejemplo, a Sudamérica, el correspondiente rango sería \([-39,49]\), ambos obtenidos en Argentina; pero nada asegura que en el futuro no puedan alcanzarse registros fuera de ese rango histórico. En cualquier caso, \(X\) puede tomar cualquier valor real, no necesariamente entero, por lo que es una variable aleatoria continua.

Distribución de probabilidades

Se ha señalado que una variable aleatoria \(X\) asocia un número real a los elementos de un espacio muestral \(\Omega\) y que éste no puede conocerse con certeza de antemano; sin embargo, es posible asignar a los resultados del experimento aleatorio una determinada probabilidad.

En el ejemplo anteriormente mencionado del lanzamiento de dos dados, el recorrido de la variable es todos los enteros de \(2\) a \(12\), pero estos resultados no son igualmente probables:

  • El \(2\) solamente puede obtenerse de una forma: cuando ambos dados presentan un \(1\), lo que puede representarse con el par ordenado \((1,1)\).

  • El \(3\) puede alcanzarse con dos tiradas diferentes: cuando el primer dado presenta un \(1\) y el segundo un \(2\), o el primero un \(2\) y el segundo un \(1\), es decir, con \((1,2)\) o con \((2,1)\).

  • El \(4\), de tres formas diferentes: \((1,3)\), \((2,2)\) o \((3,1)\).

  • El \(5\), de cuatro formas diferentes: \((1,4)\), \((2,3)\), \((3,2)\) o \((4,1)\).

  • Y así sucesivamente para \(6,7,\dots,12\).

Si se calculan las correspondientes probabilidades, y tomando en cuenta que hay \(6\times6=36\) tiradas diferentes posibles de dos dados (regla de la multiplicación), se tiene, respectivamente:

  • \(P(X=2)=\displaystyle\frac{1}{36}\)

  • \(P(X=3)=\displaystyle\frac{2}{36}\)

  • \(P(X=4)=\displaystyle\frac{3}{36}\)

  • \(P(X=5)=\displaystyle\frac{4}{36}\)

  • Y así sucesivamente para \(X=6, X=7, \dots, X=12\).

Es más práctico presentar estos resultados en una tabla que muestra cómo se distribuyen las probabilidades para los valores posibles de \(X\):

Probabilidades para la suma en una tirada de dos dados.
\(X\) \(2\) \(3\) \(4\) \(5\) \(6\) \(7\) \(8\) \(9\) \(10\) \(11\) \(12\)
\(P\) \(1/36\) \(2/36\) \(3/36\) \(4/36\) \(5/36\) \(6/36\) \(5/36\) \(4/36\) \(3/36\) \(2/36\) \(1/36\)

O bien, gráficamente:

\(P\) es una función que asigna a cada valor de \(X\) un número real en el intervalo \([0,1]\) igual a la probabilidad de ocurrencia de ese valor, es decir, \(P(X=x)\). Como puede comprobarse con la tabla o con la gráfica, en este caso la distribución presenta simetría respecto del valor \(7\).

Pero considérese ahora otro ejemplo. Un estudiante debe rendir tres exámenes la semana que viene. Sea \(X\) el número de exámenes que el estudiante aprueba, y suponiendo que esos exámenes serán de dificultad similar a otros que ha rendido en el pasado, la distribución de probabilidades que se puede estimar para \(X\) resulta ser:

Número de exámenes aprobados por el estudiante.
\(X\) \(0\) \(1\) \(2\) \(3\)
\(P\) \(0.05\) \(0.10\) \(0.15\) \(0.70\)

Con la respectiva gráfica:

En este caso la distribución de probabilidades es fuertemente asimétrica: lo más probable es que el estudiante apruebe todos sus exámenes o que a lo sumo falle en uno.

Función masa de probabilidad

En los dos ejemplos dados, la variable aleatoria es discreta, por lo que solamente puede tomar valores en el conjunto de los números enteros -o en un subconjunto de él- con determinadas probabilidades no nulas. La función que asocia cada valor \(x_i\) de \(X\) con su correspondiente probabilidad, es decir, con \(P(X=x_i)=p_i\), se denomina en estos caso función masa de probabilidad (fmp).

Por definición de probabilidad:

\[ \sum_{i=1}^{\infty}P(x_i)=1 \]

El límite superior en general es \(\infty\), pero en muchos casos concretos la suma en realidad es finita porque las \(p_i\) se anulan a partir de algún entero. Por ejemplo, en el caso de la tirada de los dados es cero la probabilidad de que \(X\) tome cualquier valor igual o mayor que \(13\).

Por cierto, la fmp por lo general se representa con una gráfica de puntos, no de barras, para remarcar el hecho de que la función solamente toma valores no nulos en los números enteros y no en un intervalo centrado en ellos. Para el ejemplo de la tirada de dos dados:

Para el ejemplo del estudiante que va a rendir tres exámenes:

Función de densidad de probabilidad

Como ya se ha señalado, muchas variables aleatorias no son discretas, sino continuas, es decir, pueden tomar cualquier valor real, al menos dentro de un cierto rango. Por ejemplo: la temperatura o la humedad en un determinado ambiente, el largo del siguiente pez que atrapará un pescador, el tiempo que le llevará a un corredor completar una carrera, etc.

Por ejemplo, supóngase que en proceso la probabilidad de que la temperatura se mantenga dentro del rango de \(20\) a \(25\) grados Celsius es uniforme y que fuera de esos valores varía de manera lineal hasta hacerse cero a los \(15\) y a los \(30\) grados, y así se mantiene fuera de ese rango.

La función de densidad es la graficada en azul. Además, en la misma gráfica se ha señalado en un celeste muy tenue el área bajo la curva, que no es parte de la función pero que obviamente se relaciona con ella, por lo que se explica en el siguiente párrafo.

¿Cómo se sabe que la altura máxima de la curva es \(0.10\)? Porque el área bajo la curva tiene que ser igual a la probabililad del espacio muestral, es decir, igual a \(1\), ya que \(X\) debe tomar algún valor entre \(15\) y \(30\) grados. Nótese lo siguiente: en este caso no puede asignarse ningún valor a la probabilidad de que \(X\) tome un determinado valor con infinita exactitud -el área bajo tal punto de la curva sería nula, por serlo su amplitud-, sino que la probabilidad debe asociarse necesariamente a un intervalo -que eventualmente puede ser de una amplitud muy pequeña, pero no nula-. Y si se lo piensa, también en la realidad física es imposible conocer con absoluta exactitud una temperatura o el valor de cualquier otra variable continua; solamente se puede determinar que se encuentra dentro de un cierto intervalo como por ejemplo \([20,21]\) o \([20,20.1]\) o \([20, 20.01]\), o el que fuera, dependiendo de la precisión del instrumento empleado para hacer la medición. La probabilidad no se encuentra concentrada en los números enteros, sino distribuidad con diferente densidad entre infinitos números reales, razón por la que no se la llama función masa de probabilidad como en el caso de las variables aleatorias discretas, sino función de densidad de probabilidad (fdp).

Por definición de probabilidad:

\[ \int_{-\infty}^{\infty}f(x)\,dx=1 \]

Si se quisiera determinar, por ejemplo, la probabilidad de que la temperatura estuviera entre \(23\) y \(23.7\) grados, el resultado sería:

\[ \int_{23}^{23.7}0.10\,dx=0.10\,x\Big|_{23}^{23.7}=0.10\times0.7=0.07 \]

Nótese que la expresión del lenguaje común «la probabilidad de que la temperatura estuviera entre \(23\) y \(23.7\) grados» no precisa del todo bien si se refiere al intervalo cerrado \([23,23.7]\) o al abierto \((23,23.7)\), pero no importa, porque el resultado de la integral es el mismo en los dos casos.

Se deja como ejercicio al lector demostrar que el área total bajo la curva efectivamente es \(1\).

Función de distribución acumulada

A menudo no interesa tanto conocer la probabilidad de que una variable aleatoria tome precisamente un determinado valor, sino que éste sea menor o igual que algún máximo (o mayor o igual que algún mínimo). Por ejemplo, se desea que el número de piezas defectuosas en un lote sea como máximo \(2\), o que el tiempo de vida útil de un dispositivo sea al menos de \(5000\) horas.

En el ejemplo del estudiante, la probabilidad de aprobar como máximo \(2\) exámenes, es decir, \(P(X\le2)\), es \(0.30\); mientras que la de aprobar menos de dos exámenes, \(P(X<2)\), es de \(0.15\). En cambio, en el ejemplo de la temperatura, la probabilidad de que la variable aleatoria sea menor o igual que \(27\) grados Celsius es igual a la probabilidad de que sea menor que \(27\) grados Celsius. En otras palabras, la diferencia entre menor y menor o igual (o entre mayor y mayor o igual) importa en el caso de variables aleatorias discretas, pero no en las continuas. Esto se entiende fácilmente al considerar las diferencias entre las fmp de las variables discretas y las fdp de las continuas.

La función que describe la probabilidad de que \(X\) tenga un valor menor o igual que \(x\) se denomina función de distribución acumulada (FDA), aunque también es habitual llamarla simplemente función de distribución, lo que puede dar lugar a confusiones si no se domina la terminología de este tema. Formalmente, \(F:\mathbb{R}\to[0,1]\) dada por \(F(x)=P(X\le x)\).

En el ejemplo de los exámenes del estudiante:

\[ F(2)=0.05+0.10+0.15=0.30 \]

En el de la temperatura:

\[ F(21)=\int_{-\infty}^{21}f(x)\,dx=\int_{15}^{21}f(x)\,dx=0.35 \]

Las gráficas de las FDA correspondientes a esos dos ejemplos son:

Con el concepto de función de distribución, el ejercicio planteado antes de determinar la probabilidad de que la temperatura estuviera entre \(23\) y \(23.7\) grados puede resolverse como la diferencia entre dos valores de probabilidad acumulada:

\[ P(23\le X\le23.7)=F(23.7)-F(23)=0.62-0.55=0.07 \]

Esperanza de una variable aleatoria

En todos los casos anteriores, una pregunta pertinente sería qué valor cabría esperar para las variables aleatorias en promedio si los respectivos experimentos aleatorios se repitieran un gran número de veces (idealmente, infinitas veces).

En el caso del estudiante, cabría esperar que el \(5\%\) de las veces no aprobara ningún examen; el \(10\%\) de las veces, solamente uno, el \(15\%\) de las veces, dos, y, por último, el \(70\%\) de las veces, los tres. Los acontecimientos “no aprueba ningún examen”, “aprueba exactamente un examen”, “aprueba exactamente dos examenes” y “aprueba los tres examenes” son mutuamente excluyentes y los correspondientes valores de la variable aleatoria número de exámenes aprobados son \(\{0,1,2,3\}\). Si se multiplican estos valores por sus respectivas probabilidades y se suman, se obtiene el valor esperado o esperanza de la variable y se denota habitualmente \(E(X)\), aunque existen también varias notaciones alternativas, tales como \(\mathbb{E}(X)\), \(E[X]\), \(\mathbb{E}[X]\) y \(\mu_X\), entre otras. Entonces, para variables aleatorias discretas:

\[ E(X)=\sum_{i=1}^{\infty}x_i\cdot p_i \]

La suma se ha expresado hasta infinito porque la la variable aleatoria podría eventualmente tomar infinitos valores enteros, pero como se ha dicho en ocasiones anteriores, si a partir de un cierto número las probabilidades son nulas, la suma pasa a ser finita. En el ejemplo dado:

\[ E(X)=0\times0.05+1\times0.10+2\times0.15+3\times0.70=2.5 \]

En el largo plazo y en promedio, el estudiante puede esperar aprobar dos examenes y medio, que no es un valor posible para la variable aleatoria, pero tampoco tiene por qué serlo, ya que se trata de un valor obtenido por medio de un cálculo, no de un valor observado.

Se deja como ejercicio al lector comprobar que el valor esperado para el caso de la suma de dos dados es \(7\), que en ese caso sí es un valor que puede obtenerse en una tirada y que es intuitivamente obvio por la simetría centrada en \(7\) de su fmp.

En el caso de una variable continua, y suponiendo que su función de densidad sea continua o al menos Riemann integrable, la esperanza se calcula como:

\[ E(X)=\int_{\mathbb{R}}x\cdot f_X(x)\,dx, \]

donde \(f_X(x)\) es la función de densidad de \(X\) y la integral se calcula sobre todo el conjunto de los números reales (otra forma de señalar que los límites inferior y superior de integración son \(-\infty\) y \(+\infty\), respectivamente), aunque los límites podrían estar acotados a un cierto intervalo \(I\) si la función de densidad se anula fuera de él.

En el ejemplo de la temperatura:

\[ \begin{align*} E(X)&=\int_{\mathbb{R}}x\cdot f_X(x)\,dx\\ &=\int_{15}^{30}x\cdot f_X(x)\,dx\\ &=\int_{15}^{20}x\cdot 0.02(x-15)\,dx+\int_{20}^{25}x\cdot 0.10\,dx+\int_{25}^{30}x\cdot (-0.02)(x-30)\,dx\\ \end{align*} \]

Se deja como ejercicio completar los cálculos y comprobar que \(E(X)=22.5\).

Propiedades de la esperanza de una variable aleatoria

A continuación se enuncian, sin demostración, algunas de las propiedades más importantes de la esperanza matemática:

  1. Si \(X=c\), con \(c\in\mathbb{R}\), entonces \(E(c)=c\). En este caso, \(X\) solamente puede tomar un valor, o, en otras palabras, es en realidad determinística, por lo que se la llama variable aleatoria degenerada. Nótese que el punto \(c\) es todo el recorrido de \(X\); no confundir con un valor constante de \(P(X)\) (lo que se denomina distribución uniforme).

  2. Linealidad. La propiedad de linealidad implica que si \(X\) e \(Y\) son dos variables aleatorias y \(c\in\mathbb{R}\) es una constante real, entonces:

    1. \(E(cX)=c\, E(X)\).

    2. \(E(X+Y)=E(X)+E(Y)\).

  3. No negatividad. Si \(X\ge0\), entonces \(E(X)\ge0\).

  4. Monotonía. Si \(X\ge Y\), entonces \(E(X)\ge E(Y)\).

  5. En general, \(E(XY)\ne E(X)\,E(Y)\). Si se cumple la igualdad, es decir, si \(E(XY)=E(X)\,E(Y)\), entonces se dice que las variables aleatorias \(X\) e \(Y\) son independientes.

En todos los casos, estas propiedades son válidas bajo el supuesto de que las esperanzas existen y son finitas.

Varianza de una variable aleatoria

En el ejemplo de la suma de dos dados se encontró que la esperanza matemática de \(X\) es \(E(X)=7\). Supóngase que en lugar de dados normales se usan dos dados modificados: el primero presenta el \(5\) en todas sus caras y el segundo, el \(2\) también en todas sus caras. En tal caso, el recorrido de la nueva variable aleatoria, \(Y\), sería solamente un punto: \(Y=7\) y se estaría en el caso de una variable aleatoria degenerada (variable que en realidad es determinística, porque tiene un único valor posible). Asismismo, podría pensarse en dados modificados de otra forma para favorecer la concentración de valores alrededor del \(7\), sin llegar a este extremo. Pero a los fines de lo que interesa discutir aquí, la cuestión es que ambas variables tienen la misma esperanza, es decir, \(E(X)=E(Y)=7\). ¿Significa esto que sus distribuciones son iguales? De ninguna manera, porque si se repite muchas veces el experimento con los dados normales los distintos resultados posibles entre \(2\) y \(12\) aparecerán con frecuencias relativas similares a sus probabilidades teóricas, mientras que con los dados modificados el resultado será siempre \(7\).

Obsérvese que las escalas verticales de las dos gráficas son diferentes.

La medida de tendencia central (la esperanza) no es suficiente para caracterizar una distribución, por lo que conviene considerar también otras; para empezar, medidas de dispersión.

La varianza de \(X\), denotada habitualmente \(\mathrm{Var}(X)\) o también \(\sigma_X^2\), se define conceptualmente como:

\[\mathrm{Var}(X)=E\left[(X-\mu_X)^2\right],\] donde la esperanza de \(X\) se ha denotado \(\mu_X\) en lugar de \(E(X)\) para facilitar la notación. En otras palabras, es el valor esperado de los cuadrados de las diferencias entre los valores de \(X\) y su media. Si se desarrolla el cuadrado y se aplican las propiedades de la esperanza (recordando que \(\mu_X=E(X)\) es un parámetro de la distribución y, por lo tanto, una constante) puede demostrarse fácilmente que: \(\mathrm{Var}(X)=E(X^2)-\mu_X^2\), que es una fórmula más adecuada para hacer el cálculo.

Por ejemplo, para el caso del estudiante se había encontrado ya que \(E(X)=\mu_X=2.5\), por lo tanto:

\[ \mathrm{Var}(X)=0^2\times0.05+1^2\times0.10+2^2\times0.15+3^2\times0.70-(2.5)^2=0.75 \]

Se deja como ejercicio al lector calcular la varianza empleando la fórmula conceptual y comprobar que el resultado es el mismo.

En general, las fórmulas conceptuales y de cálculo para el caso discreto son:

\[ \mathrm{Var}(X)=\sum_{i=1}^{\infty}\left(x_i-\mu_X\right)^2=\left(\sum_{i=1}^{\infty}x_i^2\right)-\mu_X^2 \]

Y para el caso continuo:

\[ \mathrm{Var}(X)=\int_{\mathbb{R}}(x-\mu_X)^2\cdot f_X(x)\,dx=\int_{\mathbb{R}}x^2\cdot f_X(x)\,dx-\mu_X^2 \]

Propiedades de la varianza de una variable aleatoria

A continuación se enuncian, también sin demostración, algunas de las propiedades más importantes de la varianza:

  1. Si \(X=c\), con \(c\in\mathbb{R}\), entonces \(\mathrm{Var}(c)=0\). Como ya se ha dicho, en este caso, \(X\) es una variable aleatoria degenerada.

  2. Si \(c\in\mathbb{R}\) es una constante real, entonces \(\mathrm{Var}(cX)=c\, \mathrm{Var}(X)\).

  3. No negatividad. \(\mathrm{Var}(X)\ge0\), y la varianza solamente es cero si \(X\) es una variable aleatoria degenerada.

  4. En general, \(\mathrm{Var}(X+Y)\ne \mathrm{Var}(X)+\mathrm{Var}(Y)\). La igualdad se cumple, es decir, \(\mathrm{Var}(X+Y)=\mathrm{Var}(X)+\mathrm{Var}(Y)\), si y sólo si las variables aleatorias \(X\) e \(Y\) son independientes.

  5. \(\mathrm{Var}(X)=E\left[\mathrm{Var}(X\vert Y)\right]+\mathrm{Var}\left[E(X\vert Y)\right]\), donde \(X\vert Y\) es la variable aleatoria condicional \(X\) dada \(Y\).

En todos los casos, estas propiedades son válidas bajo el supuesto de que las esperanzas y las varianzas existen y son finitas.