VARIABLE ALEATORIA

Distribuciones de probabilidad

Autor/a
Afiliación
Fecha de publicación

20 de abril de 2024

• Paqueteria / Libreria

Aquí encontraras la paquetería y librería necesaria para este HTML.

PAQUETERIA

A continuación encontraras la lista de los paquetes que debes instalar:

  • install.packages(tidyverse)

  • install.packages(kableExtra)

  • install.packages(agricolae)

  • install.packages(RColorBrewer)

  • install.packages(ggplot2)

  • install.packages(devtools)

  • install.packages(usethis)

  • install.packages(dplyr)

  • install.packages(MASS)

LIBRERIAS
Código
library(tidyverse)
library(kableExtra)
library(agricolae)
library(RColorBrewer)
library(ggplot2)
library(devtools)
library(usethis)
library(dplyr)
library(MASS)

(Wickham et al. 2019, 2022, 2024, 2023; Zhu 2024; Mendiburu 2023; Neuwirth 2022; Wickham 2016; Venables y Ripley 2002)

• Introducción

En el desarrollo de técnicas de inferencia estadística, establecer una asociación directa entre los resultados de un experimento aleatorio y números reales es crucial. Esta asociación facilita el análisis de las características de interés, lo que permite un enfoque más productivo.

Dependiendo de si la variable resultante es discreta (puede adoptar un número finito o una infinidad enumerable de valores) o continua (los valores están en una escala continua de medición), es posible describir su comportamiento probabilístico mediante la función de probabilidad o la función de densidad, respectivamente.

Además, estas funciones nos permiten calcular una variedad de medidas, como la tendencia central, a nivel “poblacional”. En este contexto, estas medidas se denominan parámetros.

• Objetivos

  1. Apropiarse del concepto de variable aleatoria.
  2. Relacionar resultados numéricos con experimentos aleatorios para análisis estadístico efectivo.
  3. Analizar comportamiento probabilístico de variables discretas y continuas, calculando medidas relevantes poblacionales.

• Variable aleatoria (v.a.)

Una variable aleatoria X es una función cuyo dominio es \Omega y recorrido \mathcal{R}, que asigna un único número real a cada resultado del espacio muestral \Omega de un experimento aleatorio. De tal forma que la inversa de X calculada en un subconjunto de los reales, siempre pertenece a \mathcal{A}.

X :\Omega \longrightarrow \mathbb{R}:\omega\longmapsto X(\omega)

Las variables aleatorias pueden ser de dos tipos dependiendo su recorrido:

• Discretas

Cuando su recorrido es numerable. Un buen ejemplo de variables discretas son los conteos, como el número de casos incidentes de SarsCov2 en un mes determinado.

Advertencia: Oprime sobre cada opción para mirar su definición.

Función de probabilidad

Función de probabilidad

Sea X una variable aleatoria discreta (v.a.d). que toma los valores x_1, x_2, \ldots (finitos o infinitos enumerables). Una función f_X : \mathbb{R} \longrightarrow [0,1] es una función de masa de probabilidad (f.m.p.) de X si y solo si:

f_X(x)= \begin{cases} \textsf{P}(X = x), & \text{si $x=x_1,x_2,\ldots$} \\ 0, & \text{en otro caso}. \end{cases}

donde:

(X=x)=\{w\in\Omega: X(w)=x\}, de tal forma que si x no es uno de los valores que toma la variable aleatoria X, entonces f_X(x) = 0.

Ejemplo

Continuando con el ejemplo anterior, se tiene que la función de masa de probabilidad de la variable es:

\begin{align*} f_X(0) &= \textsf{P}(X=0)=\textsf{Pr}((s,s,s))=\frac{1}{8}=0.125,\\ f_X(1) &= \textsf{P}(X=1)=\textsf{Pr}(\{(c,s,s), (s,c,s), (s,s,c)\}) =\frac{3}{8}=0.375, \\ f_X(2) &= \textsf{P}(X=2)=\textsf{Pr}(\{(s,c,c), (c,c,s), (c,s,c)\}) =\frac{3}{8}=0.375, \\ f_X(3) &= \textsf{P}(X=3)=\textsf{Pr}((c,c,c))=\frac{1}{8}=0.125. \\ \end{align*}

Concretamente, esta función está dada por:

f_X(x)= \begin{cases} 0.125, & \text{si $x=0,3$} \\ 0.375, & \text{si $x=1,2$} \\ 0, & \text{en otro caso}. \\ \end{cases}

Además, se observa que:

\sum_{k=1}^4 f_X(x_k) = f_X(0) + f_X(1) + f_X(2) + f_X(3) = 0.125+0.375+0.375+0.125 = 1

con: x_1=0, x_2=1, x_3=2, y, x_4=3

Las siguientes figuras presentan el gráfico de la función de masa de probabilidad de la variable X:

Código
# Valores de la variable
x <- 0:3
# Función de masa de probabilidad (f.m.p.)
fx <- c(1, 3, 3, 1)/8

# Crear la ventana gráfica con ejes
plot(NA, xlim = c(min(x), max(x)), ylim = c(0, max(fx)), xlab = "x", ylab = "f(x)")

# Dibujar las líneas verticales
for (i in 1:length(x)) {
  segments(x[i], 0, x[i], fx[i], lwd = 2, col = "blue")
  points(x[i], fx[i], pch = 15, col = "blue")
}

Código
# valores de la variable
x <- 0:3
# f.m.p.
fx <- c(1, 3, 3, 1)/8
# gráfico
plot(x = x, y = fx, xlab = "x", ylab = "f(x)", pch = 15, col = "blue")
segments(x0 = x, y0 = 0, x1 = x, y1 = fx, lwd = 2, col = "blue")

Propiedades

Propiedades Sea f_X una función de masa de probabilidad de una variable aleatoria discreta. X que asume los valores x1,x2,… definida sobre un espacio muestral \Omega no vacío. Entonces se satisface que:

f(x_k)\geqslant0, para todo valor x_k de X

\sum_{k} f(x_k) = 1

Ejemplo

Dada X: suma del lanzamiento de dos dados. Se sabe que su f.m.p está dada por:

f_X(x)=\frac{6-|7-x|}{36}\text{, }x=2,3,...,12

Calcular:

  1. P(X=3)=\frac{6-|7-3|}{36}=\frac{2}{36}
Código
f<-function(x) (6-abs(7-x))/36 
f(3)
[1] 0.05555556
  1. P(X\leq 4.5)=P(X\leq 4)=P(X=2\text{ o }X=3\text{ o }X=4)=f_X(2)+f_X(3)+f_X(4)=\frac{1}{36}+\frac{2}{36}+\frac{3}{36}=\frac{1}{6}
Código
f(2)+f(3)+f(4)
[1] 0.1666667
  1. P(3\leq X\leq 6)=f_X(3)+f_X(4)+f_X(5)+f_X(6)
Código
f(3)+f(4)+f(5)+f(6)
[1] 0.3888889
  1. P(3\leq X< 6)=f_X(3)+f_X(4)+f_X(5)
Código
f(3)+f(4)+f(5)
[1] 0.25

La distribución de probabilidad completa estaría dada por

Código
if (!requireNamespace("knitr", quietly = TRUE)) {
  install.packages("knitr")
}
library(knitr)

x <- 2:12

f <- function(x) {
  return(x^2 + 1)
}

fx <- f(x)

tabla <- cbind(x, fx)

colnames(tabla) <- c("Valor de x", "f(x)")

kable(tabla, align = "c", caption = "Tabla de valores de la variable y su función de probabilidad")
Tabla de valores de la variable y su función de probabilidad
Valor de x f(x)
2 5
3 10
4 17
5 26
6 37
7 50
8 65
9 82
10 101
11 122
12 145
Código
x <- 2:12

f <- function(x) {
  return(x^2 + 1)
}

fx <- f(x)

plot(x, fx, type = "b", xlab = "x", ylab = "f(x)", pch = 15, col = "blue")

segments(x, 0, x, fx, lwd = 2, col = "blue")

Código
library(ggplot2)

df <- data.frame(x = x, fx = fx)

ggplot(df, aes(x, fx)) +
  geom_point(color = "blue", shape = 15, size = 3) +
  geom_segment(aes(yend = 0), color = "blue", size = 1.5) +
  labs(x = "x", y = "f(x)", title = "Gráfico de f(x)") +
  theme_minimal() +
  theme(axis.title = element_text(size = 14),
        axis.text = element_text(size = 12),
        plot.title = element_text(size = 16, hjust = 0.5))

Función de distribución

Función de distribución

Sea X una v.a.d. que sume los valores x1,x2,… (finitos o infinitos enumerables). La función de distribución es aquella que calcula la probabilidad acumulada hasta un punto x, es decir, es la función F_X: \mathbb{R} \longrightarrow [0,1], definida por:

F_X(x) = \textsf{P}(X \leq x)= \sum_{t \leq x} f_X(t)

para cualquier número real x, cuando X tiene f.m.p. f_X.

Ejemplo

Volviendo al primer ejemplo, se tiene que:

\begin{align*} F_X(0) &= \textsf{P}(X \leq 0)= f_X(0) = \frac{1}{8}=0.125, \\ F_X(1) &= \textsf{P}(X \leq 1)= f_X(0) + f_X(1) =\frac{1}{8} + \frac{3}{8} =\frac{4}{8}= \frac{1}{2}=0.5, \\ F_X(2) &= \textsf{P}(X \leq 2)= f_X(0) + f_X(1) + f_X(2) =\frac{1}{8} + \frac{3}{8} + \frac{3}{8} = \frac{7}{8}=0.875,\text{y} \\ F_X(3) &= \textsf{P}(X \leq 3)= f_X(0) + f_X(1) + f_X(2) + f_X(3) =\frac{1}{8} + \frac{3}{8} + \frac{3}{8} + \frac{1}{8}= \frac{8}{8} = 1.\\ \end{align*}

Resumiendo:

F_X(x)= \begin{cases} 0, & \text{si $x < 0$}; \\ \frac{1}{8}, & \text{si $ 0 \leq x < 1$}; \\ \frac{4}{8}, & \text{si $ 1 \leq x < 2$}; \\ \frac{7}{8}, & \text{si $ 2 \leq x < 3$}; \\ 1, & \text{si $3 \leq x$}. \\ \end{cases}

Por ejemplo, si x = 2.7 entonces:

F_X(2.7) = \sum_{t \leq 2.7} f_X(t) = f_X(0) + f_X(1) + f_X(2) = 0.875.

El gráfico de F_X está dado por:

Código
x <- 0:3

fx <- c(1, 3, 3, 1)/8

Fx <- cumsum(fx)
plot(x = c(0, x), y = c(0, Fx), type = "s", xlab = "x", ylab = "F(x)", col = "blue", lwd = 2)
points(x, Fx, col = "blue", pch = 15)

Código
library(ggplot2)

x <- 0:3
fx <- c(1, 3, 3, 1)/8
Fx <- cumsum(fx)

df <- data.frame(x = c(0, x), Fx = c(0, Fx))

ggplot(df, aes(x, Fx)) +
  geom_step(color = "blue", size = 2) +
  geom_point(color = "blue", size = 3, shape = 15) +
  labs(x = "x", y = "F(x)") +
  theme_minimal()

Propiedades

Propiedades

Sea F_X una f.d.a. de una v.a.d. X definida sobre un espacio muestral \Omega no vacío. Entonces se satisface que:

Si x es un número real, entonces:

0 \leq F_X(x) \leq 1

Si x es un número real, entonces:

\textsf{P}(X>x)=1-F_X(x) \,\,\, \text{y} \,\,\, \textsf{P}(X\geq x)=1-F_X(x^-).

donde: x^{-} representa el máximo valor que puede asumir X estrictamente menor que x

Si x es un valor que puede asumir X, entonces:

f_X(x) = F_X(x) - F_X(x^{-}).

Si a y b son números reales tales que a \leq b entonces F_X(a) \leq F_X(b) es decir, F_X es una función creciente; y además se tiene que:

\textsf{P}(a \leq X \leq b) = F_X(b) - F_X(a^{-}) \quad \text{y} \quad \textsf{P}(a < X < b) = F_X(b^-) - F_X(a).

Ejemplo

La junta directiva de un hospital quiere mejorar su atención en el horario nocturno de los pacientes que necesitan de atención quirúrgica inmediata. Para esto, se quiere analizar la variable X dada por “número de pacientes que requieren de atención quirúrgica inmediata reportados entre las 19:00 y las 5:00”. El analista encargado asegura que la f.m.p. de X es:

f_X(x)=\left\{ \begin{array}{ll} \frac{ 7^x e^{-7}}{x!}, & \hbox{si $x=0,1,2,\ldots$} \\ 0, & \hbox{en otro caso.} \end{array} \right.

Se pide:

  1. Sabiendo que entre las 19:00 y las 5:00 el hospital solo tiene la capacidad de operar en 5 quirófanos, determinar el porcentaje de jornadas nocturnas en las que se puede atender a todos los pacientes que lleguen en la noche.

Para encontrar el porcentaje de noches en las que el hospital puede atender a todos sus pacientes entre las 19:00 y las 5:00, basta con calcular:

\textsf{Pr}(X\leq 5)=\sum_{x=0}^5 \frac{ 7^x e^{-7}}{x!}=0.3007,

y por lo tanto solo en el 30% de las noches el hospital puede atender a todos los pacientes que llegan en la jornada nocturna.

  1. ¿Cuántos pacientes, como máximo, requieren de atención quirúrgica inmediata, en el 50% de las noches el hospital?

En este caso requerimos calcular el percentil 50, p_{50} Evaluando en los valores de 0,1,2,\ldots se tiene que:

\begin{align*} \\& \textsf{P}(X\leq 0)=0.0009, \\& \textsf{P}(X\leq 1)=0.0072, \\& \textsf{P}(X\leq 2)=0.0296, \\& \textsf{Pr}(X\leq 3)=0.0817, \\&\hspace{2.2cm}\vdots \\& \textsf{Pr}(X\leq 6)=0.4497, \\& \textsf{Pr}(X\leq 7)=0.5987. \end{align*}

En consecuencia, se obtiene que p_{50}=7

Código
# Instalar y cargar el paquete necesario
if (!requireNamespace("knitr", quietly = TRUE)) {
  install.packages("knitr")
}
library(knitr)

# Valores de la variable
x <- 0:20
# Función de masa de probabilidad (f.m.p.)
fx <- (7^x) * exp(-7) / factorial(x)
# Función de distribución acumulada (F(x))
Fx <- cumsum(fx)

tabla <- cbind(x, Fx)

colnames(tabla) <- c("Valor de x", "F(x)")

kable(tabla, align = "c", caption = "Tabla de valores de la variable y su función de distribución acumulada")
Tabla de valores de la variable y su función de distribución acumulada
Valor de x F(x)
0 0.0009119
1 0.0072951
2 0.0296362
3 0.0817654
4 0.1729916
5 0.3007083
6 0.4497111
7 0.5987138
8 0.7290913
9 0.8304959
10 0.9014792
11 0.9466504
12 0.9730002
13 0.9871886
14 0.9942828
15 0.9975934
16 0.9990418
17 0.9996382
18 0.9998701
19 0.9999556
20 0.9999855
  1. Graficar la f.m.p y la función de distribución de X.
Código
x <- 0:20

fx <- (7^x)*exp(-7)/factorial(x)
Fx <- cumsum(fx)

par(mfrow = c(1, 2))

plot(x, fx, type = "b", xlab = "x", ylab = "f(x)", pch = 15, col = "blue")
segments(x, 0, x, fx, lwd = 2, col = "blue")

plot(c(0, x), c(0, Fx), type = "s", xlab = "x", ylab = "F(x)", col = "blue", lwd = 2)
points(x, Fx, col = "blue", pch = 15)

Código
library(ggplot2)

# valores de la variable
x <- 0:20
# f.m.p.
fx <- (7^x)*exp(-7)/factorial(x)
Fx <- cumsum(fx)

df1 <- data.frame(x = x, fx = fx)

df2 <- data.frame(x = c(0, x), Fx = c(0, Fx))

ggplot(df1, aes(x, fx)) +
  geom_line(color = "blue") +
  geom_point(color = "blue", shape = 15) +
  labs(x = "x", y = "f(x)", title = "Función de Masa de Probabilidad") +
  theme_minimal()

Código
ggplot(df2, aes(x, Fx)) +
  geom_step(color = "red") +
  geom_point(color = "red", shape = 15) +
  labs(x = "x", y = "F(x)", title = "Función de Distribución Acumulada") +
  theme_minimal()

• Continúas

Cuando su recorrido es no numerable, es decir cuando entre dos valores de la variable hay infinitos posibles valores de ésta, como por ejemplo la longitud(m) y la temperatura (°C).

Cuando la variable objeto de estudio es continua, no tiene sentido hacer una suma de las probabilidades de cada uno de los valores de la variable como con las variables discretas, ya que el conjunto de valores que toma una variable continua es no numerable. En este caso, se generalizan de modo natural los conceptos, empleando la integral \int en lugar de la suma \sum.

Una función f_X : \mathbb{R} \longrightarrow [0,\infty) se dice que es una función de densidad de probabilidad (f.d.p.) de una v.a.c. X si satisface las siguientes condiciones:

  1. f_X(x)\geq 0 para todo x \in \mathbb{R}

  2. Para cualquier par de números reales a y b tales que a\leq b, se tiene que:

\textsf{P}(a \leq X \leq b) = \int_{a}^{b} f_X(x) dx.

  1. El área bajo toda la gráfica de f_X es 1, esto es:

\int_{-\infty}^{+\infty} f(x)\, dx = 1.

Advertencia: Oprime sobre cada opción para mirar su definición.

Ejemplo

Ejemplo

Suponga que X: tiempo de ejecución de un proceso en minutos, tiene la siguiente función de densidad:

f_X(x)=\frac{1}{15}e^{-\frac{1}{15}x}I_{(0,\infty)(x)}

Calcular la probabilidad de que el tiempo de ejecución sea menos de 10 minutos.

Nos piden calcular P(X<10), es decir, el área bajo la curva de la función de densidad entre 0 y 10:

Código
#función de densidad
fx<-function(x) 1/15*exp(-1/15*x)
curve(expr = fx, from = 0, to = 20, xlab = "x", ylab = "f(x)", col = "blue", lwd = 2)
abline(v=0, col="light blue")
abline(v=10, col="light blue")

INSTALAR EL PAQUETE “PRACMA” EN LA CONSOLA DE R

Código
#área bajo la curva
library(pracma)
integral(fx,0,10)
[1] 0.4865829
Función de distribución

La función de distribución de una v.a.c. X con función de densidad es f_X, es la función: F_X : \mathbb{R} \longrightarrow [0,1] definida por:

F_X(x) = \textsf{P}(X \leq x)=\int_{-\infty}^{x} f(x)\, dx

para todo número real x

Propiedades

Propiedades

Si F_X es una función de distribución de una v.a.c. X, entonces se satisfacen las siguientes propiedades:

  1. Si x es un número real, entonces 0 \leq F_X(x) \leq 1, y además:

\lim_{x\rightarrow -\infty} F_X(x)=0 \quad\text{y}\quad \lim_{x\rightarrow \infty} F_X(x)=1

  1. Si x es un número real, entonces:

\textsf{P}(X = x) = 0 \quad\text{y}\quad \textsf{P}(X \geq x) = \textsf{P}(X > x) = 1 - F_X(x)

  1. Si a y b son dos números reales tales que a \leq b, entonces F_X(a) \leq F_X(b), es decir F es creciente; y además se tiene que:

\textsf{P}(a \leq X \leq b) = \textsf{P}(a \leq X < b) = \textsf{P}(a < X \leq b) = \textsf{P}(a < X < b)=F_X(b)-F_X(a)

  1. Si f_X es la f.d.p. de X, entonces:

f_X(x) = \frac{d}{dx}F_X(x)=F'_X(x)

donde F'_X(x) es la derivada de F_X(x) respecto a x.

Ejemplo

Continuando con el ejemplo del tiempo de ejecución de una tarea, grafique la función de distribución.

Código
# f.d.p.
fx<-function(x) 1/15*exp(-1/15*x)
# función de distribución
Fx <- function(x) 1 - exp(-1/15*x)
# gráfica
curve(expr = Fx, from = 0, to = 10, xlab = "x", ylab = "F(x)", col = "blue", lwd = 2)

• Medidas de localización

Sea X una v.a.c. con f.d.a. F_X Y p un número real tal que 0\leq p\leq 100, El percentil p de la distribución de X, denotado con \pi_p, es un valor de X tal que:

\frac{p}{100}=F_X(\pi_p) El percentil p de una variable continua X con 0\leq p\leq 100, corresponde al valor del eje de medición de X tal que el p% del área bajo la gráfica de la f.d.p. de X está a la izquierda de \pi_p y el (100 - p)\% está a la derecha.

Como antes, el percentil 50 se denomina mediana y se simboliza con \tilde{\mu}_X

• Valor esperado

Sobre la distribución de una v.a. se acostumbra registrar algunas características de interés, denominadas parámetros, como la la localización y la dispersión, por ejemplo.

Sea X una v.a. con f.m.p. f_X para el caso discreto o con f.d.p. f_X para el caso continuo. El valor esperado de X se define como:

\begin{equation*} \mathbb{E}[X]=\mu_X= \left\{ \begin{array}{ll} \sum_{k} x_k f_X(x_k), & \hbox{si $X$ es una v.a.d.} \\ \int_{-\infty}^{\infty} x f_X(x)dx, & \hbox{si $X$ es una v.a.c.} \end{array} \right. \end{equation*}

En general, si g:\mathbb{R} \longrightarrow \mathbb{R} es una función entonces se tiene que el valor esperado de g(X) se define como:

\begin{equation*} \mathbb{E}[g(X)]= \left\{ \begin{array}{ll} \sum_{k} g(x_k) f_X(x_k), & \hbox{si $X$ es una v.a.d.} \\ \int_{-\infty}^{\infty} g(x) f_X(x)dx, & \hbox{si $X$ es una v.a.c.} \end{array} \right. \end{equation*}

Advertencia: Oprime sobre cada opción para mirar su definición.

Propiedades

Sea X una v.a. y a, b números reales. Entonces se tiene que:

  1. \mathbb E[a] = a.

  2. \mathbb E[a\,X + b] = a\,\mathbb E[X] + b.

  3. Si a_1,a_2\ldots,a_n son n números reales y X_1,X_2,\ldots,X_n son n v.a.’s conmensurables entonces:

\mathbb E\left[ \sum_{i=1}^n a_i X_i\right] = \sum_{i=1}^n a_i \mathbb E[X_i]

Ejemplo 1

Retomemos el ejemplo en el que X es el “número de caras obtenido” al final de los tres lanzamientos. Para éste encontramos que:

f_X(x)= \begin{cases} 0.125, & \text{si $x=0,3$}; \\ 0.375, & \text{si $x=1,2$}; \\ 0, & \text{en otro caso}. \\ \end{cases}

De tal forma que:

\mathbb{E}[X]=\sum_{k} x_k f_X(x_k)=0\times 0.125+1\times 0.375+2\times 0.375+3\times 0.125=1.5

Código
x <- 0:3
# f.m.p.
fx <- c(1, 3, 3, 1)/8
#valor esperado
Ex<-sum(x*fx)
print(Ex)
[1] 1.5
Ejemplo 2

La v.a. que representa la “proporción de accidentes automovilísticos fatales” en una ciudad, tiene la siguiente f.d.p.:

f_X(x) = \left\{ \begin{array}{ll} 42x(1-x)^5, & \hbox{si $0 < x \leq 1$;} \\ 0, & \hbox{en otro caso.} \end{array} \right.

Calcular e interpretar el valor esperado de X.

Como X es una v.a.c., entonces se sigue que:

\begin{align*} \mathbb{E}[X] &= \int_{-\infty}^{\infty}xf_X(x)dx \\ &=\int_{0}^{1}xf_X(x)dx \\ &=\int_{0}^{1}x \left(42x(1-x)^5\right)dx \\ &=42\int_{0}^{1}x^2(1-x)^5dx \\ &=42\int_{0}^{1}x^2(-x^5+5x^4-10x^3+10x^2-5x+1)dx \\ &=42\int_{0}^{1}(-x^7+5x^6-10x^5+10x^4-5x^3+x^2)dx \\ &=42\left( -\frac{1}{8}x^8+\frac{5}{7}x^7-\frac{10}{6}x^6+\frac{10}{5}x^5-\frac{5}{4}x^4+\frac{1}{3}x^3 \Big|_0^1 \right) \\ &=42\left(-\frac{1}{8}+\frac{5}{7}-\frac{10}{6}+\frac{10}{5}-\frac{5}{4}+\frac{1}{3}\right) \\&= \frac{1}{4}. \end{align*}

Por lo tanto, la proporción media de accidentes automovilísticos fatales es esta ciudad es 25%.

Para reflexionar ¿En dónde se ubicarían los promedios de las siguientes distribuciones?

Código
par(mfrow=c(1,2))
curve(dchisq(x, df = 4),col = 3, lwd = 2, from=0, to=9, ylab="f(x)", ylim=c(0,0.2))
curve(dnorm(x, mean=4, sd=2), col=2, lwd = 2, from=-1, to=9,ylab="f(x)")

• Varianza

Sea X una v.a. con f.m.p. f_X para el caso discreto o con f.d.p. f_X para el caso continuo. Se define la varianza de X como el segundo momento centrado alrededor de la medida de X, esto es:

\begin{equation*} \mathbb V[X] =\sigma^2_X= \left\{ \begin{array}{ll} \sum_{k}(x_k-\mu_X)^2f_X(x_k), & \hbox{si $X$ es una v.a.d.;} \\ \int_{-\infty}^{\infty}(x-\mu_X)^2f_X(x)dx, & \hbox{si $X$ es una v.a.c.} \end{array} \right. \end{equation*}

donde \mu_X es el valor esperado de X.

Si X es una v.a., entonces se satisface que:

\mathbb V[X]= \mathbb E[X^2]-\left(\mathbb E[X]\right)^2

Advertencia: Oprime sobre cada opción para mirar su definición.

Propiedades

Sea X una v.a. y a, b números reales. Entonces se tiene que:

  1. \mathbb V[X]\geq 0

  2. \mathbb V[a]=0

  3. \mathbb V[X+a]=\mathbb V[X]

  4. \mathbb V[bX]=b^2\mathbb V[X], con k constante

  5. Si X_1, X_2,...,X_m son variables aleatorias independientes, \mathbb V[\sum_{i=1}^{m}X_j]=\sum_{i=1}^{m}\mathbb V[X_j]

• Desviación Estándar

Si X es una v.a. con media \mu_X y varianza \sigma^2_X, entonces la desviación estándar o desviación típica de X, denotada con \sigma_X se define como:

\sigma_X=\sqrt{\sigma_X^2}.

• Coeficiente de variación

Denotado con CV_X, está dado por:

CV_X = \left| \frac{\sigma_X}{\mu_X} \right|.

Advertencia: Oprime sobre cada opción para mirar su definición.

Ejemplo

Continuando con el ejemplo en el que X es el “número de caras obtenido” al final de los tres lanzamientos y su f.d.m está dada por:

f_X(x)= \begin{cases} 0.125, & \text{si $x=0,3$}; \\ 0.375, & \text{si $x=1,2$}; \\ 0, & \text{en otro caso}. \\ \end{cases}

El valor de la varianza está dado por:

\mathbb V[X]= \mathbb E[X^2]-\left(\mathbb E[X]\right)^2

Código
x <- 0:3
# f.m.p.
fx <- c(1, 3, 3, 1)/8
#valor esperado
Ex<-sum(x*fx)
#valor esperado x^2
Ex2<-sum(x^2*fx)
#varianza
Vx<-Ex2-(Ex)^2
print(Vx)
[1] 0.75
Código
#desviación estándar
print(sqrt(Vx))
[1] 0.8660254
Código
#coeficiente de variación
print(sqrt(Vx)/Ex*100)
[1] 57.73503

• Otras formas en R

Advertencia: Oprime sobre cada opción para mirar su definición.

Lanzamiento de tres monedas
Código
library(MASS)


Omega <- expand.grid(moneda_1 = 0:1, moneda_2 = 0:1, moneda_3 = 0:1) 
n.heads <- apply(Omega, 1, sum) 
cbind(Omega, n.heads) 
  moneda_1 moneda_2 moneda_3 n.heads
1        0        0        0       0
2        1        0        0       1
3        0        1        0       1
4        1        1        0       2
5        0        0        1       1
6        1        0        1       2
7        0        1        1       2
8        1        1        1       3
Código
T1 <- table(n.heads)/length(n.heads) 
fractions(T1) 
n.heads
  0   1   2   3 
1/8 3/8 3/8 1/8 
Código
plot(T1, xlab = "x", ylab="P(X = x)", yaxt = "n", main = "PDF for X") 
axis(2, at = c(1/8, 3/8), labels = c("1/8", "3/8"), las = 1) 

Código
plot(ecdf(n.heads), main = "CDF for X", ylab = "F(x)", xlab = "x", yaxt = "n") 
axis(2, at = c(1/8, 4/8, 7/8, 1), labels = c("1/8", "4/8", "7/8", "1"), las = 1) 

¿Es justo el juego?

Participas en un juego donde se hace girar una rueda que puede aterrizar en los números 1, 5, o 30, con probabilidades de 0.50, 0.45, y 0.05 respectivamente.

Debes pagar $5 para jugar y se te otorga la cantidad de dinero indicada por el número donde cae la flecha giratoria.

El juego es justo cuando el retorno esperado es igual al costo de participar en el juego.

Código
x <- c(1, 5, 30) # pagos X 
px <- c(0.5, 0.45, 0.05) # probabilidades p(x) 
EX <- sum(x * px) 
WM <- weighted.mean(x, px) 
c(EX, WM) 
[1] 4.25 4.25

A partir del ejemplo anterior, considere que la variable aleatoria Y es definida como el rendimiento neto del jugador, es decir, Y = X-5, ya que el jugador paga $5 para jugar el juego.¿Cuál es el valor esperado de Y?

Código
x <- c(1, 5, 30) # pagos X 
px <- c(0.5, 0.45, 0.05) # probabilidades p(x) 
EX <- sum((x - 5) * px) 
WM <- weighted.mean((x-5), px) 
c(EX, WM) 
[1] -0.75 -0.75
Ventas de una laptop

Una tienda vende un modelo de computadora portátil. Hay sólo cuatro computadoras en existencia y la gerente se pregunta cuál será la demanda de hoy para este modelo en particular. Ella se entera en el departamento de marketing que la distribución de probabilidad para X, la demanda diaria para la laptop, es la siguiente:

X 0 1 2 3 4 5
P(x) 0.10 0.40 0.20 0.15 0.10 0.05

Encuentre la media, varianza y la desviación estándar de X

¿Es probable que 5 o más clientes deseen comprar una laptop hoy?

Código
x <- c(0:5) # Laptops vendidas 
px <- c(0.10, 0.40, 0.20, 0.15, 0.10, 0.05) # probabilidades p(x) 
EX <- sum(x * px) 
m_x <- EX 
E_varX <- sum((x - m_x)^2 * px) 
WM_varX <- weighted.mean((x - m_x)^2, px) 
c(E_varX, WM_varX) 
[1] 1.79 1.79
Código
barplot(px, ylab = 'p(x)', names.arg = x) 

• Ejercicios Resueltos Variables Aleatorias Unidimensionales

Aquí encontrarás ejercicios resueltos del libro Variables Aleatorias Unidimensionales, los ejercicios escogidos son el 4, 9, 15 y 24.

Advertencia: Revisa la solución del ejercicio clickeando donde dice “Solución”.

Ejercicio 4

Al lanzar cuatro monedas se considera el número de escudos obtenidos. De la variable aleatoria X así obtenida, se pide:

  • Ley de probabilidad. Representación gráfica

  • Función de distribución. Representación gráfica

  • Esperanza matemática y varianza

  • Mediana y moda de la distribución

  • Probabilidad de obtener más de uno y menos de tres escudos

Solución A

Sea X = ‘número de escudos en la tirada de cuatro monedas’

Código
library(knitr)

moneda <- c("c", "e")

Omega <- expand.grid(Moneda1 = moneda,
                     Moneda2 = moneda,
                     Moneda3 = moneda,
                     Moneda4 = moneda)

kable(Omega, align = "c", caption = "Conjunto Omega")
Conjunto Omega
Moneda1 Moneda2 Moneda3 Moneda4
c c c c
e c c c
c e c c
e e c c
c c e c
e c e c
c e e c
e e e c
c c c e
e c c e
c e c e
e e c e
c c e e
e c e e
c e e e
e e e e
Código
library(knitr)

valores_X <- c(0, 1, 2, 3, 4)
probabilidades <- c("1/16", "4/16", "6/16", "4/16", "1/16")

tabla_X <- data.frame(X = valores_X, `P(X)` = probabilidades)

kable(tabla_X, align = "c", caption = "Valores de X y sus probabilidades correspondientes en fracciones")
Valores de X y sus probabilidades correspondientes en fracciones
X P.X.
0 1/16
1 4/16
2 6/16
3 4/16
4 1/16

La ley de probabilidad o función de cuantía:

Código
library(knitr)

valores_X <- 0:4
probabilidades <- c("1/16", "4/16", "6/16", "4/16", "1/16")

tabla_X <- data.frame(X = valores_X, `P(X)` = probabilidades)

kable(tabla_X, align = "c", caption = "Valores de X y sus probabilidades correspondientes")
Valores de X y sus probabilidades correspondientes
X P.X.
0 1/16
1 4/16
2 6/16
3 4/16
4 1/16
Solución B
Código
library(knitr)

valores_X <- 0:4

probabilidades <- c("1/16", "4/16", "6/16", "4/16", "1/16")

probabilidades_fraccion <- sapply(probabilidades, function(x) eval(parse(text = x)))

frecuencia_acumulada <- cumsum(probabilidades_fraccion)

tabla_X <- data.frame(X = valores_X, `P(X)` = probabilidades, `Frecuencia Acumulada` = probabilidades_fraccion)

kable(tabla_X, align = "c", caption = "Valores de X, sus probabilidades y frecuencia acumulada")
Valores de X, sus probabilidades y frecuencia acumulada
X P.X. Frecuencia.Acumulada
0 1/16 0.0625
1 4/16 0.2500
2 6/16 0.3750
3 4/16 0.2500
4 1/16 0.0625
Código
library(ggplot2)
library(MASS)

valores_X <- 0:4

probabilidades <- c("1/16", "4/16", "6/16", "4/16", "1/16")

datos <- data.frame(X = valores_X, Probabilidad = probabilidades_fraccion)

ggplot(datos, aes(x = X, y = Probabilidad)) +
  geom_bar(stat = "identity", fill = "skyblue", color = "black") +
  labs(title = "Ley de Probabilidad", x = "Valores de X", y = "Probabilidad") +
  theme_minimal()

Código
library(ggplot2)

valores_X <- 0:4

probabilidades <- c("1/16", "4/16", "6/16", "4/16", "1/16")

probabilidades_fraccion <- sapply(probabilidades, function(x) eval(parse(text = x)))

fda <- cumsum(probabilidades_fraccion)

datos <- data.frame(X = valores_X, FDA = fda)

ggplot(datos, aes(x = X, y = FDA)) +
  geom_step(color = "blue", size = 1.5) +
  labs(title = "Función de Distribución Acumulada (FDA)", x = "Valores de X", y = "F(x)") +
  theme_minimal()

Solución C

Media: \alpha_{1}=\upsilon_{x}=E(X)=\sum_{5}^{i=1}x_{i}*P(X=x_{1})=2 \alpha_{2}=E(X^{2})=\sum_{5}^{i=1}x_{i}*P(X=x_{1})=5

Varianza

\sigma^{2}_{x}=Var(X)=\alpha_{2}-\alpha^{2}_{1}=5-2^{2}=1

Solución D

Observando la ley de probabilidad la moda es M_{d}=2

Observando la función de distribución la mediana es M_{e}=2 por ser F(x=2)=11/16 el primer valor que iguala o deja por debajo a 0.5

Solución E

P(1\lt X\lt 3)=P(X=2)=\frac{6}{16}=0,375 o bien P(1\lt X\lt 3)=F(2)-F(1)=\frac{11}{16}-\frac{5}{16}-\frac{6}{16}

Ejercicio 9

Se desea conocer el número de automóviles que se deben poner a la venta durante un periodo determinado para que se satisfaga una demanda media de 300 unidades con una desviación típica de 100 unidades, con una probabilidad no inferior al 75%.

Solución

Sea la variable aleatoria X = “número de automóviles a la venta”

\upsilon=300, \sigma=100

Según Chebyshev:

P[|X-\upsilon_{x}|\le k]\ge 1-\frac{\sigma^{2}}{\kappa^{2}}\longrightarrow P[\upsilon_{x}-k\le X\le \upsilon_{x}+k]\ge 1-\frac{\sigma^{2}}{k^{2}} P[300-k\le X\le 300+k]\ge 1-\frac{100^{2}}{k^{2}} 0,75=1-\frac{100^{2}}{k^{2}}\to\frac{100^{2}}{k^{2}}=0,25\to k^{2} =\frac{100^{2} }{0,25}\to k=\sqrt{\frac{100^{2}}{0,25}}=200 300+k=300+200=500automóviles

Ejercicio 15

Una variable aleatoria continua X tiene por función de distribución:

f(x)= \left\{ \begin{array}{cl} 0 : \ x \lt 0 \\ \frac{x^{2}}{2} : 0\le x\le 1 \\ 2x-\frac{x^{2}}{2}-1 : 1\lt x\le 2\\ 1 : x\gt 2 \end{array} \right.

Se pide:

a) Hallar la función de distribución y representarla

b) Media, varianza, desviación típica y coeficiente de variación

c) P=(\frac{1}{2}<\chi\le \frac{3}{2})

Solución A

La función de densidad es la derivada de la función de distribución en los puntos donde exista la derivada, entonces:

f(x)=\frac{dF(x)}{dx}= = \left\{ \begin{array}{cl} 0 \to x<0 \\ x\to 0\le x\le 1 \\ 2-x \to 1\lt 1\lt x\le 2 \\ 0 \to x>2 \end{array} \right. f(x)=\frac{dF(x)}{dx}= = \left\{ \begin{array}{cl} x \to 0\le x\le 1 \\ 2-x \to 1\lt x\le 2 \\ 0 \to Otros valores \end{array} \right.

Solución B

Media \alpha_{1}=\upsilon_{x}=E(X)\int_{-\infty}^{\infty }xf(x)dx=\int_{0}^{1}x.x.dx+\int_{1}^{2}x.(2-x).dx=\int_{0}^{1}x^{2}dx+\int_{1}^{2}(ex-x^{2})dx= =[\frac{x^{3}}{3}]^{1}_{0}+[x^{2}-\frac{x^{3}}{3}]=\frac{1}{3}+(4-\frac{8}{3})-(1-\frac{1}{3})=1 Varianza \sigma^{2}_{x}=\alpha^{2}-\alpha_{2}-\alpha^{2}_{1} \alpha^{2}=E(X^{2})=\int_{-\infty }^{\infty }x^{2}f(x)dx+\int_{0}^{1}x^{2}.x.dx+\int_{1}^{2}x^{2}.(2-x).dx=\int_{0}^{1}x^{3}dx+\int_{1}^{2}(2x^{2}-x^{3}).dx)= =\left[ \frac{x^{4}}{4}\right]^{1}_{0}+\left[ \frac{2x^{3}}{3}-\frac{x^{4}}{4}\right]^{2}_{1}=\frac{1}{4}+\left(\frac{16}{3}-\frac{16}{4}\right)-\left(\frac{2}{3}-\frac{1}{4}\right)=\frac{14}{12}=\frac{7}{6}

\sigma^{2}_{X}=\alpha_{2}-\alpha^{2}_{1}=\frac{7}{6}-1^{2}=\frac{1}{6}

Desviación típica: \sigma_{x}=\sqrt{\frac{1}{6}}=0,41

Coeficiente variación: CV_{x}=\frac{\sigma_{x}}{\upsilon_{x}}=\frac{0,41}{1}=0,41
Solución C P\left( \frac{1}{2}<\chi \le \frac{3}{2} \right)=F\left( \frac{3}{2}\right)-F\left( \frac{1}{2} \right)=\left( 2.\frac{3}{2}-\frac{(3/x)^{2}}{2}-1 \right)-\left( \frac{(1/2)^{2}}{2} \right)=3-\frac{9}{8}-1-\frac{1}{8}=\frac{3}{4}=0,75

Ejercicio 24

Sea X una variable aleatoria continua, cuya función de densidad es:

f_{x}(x)= \left\{ \begin{array}{cl} \frac{1}{2}\to -1\lt x\lt 1 \\ 0 \to \text{en otro caso} \end{array} \right.

Sea Y=X^{2} una transformación de la v.a. X

a) Calcular la función de densidad de la v.a. Y

b) Calcular la función de distribución de la v.a. Y

Solución

La transformación Y=X^{2} es derivable, pero no es estrictamente monótona, puesto que en el intervalo (-1, 0) la transformación es decreciente y en el intervalo (0, 1) es creciente. En este caso, hay que determinar la función de distribución de la variable aleatoria Y para el caso general de las transformaciones de una variable aleatoria.

Solución B

Cálculo de la función de distribución

F_{y}(y)=P\left[ Y\le y \right]=P\left[ X^{2}\le y \right]=P\left[ |X|\le \sqrt{y} \right]=P\left[ -\sqrt{y}\le x\le \sqrt{y}\right]=\int_{-\sqrt{y}}^{\sqrt{y}}f(x)dx=

\int_{-\sqrt{y}}^{\sqrt{y}}\frac{1}{2}dx=\frac{1}{2}\left[ x \right]^{\sqrt{y}}_{-\sqrt{y}}=\sqrt{y}

La función de distribuación de la v.a. Y es:

F_{y}(y)=\left\{ \begin{array}{cl} 0 \to y<0 \\ \sqrt{y}\to 0\le y\lt 1 \\ 1\to y\ge 1 \end{array} \right.

Solución A La función de densidad f_{y}(y)=\frac{dF_{Y}(y)}{dy}=\left\{ \begin{array}{cl} \frac{1}{2\sqrt{y}}\to 0\le y\lt 1 \\ 0\to \text{En otro caso} \end{array} \right.

Referencias

Mendiburu, Felipe de. 2023. «agricolae: Statistical Procedures for Agricultural Research». https://CRAN.R-project.org/package=agricolae.
Neuwirth, Erich. 2022. «RColorBrewer: ColorBrewer Palettes». https://CRAN.R-project.org/package=RColorBrewer.
Venables, W. N., y B. D. Ripley. 2002. «Modern Applied Statistics with S». https://www.stats.ox.ac.uk/pub/MASS4/.
Wickham, Hadley. 2016. «ggplot2: Elegant Graphics for Data Analysis». https://ggplot2.tidyverse.org.
Wickham, Hadley, Mara Averick, Jennifer Bryan, Winston Chang, Lucy D’Agostino McGowan, Romain François, Garrett Grolemund, et al. 2019. «Welcome to the tidyverse» 4: 1686. https://doi.org/10.21105/joss.01686.
Wickham, Hadley, Jennifer Bryan, Malcolm Barrett, y Andy Teucher. 2024. «usethis: Automate Package and Project Setup». https://CRAN.R-project.org/package=usethis.
Wickham, Hadley, Romain François, Lionel Henry, Kirill Müller, y Davis Vaughan. 2023. «dplyr: A Grammar of Data Manipulation». https://CRAN.R-project.org/package=dplyr.
Wickham, Hadley, Jim Hester, Winston Chang, y Jennifer Bryan. 2022. «devtools: Tools to Make Developing R Packages Easier». https://CRAN.R-project.org/package=devtools.
Zhu, Hao. 2024. «kableExtra: Construct Complex Table with ’kable’ and Pipe Syntax». https://CRAN.R-project.org/package=kableExtra.