VARIABLE ALEATORIA DISCRETA

Ejercicio

Autor/a
Afiliación

Sofia Vargas Trujillo
Rubén Darío Arteaga Cancelado
Cristian David Cruz Celemín

Fecha de publicación

13 de abril de 2025

1 .Paquetes

Ver código
# Verificar, instalar y activar el paquete "tidyverse"
if (!require(tidyverse)) {
  install.packages("tidyverse")
}
library(tidyverse)

# Verificar, instalar y activar el paquete "kableExtra"
if (!require(kableExtra)) {
  install.packages("kableExtra")
}
library(kableExtra)

# Verificar, instalar y activar el paquete "ggplot2"
if (!require(ggplot2)) {
  install.packages("ggplot2")
}
library(ggplot2)

# Verificar, instalar y activar el paquete "dplyr"
if (!require(dplyr)) {
  install.packages("dplyr")
}
library(dplyr)

# Verificar, instalar y activar el paquete "knitr"
if (!require(knitr)) {
  install.packages("knitr")
}
library(knitr)

2 . Introducción

Para el desarrollo de técnicas de inferencia estadística, es conveniente relacionar directamente los resultados de un experimento aleatorio con números reales, ya que con tal asociación el análisis de las características de interés es más productivo.

Dependiendo de si la variable resultante es discreta (solo pueden adoptar un número finito o una infinidad enumerable de valores) o continua (los valores están asociados con una escala continua de medición), es posible describir su comportamiento probabilístico a partir de la función de probabilidad o de la función de densidad, respectivamente.

Además, por medio de estas funciones es posible calcular todo tipo de medidas (e.g., tendencia central) a nivel “poblacional”. En este contexo, tales medidas se denominan parámetros.

3 . Objetivos

1). Apropiarse del concepto de variable aleatoria.

2). Conocer, entender y usar apropiadamente los conceptos de función de probabilidad o función de distribución, según sea el caso.

3). Apropiarse de los conceptos de valor esperado y varianza poblacional.

4 . Conceptos preliminares

Las siguientes definiciones están siempre basadas en un espacio de probabilidad (\Omega, \mathcal{A}, P).

4.1 . Variable aleatoria (v.a).

Una v.a. X es una función cuyo dominio es \Omega y recorrido R, que asigna un único número real a cada resultado del espacio muestral \Omega de un experimento aleatorio. De tal forma que la inversa de X calculada en un subconjunto de los reales, siempre pertenece a A.

X : \Omega \longrightarrow \mathbb{R} : \omega \longmapsto X(\omega)

Las v.a.s pueden ser de dos tipos dependiendo su recorrido:

  1. Discretas: Cuando su recorrido es numerable. Un buen ejemplo de variables discretas son los conteos, como el número de casos incidentes de SarsCov2 en un mes determinado.

  2. Continuas: Cuando su recorrido es no numerable, es decir cuando entre dos valores de la variable hay infinitos posibles valores de ésta, como por ejemplo la longitud(m) y la temperatura (°C).

Nota: Las v.a. se simbolizan, generalmente, con letras mayúsculas X, Y y Z. Se utiliza su correspondiente letra minúscula (en este caso x, y, z) para designar sus posibles valores. Por ejemplo, si X representa la v.a. “número de caras obtenido” que pueden resultar al lanzar una moneda tres veces consecutivas, entonces, sus valores son x = 0, 1, 2, 3.

5 . Variables aleatorias discretas

5.1 . Función de probabilidad

Sea X una v.a.d. que toma los valores x_1, x_2, \ldots (finitos o infinitos enumerables). Una función f_X : \mathbb{R} \longrightarrow [0, 1] es una función de masa de probabilidad (f.m.p.) de X si y solo si:

f_X(x) = \begin{cases} P(X = x), & \text{si } x = x_1, x_2, \ldots \\ 0, & \text{en otro caso.} \end{cases}

donde:

(X = x) = \{w \in \Omega : X(w) = x\}, \text{de tal forma que si } x \text{ no es uno de los valores que toma la v.a. } X, \text{ entonces } f_X(x) = 0.

Propiedades

Sea f_X una f.m.p. de una v.a.d. X que asume los valores x_1, x_2, \ldots definida sobre un espacio muestral \Omega no vacío. Entonces se satisface que:

f(x_k) \geq 0, \text{ para todo valor } x_k \text{ de } X

\sum_k f(x_k) = 1 ## . Función de distribucion

Sea X una v.a.d. que toma los valores x_1, x_2, \ldots (finitos o infinitos enumerables). La función de distribución es aquella que calcula la probabilidad acumulada hasta un punto x, es decir, es la función F_X : \mathbb{R} \longrightarrow [0, 1], definida por:

F_X(x) = P(X \leq x) = \sum_{t \leq x} f_X(t)

para cualquier número real x, cuando X tiene f.m.p. f_X.

Propiedades

Sea F_X una f.d.a. de una v.a.d. X definida sobre un espacio muestral \Omega no vacío.
Entonces se satisface que:

Si x es un número real, entonces:

0 \leq F_X(x) \leq 1

Si x es un número real, entonces:

\text{P}(X > x) = 1 - F_X(x) \quad \text{y} \quad \text{P}(X \geq x) = 1 - F_X(x^-)

donde: x^- representa el máximo valor que puede asumir X estrictamente menor que x.

Si x es un valor que puede asumir X, entonces:

f_X(x) = F_X(x) - F_X(x^-)

Si a y b son números reales tales que a \leq b entonces F_X(a) \leq F_X(b) es decir, F_X es una función creciente; y además se tiene que:

\text{P}(a \leq X \leq b) = F_X(b) - F_X(a^-) \quad \text{y} \quad \text{P}(a < X < b) = F_X(b^-) - F_X(a)

6 . Variables aleatorias continuas

Cuando la variable objeto de estudio es continua, no tiene sentido hacer una suma de las probabilidades de cada uno de los valores de la variable como con las variables discretas, ya que el conjunto de valores que toma una variable continua es no numerable. En este caso, se generalizan de modo natural los conceptos, empleando la integral f en lugar de la suma \sum.

Una función f_X : \mathbb{R} \longrightarrow [0, \infty) se dice que es una función de densidad de probabilidad (f.d.p.) de una v.a.c. X si satisface las siguientes condiciones:

  1. f_X(x) \geq 0 para todo x \in \mathbb{R}

  2. Para cualquier par de números reales a y b tales que a \leq b, se tiene que:

P(a \leq X \leq b) = \int_a^b f_X(x) dx

  1. El área bajo toda la gráfica de f_X es 1, esto es:

\int_{-\infty}^{+\infty} f(x) \, dx = 1

6.1 . Funcion de distribución

La función de distribución de una v.a.c. X con función de densidad f_X, es la función: F_X : \mathbb{R} \longrightarrow [0, 1] definida por:

F_X(x) = P(X \leq x) = \int_{-\infty}^{x} f(x) \, dx

para todo número real x.

Propiedades

Si F_X es una función de distribución de una v.a.c. X, entonces se satisfacen las siguientes propiedades:

  1. Si x es un número real, entonces 0 \leq F_X(x) \leq 1, y además: \lim_{x \to -\infty} F_X(x) = 0 \quad \text{y} \quad \lim_{x \to \infty} F_X(x) = 1

  2. Si x es un número real, entonces: P(X = x) = 0 \quad \text{y} \quad P(X \geq x) = P(X > x) = 1 - F_X(x)

  3. Si a y b son dos números reales tales que a \leq b, entonces F_X(a) \leq F_X(b), es decir F es creciente; y además se tiene que: P(a \leq X \leq b) = P(a \leq X < b) = P(a < X \leq b) = P(a < X < b) = F_X(b) - F_X(a)

  4. Si f_X es la f.d.p. de X, entonces: f_X(x) = \frac{d}{dx} F_X(x) = F'_X(x) donde F'_X(x) es la derivada de F_X(x) respecto a x.

7 . Medidas de localización

Sea X una v.a.c. con f.d.a. F_X y p un número real tal que 0 \leq p \leq 100. El percentil p de la distribución de X, denotado con \pi_p, es un valor de X tal que:

\frac{p}{100} = F_X(\pi_p)

El percentil p de una variable continua X con 0 \leq p \leq 100, corresponde al valor del eje de medición de X tal que el p\% del área bajo la gráfica de la f.d.p. de X está a la izquierda de \pi_p y el (100 - p)\% está a la derecha.

Como antes, el percentil 50 se denomina mediana y se simboliza con \tilde{\mu}_X.

8 . Valor esperado

Sobre la distribución de una v.a. se acostumbra registrar algunas características de interés, denominadas parámetros, como la localización y la dispersión, por ejemplo.

Sea X una v.a. con f.m.p. f_X para el caso discreto o con f.d.p. f_X para el caso continuo.

El valor esperado de X se define como:

\mathbb{E}[X] = \mu_X = \begin{cases} \sum_k x_k f_X(x_k), & \text{si } X \text{ es una v.a.d.} \\ \int_{-\infty}^{\infty} x f_X(x) dx, & \text{si } X \text{ es una v.a.c.} \end{cases}

En general, si g : \mathbb{R} \longrightarrow \mathbb{R} es una función entonces se tiene que el valor esperado de g(X) se define como:

\mathbb{E}[g(X)] = \begin{cases} \sum_k g(x_k) f_X(x_k), & \text{si } X \text{ es una v.a.d.} \\ \int_{-\infty}^{\infty} g(x) f_X(x) dx, & \text{si } X \text{ es una v.a.c.} \end{cases}

Propiedades

Sea X una v.a. y a, b números reales. Entonces se tiene que:

  1. \mathbb{E}[a] = a.

  2. \mathbb{E}[aX + b] = a\mathbb{E}[X] + b.

  3. Si a_1, a_2, \ldots, a_n son n números reales y X_1, X_2, \ldots, X_n son n v.a.’s commensurables entonces:

\mathbb{E} \left[ \sum_{i=1}^n a_i X_i \right] = \sum_{i=1}^n a_i \mathbb{E}[X_i]

9 . Varianza

Sea X una v.a. con f.m.p. f_X para el caso discreto o con f.d.p. f_X para el caso continuo.
Se define la varianza de X como el segundo momento centrado alrededor de la medida de X, esto es:

\mathbb{V}[X] = \sigma_X^2 = \begin{cases} \sum_k (x_k - \mu_X)^2 f_X(x_k), & \text{si } X \text{ es una v.a.d.;} \\ \int_{-\infty}^{\infty} (x - \mu_X)^2 f_X(x) dx, & \text{si } X \text{ es una v.a.c.} \end{cases}

donde \mu_X es el valor esperado de X.

Si X es una v.a., entonces se satisface que:

\mathbb{V}[X] = \mathbb{E}[X^2] - (\mathbb{E}[X])^2

Propiedades

Sea X una v.a. y a, b números reales. Entonces se tiene que:

  1. \mathbb{V}[X] \geq 0

  2. \mathbb{V}[a] = 0

  3. \mathbb{V}[X + a] = \mathbb{V}[X]

  4. \mathbb{V}[bX] = b^2\mathbb{V}[X], con b constante

  5. Si X_1, X_2, \ldots, X_m son variables aleatorias independientes, \mathbb{V}\left[\sum_{i=1}^m X_i\right] = \sum_{i=1}^m \mathbb{V}[X_i]

10 . Desviación estándar

Si X es una v.a. con media \mu_X y varianza \sigma_X^2, entonces la desviación estándar o desviación típica de X, denotada con \sigma_X se define como:

\sigma_X = \sqrt{\sigma_X^2}.

11 . Coeficiente de variación

El coeficiente de variación de Pearson, denotado con CV_X, está dado por:

CV_X = \left| \frac{\sigma_X}{\mu_X} \right|.

12 . Ejercicio 1.

Sea la función de probabilidad de una variable aleatoria

xᵢ 1 2 3 4 5
P(X=xᵢ) 2/20 3/20 13/20 1/20 k

Ejercicio paso a paso:

Primero sumamos las probabilidades conocidas para hallar k.

  1. Hallar k: \frac{2}{20} + \frac{3}{20} + \frac{13}{20} + \frac{1}{20} = \frac{19}{20} Como la suma total debe ser 1: \frac{19}{20} + k = 1 \Rightarrow k = \frac{1}{20}

Ya tenemos la tabla completa:

xᵢ 1 2 3 4 5
P(X=xᵢ) 2/20 3/20 13/20 1/20 1/20
  1. Función de distribución acumulada (F(x)):

La función acumulada F(x) = P(X \leq x):

x F(x)
1 2/20
2 (2+3)/20 = 5/20
3 (5+13)/20 = 18/20
4 (18+1)/20 = 19/20
5 (19+1)/20 = 20/20 = 1

F(x) = \begin{cases} 0 & \text{si } x < 1 \\ \frac{2}{20} & \text{si } 1 \leq x< 2\\ \frac{5}{20} & \text{si } 2 \leq x< 3\\ \frac{18}{20} & \text{si } 3 \leq x< 4\\ \frac{19}{20} & \text{si } 4 \leq x< 5\\ 1 & \text{si } x \geq 5 \end{cases}

En software R

Ver código
# Cargar el paquete necesario
install.packages("kableExtra")
library(kableExtra)

# Datos de la variable aleatoria
xi <- c(1, 2, 3, 4, 5)
probabilidad <- c(2/20, 3/20, 13/20, 1/20, 1/20)

# Calcular la función de distribución acumulada
funcion_distribución <- cumsum(probabilidad)

# Crear la tabla con kableExtra
tabla <- data.frame(
  Variable = xi,
  Probabilidad = probabilidad,
  Funcion_Distribución = funcion_distribución
)

# Mostrar la tabla con kableExtra, centrando las columnas
tabla %>%
  kable("html", caption = "Tabla de Probabilidad y Función de Distribución", align = "c") %>%
  kable_styling(bootstrap_options = c("striped", "hover"))
Tabla de Probabilidad y Función de Distribución
Variable Probabilidad Funcion_Distribución
1 0.10 0.10
2 0.15 0.25
3 0.65 0.90
4 0.05 0.95
5 0.05 1.00
  1. Primer cuartil Q_1:

El primer cuartil es el valor tal que F(x) \geq 0.25. Buscamos en la tabla de F(x):

  • F(1) = 0.10
  • F(2) = 0.25 ← Aquí se alcanza el 25%, por lo tanto:

Q_1 = 2


  1. P(0 < X < 3)

Los valores posibles de X entre 0 y 3 (sin incluir 3) son: 1 y 2.

P(0 < X < 3) = P(X = 1) + P(X = 2) = \frac{2}{20} + \frac{3}{20} = \frac{5}{20} = 0.25


Grafica función de probabilidad

Ver código
# valores de la variable
x<- 1:5
# f.m.p.
fx <- c(2/20, 3/20, 13/20, 1/20, 1/20)
# gráfico
plot(x = x, y = fx, xlab = "Valores de X", ylab = "f(x)", pch = 15, col = "blue", main = "Función de probabilidad")
segments(x0 = x, y0 = 0, x1 = x, y1 = fx, lwd = 2, col = "blue")
# Agregar cuadrículas
grid()

Ver código
# valores de la variable
x<- 1:5
# f.m.p.
fx <- c(2/20, 3/20, 13/20, 1/20, 1/20)

# Crear un dataframe con los datos
df <- data.frame(x = x, fx = fx)

# Gráfico con ggplot2
ggplot(df, aes(x = x, y = fx)) +
  geom_point(shape = 15, color = "blue") +
  geom_segment(aes(xend = x, yend = 0), size = 1, color = "blue") +
  labs(x = "Valores de X", y = "f(x)", title = "Función de probabilidad") +
  theme_minimal() +
  geom_text(aes(label = fx), vjust = -0.5)

Grafica función de distribución

Ver código
# Definir los valores de x y las probabilidades correspondientes
x <- c(1, 2, 3, 4, 5)
probabilidades <- c(2/20, 3/20, 13/20, 1/20, 1/20)

# Calcular la función de distribución acumulada (F(x))
F_x <- cumsum(probabilidades)

# Graficar la función de distribución acumulada
plot(x, F_x, type = "s", col = "blue", lwd = 2, 
     xlab = "x", ylab = "F(x)", 
     main = "Función de Distribución Acumulada",
     xlim = c(0, 6), ylim = c(0, 1), xaxt = "n")
axis(1, at = x)  # Personalizar los valores del eje x

# Añadir puntos a la gráfica
points(x, F_x, col = "red", pch = 16)

# Mostrar la gráfica
grid()

Ver código
# Cargar la librería ggplot2
library(ggplot2)

# Definir los valores de x y las probabilidades correspondientes
x <- c(1, 2, 3, 4, 5)
probabilidades <- c(2/20, 3/20, 13/20, 1/20, 1/20)

# Calcular la función de distribución acumulada (F(x))
F_x <- cumsum(probabilidades)

# Crear un data frame para la visualización
data <- data.frame(x = x, F_x = F_x)

# Graficar la función de distribución acumulada usando ggplot2
ggplot(data, aes(x = x, y = F_x)) +
  geom_step(color = "blue", size = 1.5) +       # Geometría de pasos
  geom_point(color = "red", size = 3) +          # Puntos para cada valor
  labs(title = "Función de Distribución Acumulada",
       x = "x", y = "F(x)") +
  theme_minimal() +
  theme(axis.text.x = element_text(size = 12),
        axis.text.y = element_text(size = 12),
        axis.title = element_text(size = 14))

Medidas de resumen

Valor Esperado (Esperanza)

  • Fórmula: E(X) = \sum x_i \cdot P(x_i)

  • Interpretación: El valor esperado es una medida central que nos da una idea de “la media ponderada” de todos los valores posibles de la variable aleatoria, considerando sus respectivas probabilidades. En otras palabras, es el valor promedio que esperaríamos obtener si realizáramos un número muy grande de experimentos.

  • Ejemplo: Si el valor esperado es 3, esto significa que, en promedio, esperas obtener un valor cercano a 3 en una serie de experimentos.

Varianza

  • Fórmula: \text{Var}(X) = \sum (x_i - E(X))^2 \cdot P(x_i)

  • Interpretación: La varianza mide la dispersión o la extensión de los valores de la variable aleatoria respecto al valor esperado. En otras palabras, indica cuán alejados se encuentran, en promedio, los valores de la variable respecto al valor esperado.

  • Ejemplo: Si la varianza es alta, significa que los valores de la variable pueden variar mucho respecto al valor esperado (es decir, los resultados serán más dispersos). Si es baja, los valores estarán más cerca del valor esperado.

Desviación Estándar

  • Fórmula: \sigma = \sqrt{\text{Var}(X)}

  • Interpretación: La desviación estándar es simplemente la raíz cuadrada de la varianza y también mide la dispersión de los valores respecto al valor esperado. Al ser en las mismas unidades que los datos originales, es más intuitiva de interpretar que la varianza.

  • Ejemplo: Si la desviación estándar es 2, eso significa que, en promedio, los valores de la variable se desvían en 2 unidades respecto al valor esperado.

Coeficiente de Variación

  • Fórmula: CV = \frac{\sigma}{E(X)}

  • Interpretación: El coeficiente de variación es una medida relativa de la dispersión. Se obtiene al dividir la desviación estándar entre el valor esperado. Esto permite comparar la dispersión entre variables con diferentes unidades o escalas. Un coeficiente de variación más alto indica mayor dispersión en relación con la media, mientras que un coeficiente de variación más bajo indica que los valores están más concentrados alrededor de la media.

  • Ejemplo: Si el coeficiente de variación es 0.5, significa que la desviación estándar es la mitad del valor esperado. Si es más bajo, la dispersión es menor en comparación con la media.

Esperanza matemática

La esperanza matemática, E(X), de una variable aleatoria discreta se calcula utilizando la siguiente fórmula:

E(X) = \sum_{i} x_i \cdot P(X = x_i)

Donde: - x_i son los valores posibles de la variable aleatoria, - P(X = x_i) son las probabilidades asociadas a cada valor.

En este caso, tenemos los siguientes valores para x_i y sus probabilidades correspondientes:

x_i 1 2 3 4 5
P(X = x_i) 2/20 3/20 13/20 1/20 1/20

Entonces, la esperanza matemática E(X)$ es:

E(X) = 1 \cdot \frac{2}{20} + 2 \cdot \frac{3}{20} + 3 \cdot \frac{13}{20} + 4 \cdot \frac{1}{20} + 5 \cdot \frac{1}{20}

Calculamos cada término:

E(X) = \frac{2}{20} + \frac{6}{20} + \frac{39}{20} + \frac{4}{20} + \frac{5}{20}

E(X) = \frac{56}{20} = 2.8

Por lo tanto, la esperanza matemática es:

E(X) = 2.8

Varianza

La varianza de una variable aleatoria discreta X se calcula con la siguiente fórmula:

\text{Var}(X) = E(X^2) - (E(X))^2

Donde: - E(X) es la esperanza matemática (ya calculada como 2.8), - E(X^2) es la esperanza del cuadrado de X, calculada como:

E(X^2) = \sum_{i} x_i^2 \cdot P(X = x_i)

Paso 1: Calcular E(X^2)

Usamos los valores de x_i y sus probabilidades P(X = x_i):

x_i 1 2 3 4 5
P(X = x_i) 2/20 3/20 13/20 1/20 1/20

Entonces, calculamos E(X^2):

E(X^2) = 1^2 \cdot \frac{2}{20} + 2^2 \cdot \frac{3}{20} + 3^2 \cdot \frac{13}{20} + 4^2 \cdot \frac{1}{20} + 5^2 \cdot \frac{1}{20}

E(X^2) = \frac{2}{20} + \frac{12}{20} + \frac{117}{20} + \frac{16}{20} + \frac{25}{20}

E(X^2) = \frac{172}{20} = 8.6

Paso 2: Calcular la varianza

Ya tenemos la esperanza E(X) = 2.8, así que la varianza es:

\text{Var}(X) = E(X^2) - (E(X))^2 = 8.6 - (2.8)^2 = 8.6 - 7.84 = 0.76

desviación estándar se calculan de la siguiente manera:

Desviación estándar (\sigma):

La desviación estándar es la raíz cuadrada de la varianza:

\sigma = \sqrt{\text{Var}(X)}

Ya hemos calculado la varianza como \text{Var}(X) = 0.76, por lo tanto:

\sigma = \sqrt{0.76} \approx 0.869

Coeficiente de variación (CV):

El coeficiente de variación se calcula como la relación entre la desviación estándar y la esperanza matemática, y se expresa como un porcentaje:

\text{CV} = \frac{\sigma}{E(X)} \times 100

Donde E(X) = 2.8 y \sigma \approx 0.869, por lo tanto:

\text{CV} = \frac{0.869}{2.8} \times 100 \approx 31.04\%

Medidas de resumen con R

Ver código
# Cargar los paquetes necesarios
install.packages("kableExtra", repos = "https://cloud.r-project.org/")
library(kableExtra)

# Datos de la variable aleatoria
xi <- c(1, 2, 3, 4, 5)
probabilidad <- c(2/20, 3/20, 13/20, 1/20, 1/20)

# Calcular el valor esperado (Esperanza)
valor_esperado <- sum(xi * probabilidad)

# Calcular la varianza
varianza <- sum((xi - valor_esperado)^2 * probabilidad)

# Calcular la desviación estándar
desviacion_estandar <- sqrt(varianza)

# Calcular el coeficiente de variación
coeficiente_variacion <- desviacion_estandar / valor_esperado

# Crear una tabla con los resultados
resultados <- data.frame(
  Métrica = c("Valor esperado", "Varianza", "Desviación estándar", "Coeficiente de variación"),
  Resultado = c(valor_esperado, varianza, desviacion_estandar, coeficiente_variacion)
)

# Mostrar la tabla con kableExtra, centrando las columnas
resultados %>%
  kable("html", caption = "Medidas de resumen de la Distribución", align = "c") %>%
  kable_styling(bootstrap_options = c("striped", "hover"))
Medidas de resumen de la Distribución
Métrica Resultado
Valor esperado 2.8000000
Varianza 0.7600000
Desviación estándar 0.8717798
Coeficiente de variación 0.3113499

13 . Ejercicio 2

Una variable aleatoria continua X tiene como función de densidad:

f(x) = \begin{cases} 1 - x & \text{si } 0 \leq x < 1 \\ x - 1 & \text{si } 1 \leq x \leq 2 \\ 0 & \text{otros casos} \end{cases}

a) Función de distribución

Para hallar la función de distribución acumulada F(x) a partir de la función de densidad f(x) que aparece en la imagen, seguimos el proceso de integrar la función de densidad a partir de su definición.

La función de densidad es:

f(x) = \begin{cases} 1 - x & \text{si } 0 \leq x < 1 \\ x - 1 & \text{si } 1 \leq x \leq 2 \\ 0 & \text{otros casos} \end{cases}

Definir la función de distribución acumulada F(x)

La función de distribución acumulada F(x) se obtiene integrando la función de densidad. Para cada intervalo de f(x), se integra la función en el intervalo correspondiente.

Caso 1: x < 0

Si x < 0, la función de densidad es cero. Por lo tanto, la función de distribución acumulada también será cero:

F(x) = 0 \quad \text{para } x < 0

Caso 2: 0 \leq x < 1

En este intervalo, la función de densidad es f(x) = 1 - x. La función de distribución acumulada se obtiene integrando desde 0 hasta x:

F(x) = \int_0^x (1 - t) \, dt = \left[ t - \frac{t^2}{2} \right]_0^x = x - \frac{x^2}{2}

Por lo tanto, para 0 \leq x < 1, la función de distribución acumulada es:

F(x) = x - \frac{x^2}{2}

Caso 3: 1 \leq x \leq 2

En este intervalo, la función de densidad es f(x) = x - 1. Para hallar la función de distribución acumulada en este intervalo, integramos desde 0 hasta x, pero debemos considerar el valor de F(x) en x = 1, que ya sabemos de la parte anterior que es \frac{1}{2}:

F(x) = \frac{1}{2} + \int_1^x (t - 1) \, dt = \frac{1}{2} + \left[ \frac{t^2}{2} - t \right]_1^x

Evaluamos los límites de la integral:

= \frac{1}{2} + \left( \frac{x^2}{2} - x \right) - \left( \frac{1^2}{2} - 1 \right)

Simplificamos:

= \frac{1}{2} + \left( \frac{x^2}{2} - x \right) - \left( \frac{1}{2} - 1 \right) = \frac{1}{2} + \left( \frac{x^2}{2} - x \right) + \frac{1}{2}

F(x) = \frac{x^2}{2} - x + 1 \quad \text{para } 1 \leq x \leq 2

Caso 4: x > 2

Si x > 2, la función de densidad es cero, por lo que la función de distribución acumulada es 1:

F(x) = 1 \quad \text{para } x > 2

Resumen de la función de distribución acumulada F(x)

F(x) = \begin{cases} 0, & \text{para } x < 0 \\ x - \frac{x^2}{2}, & \text{para } 0 \leq x < 1 \\ \frac{x^2}{2} - x + 1, & \text{para } 1 \leq x \leq 2 \\ 1, & \text{para } x > 2 \end{cases}

b) P(0 \leq X \leq 1) \quad P(-2 \leq X \leq 2) \quad P\left(\frac{1}{2} \leq X < \infty\right)

1. P(0 \leq X \leq 1)

Para calcular esta probabilidad, utilizamos la función de distribución acumulada F(x) en los límites 0 y 1:

P(0 \leq X \leq 1) = F(1) - F(0)

Usando la expresión de F(x) para 0 \leq x < 1:

F(x) = x - \frac{x^2}{2}

Calculamos F(1) y F(0):

F(1) = 1 - \frac{1^2}{2} = 1 - \frac{1}{2} = \frac{1}{2}

F(0) = 0 - \frac{0^2}{2} = 0

Por lo tanto:

P(0 \leq X \leq 1) = \frac{1}{2} - 0 = \frac{1}{2}

2. P(-2 \leq X \leq 2)

Para calcular esta probabilidad, utilizamos la función de distribución acumulada F(x) en los límites -2 y 2. Como f(x) = 0 para x < 0, tenemos que F(x) = 0 para x < 0.

Entonces, la probabilidad será:

P(-2 \leq X \leq 2) = F(2) - F(-2)

Sabemos que F(-2) = 0 porque X no toma valores negativos según la función de densidad.

Ahora, calculamos F(2) usando la expresión para 1 \leq x \leq 2:

F(x) = \frac{x^2}{2} - x + 1

Sustituyendo x = 2:

F(2) = \frac{2^2}{2} - 2 + 1 = \frac{4}{2} - 2 + 1 = 2 - 2 + 1 = 1

Por lo tanto:

P(-2 \leq X \leq 2) = 1 - 0 = 1

3. P\left(\frac{1}{2} \leq X < \infty\right)

Para calcular esta probabilidad, primero necesitamos calcular:

P\left(\frac{1}{2} \leq X < \infty\right) = 1 - P(X < \frac{1}{2})

La probabilidad P(X < \frac{1}{2}) se obtiene evaluando F\left(\frac{1}{2}\right) usando la expresión para 0 \leq x < 1:

F(x) = x - \frac{x^2}{2}

Sustituyendo x = \frac{1}{2}:

F\left(\frac{1}{2}\right) = \frac{1}{2} - \frac{\left(\frac{1}{2}\right)^2}{2} = \frac{1}{2} - \frac{1}{8} = \frac{4}{8} - \frac{1}{8} = \frac{3}{8}

Entonces:

P\left(\frac{1}{2} \leq X < \infty\right) = 1 - \frac{3}{8} = \frac{5}{8}

Resumen de las probabilidades

  1. P(0 \leq X \leq 1) = \frac{1}{2}
  2. P(-2 \leq X \leq 2) = 1
  3. P\left(\frac{1}{2} \leq X < \infty\right) = \frac{5}{8}

Graficas

Ver código
# Cargar la librería ggplot2
library(ggplot2)

# Definir la función de densidad a trozos
f <- function(x) {
  ifelse(x >= 0 & x < 1, 1 - x, 
         ifelse(x >= 1 & x <= 2, x - 1, 0))
}

# Crear un rango de valores de x para graficar
x_vals <- seq(-0.5, 2.5, by = 0.01)

# Calcular los valores de f(x) para cada valor de x
y_vals <- sapply(x_vals, f)

# Crear un data frame con los valores de x y f(x)
df <- data.frame(x = x_vals, y = y_vals)

# Graficar con ggplot2
ggplot(df, aes(x = x, y = y)) +
  geom_line(size = 1, color = "blue") + 
  geom_area(fill = "lightblue", alpha = 0.5) + 
  labs(title = "Función de Densidad de Probabilidad", 
       x = "x", y = "f(x)") +
  theme_minimal() +
  xlim(c(-0.5, 2.5)) + # Ajustar los límites del eje x
  ylim(c(0, 1))         # Ajustar los límites del eje y

Ver código
# Cargar la librería ggplot2
library(ggplot2)

# Definir la función de distribución acumulada a trozos
F <- function(x) {
  ifelse(x < 0, 0, 
         ifelse(x >= 0 & x < 1, x - (x^2) / 2, 
                ifelse(x >= 1 & x <= 2, (x^2) / 2 - x + 1, 1)))
}

# Crear un rango de valores de x para graficar
x_vals <- seq(-0.5, 2.5, by = 0.01)

# Calcular los valores de F(x) para cada valor de x
y_vals <- sapply(x_vals, F)

# Crear un data frame con los valores de x y F(x)
df <- data.frame(x = x_vals, y = y_vals)

# Graficar con ggplot2
ggplot(df, aes(x = x, y = y)) +
  geom_line(size = 1, color = "blue") + 
  geom_area(fill = "lightblue", alpha = 0.5) + 
  labs(title = "Función de Distribución Acumulada", 
       x = "x", y = "F(x)") +
  theme_minimal() +
  xlim(c(-0.5, 2.5)) + # Ajustar los límites del eje x
  ylim(c(0, 1))         # Ajustar los límites del eje y

Esperanza matemática

La esperanza matemática E[X] de una variable aleatoria continua X con función de densidad f(x) se calcula mediante la siguiente fórmula:

E[X] = \int_{-\infty}^{\infty} x \cdot f(x) \, dx

Dado que la función de densidad f(x) en el ejercicio anterior es a trozos, la integral debe dividirse en las partes correspondientes. La función de densidad es:

f(x) = \begin{cases} 1 - x & \text{si } 0 \leq x < 1 \\ x - 1 & \text{si } 1 \leq x \leq 2 \\ 0 & \text{otros casos} \end{cases}

Intervalo [0, 1]

En este intervalo, f(x) = 1 - x, así que la integral se calcula como:

E[X_1] = \int_0^1 x \cdot (1 - x) \, dx

Intervalo [1, 2]

En este intervalo, f(x) = x - 1, así que la integral se calcula como:

E[X_2] = \int_1^2 x \cdot (x - 1) \, dx

Resolver las integrales

Para el intervalo [0, 1]:

E[X_1] = \int_0^1 x \cdot (1 - x) \, dx = \int_0^1 (x - x^2) \, dx

Resolvemos la integral:

E[X_1] = \left[ \frac{x^2}{2} - \frac{x^3}{3} \right]_0^1 = \left( \frac{1^2}{2} - \frac{1^3}{3} \right) - \left( 0 \right)

E[X_1] = \frac{1}{2} - \frac{1}{3} = \frac{3}{6} - \frac{2}{6} = \frac{1}{6}

Para el intervalo [1, 2]:

E[X_2] = \int_1^2 x \cdot (x - 1) \, dx = \int_1^2 (x^2 - x) \, dx

Resolvemos la integral:

E[X_2] = \left[ \frac{x^3}{3} - \frac{x^2}{2} \right]_1^2 = \left( \frac{2^3}{3} - \frac{2^2}{2} \right) - \left( \frac{1^3}{3} - \frac{1^2}{2} \right)

E[X_2] = \left( \frac{8}{3} - \frac{4}{2} \right) - \left( \frac{1}{3} - \frac{1}{2} \right)

E[X_2] = \left( \frac{8}{3} - 2 \right) - \left( \frac{1}{3} - \frac{1}{2} \right)

E[X_2] = \frac{8}{3} - \frac{6}{3} - \frac{1}{3} + \frac{1}{2}

E[X_2] = \frac{2}{3} - \frac{1}{3} + \frac{1}{2} = \frac{1}{3} + \frac{1}{2}

E[X_2] = \frac{2}{6} + \frac{3}{6} = \frac{5}{6}

Calcular la esperanza total

La esperanza total es la suma de las esperanzas en los dos intervalos:

E[X] = E[X_1] + E[X_2] = \frac{1}{6} + \frac{5}{6} = 1

Esperanza matemática utilizando R

Ver código
# Definir la función de densidad a trozos
f <- function(x) {
  ifelse(x >= 0 & x < 1, 1 - x, 
         ifelse(x >= 1 & x <= 2, x - 1, 0))
}

# Definir la función para calcular la esperanza matemática
expectation <- function() {
  # Intervalo 0 <= x < 1: f(x) = 1 - x
  integral_1 <- integrate(function(x) x * (1 - x), 0, 1)$value
  
  # Intervalo 1 <= x <= 2: f(x) = x - 1
  integral_2 <- integrate(function(x) x * (x - 1), 1, 2)$value
  
  # Sumar las integrales para obtener la esperanza total
  E_X <- integral_1 + integral_2
  return(E_X)
}

# Calcular la esperanza matemática
E_X <- expectation()

# Imprimir el resultado
print(paste("La esperanza matemática E[X] es:", E_X))
[1] "La esperanza matemática E[X] es: 1"

14 . Taller practico

14.1 . Teorema de Chebyshev

El Teorema de Chebyshev es un resultado fundamental en estadística que establece una cota mínima para la probabilidad de que una variable aleatoria con varianza finita se encuentre dentro de un intervalo alrededor de su media. Es aplicable a cualquier distribución, independientemente de su forma, lo que lo hace versátil en análisis de datos.

Fórmula y concepto central

La desigualdad se expresa como:

P(\left | X-\mu \right |\geq k\sigma) \leq \frac{1}{k^{2}} o equivalentemente P(\left | X-\mu \right |< k\sigma )\geq 1-\frac{1}{k^{2}}

Donde:

  • X es la variable aleatoria.

  • \mu es la media.

  • \sigma es la desviación estándar.

  • k> 1 es el número de desviaciones estándar desde la media.

Características clave:

  • Distribución libre: Funciona para cualquier tipo de distribución, incluso si es desconocida o no normal.

  • Estimación conservadora: Proporciona una probabilidad mínima; la real puede ser mayor. Por ejemplo, en distribuciones normales, el 95% de los datos están dentro de 2\sigma, superando el 75% de Chebyshev.

  • Limitación: Requiere k > 1. Para k \leq 1, la desigualdad no ofrece información útil.

Ejercicio 1

Se desea conocer el número de automóviles que se deben poner a la venta durante un periodo determinado para que se satisfaga una demanda media de 300 unidades con una desviación típica de 100 unidades, con una probabilidad no inferior al 75%.

Pasos para la solución:

  1. Aplicar la desigualdad de Chebyshev:

P\left(|X - \mu| \leq k\sigma\right) \geq 1 - \frac{1}{k^2}

Donde:

  • \mu = 300 (media),

  • \sigma = 100 (desviación típica),

  • 1 - \frac{1}{k^2} \geq 0.75 (probabilidad mínima requerida).

  1. Calcular k:

1 - \frac{1}{k^2} = 0.75 \implies \frac{1}{k^2} = 0.25 \implies k = 2.

  1. Determinar el número de automóviles:

\mu + k\sigma = 300 + 2 \times 100 = 500.

Conclusión: Se deben poner a la venta 500 automóviles para satisfacer la demanda con una probabilidad de al menos el 75%. Este resultado se basa en la desigualdad de Chebyshev, que garantiza esta probabilidad independientemente de la distribución subyacente de la demanda.

Ejercicio 2

La demanda media de un producto es de 100 unidades con una desviación típica de 40 unidades. Calcular la cantidad del producto que se debe tener a la venta para satisfacer la demanda de forma que puedan ser atendidos al menos el 80% de los clientes.

Desarrollo:

  1. Cálculo del parámetro k:

1 - \frac{1}{k^2} \geq 0.8 \implies k = \sqrt{\frac{1}{1 - 0.8}} = \sqrt{5} \approx 2.236

Este valor asegura que la probabilidad de satisfacer la demanda sea ≥ 80%.

  1. Cantidad requerida:

\text{Cantidad} = \mu + k\sigma = 100 + 2.236 \times 40 \approx 189.44 \text{ unidades}

Redondeando, se necesitan 190 unidades para cubrir la demanda con la probabilidad especificada.

14.2 . Variable Aleatoria Discreta

Ejercicio

La variable aleatoria: X =“número de hijos por familia de una ciudad” tiene la siguiente distribución de probabilidad:

Ver código
# Datos de la variable aleatoria
X <- c(0, 1, 2, 3, 4, 5, 6)
Probabilidad <- c(0.47, 0.3, 0.1, 0.06, 0.04, 0.02, 0.01)

# Crear la tabla con kableExtra
tabla <- data.frame(
  X = X,
  Probabilidad = Probabilidad
)

# Mostrar la tabla con kableExtra
tabla %>%
  kable("html", caption = "Tabla de Probabilidades", align = "c") %>%
  kable_styling(bootstrap_options = c("striped", "hover"))
Tabla de Probabilidades
X Probabilidad
0 0.47
1 0.30
2 0.10
3 0.06
4 0.04
5 0.02
6 0.01

Se pide:

  1. Media o esperanza matemática. Significado

  2. Varianza y desviación típica

  3. Si el Ayuntamiento de la ciudad paga 2000 euros por hijo e Y = 2000.X, ¿cuál es la distribución de probabilidad?

  4. Media, varianza y desviación típica de Y

Solución

a)

Ver código
# Datos de la variable aleatoria
X <- c(0, 1, 2, 3, 4, 5, 6)
Probabilidad <- c(0.47, 0.3, 0.1, 0.06, 0.04, 0.02, 0.01)

# Calcular las columnas adicionales
Xi_Pi <- X * Probabilidad
Xi2 <- X^2
Xi2_Pi <- Xi2 * Probabilidad

# Crear un data frame con todas las columnas
tabla <- data.frame(
  X_xi = paste0("x", seq_along(X), " = ", X),
  P_X_xi = Probabilidad,
  xi_pi = Xi_Pi,
  xi2 = Xi2,
  xi2_pi = Xi2_Pi
)

# Agregar fila de encabezado dentro de la tabla como una fila adicional
encabezado <- c("X = xᵢ", "P(X = xᵢ) = pᵢ", "xᵢ * pᵢ", "xᵢ²", "xᵢ² * pᵢ")

# Convertir encabezado en una fila del data frame
tabla <- rbind(encabezado, tabla)

# Agregar fila de suma al final
tabla[nrow(tabla) + 1, ] <- c("Suma", sum(Probabilidad), sum(Xi_Pi), "", sum(Xi2_Pi))

# Generar la tabla con estilo avanzado usando kableExtra
library(knitr)
library(kableExtra)

tabla %>%
  kable("html", align = "c", col.names = NULL) %>% # Eliminar encabezado externo
  kable_styling(full_width = FALSE, position = "center") %>%
  column_spec(1:5, extra_css = "border:1px solid green;") %>%
  row_spec(1, bold = TRUE) %>% # Fila del encabezado en negrita
  row_spec(nrow(tabla), bold = TRUE) # Fila de suma en negrita
X = xᵢ P(X = xᵢ) = pᵢ xᵢ * pᵢ xᵢ² xᵢ² * pᵢ
x1 = 0 0.47 0 0 0
x2 = 1 0.3 0.3 1 0.3
x3 = 2 0.1 0.2 4 0.4
x4 = 3 0.06 0.18 9 0.54
x5 = 4 0.04 0.16 16 0.64
x6 = 5 0.02 0.1 25 0.5
x7 = 6 0.01 0.06 36 0.36
Suma 1 1 2.74

Media:
a_1 = \mu_X = E(X) = \sum_{i=1}^7 x_i \cdot P(X = x_i) = \sum_{i=1}^7 x_i \cdot p_i = 1

Si se toma al azar una familia de la ciudad, el número de hijos que se espera que tenga por término medio es uno.

b) Varianza y desviación típica

Varianza:

\sigma_X^2 = E\left((X - \mu_X)^2\right) = \sum_{i=1}^7 (x_i - \mu_X)^2 \cdot P(X = x_i) = a_2 - a_1^2

a_2 = E(X^2) = \sum_{i=1}^7 x_i^2 \cdot P(X = x_i) = \sum_{i=1}^7 x_i^2 \cdot p_i = 2,74

\sigma_X^2 = a_2 - a_1^2 = 2,74 - 1^2 = 1,74

Desviación típica:
\sigma_X = \sqrt{1,74} = 1,32

c) Distribución de probabilidad de la variable Y = 2000·X

Ver código
# Datos de la variable aleatoria
Y <- c(0, 2000, 4000, 6000, 8000, 10000, 12000)
Probabilidad <- c(0.47, 0.3, 0.1, 0.06, 0.04, 0.02, 0.01)

# Crear un data frame con las dos primeras columnas
tabla <- data.frame(
  `Y = yᵢ` = paste0("y", seq_along(Y), " = ", format(Y, big.mark = ".")),
  `P(Y = yᵢ) = pᵢ` = Probabilidad
)

# Agregar encabezado como fila adicional
encabezado <- c("Y = yᵢ", "P(Y = yᵢ) = pᵢ")
tabla <- rbind(encabezado, tabla)

# Agregar fila de suma al final
tabla[nrow(tabla) + 1, ] <- c(" ", sum(Probabilidad))

# Generar la tabla con estilo avanzado usando kableExtra
tabla %>%
  kable("html", align = "c", col.names = NULL) %>% # Eliminar encabezado externo
  kable_styling(full_width = FALSE, position = "center") %>%
  column_spec(1:2, extra_css = "border:1px solid green;") %>%
  row_spec(1, bold = TRUE) %>% # Fila del encabezado en negrita
  row_spec(nrow(tabla), bold = TRUE) # Fila de suma en negrita
Y = yᵢ P(Y = yᵢ) = pᵢ
y1 = 0 0.47
y2 = 2.000 0.3
y3 = 4.000 0.1
y4 = 6.000 0.06
y5 = 8.000 0.04
y6 = 10.000 0.02
y7 = 12.000 0.01
1

d) Media, varianza y desviación típica de Y

Media:
\mu_Y = \mu_{2000X} = E(2000 \cdot X) = 2000 \cdot E(X) = 2000 \cdot 1 = 2000

Varianza:
\sigma_Y^2 = \sigma_{2000X}^2 = \text{Var}(2000 \cdot X) = 2000^2 \cdot \text{Var}(X) = 2000^2 \cdot 1,74 = 6.960.000

Desviación típica:
\sigma_Y = \sqrt{6.960.000} = 2638,18

14.3 . Variable Aleatoria Continua

Ejercicio

Se ha verificado que la variable X = “peso en kilos de los niños al nacer” es una variable aleatoria continua con función de densidad

f(x) = \begin{cases} k x & 2 \leq x \leq 4 \\ 0 & \text{en otros casos} \end{cases}

Se pide:

  1. Hallar k para que f(x) sea función de densidad. Representarla

  2. Hallar la función de distribución. Representarla

  3. Media, varianza y desviación típica

  4. Probabilidad de que un niño elegido al azar pese más de 3 kilos

  5. Probabilidad de que pese entre 2 y 3,5 kilos

  6. Qué debe pesar un niño para tener un peso igual o inferior al 90% de los niños

Solución:

a) Para que f(x) sea función de densidad debe verificar:

1 = \int_{-\infty}^\infty f(x) dx = \int_{-\infty}^2 f(x) dx + \int_2^4 f(x) dx + \int_4^\infty f(x) dx = \int_2^4 f(x) dx

La primera y tercera integral son cero al ser f(x) = 0 en esos intervalos.

1 = \int_2^4 f(x) dx = \int_2^4 kx dx = k \int_2^4 x dx = k \left[ \frac{x^2}{2} \right]_2^4 = k \left[ \frac{16}{2} - \frac{4}{2} \right] = 6k \implies k = \frac{1}{6}

f(x) = \begin{cases} \frac{x}{6} & 2 \leq x \leq 4 \\ 0 & \text{en otros casos} \end{cases}

R base

Ver código
# Crear el lienzo vacío
plot(0, 0, type = "n", 
     xlim = c(-5, 5), ylim = c(0, 4/6),
     xlab = "x", ylab = "f(x)",
     main = "Función por partes",
     xaxt = "n", yaxt = "n") # Desactivar los ejes automáticos

# Añadir flechas para los ejes x y f(x)
arrows(-5, 0, 5, 0, col = "black", length = 0.1) # Flecha en el eje x
arrows(0, 0, 0, 4/6, col = "black", length = 0.1) # Flecha en el eje f(x)

# Añadir etiquetas personalizadas para los ejes
axis(1, at = c(-5, -2, 0, 2, 4), labels = c("-∞", "-2", "0", "2", "4")) # Eje x
axis(2, at = c(0, 2/6, 4/6), 
     labels = c("0", expression(frac(2, 6)), expression(frac(4, 6))), las = 2) # Eje f(x) con fracciones verticales

# Primer segmento: línea horizontal en y=0 desde x=-∞ hasta x=2
segments(-5, 0, 2, 0, col = "blue", lwd = 2)

# Segundo segmento: línea diagonal representando x/6 desde x=2 hasta x=4
segments(2, 2/6, 4, 4/6, col = "blue", lwd = 2)

# Tercer segmento: línea horizontal en y=0 desde x=4 hacia infinito
segments(4, 0, 5, 0, col = "blue", lwd = 2)

# Añadir puntos importantes
points(c(-5, -2, 0, 2), c(0, 0, 0, 0), col = "red", pch = 16) # Puntos en el eje x (incluyendo menos infinito)
points(c(2, 4), c(2/6, 4/6), col = "red", pch = 16)           # Puntos en la diagonal

# Añadir líneas horizontales de referencia para f(x)
abline(h = c(2/6, 4/6), col = "gray", lty = 2)

# Etiqueta para la función diagonal
text(3.5, 3/6, "x/6", col = "blue")

# Mostrar cuadrícula
grid()

ggplot2

Ver código
# Crear los datos para los segmentos
datos <- data.frame(
  x = c(-5, 2, 2, 4, 4, 5), # Coordenadas x
  y = c(0, 0, 2/6, 4/6, 0, 0), # Coordenadas y
  grupo = c("segmento1", "segmento1", "diagonal", "diagonal", "segmento3", "segmento3") # Identificar segmentos
)

# Crear los puntos importantes
puntos <- data.frame(
  x = c(-5, -2, 0, 2, 2, 4, 4),
  y = c(0, 0, 0, 0, 2/6, 4/6, 0)
)

# Graficar con ggplot2
ggplot() +
  # Agregar los segmentos
  geom_line(data = datos, aes(x = x, y = y, group = grupo), color = "blue", size = 1) +
  
  # Agregar los puntos importantes
  geom_point(data = puntos, aes(x = x, y = y), color = "red", size = 3) +
  
  # Líneas horizontales de referencia para f(x)
  geom_hline(yintercept = c(2/6, 4/6), linetype = "dashed", color = "gray") +
  
  # Etiquetas del eje f(x) con fracciones verticales
  scale_y_continuous(
    breaks = c(0, 2/6, 4/6),
    labels = c("0", expression(frac(2,6)), expression(frac(4,6)))
  ) +
  
  # Etiquetas del eje x
  scale_x_continuous(
    breaks = c(-5, -2, 0, 2, 4),
    labels = c("-∞", "-2", "0", "2", "4")
  ) +
  
  # Etiqueta para la función diagonal
  annotate("text", x = 3.5, y = (3/6), label = "x/6", color = "blue") +
  
  # Personalización del gráfico
  labs(title = "Función por partes", x = "x", y = "f(x)") +
  
  theme_minimal() +
  
  theme(
    axis.title.x = element_text(size = 12),
    axis.title.y = element_text(size = 12),
    plot.title = element_text(hjust = 0.5)
)

b) La función de distribución se define
F(x) = \int_{-\infty}^x f(t) \, dt Para x < 2
F(x) = \int_{-\infty}^{x} f(t) \, dt = 0

Para $ 2 x $ F(x) = \int_{-\infty}^{x} f(t) \, dt = \int_{2}^{x} f(t) \, dt = \int_{2}^{x} \frac{t}{6} \, dt = \frac{1}{6} \left[ \frac{t^2}{2} \right]_2^x = \frac{1}{6} \left[ \frac{x^2 - 4}{2} \right] = \frac{x^2 - 4}{12}

Para x > 4:

F(x) = \int_{-\infty}^{x} f(t) \, dt = \int_{2}^{4} f(t) \, dt + \int_{4}^{x} f(t) \, dt = \int_{2}^{4} \frac{t}{6} \, dt = \frac{1}{6} \left[ \frac{t^2}{2} \right]_2^4 = 1

F(x) = \begin{cases} 0 & x < 2 \\ \frac{x^2 - 4}{12} & 2 \leq x \leq 4 \\ 1 & x > 4 \end{cases}

Ver código
# Crear los datos para los segmentos
datos_segmentos <- data.frame(
  x = c(-5, 2, 4, 5), # Coordenadas x
  y = c(0, 0, 1, 1),  # Coordenadas y
  grupo = c("segmento1", "segmento1", "segmento3", "segmento3") # Identificar segmentos
)

# Crear los datos para la curva entre x=2 y x=4
x_curva <- seq(2, 4, length.out = 100)
y_curva <- (x_curva^2 - 4) / 12
datos_curva <- data.frame(x = x_curva, y = y_curva)

# Crear la gráfica con ggplot2
ggplot() +
  # Agregar los segmentos horizontales
  geom_line(data = datos_segmentos, aes(x = x, y = y, group = grupo), color = "blue", size = 1) +
  
  # Agregar la curva entre x=2 y x=4
  geom_line(data = datos_curva, aes(x = x, y = y), color = "blue", size = 1) +
  
  # Añadir flechas para los ejes
  annotate("segment", x = -5, xend = 5, y = 0, yend = 0, arrow = arrow(type = "open", length = unit(0.15, "cm"))) + # Flecha eje x
  annotate("segment", x = 0, xend = 0, y = -0.1, yend = 1.1, arrow = arrow(type = "open", length = unit(0.15, "cm"))) + # Flecha eje F(x)
  
  # Etiquetas del eje F(x)
  scale_y_continuous(
    breaks = c(0, 1),
    labels = c("0", "1"),
    limits = c(0, 1.1)
  ) +
  
  # Etiquetas del eje x
  scale_x_continuous(
    breaks = c(-5, -2, 0, 2, 4),
    labels = c("-∞", "-2", "0", "2", "4"),
    limits = c(-5, 5)
  ) +
  
  # Etiqueta para la función curva (x^2 - 4)/12
  annotate("text", x = 3.5, y = max(y_curva) / 2,
           label = expression(frac(x^2 - 4,12)),
           color = "black") +
  
  # Personalización del gráfico
  labs(title = "Función de Distribución Acumulada por Tramos",
       x = "x", y = expression(F(x))) +
  
  theme_minimal() +
  
  theme(
    axis.title.x = element_text(size = 12),
    axis.title.y = element_text(size = 12),
    plot.title = element_text(hjust = 0.5)
)

c). Media

\alpha_1 = \mu_x = E(X) = \int_{-\infty}^{\infty} x f(x) dx = \int_{2}^{4} x \cdot \frac{x}{6} dx = \frac{1}{6} \int_{2}^{4} x^2 dx = \frac{1}{6} \left[ \frac{x^3}{3} \right]_{2}^{4} = \frac{1}{6} \left[ \frac{64}{3} - \frac{8}{3} \right] = \frac{56}{18} = 3,1 \, \text{kilos}

Varianza: \sigma_x^2 = \alpha_2 - \alpha_1^2

\alpha_2 = E(X^2) = \int_{-\infty}^{\infty} x^2 f(x) dx = \int_{2}^{4} x^2 \cdot \frac{x}{6} dx = \frac{1}{6} \int_{2}^{4} x^3 dx = \frac{1}{6} \left[ \frac{x^4}{4} \right]_{2}^{4} = \frac{1}{6} \left[ \frac{256}{4} - \frac{16}{4} \right] = \frac{1}{6} [64 - 4] = 10 \, \text{kilos}^2

\sigma_x^2 = \alpha_2 - \alpha_1^2 = 10 - 3,1^2 = 0,39 \, \text{kilos}^2

Desviación típica: \sigma_x = \sqrt{0,39} = 0,62 \, \text{kilos}

d). P(X > 3) = 1 - P(X \leq 3) = 1 - F(3) = 1 - \frac{3^2 - 4}{12} = 1 - \frac{5}{12} = \frac{7}{12} = 0,58

o también,

P(X > 3) = \int_{3}^{4} f(x) \, dx = \int_{3}^{4} \frac{x}{6} \, dx = \frac{1}{6} \int_{3}^{4} x \, dx = \frac{1}{6} \left[ \frac{x^2}{2} \right]_{3}^{4} = \frac{1}{6} \left( \frac{8}{2} - \frac{9}{2} \right) = \frac{7}{12} = 0,58

e). P(2 \leq X \leq 3,5) = F(3,5) - F(2) = \frac{3,5^2 - 4}{12} - 0 = 0,6875

P(2 \leq X \leq 3,5) = \int_{2}^{3,5} f(x) \, dx = \int_{2}^{3,5} \frac{x}{6} \, dx = \frac{1}{6} \int_{2}^{3,5} x \, dx = \frac{1}{6} \left[ \frac{x^2}{2} \right]_{2}^{3,5} = \frac{1}{6} \left( \frac{12,25}{2} - \frac{4}{2} \right) = \frac{1}{6} \left( 6,125 - 2 \right) = \frac{8,25}{12} = 0,6875

f). Sea k el peso del niño, se tiene:

F(k) = P(X \leq k) = 0,9 \implies \frac{k^2 - 4}{12} = 0,9 \implies k^2 - 4 = 10,8 \implies k^2 = 14,8

k = \sqrt{14,8} = 3,85

Es decir, el niño debe pesar 3,85 kilos para tener al 90% de los niños con un peso igual o inferior.

15 . Conclusiones.

El estudio de las variables aleatorias y sus medidas asociadas constituye un pilar fundamental en la formación estadística, proporcionando herramientas matemáticas para modelar y analizar fenómenos probabilísticos. La comprensión profunda de estos conceptos no solo enriquece nuestra capacidad analítica sino que también mejora nuestra toma de decisiones en entornos de incertidumbre. A través del taller, hemos podido apreciar cómo estos elementos teóricos tienen aplicaciones concretas en diversos campos, desde la investigación científica hasta la gestión empresarial y financiera. El teorema de Chebyshev, en particular, nos muestra cómo principios matemáticos aparentemente abstractos pueden proporcionar información práctica y útil sobre la distribución de datos en situaciones reales, incluso cuando desconocemos su distribución específica. Finalmente, es importante reconocer que estos conocimientos estadísticos no son estáticos, sino que continúan evolucionando y adaptándose para abordar nuevos desafíos en la era de los grandes datos y la analítica avanzada, lo que subraya la importancia de mantener una formación continua en este campo. Espero el taller sea de ayuda para entender un poco del mundo de la estadística.

(Wickham et al. 2019, 2023; Zhu 2024; Wickham 2016; Xie 2025)

Referencias

Wickham, Hadley. 2016. «ggplot2: Elegant Graphics for Data Analysis». https://ggplot2.tidyverse.org.
Wickham, Hadley, Mara Averick, Jennifer Bryan, Winston Chang, Lucy D’Agostino McGowan, Romain François, Garrett Grolemund, et al. 2019. «Welcome to the tidyverse» 4: 1686. https://doi.org/10.21105/joss.01686.
Wickham, Hadley, Romain François, Lionel Henry, Kirill Müller, y Davis Vaughan. 2023. «dplyr: A Grammar of Data Manipulation». https://CRAN.R-project.org/package=dplyr.
Xie, Yihui. 2025. «knitr: A General-Purpose Package for Dynamic Report Generation in R». https://yihui.org/knitr/.
Zhu, Hao. 2024. «kableExtra: Construct Complex Table with ’kable’ and Pipe Syntax». https://CRAN.R-project.org/package=kableExtra.