# Verificar, instalar y activar el paquete "tidyverse"if (!require(tidyverse)) {install.packages("tidyverse")}library(tidyverse)# Verificar, instalar y activar el paquete "kableExtra"if (!require(kableExtra)) {install.packages("kableExtra")}library(kableExtra)# Verificar, instalar y activar el paquete "ggplot2"if (!require(ggplot2)) {install.packages("ggplot2")}library(ggplot2)# Verificar, instalar y activar el paquete "dplyr"if (!require(dplyr)) {install.packages("dplyr")}library(dplyr)# Verificar, instalar y activar el paquete "knitr"if (!require(knitr)) {install.packages("knitr")}library(knitr)
2 . Introducción
Para el desarrollo de técnicas de inferencia estadística, es conveniente relacionar directamente los resultados de un experimento aleatorio con números reales, ya que con tal asociación el análisis de las características de interés es más productivo.
Dependiendo de si la variable resultante es discreta (solo pueden adoptar un número finito o una infinidad enumerable de valores) o continua (los valores están asociados con una escala continua de medición), es posible describir su comportamiento probabilístico a partir de la función de probabilidad o de la función de densidad, respectivamente.
Además, por medio de estas funciones es posible calcular todo tipo de medidas (e.g., tendencia central) a nivel “poblacional”. En este contexo, tales medidas se denominan parámetros.
3 . Objetivos
1). Apropiarse del concepto de variable aleatoria.
2). Conocer, entender y usar apropiadamente los conceptos de función de probabilidad o función de distribución, según sea el caso.
3). Apropiarse de los conceptos de valor esperado y varianza poblacional.
4 . Conceptos preliminares
Las siguientes definiciones están siempre basadas en un espacio de probabilidad (\Omega, \mathcal{A}, P).
4.1 . Variable aleatoria (v.a).
Una v.a. X es una función cuyo dominio es \Omega y recorrido R, que asigna un único número real a cada resultado del espacio muestral \Omega de un experimento aleatorio. De tal forma que la inversa de X calculada en un subconjunto de los reales, siempre pertenece a A.
X : \Omega \longrightarrow \mathbb{R} : \omega \longmapsto X(\omega)
Las v.a.s pueden ser de dos tipos dependiendo su recorrido:
Discretas: Cuando su recorrido es numerable. Un buen ejemplo de variables discretas son los conteos, como el número de casos incidentes de SarsCov2 en un mes determinado.
Continuas: Cuando su recorrido es no numerable, es decir cuando entre dos valores de la variable hay infinitos posibles valores de ésta, como por ejemplo la longitud(m) y la temperatura (°C).
Nota: Las v.a. se simbolizan, generalmente, con letras mayúsculas X, Y y Z. Se utiliza su correspondiente letra minúscula (en este caso x, y, z) para designar sus posibles valores. Por ejemplo, si X representa la v.a. “número de caras obtenido” que pueden resultar al lanzar una moneda tres veces consecutivas, entonces, sus valores son x = 0, 1, 2, 3.
5 . Variables aleatorias discretas
5.1 . Función de probabilidad
Sea X una v.a.d. que toma los valores x_1, x_2, \ldots (finitos o infinitos enumerables). Una función f_X : \mathbb{R} \longrightarrow [0, 1] es una función de masa de probabilidad (f.m.p.) de X si y solo si:
(X = x) = \{w \in \Omega : X(w) = x\}, \text{de tal forma que si } x \text{ no es uno de los valores que toma la v.a. } X, \text{ entonces } f_X(x) = 0.
Propiedades
Sea f_X una f.m.p. de una v.a.d. X que asume los valores x_1, x_2, \ldots definida sobre un espacio muestral \Omega no vacío. Entonces se satisface que:
f(x_k) \geq 0, \text{ para todo valor } x_k \text{ de } X
\sum_k f(x_k) = 1 ## . Función de distribucion
Sea X una v.a.d. que toma los valores x_1, x_2, \ldots (finitos o infinitos enumerables). La función de distribución es aquella que calcula la probabilidad acumulada hasta un punto x, es decir, es la función F_X : \mathbb{R} \longrightarrow [0, 1], definida por:
F_X(x) = P(X \leq x) = \sum_{t \leq x} f_X(t)
para cualquier número real x, cuando X tiene f.m.p. f_X.
Propiedades
Sea F_X una f.d.a. de una v.a.d. X definida sobre un espacio muestral \Omega no vacío.
Entonces se satisface que:
donde: x^- representa el máximo valor que puede asumir X estrictamente menor que x.
Si x es un valor que puede asumir X, entonces:
f_X(x) = F_X(x) - F_X(x^-)
Si a y b son números reales tales que a \leq b entonces F_X(a) \leq F_X(b) es decir, F_X es una función creciente; y además se tiene que:
\text{P}(a \leq X \leq b) = F_X(b) - F_X(a^-) \quad \text{y} \quad \text{P}(a < X < b) = F_X(b^-) - F_X(a)
6 . Variables aleatorias continuas
Cuando la variable objeto de estudio es continua, no tiene sentido hacer una suma de las probabilidades de cada uno de los valores de la variable como con las variables discretas, ya que el conjunto de valores que toma una variable continua es no numerable. En este caso, se generalizan de modo natural los conceptos, empleando la integral f en lugar de la suma \sum.
Una función f_X : \mathbb{R} \longrightarrow [0, \infty) se dice que es una función de densidad de probabilidad (f.d.p.) de una v.a.c. X si satisface las siguientes condiciones:
f_X(x) \geq 0 para todo x \in \mathbb{R}
Para cualquier par de números reales a y b tales que a \leq b, se tiene que:
P(a \leq X \leq b) = \int_a^b f_X(x) dx
El área bajo toda la gráfica de f_X es 1, esto es:
\int_{-\infty}^{+\infty} f(x) \, dx = 1
6.1 . Funcion de distribución
La función de distribución de una v.a.c. X con función de densidad f_X, es la función: F_X : \mathbb{R} \longrightarrow [0, 1] definida por:
Si F_X es una función de distribución de una v.a.c. X, entonces se satisfacen las siguientes propiedades:
Si x es un número real, entonces 0 \leq F_X(x) \leq 1, y además: \lim_{x \to -\infty} F_X(x) = 0 \quad \text{y} \quad \lim_{x \to \infty} F_X(x) = 1
Si x es un número real, entonces: P(X = x) = 0 \quad \text{y} \quad P(X \geq x) = P(X > x) = 1 - F_X(x)
Si a y b son dos números reales tales que a \leq b, entonces F_X(a) \leq F_X(b), es decir F es creciente; y además se tiene que: P(a \leq X \leq b) = P(a \leq X < b) = P(a < X \leq b) = P(a < X < b) = F_X(b) - F_X(a)
Si f_X es la f.d.p. de X, entonces: f_X(x) = \frac{d}{dx} F_X(x) = F'_X(x) donde F'_X(x) es la derivada de F_X(x) respecto a x.
7 . Medidas de localización
Sea X una v.a.c. con f.d.a. F_X y p un número real tal que 0 \leq p \leq 100. El percentilp de la distribución de X, denotado con \pi_p, es un valor de X tal que:
\frac{p}{100} = F_X(\pi_p)
El percentil p de una variable continua X con 0 \leq p \leq 100, corresponde al valor del eje de medición de X tal que el p\% del área bajo la gráfica de la f.d.p. de X está a la izquierda de \pi_p y el (100 - p)\% está a la derecha.
Como antes, el percentil 50 se denomina mediana y se simboliza con \tilde{\mu}_X.
8 . Valor esperado
Sobre la distribución de una v.a. se acostumbra registrar algunas características de interés, denominadas parámetros, como la localización y la dispersión, por ejemplo.
Sea X una v.a. con f.m.p. f_X para el caso discreto o con f.d.p. f_X para el caso continuo.
El valor esperado de X se define como:
\mathbb{E}[X] = \mu_X =
\begin{cases}
\sum_k x_k f_X(x_k), & \text{si } X \text{ es una v.a.d.} \\
\int_{-\infty}^{\infty} x f_X(x) dx, & \text{si } X \text{ es una v.a.c.}
\end{cases}
En general, si g : \mathbb{R} \longrightarrow \mathbb{R} es una función entonces se tiene que el valor esperado de g(X) se define como:
\mathbb{E}[g(X)] =
\begin{cases}
\sum_k g(x_k) f_X(x_k), & \text{si } X \text{ es una v.a.d.} \\
\int_{-\infty}^{\infty} g(x) f_X(x) dx, & \text{si } X \text{ es una v.a.c.}
\end{cases}
Propiedades
Sea X una v.a. y a, b números reales. Entonces se tiene que:
\mathbb{E}[a] = a.
\mathbb{E}[aX + b] = a\mathbb{E}[X] + b.
Si a_1, a_2, \ldots, a_n son n números reales y X_1, X_2, \ldots, X_n son n v.a.’s commensurables entonces:
Sea X una v.a. con f.m.p. f_X para el caso discreto o con f.d.p. f_X para el caso continuo.
Se define la varianza de X como el segundo momento centrado alrededor de la medida de X, esto es:
\mathbb{V}[X] = \sigma_X^2 =
\begin{cases}
\sum_k (x_k - \mu_X)^2 f_X(x_k), & \text{si } X \text{ es una v.a.d.;} \\
\int_{-\infty}^{\infty} (x - \mu_X)^2 f_X(x) dx, & \text{si } X \text{ es una v.a.c.}
\end{cases}
Sea X una v.a. y a, b números reales. Entonces se tiene que:
\mathbb{V}[X] \geq 0
\mathbb{V}[a] = 0
\mathbb{V}[X + a] = \mathbb{V}[X]
\mathbb{V}[bX] = b^2\mathbb{V}[X], con b constante
Si X_1, X_2, \ldots, X_m son variables aleatorias independientes, \mathbb{V}\left[\sum_{i=1}^m X_i\right] = \sum_{i=1}^m \mathbb{V}[X_i]
10 . Desviación estándar
Si X es una v.a. con media \mu_X y varianza \sigma_X^2, entonces la desviación estándar o desviación típica de X, denotada con \sigma_X se define como:
\sigma_X = \sqrt{\sigma_X^2}.
11 . Coeficiente de variación
El coeficiente de variación de Pearson, denotado con CV_X, está dado por:
CV_X = \left| \frac{\sigma_X}{\mu_X} \right|.
12 . Ejercicio 1.
Sea la función de probabilidad de una variable aleatoria
xᵢ
1
2
3
4
5
P(X=xᵢ)
2/20
3/20
13/20
1/20
k
Ejercicio paso a paso:
Primero sumamos las probabilidades conocidas para hallar k.
Hallar k:
\frac{2}{20} + \frac{3}{20} + \frac{13}{20} + \frac{1}{20} = \frac{19}{20}
Como la suma total debe ser 1:
\frac{19}{20} + k = 1 \Rightarrow k = \frac{1}{20}
# Cargar el paquete necesarioinstall.packages("kableExtra")library(kableExtra)# Datos de la variable aleatoriaxi <-c(1, 2, 3, 4, 5)probabilidad <-c(2/20, 3/20, 13/20, 1/20, 1/20)# Calcular la función de distribución acumuladafuncion_distribución <-cumsum(probabilidad)# Crear la tabla con kableExtratabla <-data.frame(Variable = xi,Probabilidad = probabilidad, Funcion_Distribución = funcion_distribución)# Mostrar la tabla con kableExtra, centrando las columnastabla %>%kable("html", caption ="Tabla de Probabilidad y Función de Distribución", align ="c") %>%kable_styling(bootstrap_options =c("striped", "hover"))
Tabla de Probabilidad y Función de Distribución
Variable
Probabilidad
Funcion_Distribución
1
0.10
0.10
2
0.15
0.25
3
0.65
0.90
4
0.05
0.95
5
0.05
1.00
Primer cuartil Q_1:
El primer cuartil es el valor tal que F(x) \geq 0.25. Buscamos en la tabla de F(x):
F(1) = 0.10
F(2) = 0.25 ← Aquí se alcanza el 25%, por lo tanto:
Q_1 = 2
P(0 < X < 3)
Los valores posibles de X entre 0 y 3 (sin incluir 3) son: 1 y 2.
# valores de la variablex<-1:5# f.m.p.fx <-c(2/20, 3/20, 13/20, 1/20, 1/20)# gráficoplot(x = x, y = fx, xlab ="Valores de X", ylab ="f(x)", pch =15, col ="blue", main ="Función de probabilidad")segments(x0 = x, y0 =0, x1 = x, y1 = fx, lwd =2, col ="blue")# Agregar cuadrículasgrid()
Ver código
# valores de la variablex<-1:5# f.m.p.fx <-c(2/20, 3/20, 13/20, 1/20, 1/20)# Crear un dataframe con los datosdf <-data.frame(x = x, fx = fx)# Gráfico con ggplot2ggplot(df, aes(x = x, y = fx)) +geom_point(shape =15, color ="blue") +geom_segment(aes(xend = x, yend =0), size =1, color ="blue") +labs(x ="Valores de X", y ="f(x)", title ="Función de probabilidad") +theme_minimal() +geom_text(aes(label = fx), vjust =-0.5)
# Definir los valores de x y las probabilidades correspondientesx <-c(1, 2, 3, 4, 5)probabilidades <-c(2/20, 3/20, 13/20, 1/20, 1/20)# Calcular la función de distribución acumulada (F(x))F_x <-cumsum(probabilidades)# Graficar la función de distribución acumuladaplot(x, F_x, type ="s", col ="blue", lwd =2, xlab ="x", ylab ="F(x)", main ="Función de Distribución Acumulada",xlim =c(0, 6), ylim =c(0, 1), xaxt ="n")axis(1, at = x) # Personalizar los valores del eje x# Añadir puntos a la gráficapoints(x, F_x, col ="red", pch =16)# Mostrar la gráficagrid()
Ver código
# Cargar la librería ggplot2library(ggplot2)# Definir los valores de x y las probabilidades correspondientesx <-c(1, 2, 3, 4, 5)probabilidades <-c(2/20, 3/20, 13/20, 1/20, 1/20)# Calcular la función de distribución acumulada (F(x))F_x <-cumsum(probabilidades)# Crear un data frame para la visualizacióndata <-data.frame(x = x, F_x = F_x)# Graficar la función de distribución acumulada usando ggplot2ggplot(data, aes(x = x, y = F_x)) +geom_step(color ="blue", size =1.5) +# Geometría de pasosgeom_point(color ="red", size =3) +# Puntos para cada valorlabs(title ="Función de Distribución Acumulada",x ="x", y ="F(x)") +theme_minimal() +theme(axis.text.x =element_text(size =12),axis.text.y =element_text(size =12),axis.title =element_text(size =14))
Medidas de resumen
Valor Esperado (Esperanza)
Fórmula: E(X) = \sum x_i \cdot P(x_i)
Interpretación: El valor esperado es una medida central que nos da una idea de “la media ponderada” de todos los valores posibles de la variable aleatoria, considerando sus respectivas probabilidades. En otras palabras, es el valor promedio que esperaríamos obtener si realizáramos un número muy grande de experimentos.
Ejemplo: Si el valor esperado es 3, esto significa que, en promedio, esperas obtener un valor cercano a 3 en una serie de experimentos.
Interpretación: La varianza mide la dispersión o la extensión de los valores de la variable aleatoria respecto al valor esperado. En otras palabras, indica cuán alejados se encuentran, en promedio, los valores de la variable respecto al valor esperado.
Ejemplo: Si la varianza es alta, significa que los valores de la variable pueden variar mucho respecto al valor esperado (es decir, los resultados serán más dispersos). Si es baja, los valores estarán más cerca del valor esperado.
Desviación Estándar
Fórmula: \sigma = \sqrt{\text{Var}(X)}
Interpretación: La desviación estándar es simplemente la raíz cuadrada de la varianza y también mide la dispersión de los valores respecto al valor esperado. Al ser en las mismas unidades que los datos originales, es más intuitiva de interpretar que la varianza.
Ejemplo: Si la desviación estándar es 2, eso significa que, en promedio, los valores de la variable se desvían en 2 unidades respecto al valor esperado.
Coeficiente de Variación
Fórmula: CV = \frac{\sigma}{E(X)}
Interpretación: El coeficiente de variación es una medida relativa de la dispersión. Se obtiene al dividir la desviación estándar entre el valor esperado. Esto permite comparar la dispersión entre variables con diferentes unidades o escalas. Un coeficiente de variación más alto indica mayor dispersión en relación con la media, mientras que un coeficiente de variación más bajo indica que los valores están más concentrados alrededor de la media.
Ejemplo: Si el coeficiente de variación es 0.5, significa que la desviación estándar es la mitad del valor esperado. Si es más bajo, la dispersión es menor en comparación con la media.
Esperanza matemática
La esperanza matemática, E(X), de una variable aleatoria discreta se calcula utilizando la siguiente fórmula:
E(X) = \sum_{i} x_i \cdot P(X = x_i)
Donde: - x_i son los valores posibles de la variable aleatoria, - P(X = x_i) son las probabilidades asociadas a cada valor.
En este caso, tenemos los siguientes valores para x_i y sus probabilidades correspondientes:
# Cargar los paquetes necesariosinstall.packages("kableExtra", repos ="https://cloud.r-project.org/")library(kableExtra)# Datos de la variable aleatoriaxi <-c(1, 2, 3, 4, 5)probabilidad <-c(2/20, 3/20, 13/20, 1/20, 1/20)# Calcular el valor esperado (Esperanza)valor_esperado <-sum(xi * probabilidad)# Calcular la varianzavarianza <-sum((xi - valor_esperado)^2* probabilidad)# Calcular la desviación estándardesviacion_estandar <-sqrt(varianza)# Calcular el coeficiente de variacióncoeficiente_variacion <- desviacion_estandar / valor_esperado# Crear una tabla con los resultadosresultados <-data.frame( Métrica =c("Valor esperado", "Varianza", "Desviación estándar", "Coeficiente de variación"),Resultado =c(valor_esperado, varianza, desviacion_estandar, coeficiente_variacion))# Mostrar la tabla con kableExtra, centrando las columnasresultados %>%kable("html", caption ="Medidas de resumen de la Distribución", align ="c") %>%kable_styling(bootstrap_options =c("striped", "hover"))
Medidas de resumen de la Distribución
Métrica
Resultado
Valor esperado
2.8000000
Varianza
0.7600000
Desviación estándar
0.8717798
Coeficiente de variación
0.3113499
13 . Ejercicio 2
Una variable aleatoria continua X tiene como función de densidad:
f(x) =
\begin{cases}
1 - x & \text{si } 0 \leq x < 1 \\
x - 1 & \text{si } 1 \leq x \leq 2 \\
0 & \text{otros casos}
\end{cases}
a) Función de distribución
Para hallar la función de distribución acumulada F(x) a partir de la función de densidad f(x) que aparece en la imagen, seguimos el proceso de integrar la función de densidad a partir de su definición.
La función de densidad es:
f(x) =
\begin{cases}
1 - x & \text{si } 0 \leq x < 1 \\
x - 1 & \text{si } 1 \leq x \leq 2 \\
0 & \text{otros casos}
\end{cases}
Definir la función de distribución acumuladaF(x)
La función de distribución acumulada F(x) se obtiene integrando la función de densidad. Para cada intervalo de f(x), se integra la función en el intervalo correspondiente.
Caso 1:x < 0
Si x < 0, la función de densidad es cero. Por lo tanto, la función de distribución acumulada también será cero:
F(x) = 0 \quad \text{para } x < 0
Caso 2:0 \leq x < 1
En este intervalo, la función de densidad es f(x) = 1 - x. La función de distribución acumulada se obtiene integrando desde 0 hasta x:
F(x) = \int_0^x (1 - t) \, dt = \left[ t - \frac{t^2}{2} \right]_0^x = x - \frac{x^2}{2}
Por lo tanto, para 0 \leq x < 1, la función de distribución acumulada es:
F(x) = x - \frac{x^2}{2}
Caso 3:1 \leq x \leq 2
En este intervalo, la función de densidad es f(x) = x - 1. Para hallar la función de distribución acumulada en este intervalo, integramos desde 0 hasta x, pero debemos considerar el valor de F(x) en x = 1, que ya sabemos de la parte anterior que es \frac{1}{2}:
Para calcular esta probabilidad, utilizamos la función de distribución acumulada F(x) en los límites -2 y 2. Como f(x) = 0 para x < 0, tenemos que F(x) = 0 para x < 0.
Entonces, la probabilidad será:
P(-2 \leq X \leq 2) = F(2) - F(-2)
Sabemos que F(-2) = 0 porque X no toma valores negativos según la función de densidad.
Ahora, calculamos F(2) usando la expresión para 1 \leq x \leq 2:
# Cargar la librería ggplot2library(ggplot2)# Definir la función de densidad a trozosf <-function(x) {ifelse(x >=0& x <1, 1- x, ifelse(x >=1& x <=2, x -1, 0))}# Crear un rango de valores de x para graficarx_vals <-seq(-0.5, 2.5, by =0.01)# Calcular los valores de f(x) para cada valor de xy_vals <-sapply(x_vals, f)# Crear un data frame con los valores de x y f(x)df <-data.frame(x = x_vals, y = y_vals)# Graficar con ggplot2ggplot(df, aes(x = x, y = y)) +geom_line(size =1, color ="blue") +geom_area(fill ="lightblue", alpha =0.5) +labs(title ="Función de Densidad de Probabilidad", x ="x", y ="f(x)") +theme_minimal() +xlim(c(-0.5, 2.5)) +# Ajustar los límites del eje xylim(c(0, 1)) # Ajustar los límites del eje y
Ver código
# Cargar la librería ggplot2library(ggplot2)# Definir la función de distribución acumulada a trozosF <-function(x) {ifelse(x <0, 0, ifelse(x >=0& x <1, x - (x^2) /2, ifelse(x >=1& x <=2, (x^2) /2- x +1, 1)))}# Crear un rango de valores de x para graficarx_vals <-seq(-0.5, 2.5, by =0.01)# Calcular los valores de F(x) para cada valor de xy_vals <-sapply(x_vals, F)# Crear un data frame con los valores de x y F(x)df <-data.frame(x = x_vals, y = y_vals)# Graficar con ggplot2ggplot(df, aes(x = x, y = y)) +geom_line(size =1, color ="blue") +geom_area(fill ="lightblue", alpha =0.5) +labs(title ="Función de Distribución Acumulada", x ="x", y ="F(x)") +theme_minimal() +xlim(c(-0.5, 2.5)) +# Ajustar los límites del eje xylim(c(0, 1)) # Ajustar los límites del eje y
Esperanza matemática
La esperanza matemática E[X] de una variable aleatoria continua X con función de densidad f(x) se calcula mediante la siguiente fórmula:
E[X] = \int_{-\infty}^{\infty} x \cdot f(x) \, dx
Dado que la función de densidad f(x) en el ejercicio anterior es a trozos, la integral debe dividirse en las partes correspondientes. La función de densidad es:
f(x) =
\begin{cases}
1 - x & \text{si } 0 \leq x < 1 \\
x - 1 & \text{si } 1 \leq x \leq 2 \\
0 & \text{otros casos}
\end{cases}
Intervalo[0, 1]
En este intervalo, f(x) = 1 - x, así que la integral se calcula como:
E[X_1] = \int_0^1 x \cdot (1 - x) \, dx
Intervalo[1, 2]
En este intervalo, f(x) = x - 1, así que la integral se calcula como:
# Definir la función de densidad a trozosf <-function(x) {ifelse(x >=0& x <1, 1- x, ifelse(x >=1& x <=2, x -1, 0))}# Definir la función para calcular la esperanza matemáticaexpectation <-function() {# Intervalo 0 <= x < 1: f(x) = 1 - x integral_1 <-integrate(function(x) x * (1- x), 0, 1)$value# Intervalo 1 <= x <= 2: f(x) = x - 1 integral_2 <-integrate(function(x) x * (x -1), 1, 2)$value# Sumar las integrales para obtener la esperanza total E_X <- integral_1 + integral_2return(E_X)}# Calcular la esperanza matemáticaE_X <-expectation()# Imprimir el resultadoprint(paste("La esperanza matemática E[X] es:", E_X))
[1] "La esperanza matemática E[X] es: 1"
14 . Taller practico
14.1 . Teorema de Chebyshev
El Teorema de Chebyshev es un resultado fundamental en estadística que establece una cota mínima para la probabilidad de que una variable aleatoria con varianza finita se encuentre dentro de un intervalo alrededor de su media. Es aplicable a cualquier distribución, independientemente de su forma, lo que lo hace versátil en análisis de datos.
k> 1 es el número de desviaciones estándar desde la media.
Características clave:
Distribución libre: Funciona para cualquier tipo de distribución, incluso si es desconocida o no normal.
Estimación conservadora: Proporciona una probabilidad mínima; la real puede ser mayor. Por ejemplo, en distribuciones normales, el 95% de los datos están dentro de 2\sigma, superando el 75% de Chebyshev.
Limitación: Requiere k > 1. Para k \leq 1, la desigualdad no ofrece información útil.
Ejercicio 1
Se desea conocer el número de automóviles que se deben poner a la venta durante un periodo determinado para que se satisfaga una demanda media de 300 unidades con una desviación típica de 100 unidades, con una probabilidad no inferior al 75%.
Conclusión: Se deben poner a la venta 500 automóviles para satisfacer la demanda con una probabilidad de al menos el 75%. Este resultado se basa en la desigualdad de Chebyshev, que garantiza esta probabilidad independientemente de la distribución subyacente de la demanda.
Ejercicio 2
La demanda media de un producto es de 100 unidades con una desviación típica de 40 unidades. Calcular la cantidad del producto que se debe tener a la venta para satisfacer la demanda de forma que puedan ser atendidos al menos el 80% de los clientes.
Redondeando, se necesitan 190 unidades para cubrir la demanda con la probabilidad especificada.
14.2 . Variable Aleatoria Discreta
Ejercicio
La variable aleatoria: X =“número de hijos por familia de una ciudad” tiene la siguiente distribución de probabilidad:
Ver código
# Datos de la variable aleatoriaX <-c(0, 1, 2, 3, 4, 5, 6)Probabilidad <-c(0.47, 0.3, 0.1, 0.06, 0.04, 0.02, 0.01)# Crear la tabla con kableExtratabla <-data.frame(X = X,Probabilidad = Probabilidad)# Mostrar la tabla con kableExtratabla %>%kable("html", caption ="Tabla de Probabilidades", align ="c") %>%kable_styling(bootstrap_options =c("striped", "hover"))
Tabla de Probabilidades
X
Probabilidad
0
0.47
1
0.30
2
0.10
3
0.06
4
0.04
5
0.02
6
0.01
Se pide:
Media o esperanza matemática. Significado
Varianza y desviación típica
Si el Ayuntamiento de la ciudad paga 2000 euros por hijo e Y = 2000.X, ¿cuál es la distribución de probabilidad?
Media, varianza y desviación típica de Y
Solución
a)
Ver código
# Datos de la variable aleatoriaX <-c(0, 1, 2, 3, 4, 5, 6)Probabilidad <-c(0.47, 0.3, 0.1, 0.06, 0.04, 0.02, 0.01)# Calcular las columnas adicionalesXi_Pi <- X * ProbabilidadXi2 <- X^2Xi2_Pi <- Xi2 * Probabilidad# Crear un data frame con todas las columnastabla <-data.frame(X_xi =paste0("x", seq_along(X), " = ", X),P_X_xi = Probabilidad,xi_pi = Xi_Pi,xi2 = Xi2,xi2_pi = Xi2_Pi)# Agregar fila de encabezado dentro de la tabla como una fila adicionalencabezado <-c("X = xᵢ", "P(X = xᵢ) = pᵢ", "xᵢ * pᵢ", "xᵢ²", "xᵢ² * pᵢ")# Convertir encabezado en una fila del data frametabla <-rbind(encabezado, tabla)# Agregar fila de suma al finaltabla[nrow(tabla) +1, ] <-c("Suma", sum(Probabilidad), sum(Xi_Pi), "", sum(Xi2_Pi))# Generar la tabla con estilo avanzado usando kableExtralibrary(knitr)library(kableExtra)tabla %>%kable("html", align ="c", col.names =NULL) %>%# Eliminar encabezado externokable_styling(full_width =FALSE, position ="center") %>%column_spec(1:5, extra_css ="border:1px solid green;") %>%row_spec(1, bold =TRUE) %>%# Fila del encabezado en negritarow_spec(nrow(tabla), bold =TRUE) # Fila de suma en negrita
La primera y tercera integral son cero al ser f(x) = 0 en esos intervalos.
1 = \int_2^4 f(x) dx = \int_2^4 kx dx = k \int_2^4 x dx = k \left[ \frac{x^2}{2} \right]_2^4 = k \left[ \frac{16}{2} - \frac{4}{2} \right] = 6k \implies k = \frac{1}{6}
f(x) =
\begin{cases}
\frac{x}{6} & 2 \leq x \leq 4 \\
0 & \text{en otros casos}
\end{cases}
R base
Ver código
# Crear el lienzo vacíoplot(0, 0, type ="n", xlim =c(-5, 5), ylim =c(0, 4/6),xlab ="x", ylab ="f(x)",main ="Función por partes",xaxt ="n", yaxt ="n") # Desactivar los ejes automáticos# Añadir flechas para los ejes x y f(x)arrows(-5, 0, 5, 0, col ="black", length =0.1) # Flecha en el eje xarrows(0, 0, 0, 4/6, col ="black", length =0.1) # Flecha en el eje f(x)# Añadir etiquetas personalizadas para los ejesaxis(1, at =c(-5, -2, 0, 2, 4), labels =c("-∞", "-2", "0", "2", "4")) # Eje xaxis(2, at =c(0, 2/6, 4/6), labels =c("0", expression(frac(2, 6)), expression(frac(4, 6))), las =2) # Eje f(x) con fracciones verticales# Primer segmento: línea horizontal en y=0 desde x=-∞ hasta x=2segments(-5, 0, 2, 0, col ="blue", lwd =2)# Segundo segmento: línea diagonal representando x/6 desde x=2 hasta x=4segments(2, 2/6, 4, 4/6, col ="blue", lwd =2)# Tercer segmento: línea horizontal en y=0 desde x=4 hacia infinitosegments(4, 0, 5, 0, col ="blue", lwd =2)# Añadir puntos importantespoints(c(-5, -2, 0, 2), c(0, 0, 0, 0), col ="red", pch =16) # Puntos en el eje x (incluyendo menos infinito)points(c(2, 4), c(2/6, 4/6), col ="red", pch =16) # Puntos en la diagonal# Añadir líneas horizontales de referencia para f(x)abline(h =c(2/6, 4/6), col ="gray", lty =2)# Etiqueta para la función diagonaltext(3.5, 3/6, "x/6", col ="blue")# Mostrar cuadrículagrid()
ggplot2
Ver código
# Crear los datos para los segmentosdatos <-data.frame(x =c(-5, 2, 2, 4, 4, 5), # Coordenadas xy =c(0, 0, 2/6, 4/6, 0, 0), # Coordenadas ygrupo =c("segmento1", "segmento1", "diagonal", "diagonal", "segmento3", "segmento3") # Identificar segmentos)# Crear los puntos importantespuntos <-data.frame(x =c(-5, -2, 0, 2, 2, 4, 4),y =c(0, 0, 0, 0, 2/6, 4/6, 0))# Graficar con ggplot2ggplot() +# Agregar los segmentosgeom_line(data = datos, aes(x = x, y = y, group = grupo), color ="blue", size =1) +# Agregar los puntos importantesgeom_point(data = puntos, aes(x = x, y = y), color ="red", size =3) +# Líneas horizontales de referencia para f(x)geom_hline(yintercept =c(2/6, 4/6), linetype ="dashed", color ="gray") +# Etiquetas del eje f(x) con fracciones verticalesscale_y_continuous(breaks =c(0, 2/6, 4/6),labels =c("0", expression(frac(2,6)), expression(frac(4,6))) ) +# Etiquetas del eje xscale_x_continuous(breaks =c(-5, -2, 0, 2, 4),labels =c("-∞", "-2", "0", "2", "4") ) +# Etiqueta para la función diagonalannotate("text", x =3.5, y = (3/6), label ="x/6", color ="blue") +# Personalización del gráficolabs(title ="Función por partes", x ="x", y ="f(x)") +theme_minimal() +theme(axis.title.x =element_text(size =12),axis.title.y =element_text(size =12),plot.title =element_text(hjust =0.5))
b) La función de distribución se define F(x) = \int_{-\infty}^x f(t) \, dt Para x < 2 F(x) = \int_{-\infty}^{x} f(t) \, dt = 0
Es decir, el niño debe pesar 3,85 kilos para tener al 90% de los niños con un peso igual o inferior.
15 . Conclusiones.
El estudio de las variables aleatorias y sus medidas asociadas constituye un pilar fundamental en la formación estadística, proporcionando herramientas matemáticas para modelar y analizar fenómenos probabilísticos. La comprensión profunda de estos conceptos no solo enriquece nuestra capacidad analítica sino que también mejora nuestra toma de decisiones en entornos de incertidumbre. A través del taller, hemos podido apreciar cómo estos elementos teóricos tienen aplicaciones concretas en diversos campos, desde la investigación científica hasta la gestión empresarial y financiera. El teorema de Chebyshev, en particular, nos muestra cómo principios matemáticos aparentemente abstractos pueden proporcionar información práctica y útil sobre la distribución de datos en situaciones reales, incluso cuando desconocemos su distribución específica. Finalmente, es importante reconocer que estos conocimientos estadísticos no son estáticos, sino que continúan evolucionando y adaptándose para abordar nuevos desafíos en la era de los grandes datos y la analítica avanzada, lo que subraya la importancia de mantener una formación continua en este campo. Espero el taller sea de ayuda para entender un poco del mundo de la estadística.
Wickham, Hadley, Mara Averick, Jennifer Bryan, Winston Chang, Lucy D’Agostino McGowan, Romain François, Garrett Grolemund, et al. 2019. «Welcome to the tidyverse» 4: 1686. https://doi.org/10.21105/joss.01686.
Wickham, Hadley, Romain François, Lionel Henry, Kirill Müller, y Davis Vaughan. 2023. «dplyr: A Grammar of Data Manipulation». https://CRAN.R-project.org/package=dplyr.
Xie, Yihui. 2025. «knitr: A General-Purpose Package for Dynamic Report Generation in R». https://yihui.org/knitr/.