Introducción

En estadística, las variables aleatorias se clasifican en dos tipos principales: discretas y continuas. Además, según las escalas de medición, podemos clasificar las variables en cuatro categorías: nominal, ordinal, de intervalo y de razón. Esta clasificación es fundamental para entender cómo se miden, analizan y visualizan los datos.

Clasificación por Tipo de Variables Aleatorias

Variables Aleatorias Discretas

Una variable aleatoria discreta puede tomar un conjunto finito o contable de valores. Ejemplos comunes incluyen el número de clientes en una tienda o el resultado de lanzar un dado. Ejemplo: Lanzamiento de un Dado

Consideremos un dado justo de seis caras. La variable aleatoria XX representa el número que aparece al lanzar el dado. Función de Masa de Probabilidad (PMF)

La función de masa de probabilidad para XX es:

\[ P(X=k)=\frac{1}{6}\text{, para }k{\in}\left\{0,1,2,3,4,5,6\right\} \]

Ejercicio Resuelto

Calculemos y grafiquemos la PMF de \(X\).

# Valores de la variable aleatoria
valores <- 1:6
# Probabilidad de cada valor
probabilidades <- rep(1/6, 6)

# Crear un data frame para graficar
pmf_df <- data.frame(Valor = valores, Probabilidad = probabilidades)

# Graficar la PMF
ggplot(pmf_df, aes(x = factor(Valor), y = Probabilidad)) +
  geom_bar(stat = "identity", fill = "lightblue") +
  labs(title = "Función de Masa de Probabilidad del Dado",
       x = "Valor del Dado", y = "Probabilidad") +
  theme_minimal()

Variables Aleatorias Continuas

Una variable aleatoria continua puede tomar cualquier valor en un intervalo de números reales. Un ejemplo común es la altura de las personas en una población.

Ejemplo: Distribución Normal

Consideremos una variable aleatoria continua YY que sigue una distribución normal con media \(\mu=0\) y desviación estándar \(\sigma=0\).

Función de Densidad de Probabilidad (PDF)

La función de densidad de probabilidad para \(Y\) es:

\[ f(y)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}} \]

Ejercicio Resuelto

Graficaremos la PDF de una distribución normal estándar.

# Crear una secuencia de valores para Y
y_values <- seq(-4, 4, length.out = 100)
# Calcular la PDF
pdf_values <- dnorm(y_values, mean = 0, sd = 1)

# Crear un data frame para graficar
pdf_df <- data.frame(Y = y_values, PDF = pdf_values)

# Graficar la PDF
ggplot(pdf_df, aes(x = Y, y = PDF)) +
  geom_line(color = "darkblue", size = 1) +
  labs(title = "Función de Densidad de Probabilidad Normal Estándar",
       x = "Y", y = "Densidad") +
  theme_minimal()

Clasificación por Escalas de Medición

Las escalas de medición determinan cómo se pueden manejar y analizar los datos. Las variables se pueden clasificar en cuatro escalas: nominal, ordinal, de intervalo y de razón.

Escala Nominal

Las variables nominales son categorías que no tienen un orden intrínseco. Ejemplos incluyen el color de los ojos (azul, verde, marrón) o el tipo de vehículo (sedán, SUV, camioneta).

Ejemplo: Tipo de Vehículo

Visualicemos la distribución de diferentes tipos de vehículos.

# Datos de ejemplo
vehiculos <- c("Sedán", "SUV", "Camioneta", "Sedán", "SUV", "SUV", "Camioneta")
tipo_vehiculo <- as.factor(vehiculos)

# Contar la frecuencia de cada tipo
vehiculo_freq <- table(tipo_vehiculo)

# Graficar la distribución de tipos de vehículos
ggplot(as.data.frame(vehiculo_freq), aes(x = tipo_vehiculo, y = Freq)) +
  geom_bar(stat = "identity", fill = "lightgreen") +
  labs(title = "Distribución de Tipos de Vehículos",
       x = "Tipo de Vehículo", y = "Frecuencia") +
  theme_minimal()

Escala Ordinal

Las variables ordinales son categorías con un orden lógico. Ejemplos incluyen clasificaciones de satisfacción (bajo, medio, alto) o niveles educativos (secundaria, licenciatura, maestría).

Ejemplo: Nivel de Satisfacción

Representemos la satisfacción de clientes en tres niveles.

# Datos de ejemplo
satisfaccion <- c("Bajo", "Medio", "Alto", "Medio", "Bajo", "Alto", "Alto")
nivel_satisfaccion <- factor(satisfaccion, levels = c("Bajo", "Medio", "Alto"), ordered = TRUE)

# Contar la frecuencia de cada nivel
satisfaccion_freq <- table(nivel_satisfaccion)

# Graficar el nivel de satisfacción
ggplot(as.data.frame(satisfaccion_freq), aes(x = nivel_satisfaccion, y = Freq)) +
  geom_bar(stat = "identity", fill = "orange") +
  labs(title = "Niveles de Satisfacción de Clientes",
       x = "Nivel de Satisfacción", y = "Frecuencia") +
  theme_minimal()

Escala de Intervalo

Las variables de intervalo tienen diferencias significativas entre valores, pero no un verdadero cero. Un ejemplo es la temperatura en grados Celsius o Fahrenheit.

Ejemplo: Temperaturas

Supongamos un conjunto de temperaturas medidas en Celsius.

# Datos de ejemplo
temperaturas <- c(22, 24, 19, 21, 25, 23, 20)

# Crear un data frame
temp_df <- data.frame(Temperatura = temperaturas)

# Graficar las temperaturas
ggplot(temp_df, aes(x = factor(1), y = Temperatura)) +
  geom_boxplot(fill = "lightblue") +
  labs(title = "Distribución de Temperaturas (°C)",
       x = "Temperatura", y = "°C") +
  theme_minimal()

Escala de Razón

Las variables de razón tienen un verdadero cero, lo que permite la comparación de proporciones. Ejemplos incluyen el peso, la altura, y la distancia.

Ejemplo: Peso de Individuos

Consideremos un conjunto de pesos de individuos.

# Datos de ejemplo
pesos <- c(70, 65, 80, 75, 60, 90, 85)

# Crear un data frame
peso_df <- data.frame(Peso = pesos)

# Graficar los pesos
ggplot(peso_df, aes(x = factor(1), y = Peso)) +
  geom_boxplot(fill = "lightcoral") +
  labs(title = "Distribución de Pesos (kg)",
       x = "Peso", y = "kg") +
  theme_minimal()

Conclusiones

Comprender la clasificación de variables aleatorias y las escalas de medición es fundamental para el análisis de datos. Diferentes tipos de variables requieren diferentes métodos de análisis y visualización, y el uso adecuado de gráficos puede ayudar a interpretar mejor los datos.