La estadística descriptiva es la rama de la estadística que resume y describe las características principales de un conjunto de datos. A diferencia de la estadística inferencial, no busca generalizar conclusiones más allá de los datos observados, sino proporcionar herramientas para organizar, visualizar y calcular resúmenes numéricos que faciliten la interpretación.

En este curso aplicamos los conceptos de estadística descriptiva a tres conjuntos de datos reales proporcionados por el fabricante:

Para cada uno calcularemos medidas de tendencia central, dispersión y forma, además de construir histogramas, boxplots y diagramas de barras (a partir de intervalos). Al final se incluye una introducción a diagramas de dispersión y matrices de correlación usando el dataset cars (distancia vs. velocidad) como ejemplo didáctico.

Los paquetes necesarios para llevar a cabo este módulo son:

library(moments)

Carga y preparación de los datos

La carga y preparación de los datos en este caso puede ser manual, dado que los datos no son muchos y son problemas ingenieríles. La carga de los datos se realizará utilizando vectores.

El primer conjunto de datos corresponde al periodo de almacén (vida de anaquel en días) de una película fotográfica de alta velocidad. Este conjunto de datos se muestra a continuación

# Datos 1: Vida de película (días)
vida <- c(125, 140, 121, 141, 127, 125, 127, 147, 140, 124,
          128, 150, 135, 122, 134, 132, 126, 121, 140, 143,
          120, 127, 121, 121, 121, 130, 126, 124, 142, 131,
          124, 131, 151, 141, 125, 141, 160, 137, 127, 127)

El segundo conjunto de datos es sobre el porcentaje de algodón en una tela utilizada para elaborar camisas para hombre. A continuación se presentan esos datos:

# Datos 2: Porcentaje de algodón
algodon <- c(34.2, 33.6, 33.8, 34.7, 37.8, 32.6, 35.8, 34.6,
             33.1, 34.7, 34.2, 33.6, 36.6, 33.1, 37.6, 33.6,
             34.5, 35.0, 33.4, 32.5, 35.4, 34.6, 37.3, 34.1,
             35.6, 35.4, 34.7, 34.1, 34.6, 35.9, 34.6, 34.7,
             34.3, 36.2, 34.6, 35.1, 33.8, 34.7, 35.5, 35.7,
             35.1, 36.8, 35.2, 36.8, 37.1, 33.6, 32.8, 36.8,
             34.7, 35.1, 35.0, 37.9, 34.0, 32.9, 32.1, 34.3,
             33.6, 35.3, 34.9, 36.4, 34.1, 33.5, 34.5, 32.7)

Por último, se muestra el conjunto de datos tres, en el cual se muestra la producción de 90 hornadas consecutivas de sustrato de cerámica al cual se ha aplicado un revestimiento metálico mediante un proceso de depositación a vapor.

# Datos 3: Producción de sustrato cerámico
produccion <- c(94.1, 87.3, 94.1, 92.4, 84.6, 85.4,
                93.2, 84.1, 92.1, 90.6, 83.6, 86.6,
                90.6, 90.1, 96.4, 89.1, 85.4, 91.7,
                91.4, 95.2, 88.2, 88.8, 89.7, 87.5,
                88.2, 86.1, 86.4, 86.4, 87.6, 84.2,
                86.1, 94.3, 85.0, 85.1, 85.1, 85.1,
                95.1, 93.2, 84.9, 84.0, 89.6, 90.5,
                90.0, 86.7, 87.3, 93.7, 90.0, 95.6,
                92.4, 83.0, 89.6, 87.7, 90.1, 88.3,
                87.3, 95.3, 90.3, 90.6, 94.3, 84.1,
                86.6, 94.1, 93.1, 89.4, 97.3, 83.7,
                91.2, 97.8, 94.6, 88.6, 96.8, 82.9,
                86.1, 93.1, 96.3, 84.1, 94.4, 87.3,
                90.4, 86.4, 94.7, 82.6, 96.1, 86.4,
                89.1, 87.6, 91.1, 83.1, 98.0, 84.5)

Medidas de tendencia central

Las medidas de tendencia central que se conocen son:

\[ \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i \]

\[ \tilde{x} = \begin{cases} x_{\left(\frac{n+1}{2}\right)} & \text{si } n \text{ es impar} \\[1em] \frac{x_{\left(\frac{n}{2}\right)} + x_{\left(\frac{n}{2}+1\right)}}{2} & \text{si } n \text{ es par} \end{cases} \]

\[ \text{Moda} = \text{valor con mayor frecuencia} \]

Vamos a tomar el conjunto de datos relacionado con la vida de anaquel en días del primer conjunto de datos y vamos a calcular las medidas de tendencia central:

# Media
Media <- mean(vida)

# Mediana
Mediana <- median(vida)

# Moda
tabla_frec <- table(vida)
Moda <- as.numeric(names(tabla_frec)[which.max(tabla_frec)])

Estas medidas de tendencia central se complementan con medidas de posición. Las medidas de posición son los cuartiles. Un cuartil es una medida estadística que divide un conjunto de datos ordenados en cuatro partes iguales. Sirve para evaluar la dispersión y la posición de los datos, identificando rápidamente qué valores se encuentran por debajo o por encima de ciertos porcentajes. Dado un conjunto de datos ordenados \(x_{(1)} \le x_{(2)} \le \dots \le x_{(n)}\), se define:

\[ Q_1 = \text{mediana de la mitad inferior de los datos} \]

\[ Q_3 = \text{mediana de la mitad superior de los datos} \]

De forma explícita: \[ Q_1 = \begin{cases} x_{\left(\frac{n+1}{4}\right)} & \text{si } \frac{n+1}{4} \text{ es entero} \\[1em] \dfrac{x_{\left(\left\lfloor \frac{n+1}{4} \right\rfloor\right)} + x_{\left(\left\lceil \frac{n+1}{4} \right\rceil\right)}}{2} & \text{en otro caso} \end{cases} \]

\[ Q_3 = \begin{cases} x_{\left(\frac{3(n+1)}{4}\right)} & \text{si } \frac{3(n+1)}{4} \text{ es entero} \\[1em] \dfrac{x_{\left(\left\lfloor \frac{3(n+1)}{4} \right\rfloor\right)} + x_{\left(\left\lceil \frac{3(n+1)}{4} \right\rceil\right)}}{2} & \text{en otro caso} \end{cases} \]

# Cuartiles
cuartiles <- quantile(vida, probs = c(0.25, 0.5, 0.75))
Q1 <- cuartiles[1]   # primer cuartil
Q2 <- cuartiles[2]   # mediana
Q3 <- cuartiles[3]   # tercer cuartil

Si no se quiere interpolación en los datos se puede agregar un argumento a la función quantile, y otorga el cálculo con los datos observados.

# Cuartiles
cuartiles <- quantile(vida, probs = c(0.25, 0.5, 0.75), type = 2)
Q1 <- cuartiles[1]   # primer cuartil
Q2 <- cuartiles[2]   # mediana
Q3 <- cuartiles[3]   # tercer cuartil

Medidas de dispersión

Las medidas de dispersión permiten cuantificar qué tan alejados o concentrados se encuentran los datos respecto a una medida de tendencia central. Mientras que la media, mediana o moda proporcionan un valor representativo del conjunto de datos, las medidas de dispersión indican el grado de variabilidad presente en las observaciones.

Las medidas de dispersión más utilizadas son:

\[ R = x_{\max} - x_{\min} \]

\[ RIC = Q_3 - Q_1 \]

\[ s^2 = \frac{\sum_{i=1}^{n}(x_i-\bar{x})^2}{n-1} \]

\[ s = \sqrt{\frac{\sum_{i=1}^{n}(x_i-\bar{x})^2}{n-1}} = \sqrt{s^{2}} \]

\[ CV = \frac{s}{\bar{x}} \times 100 \]

\[ DMA = \frac{1}{n}\sum_{i=1}^{n}|x_i-\bar{x}| \]

\[ DMA_M = \frac{1}{n}\sum_{i=1}^{n}|x_i-\tilde{x}| \]

\[ IQR = Q_{3} - Q_{1} \]

# Rango
Rango <- max(vida) - min(vida)

# Rango intercuartílico (IQR)
IQR <- IQR(vida)

# Varianza
Varianza <- var(vida)

# Desviación estándar
DesvStd <- sd(vida)

# Coeficiente de variación (%)
CV <- (sd(vida) / mean(vida)) * 100

# Desviación media absoluta respecto a la media
DMA <- mean(abs(vida - mean(vida)))

# Desviación media absoluta respecto a la mediana
DMA_M <- mean(abs(vida - median(vida)))

Medidas de forma

Las medidas de forma permiten describir la configuración de una distribución de datos más allá de su tendencia central y dispersión. Estas medidas indican si los datos presentan simetría o asimetría y qué tan concentrados o dispersos se encuentran alrededor de la media en comparación con una distribución normal.

Las medidas de forma más utilizadas son:

\[ g_1 = \frac{\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^3} {\left(\sqrt{\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2}\right)^3} \]

Una forma equivalente con momentos centrales es:

\[ g_1 = \frac{\mu_3}{\sigma^3} \]

donde:

\[ \mu_3 = \frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^3 \]

\[ g_2 = \frac{\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^4} {\left(\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2\right)^2} \]

Una forma equivalente utilizando momentos centrales es:

\[ g_2 = \frac{\mu_4}{\sigma^4} \]

donde:

\[ \mu_4 = \frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^4 \]

Muchos paquetes reportan el \(\text{Exceso} = g_{2} - 3\) y se determina lo siguiente:

# Asimetría
Asimetria <- skewness(vida)

# Curtosis (exceso de curtosis)
Curtosis <- kurtosis(vida) - 3

# Curtosis clasica
Curtosis_2 <- kurtosis(vida)

Summary

Con la siguiente función se obtiene un resumen del conjunto de datos deseado.

summary(vida)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   120.0   124.8   127.5   131.9   140.0   160.0