Estadística descriptiva

La estadística descriptiva es la rama de la estadística que resume y describe las características principales de un conjunto de datos. A diferencia de la estadística inferencial, no busca generalizar conclusiones más allá de los datos observados, sino proporcionar herramientas para organizar, visualizar y calcular resúmenes numéricos que faciliten la interpretación.

En este curso aplicamos los conceptos de estadística descriptiva a tres conjuntos de datos reales proporcionados por el fabricante:

Vida de anaquel de una película fotográfica de alta velocidad (40 días).
Porcentaje de algodón en tela para camisas (64 mediciones).
Producción de sustrato cerámico con revestimiento metálico (90 hornadas).

Para cada uno calcularemos medidas de tendencia central, dispersión y forma, además de construir histogramas, boxplots y diagramas de barras (a partir de intervalos). Al final se incluye una introducción a diagramas de dispersión y matrices de correlación usando el dataset cars (distancia vs. velocidad) como ejemplo didáctico.

Los paquetes necesarios para llevar a cabo este módulo son:

library(moments)

Carga y preparación de los datos

La carga y preparación de los datos en este caso puede ser manual, dado que los datos no son muchos y son problemas ingenieríles. La carga de los datos se realizará utilizando vectores.

El primer conjunto de datos corresponde al periodo de almacén (vida de anaquel en días) de una película fotográfica de alta velocidad. Este conjunto de datos se muestra a continuación

# Datos 1: Vida de película (días)
vida <- c(125, 140, 121, 141, 127, 125, 127, 147, 140, 124,
          128, 150, 135, 122, 134, 132, 126, 121, 140, 143,
          120, 127, 121, 121, 121, 130, 126, 124, 142, 131,
          124, 131, 151, 141, 125, 141, 160, 137, 127, 127)

El segundo conjunto de datos es sobre el porcentaje de algodón en una tela utilizada para elaborar camisas para hombre. A continuación se presentan esos datos:

# Datos 2: Porcentaje de algodón
algodon <- c(34.2, 33.6, 33.8, 34.7, 37.8, 32.6, 35.8, 34.6,
             33.1, 34.7, 34.2, 33.6, 36.6, 33.1, 37.6, 33.6,
             34.5, 35.0, 33.4, 32.5, 35.4, 34.6, 37.3, 34.1,
             35.6, 35.4, 34.7, 34.1, 34.6, 35.9, 34.6, 34.7,
             34.3, 36.2, 34.6, 35.1, 33.8, 34.7, 35.5, 35.7,
             35.1, 36.8, 35.2, 36.8, 37.1, 33.6, 32.8, 36.8,
             34.7, 35.1, 35.0, 37.9, 34.0, 32.9, 32.1, 34.3,
             33.6, 35.3, 34.9, 36.4, 34.1, 33.5, 34.5, 32.7)

Por último, se muestra el conjunto de datos tres, en el cual se muestra la producción de 90 hornadas consecutivas de sustrato de cerámica al cual se ha aplicado un revestimiento metálico mediante un proceso de depositación a vapor.

# Datos 3: Producción de sustrato cerámico
produccion <- c(94.1, 87.3, 94.1, 92.4, 84.6, 85.4,
                93.2, 84.1, 92.1, 90.6, 83.6, 86.6,
                90.6, 90.1, 96.4, 89.1, 85.4, 91.7,
                91.4, 95.2, 88.2, 88.8, 89.7, 87.5,
                88.2, 86.1, 86.4, 86.4, 87.6, 84.2,
                86.1, 94.3, 85.0, 85.1, 85.1, 85.1,
                95.1, 93.2, 84.9, 84.0, 89.6, 90.5,
                90.0, 86.7, 87.3, 93.7, 90.0, 95.6,
                92.4, 83.0, 89.6, 87.7, 90.1, 88.3,
                87.3, 95.3, 90.3, 90.6, 94.3, 84.1,
                86.6, 94.1, 93.1, 89.4, 97.3, 83.7,
                91.2, 97.8, 94.6, 88.6, 96.8, 82.9,
                86.1, 93.1, 96.3, 84.1, 94.4, 87.3,
                90.4, 86.4, 94.7, 82.6, 96.1, 86.4,
                89.1, 87.6, 91.1, 83.1, 98.0, 84.5)

Medidas de tendencia central

Las medidas de tendencia central que se conocen son:

Media aritmética: La media aritmética (o promedio) es una medida de tendencia central. Se calcula sumando todos los valores de un conjunto de datos y dividiendo el resultado entre la cantidad total de datos. Es ampliamente usada en estadística para representar un valor típico.

\[ \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i \]

Mediana: La mediana es una medida de tendencia central que representa el valor central exacto de un conjunto de datos ordenados de menor a mayor. Divide el grupo en dos partes iguales: el \(50\%\) de los datos se encuentra por debajo de ella y el otro \(50\%\) por encima.

\[ \tilde{x} = \begin{cases} x_{\left(\frac{n+1}{2}\right)} & \text{si } n \text{ es impar} \\[1em] \frac{x_{\left(\frac{n}{2}\right)} + x_{\left(\frac{n}{2}+1\right)}}{2} & \text{si } n \text{ es par} \end{cases} \]

Moda: Es el valor que aparece con mayor frecuencia. Puede no existir o haber más de una.

\[ \text{Moda} = \text{valor con mayor frecuencia} \]

Vamos a tomar el conjunto de datos relacionado con la vida de anaquel en días del primer conjunto de datos y vamos a calcular las medidas de tendencia central:

# Media
Media <- mean(vida)

# Mediana
Mediana <- median(vida)

# Moda
tabla_frec <- table(vida)
Moda <- as.numeric(names(tabla_frec)[which.max(tabla_frec)])

Estas medidas de tendencia central se complementan con medidas de posición. Las medidas de posición son los cuartiles. Un cuartil es una medida estadística que divide un conjunto de datos ordenados en cuatro partes iguales. Sirve para evaluar la dispersión y la posición de los datos, identificando rápidamente qué valores se encuentran por debajo o por encima de ciertos porcentajes. Dado un conjunto de datos ordenados \(x_{(1)} \le x_{(2)} \le \dots \le x_{(n)}\), se define:

\[ Q_1 = \text{mediana de la mitad inferior de los datos} \]

\[ Q_3 = \text{mediana de la mitad superior de los datos} \]

De forma explícita: \[ Q_1 = \begin{cases} x_{\left(\frac{n+1}{4}\right)} & \text{si } \frac{n+1}{4} \text{ es entero} \\[1em] \dfrac{x_{\left(\left\lfloor \frac{n+1}{4} \right\rfloor\right)} + x_{\left(\left\lceil \frac{n+1}{4} \right\rceil\right)}}{2} & \text{en otro caso} \end{cases} \]

\[ Q_3 = \begin{cases} x_{\left(\frac{3(n+1)}{4}\right)} & \text{si } \frac{3(n+1)}{4} \text{ es entero} \\[1em] \dfrac{x_{\left(\left\lfloor \frac{3(n+1)}{4} \right\rfloor\right)} + x_{\left(\left\lceil \frac{3(n+1)}{4} \right\rceil\right)}}{2} & \text{en otro caso} \end{cases} \]

# Cuartiles
cuartiles <- quantile(vida, probs = c(0.25, 0.5, 0.75))
Q1 <- cuartiles[1]   # primer cuartil
Q2 <- cuartiles[2]   # mediana
Q3 <- cuartiles[3]   # tercer cuartil

Si no se quiere interpolación en los datos se puede agregar un argumento a la función quantile, y otorga el cálculo con los datos observados.

# Cuartiles
cuartiles <- quantile(vida, probs = c(0.25, 0.5, 0.75), type = 2)
Q1 <- cuartiles[1]   # primer cuartil
Q2 <- cuartiles[2]   # mediana
Q3 <- cuartiles[3]   # tercer cuartil

Medidas de dispersión

Las medidas de dispersión permiten cuantificar qué tan alejados o concentrados se encuentran los datos respecto a una medida de tendencia central. Mientras que la media, mediana o moda proporcionan un valor representativo del conjunto de datos, las medidas de dispersión indican el grado de variabilidad presente en las observaciones.

Las medidas de dispersión más utilizadas son:

Rango: El rango es la medida de dispersión más simple. Se define como la diferencia entre el valor máximo y el valor mínimo observados en un conjunto de datos.

\[ R = x_{\max} - x_{\min} \]

Rango intercuartílico: El rango intercuartílico (RIC o IQR por sus siglas en inglés) mide la dispersión del \(50\%\) central de los datos. Se obtiene como la diferencia entre el tercer cuartil y el primer cuartil.

\[ RIC = Q_3 - Q_1 \]

Varianza: La varianza es una medida que cuantifica la dispersión promedio de los datos respecto a la media. Se calcula como el promedio de los cuadrados de las desviaciones respecto a la media. Para una muestra:

\[ s^2 = \frac{\sum_{i=1}^{n}(x_i-\bar{x})^2}{n-1} \]

Desviación estándar: La desviación estándar es la raíz cuadrada positiva de la varianza. Es una de las medidas de dispersión más utilizadas porque conserva las mismas unidades de la variable original. Una desviación estándar pequeña indica que los datos están próximos a la media, mientras que una desviación estándar grande indica una mayor dispersión.

\[ s = \sqrt{\frac{\sum_{i=1}^{n}(x_i-\bar{x})^2}{n-1}} = \sqrt{s^{2}} \]

Coeficiente de variación: El coeficiente de variación es una medida de dispersión relativa que expresa la desviación estándar como porcentaje de la media. Esta medida resulta especialmente útil cuando se desea comparar la variabilidad de conjuntos de datos expresados en diferentes unidades o con escalas distintas.

\[ CV = \frac{s}{\bar{x}} \times 100 \]

Desviación media absoluta: La desviación media absoluta (DMA) mide la distancia promedio de los datos respecto a la media utilizando valores absolutos en lugar de cuadrados. Esta medida es menos sensible a los datos atípicos que la desviación estándar.

\[ DMA = \frac{1}{n}\sum_{i=1}^{n}|x_i-\bar{x}| \]

Desviación media absoluta respecto a la mediana: Es similar a la medida de dispersión anterior, sólo que mide la distancia promedio con respecto a la mediana. Proporciona una medida de dispersión más estable cuando existen datos extremos o distribuciones asimétricas

\[ DMA_M = \frac{1}{n}\sum_{i=1}^{n}|x_i-\tilde{x}| \]

Rango intercuartílico: Es una medida de dispersión estadística que indica dónde se concentra el 50% central de tus datos. Es la distancia que hay entre el tercer cuartil y el primer cuartil.

\[ IQR = Q_{3} - Q_{1} \]

# Rango
Rango <- max(vida) - min(vida)

# Rango intercuartílico (IQR)
IQR <- IQR(vida)

# Varianza
Varianza <- var(vida)

# Desviación estándar
DesvStd <- sd(vida)

# Coeficiente de variación (%)
CV <- (sd(vida) / mean(vida)) * 100

# Desviación media absoluta respecto a la media
DMA <- mean(abs(vida - mean(vida)))

# Desviación media absoluta respecto a la mediana
DMA_M <- mean(abs(vida - median(vida)))

Medidas de forma

Las medidas de forma permiten describir la configuración de una distribución de datos más allá de su tendencia central y dispersión. Estas medidas indican si los datos presentan simetría o asimetría y qué tan concentrados o dispersos se encuentran alrededor de la media en comparación con una distribución normal.

Las medidas de forma más utilizadas son:

Coeficiente de asimetría: La asimetría mide el grado de simetría de una distribución respecto a su media. Una distribución simétrica tiene un coeficiente de asimetría cercano a cero. Valores positivos indican una cola más larga hacia la derecha, mientras que valores negativos indican una cola más larga hacia la izquierda.

\[ g_1 = \frac{\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^3} {\left(\sqrt{\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2}\right)^3} \]

Una forma equivalente con momentos centrales es:

\[ g_1 = \frac{\mu_3}{\sigma^3} \]

donde:

\[ \mu_3 = \frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^3 \]

Si \(g_{1}=0\): distribución simétrica.
Si \(g_{1}>0\): asimetría positiva (sesgo a la derecha).
Si \(g_{1}<0\): asimetría negativa (sesgo a la izquierda).
Curtosis: La curtosis mide el grado de concentración de los datos alrededor de la media y el peso de las colas de la distribución. Se compara frecuentemente con la distribución normal.

\[ g_2 = \frac{\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^4} {\left(\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2\right)^2} \]

Una forma equivalente utilizando momentos centrales es:

\[ g_2 = \frac{\mu_4}{\sigma^4} \]

donde:

\[ \mu_4 = \frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^4 \]

Muchos paquetes reportan el \(\text{Exceso} = g_{2} - 3\) y se determina lo siguiente:

Si \(\text{Exceso}=0\): distribución mesocúrtica (similar a la normal).
Si \(\text{Exceso}>0\): distribución leptocúrtica (más apuntada y con colas más pesadas).
Si \(\text{Exceso}<0\): distribución platicúrtica (más achatada y con colas más ligeras).

# Asimetría
Asimetria <- skewness(vida)

# Curtosis (exceso de curtosis)
Curtosis <- kurtosis(vida) - 3

# Curtosis clasica
Curtosis_2 <- kurtosis(vida)

Summary

Con la siguiente función se obtiene un resumen del conjunto de datos deseado.

summary(vida)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   120.0   124.8   127.5   131.9   140.0   160.0