La exploración de datos es una etapa fundamental en el análisis de datos, ya que permite resumir la información de las variables de manera clara y precisa. Este proceso se apoya en tablas y gráficos que destacan el comportamiento de las variables de forma comprensible. Una de las aplicaciones más importantes de esta etapa es la depuración de datos, que implica la identificación de anomalías en la estructura de los datos para su posterior corrección o eliminación.
Entre las anomalías más frecuentes se encuentran los datos faltantes, pérdidas de formato, errores de digitación y valores improbables. Sin embargo, la exploración de datos trasciende la depuración, ya que también facilita la identificación de tendencias en los datos analizados y el estudio de interacciones entre las variables, proporcionando una base de datos sólida para el modelamiento.
Considere un conjunto de \(n\) individuos asociados a una variable cuyos valores han sido agrupados en \(k\) clases o categorías, denotadas con \(C_1, C_2, \ldots, C_k\). Para cada una de estas \(k\) clases se definen las siguientes magnitudes:
Definición. La frecuencia absoluta de la clase \(C_i\), denotar con \(n_i\), representa el número de observaciones que pertenecen a la \(i\)-ésima categoría, para \(i = 1, \ldots, k\). \(\square\)
Definición. La frecuencia relativa de la clase \(C_i\), denotar con \(f_i\), es la proporción de la frecuencia absoluta de la \(i\)-ésima categoría con respecto al total de observaciones. Se calcula como \(f_i = \frac{n_i}{n}\), para \(i = 1, \ldots, k\). \(\square\)
Al multiplicar la fórmula de la frecuencia relativa \(f_i\) por 100%, se obtiene el porcentaje de individuos pertenecientes a la clase correspondiente.
Definición. La frecuencia absoluta acumulada de la clase \(C_i\), denotar con \(N_i\), representa la cantidad de individuos cuya modalidad es menor o igual a la \(i\)-ésima categoría. Se calcula como \(N_i = \sum_{j=1}^{i} n_j\), para \(i = 1, \ldots, k\). \(\square\)
Definición. La frecuencia relativa acumulada de la clase \(C_i\), denotar con \(F_i\), representa la proporción de individuos, respecto al total de observaciones, cuya modalidad es menor o igual a la \(i\)-ésima categoría. Se calcula como \(F_i = \frac{N_i}{n}\), para \(i = 1, \ldots, k\). \(\square\)
Las frecuencias acumuladas se calculan para variables en escalas de al menos nivel ordinal, ya que permiten establecer un orden entre las categorías. En variables nominales, las frecuencias acumuladas carecen de sentido interpretativo, pues no existe un orden lógico entre las clases.
La distribución de frecuencias es una tabla que muestra las categorías de una variable junto con sus frecuencias correspondientes. Este tipo de tabla organiza los datos de manera clara y estructurada, facilitando su interpretación y análisis. Su formato general se ilustra en la siguiente tabla.
\(C_i\) | \(n_i\) | \(f_i\) | \(N_i\) | \(F_i\) |
---|---|---|---|---|
\(C_1\) | \(n_1\) | \(f_1\) | \(N_1\) | \(F_1\) |
\(C_2\) | \(n_2\) | \(f_2\) | \(N_2\) | \(F_2\) |
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) |
\(C_k\) | \(n_k\) | \(f_k\) | \(n\) | 1 |
Total | \(n\) | 1 | N.A. | N.A. |
Proposición. En una distribución de frecuencias con una variable categórica de \(k\) clases, se cumplen las siguientes propiedades fundamentales:
La demostración se deja como ejercicio para el lector. \(\square\)
A continuación, se presentan algunos ejemplos para resumir los datos asociados con variables cualitativas. Al elaborar las tablas correspondientes, es esencial considerar la escala de medición de las variables para determinar la pertinencia de incluir las frecuencias acumuladas.
Ejemplo. Considere el siguiente conjunto de datos obtenido a partir de una encuesta de opinión sobre una medida económica (0 = En contra; 1 = A favor; 2 = No Sabe/No Responde). A partir de estos datos, elabore la tabla de frecuencias correspondiente.
# datos
x <- c(1, 0, 0, 1, 1, 2, 1, 2, 1, 2, 0, 0, 0, 2, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0,
0, 0, 1, 1, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 2, 1)
## [1] 48
## x
## 0 1 2
## 27 16 5
## x
## 0 1 2
## 56.25000 33.33333 10.41667
## [1] 3
La variable “opinión” es una variable cualitativa nominal que puede tomar los valores “A favor”, “En contra” y “NS/NR”, por lo que el número de clases es \(k = 3\). La siguiente tabla presenta la distribución de frecuencias solicitada. Dado que la escala de medición de la variable “opinión” es nominal, las frecuencias acumuladas no tienen sentido en este contexto.
Opinión | F. Absoluta | F. Relativa (%) |
---|---|---|
A favor | 27 | 56.2 |
En contra | 16 | 33.3 |
NS/NR | 5 | 10.4 |
Total | 48 | 100.0 |
\(\square\)
Ejemplo. Considere el siguiente conjunto de datos relacionado con el nivel educativo de algunos empleados de una empresa (0 = Bachillerato, 1 = Pregrado, 2 = Maestría, 3 = Doctorado). A partir de estos datos, elabore la tabla de frecuencias correspondiente.
# datos
x <- c(0, 3, 2, 0, 0, 1, 0, 2, 0, 0, 0, 1, 0, 2, 0, 0, 2, 0, 2, 0, 0, 0, 0, 0,
0, 0, 1, 0, 0, 0, 0, 2, 0, 1, 0, 0, 2, 0, 0, 0, 3, 0, 2, 0, 1, 0, 0, 0,
1, 1, 3, 1, 0, 0, 1, 1, 2, 2, 0, 0, 1, 0, 2, 1, 0, 0, 0, 1, 1, 3, 2, 1)
## [1] 72
## x
## 0 1 2 3
## 41 15 12 4
## 0 1 2 3
## 41 56 68 72
## x
## 0 1 2 3
## 56.944444 20.833333 16.666667 5.555556
## 0 1 2 3
## 56.94444 77.77778 94.44444 100.00000
## [1] 4
La variable “nivel educativo” es una variable cualitativa ordinal que toma los valores “Bachillerato”, “Pregrado”, “Maestría” y “Doctorado”, por lo que el número de categorías es \(k=4\). La siguiente tabla muestra la distribución de frecuencias requerida. Dado que la escala de medición de la variable es ordinal, resulta pertinente incluir las frecuencias acumuladas.
Nivel | F. Absoluta | F. Relativa (%) | F. Abs. Acumulada | F. Rel. Acumulada (%) |
---|---|---|---|---|
Bachillerato | 41 | 56.9 | 41 | 56.9 |
Pregrado | 15 | 20.8 | 56 | 77.8 |
Maestría | 12 | 16.7 | 68 | 94.4 |
Doctorado | 4 | 5.6 | 72 | 100.0 |
Total | 72 | 100.0 | NA | NA |
\(\square\)
Cuando una variable es cuantitativa de razón, no se cuenta directamente con \(k\) clases para elaborar la distribución de frecuencias. A continuación, se describe un procedimiento para crear las categorías en este tipo de variables:
Seleccionar el número de categorías \(k\). Se pueden utilizar las siguientes alternativas:
Determinar el mínimo y el máximo. El mínimo y el máximo del conjunto de datos se denotan con \(x_{\min}\) y \(x_{\max}\), respectivamente.
Calcular el rango \(R\). El rango o recorrido del conjunto de datos se define como: \(R = x_{\max} - x_{\min}\).
Calcular la amplitud \(A\). La amplitud representa el tamaño de las clases y se define como: \(A = R/k\). Para mayor simplicidad, se recomienda que todas las clases tengan la misma amplitud.
Establecer las categorías. Las categorías se construyen de la siguiente manera:
\[
C_i = \{x : l_{i-1} \leq x < l_i\},
\]
donde \(l_0 = x_{\min}\) y \(l_i = l_{i-1} + a\). Esto se repite para \(i = 1, \ldots, k\).
Este procedimiento asegura una partición adecuada de los valores de la variable en clases uniformes y facilita la elaboración de la tabla de distribución de frecuencias.
Ejemplo. Considere el siguiente conjunto de datos correspondiente al peso (en kg) de muestra de materiales. A partir de estos datos, elabore la tabla de distribución de frecuencias correspondiente.
# datos
x <- c(103.1, 82.1, 106.2, 100.9, 91.8, 96.1, 126.9, 119.8, 93.1, 86.8, 75.2,
93.0, 82.3, 94.8, 64.2, 105.3, 108.0, 86.3, 81.8, 138.1, 92.5, 66.3,
66.6, 142.2, 96.5, 74.8, 95.4, 100.1, 81.9, 112.0, 116.8, 103.2, 66.1,
60.4, 78.7)
## [1] 35
## [1] 6
## [1] 60.4
## [1] 142.2
## [1] 81.8
## [1] 13.63333
## [1] 60.40000 74.03333 87.66667 101.30000 114.93333 128.56667 142.20000
##
## [60.4,74] (74,87.7] (87.7,101] (101,115] (115,129] (129,142]
## 5 9 10 6 3 2
## [60.4,74] (74,87.7] (87.7,101] (101,115] (115,129] (129,142]
## 5 14 24 30 33 35
##
## [60.4,74] (74,87.7] (87.7,101] (101,115] (115,129] (129,142]
## 14.285714 25.714286 28.571429 17.142857 8.571429 5.714286
## [60.4,74] (74,87.7] (87.7,101] (101,115] (115,129] (129,142]
## 14.28571 40.00000 68.57143 85.71429 94.28571 100.00000
La variable “peso” es cuantitativa de razón y no se encuentra inicialmente agrupada en categorías, por lo que es necesario definir las clases. La siguiente tabla presenta la distribución de frecuencias correspondiente. Dado que las ganancias están medidas en una escala de razón, resulta pertinente incluir las frecuencias acumuladas.
Nivel | F. Absoluta | F. Relativa (%) | F. Abs. Acumulada | F. Rel. Acumulada (%) |
---|---|---|---|---|
[60.4,74] | 5 | 14.3 | 5 | 14.3 |
(74,87.7] | 9 | 25.7 | 14 | 40.0 |
(87.7,101] | 10 | 28.6 | 24 | 68.6 |
(101,115] | 6 | 17.1 | 30 | 85.7 |
(115,129] | 3 | 8.6 | 33 | 94.3 |
(129,142] | 2 | 5.7 | 35 | 100.0 |
Total | 35 | 100.0 | NA | NA |
\(\square\)