1 Introducción

Las tablas de frecuencias:

2 Tablas de clasificación a una vía

2.1 Frecuencias absolutas

La frecuencia absoluta \(n_j\) de la clase \(C_j\), es la cantidad de observaciones que hacen parte de la \(j\)-ésima categoría para \(j=1,\ldots,m\).

Propiedades

  • \(0\leq n_j\leq n\)
  • \(\displaystyle\sum_{j=1}^{m}n_j=n\)

2.2 Frecuencias relativas

La frecuencias relativa \(h_j\) de la clase \(C_j\), es la proporción de casos que hacen parte de la \(j\)-ésima categoría para \(j=1,\ldots,m\).

\[h_j=\frac{n_j}{n}\]

Propiedades

  • \(0\leq h_j\leq 1\)
  • \(\displaystyle \sum_{j=1}^{m}h_j=1\)

2.3 Ejemplo

En un proceso de control de calidad, durante un periodo de tiempo determinado, se tiene un conjunto de 7,614 lotes de cien resistencias (resistores) cada uno. Para cada lote se registra el número de resistencias con algún tipo de inconformidad, obteniéndose los resultados de la tabla que se presenta a continuación. Completar la tabla de frecuencias.

Clase F. Absoluta F. Relativa
0 145
1 2415
2 3456
3 852
4 0.0603
5 157
6
Total 7,614
# tamaño de la muestra
n <- 7614
# frecuencia absoluta clase 4
n_4 <- 0.0603*n
print(n_4)
## [1] 459.1242
# frecuencia absoluta clase 6
n_6 <- n - (145 + 2415 + 3456 + 852 + 459 + 157)
print(n_6)
## [1] 130
# frecuencias absolutas
nj <- c(145, 2415, 3456, 852, 459, 157, 130)
# frecuencias relativas
hj <- nj/n
print(hj)
## [1] 0.01904387 0.31717888 0.45390071 0.11189913 0.06028369 0.02061991 0.01707381

2.4 Análisis gráfico

En general las variables categóricas y las cuantitativas discretas se grafican por medio de diagramas de barras:

  • Eje \(x\): categorías de la característica observada.
  • Eje \(y\): frecuencia absoluta o frecuencia relativa.

2.5 Ejemplo

Graficar las frecuencias relativas del ejemplo de las resistencias.

# tamaño de la muestra
n <- 7614
# frecuencias absolutas
nj <- c(145, 2415, 3456, 852, 459, 157, 130)
names(nj) <- 0:6
barplot(nj)

# frecuencias relativas
hj <- nj/n
barplot(hj)

2.6 Frecuencia absoluta acumulada

Las frecuencias acumuladas se calculan para variables que estén medidas al menos en escala ordinal.

La frecuencia absoluta acumulada \(N_j\) de la clase \(C_j\) es la cantidad de individuos cuya modalidad es inferior o igual a la \(j\)-ésima categoría:

\[ N_j = \sum_{k=1}^{j} n_k \]

Propiedades

  • \(N_1=n_1\)
  • \(N_m=n\)
  • \(N_1\leq N_2\leq\ldots\leq N_m\)

2.7 Frecuencia relativa acumulada

La frecuencia relativa acumulada \(H_j\) de la clase \(C_j\) es la proporción de individuos cuya modalidad es inferior o igual a la \(j\)-ésima categoría:

\[ H_j = \sum_{k=1}^{j} h_k = \frac{N_j}{n} \]

Propiedades

  • \(H_1=h_1\)
  • \(H_m=1\)
  • \(H_1\leq H_2\leq\ldots\leq H_m\)

2.8 Distribución de frecuencias

Se llama distribución de frecuencias a la tabla que contiene las categorías junto con las frecuencias correspondientes.

Clase F. Absoluta F. Relativa F. Abs. Acumulada F. Rel. Acumulada
\(C_1\) \(n_1\) \(h_1\) \(N_1\) \(H_1\)
\(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\)
\(C_m\) \(n_m\) \(h_m\) \(n\) \(1\)
Total \(n\) 1 N.A. N.A.

2.8.1 Ejemplo

Considerar el siguiente conjunto de datos asociados con el nivel educativo de una muestra de empleados (Bachillerato (B), Pregrado (P), Maestría (M), y Doctorado (D)). Elaborar la tabla de frecuencias correspondiente.

B, D, M, B, B, P, B, M, B, B, B, P, B, M, B, B, M, B, M, B, B, B, B, B, B, B, P, B, B, B, B, M, B, P, B, B, M, B, B, B, D, B, M, B, P, B, B, B, P, P

Clase F. Absoluta F. Relativa F. Abs. Acumulada F. Rel. Acumulada
Bachillerato 33 66.0% 33 66.0%
Pregrado 7 14.0% 40 80.0%
Maestría 8 16.0% 48 96.0%
Doctorado 2 4.0% 50 100%
Total 50 100% N.A. N.A.
# datos
edu <- c("B", "D", "M", "B", "B", "P", "B", "M", "B", "B", "B", "P", "B", "M", 
         "B", "B", "M", "B", "M", "B", "B", "B", "B", "B", "B", "B", "P", "B", 
         "B", "B", "B", "M", "B", "P", "B", "B", "M", "B", "B", "B", "D", "B", 
         "M", "B", "P", "B", "B", "B", "P", "P")
# tamaño de la muestra
n <- length(edu)
print(n)
## [1] 50
# frecuencias absolutas
nj <- table(edu)
nj <- nj[c(1, 4, 3, 2)]
print(nj)
## edu
##  B  P  M  D 
## 33  7  8  2
# frecuencias relativas
hj <- nj/n
print(hj)
## edu
##    B    P    M    D 
## 0.66 0.14 0.16 0.04
# frecuencias absolutas acumuladas
Nj <- cumsum(nj)
print(Nj)
##  B  P  M  D 
## 33 40 48 50
# frecuencias relativas acumuladas
Hj <- cumsum(hj)
print(Hj)
##    B    P    M    D 
## 0.66 0.80 0.96 1.00

2.9 Variables cuantitativas

Cuando no se tienen directamente las \(m\) clases para elaborar la tabla de distribución de frecuencias se acostumbra definir las clases (intervalos) de la siguiente manera:

  1. Seleccionar el número de clases \(m\). Para tal fin se distinguen tres alternativas:
    • Elegir \(m\) arbitrariamente o teniendo en cuenta alguna consideración previa.
    • Regla empírica: \(m \approx \sqrt{n}\) (no es recomendable para muestras grandes).
    • Regla de Sturges: \(m \approx 1 + 3\text{.}3 \log (n)\).
  2. Calcular el mínimo y el máximo de la variable: \(x_{\min} = \{x_1,\ldots,x_n\}\) y \(x_{\max} = \{x_1,\ldots,x_n\}\), respectivamente.
  3. Calcular el rango de la variable: \(R = x_{\max} - x_{\min}\).
  4. Calcular la amplitud de las clases: \(a =\frac{R}{m}\).
  5. Definir las clases: \(C_j = \{x: l_{j-1} < x \leq l_j\}\) con \(l_{j}=l_{j-1} + a\) para \(j=1,\ldots,m\), donde \(l_0 = x_\min\).

2.10 Ejemplo

Los siguientes datos están asociados con el peso (kg) de un conjunto de materiales. Elaborar la distribución de frecuencias correspondiente.

103.1, 82.1, 106.2, 100.9, 91.8 , 96.1 , 126.9, 119.8, 93.1, 86.8, 75.2, 93.0 , 82.3 , 94.8, 64.2 , 105.3, 108.0, 86.3 , 81.8 , 138.1, 92.5, 66.3, 66.6, 142.2, 96.5 , 74.8, 95.4 , 100.1, 81.9 , 112.0, 116.8, 103.2, 66.1, 60.4, 78.7

La variable “peso” es una variable cuantitativa de razón. Es claro que esta variable no está dada en categorías, por lo que es necesario elaborar las clases pertinentes como sigue:

  • Se eligen \(m=6\) clases dado que \(\sqrt{35} = 5\text{.}916 \approx 6\) y \(1 + 3\text{.}3 \log_{10} (35) = 6\text{.}095 \approx 6\).
  • \(x_{\min} = 60\text{.}4\) y \(x_{\max} = 142\text{.}2\).
  • \(R = x_{\max} - x_{\min} = 142\text{.}2 - 60\text{.}4 = 81\text{.}8\).
  • \(a = 81\text{.}8/6 = 13\text{.}63\).
  • Las clases resultantes son:
    1. \(C_1 = \{x: l_0 \leq x \leq l_1\}\) donde \(l_0 = 60\text{.}40\) y \(l_1= 60\text{.}40 + 13\text{.}63 = 74\text{.}03\).
    2. \(C_2 = \{x: l_1 < x \leq l_2\}\) donde \(l_2=74\text{.}03 + 13\text{.}63 = 87\text{.}67\).
    3. \(C_3 = \{x: l_2 < x \leq l_3\}\) donde \(l_3=87\text{.}67 + 13\text{.}63 = 101\text{.}30\).
    4. \(C_4 = \{x: l_3 < x \leq l_4\}\) donde \(l_4=101\text{.}30 + 13\text{.}63 = 114\text{.}93\).
    5. \(C_5 = \{x: l_4 < x \leq l_5\}\) donde \(l_5=114\text{.}93 + 13\text{.}63 = 128\text{.}57\).
    6. \(C_6 = \{x: l_5 < x \leq l_6\}\) donde \(l_6=128\text{.}57 + 13\text{.}63 = 142\text{.}20\).

Así, la distribución de frecuencias está dada por:.

Clase F. Absoluta F. Relativa F. Abs. Acumulada F. Rel. Acumulada
\([60\text{.}40 ; 74\text{.}03]\) 5 14.3% 5 14.3%
\((74\text{.}03 ; 87\text{.}67]\) 9 25.7% 14 40.0%
\((87\text{.}67 ; 101\text{.}30]\) 10 28.6% 24 68.6%
\((101\text{.}30 ; 114\text{.}93]\) 6 17.1% 30 85.7%
\((114\text{.}93 ; 128\text{.}57]\) 3 8.6% 33 94.3%
\((128\text{.}57 ; 142\text{.}20]\) 2 5.7% 35 100%
Total 35 100% N.A N.A
# datos
peso<- c(103.1, 82.1, 106.2, 100.9, 91.8,  96.1,  126.9, 119.8, 93.1, 86.8, 75.2, 93.0, 
         82.3,  94.8, 64.2,  105.3, 108.0, 86.3,  81.8,  138.1, 92.5, 66.3, 66.6, 142.2,    
         96.5,  74.8, 95.4,  100.1, 81.9,  112.0, 116.8, 103.2, 66.1, 60.4, 78.7)
# tamaño de la muestra
n <- length(peso)
print(n)
## [1] 35
# numero de intervalos
m <- round(1 + 3.3*log(n, base = 10))
print(m)
## [1] 6
# rango
R <- max(peso) - min(peso)
print(R)
## [1] 81.8
# amplitud
a <- R/m
print(a)
## [1] 13.63333
# limites
lim <- min(peso) + (0:m)*a
print(lim)
## [1]  60.40000  74.03333  87.66667 101.30000 114.93333 128.56667 142.20000
# frecuencias absolutas
nj <- table(cut(x = peso, breaks = lim, include.lowest = T))
print(nj)
## 
##  [60.4,74]  (74,87.7] (87.7,101]  (101,115]  (115,129]  (129,142] 
##          5          9         10          6          3          2
# frecuencias relativas
hj <- nj/n
print(hj)
## 
##  [60.4,74]  (74,87.7] (87.7,101]  (101,115]  (115,129]  (129,142] 
## 0.14285714 0.25714286 0.28571429 0.17142857 0.08571429 0.05714286
# frecuencias absolutas acumuladas
Nj <- cumsum(nj)
print(Nj)
##  [60.4,74]  (74,87.7] (87.7,101]  (101,115]  (115,129]  (129,142] 
##          5         14         24         30         33         35
# frecuencias relativas acumuladas
Hj <- cumsum(hj)
print(Hj)
##  [60.4,74]  (74,87.7] (87.7,101]  (101,115]  (115,129]  (129,142] 
##  0.1428571  0.4000000  0.6857143  0.8571429  0.9428571  1.0000000