1 Introducción

  • Una de las formas más sencillas de describir variables es a través de tablas de contingencia.
  • Permiten detectar algunos comportamientos tales como los valores más o menos frecuentes de la variable.
  • En general se puede utilizar para analizar variables en cualquier escala, aunque si el rango de la variable es muy amplio, resulta dispendioso y poco aprovechable.

2 Clasificación a una vía

  • Considerar los datos observados de una característica \(C\) sin agrupar.
  • \(n\): número de casos en estudio.
  • \(C_1, C_2, \ldots, C_j, \ldots, C_m\): clases (categorías) de la característica.
  • \(m\): número de clases.

2.1 Frecuencias absolutas

La frecuencia absoluta (\(n_j\)) de la clase \(C_j\), es la cantidad de observaciones que hacen parte de la \(j\)-ésima categoría para \(j=1,\ldots,m\).

\(C_j\) \(n_j\)
\(C_1\) \(n_1\)
\(C_2\) \(n_2\)
\(C_j\) \(n_j\)
\(C_m\) \(n_m\)
——— ———
Total \(n\)

2.1.1 Propiedades de \(n_j\)

  • \(0\leq n_j\leq n\)
  • \(\sum_{j=1}^{m}n_j=n\)

2.2 Frecuencias relativas

Las frecuencias relativas (\(h_j\)) son la proporción de casos que pertenecen a determinada clase:

\[h_j=\frac{n_j}{n}\]

2.2.1 Propiedades de \(h_j\)

  • \(0\leq h_j\leq 1\)
  • \(\sum_{j=1}^{m}h_j=1\)

2.2.2 Ejemplo 1

En un proceso de control de calidad, durante un periodo de tiempo determinado, se tiene un conjunto de 7,614 lotes de cien resistencias (resistores) cada uno. Para cada lote se registra el número de resistencias con algún tipo de inconformidad, obteniéndose los resultados de la siguiente tabla. Complete la tabla de contingencia.

\(C\) \(n_j\) \(h_j\)
0 145
1 2415
2 3456
3 852
4 0.0603
5 157
6
Total 7,614

2.3 Análisis gráfico

En general las variables categóricas y las cuantitativas discretas se grafican en diagramas de barras:

  • Eje \(x\): categorías de la característica observada.
  • Eje \(y\): frecuencia absoluta o frecuencia relativa.

2.3.0.1 Ejemplo: Problema de investigación

# graficar las frecuencias relativas
nj <- c(145, 2415, 3456, 852, 459, 157, 130)
names(nj) <- 0:6
barplot(nj)

# graficar las frecuencias relativas
hj <- prop.table(nj)
barplot(hj)

2.4 Frecuencias acumuladas

Las frecuencias acumuladas se calculan para variables que estén medidas como mínimo en escala ordinal.

2.4.1 Frecuencia absoluta acumulada

La frecuencia absoluta acumulada (\(N_j\)) de la clase \(C_j\) es la cantidad de individuos cuya modalidad es inferior o igual a la \(i\)-ésima categoría:

\[ N_j = \sum_{k=1}^{j} n_k \]

2.4.2 Propiedades

  1. \(N_1=n_1\)
  2. \(N_m=n\)
  3. \(N_1\leq N_2\leq...\leq N_m\)

2.4.3 Frecuencia relativa acumulada

La frecuencia relativa acumulada (\(H_j\)) de la clase \(C_j\) es la proporción de individuos cuya modalidad es inferior o igual a la \(i\)-ésima categoría:

\[ H_j = \sum_{k=1}^{j} h_k \]

2.4.4 Propiedades

  1. \(H_1=h_1\)
  2. \(H_m=1\)
  3. \(H_1\leq H_2\leq...\leq H_m\)

2.5 Distribución de frecuencias

Se llama distribución de frecuencias a la tabla que contiene las categorías junto con las frecuencias correspondientes.

Clase F. Absoluta F. Relativa F. Abs. Acumulada F. Rel. Acumulada
\(C_1\) \(n_1\) \(h_1\) \(N_1\) \(H_1\)
\(C_2\) \(n_2\) \(h_2\) \(N_2\) \(H_2\)
\(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\)
\(C_m\) \(n_m\) \(h_m\) \(n\) \(1\)
Total \(n\) 1 N.A. N.A.

2.5.1 Ejemplo 2

Considerar el siguiente conjunto de datos asociados con el nivel educativo de una muestra de empleados (Bachillerato (B), Pregrado (P), Maestría (M), y Doctorado (D)). Elaborar la tabla de frecuencias correspondiente.

B, D, M, B, B, P, B, M, B, B, B, P, B, M, B, B, M, B, M, B, B, B, B, B, B, B, P, B, B, B, B, M, B, P, B, B, M, B, B, B, D, B, M, B, P, B, B, B, P, P

Clase F. Absoluta F. Relativa F. Abs. Acumulada F. Rel. Acumulada
Bachillerato 33 66.0% 33 66.0%
Pregrado 7 14.0% 40 80.0%
Maestría 8 16.0% 48 96.0%
Doctorado 2 4.0% 50 100%
Total 50 100% N.A. N.A.
# datos
edu <- c("B", "D", "M", "B", "B", "P", "B", "M", "B", "B", "B", "P", "B", "M", 
         "B", "B", "M", "B", "M", "B", "B", "B", "B", "B", "B", "B", "P", "B", 
         "B", "B", "B", "M", "B", "P", "B", "B", "M", "B", "B", "B", "D", "B", 
         "M", "B", "P", "B", "B", "B", "P", "P")
# tamaño de la muestra
n <- length(edu)
print(n)
## [1] 50
# frecuencias absolutas
nj <- table(edu)
nj <- nj[c(1, 4, 3, 2)]
print(nj)
## edu
##  B  P  M  D 
## 33  7  8  2
# frecuencias relativas
hj <- nj/n
print(hj)
## edu
##    B    P    M    D 
## 0.66 0.14 0.16 0.04
# frecuencias absolutas acumuladas
Nj <- cumsum(nj)
print(Nj)
##  B  P  M  D 
## 33 40 48 50
# frecuencias relativas acumuladas
Hj <- cumsum(hj)
print(Hj)
##    B    P    M    D 
## 0.66 0.80 0.96 1.00

2.6 Variables cuantitativas

Cuando no se tienen las \(m\) clases para elaborar la tabla de distribución de frecuencias:

  1. Seleccionar el número de categorías \(m\). Para tal fin se distinguen tres alternativas:
  • Elegir arbitrariamente o bajo conocimiento previo \(m\).
  • \(m \approx \sqrt{n}\).
  • \(m \approx 1 + 3\text{.}3 \log (n)\).
  1. Obtener el mínimo y el máximo de los valores que de la variable.
  2. Calcular el rango o recorrido: \(R = x_{\max} - x_{\min}\).
  3. Calcular la amplitud de los intervalos. La amplitud se denota con \(a\) y por facilidad conviene que sea igual para todas las clases: \(a =\frac{R}{m}\).
  4. Conformar los intervalos: \(C_j = \{x: l_{j-1} < x \leq l_j\}\) donde \(l_{j}=l_{j-1} + a\).

2.6.1 Ejemplo 3

Considerar el siguiente conjunto de datos asociados con el peso (en kg) de una muestra de materiales. Elaborar la distribución de frecuencias correspondiente.

103.1, 82.1 , 106.2, 100.9, 91.8, 96.1 , 126.9, 119.8, 93.1 , 86.8, 75.2 , 93.0, 82.3 , 94.8,
64.2 , 105.3, 108.0, 86.3 , 81.8, 138.1, 92.5, 66.3 , 66.6 , 142.2, 96.5 , 74.8, 95.4 , 100.1, 81.9 , 112.0, 116.8, 103.2, 66.1, 60.4 , 78.7

La variable “peso” es una variable cuantitativa de razón. Es claro que esta variable no está dada en categorías, por lo que es necesario elaborar las clases pertinentes como sigue:

  • Se opta por trabajar con \(m=6\) clases dado que \(\sqrt{35} = 5\text{.}916 \approx 6\) y \(1 + 3\text{.}3 \log_{10} (35) = 6\text{.}095 \approx 6\).
  • \(x_{\min} = 60\text{.}4\) y \(x_{\max} = 142\text{.}2\).
  • \(R = x_{\max} - x_{\min} = 142\text{.}2 - 60\text{.}4 = 81\text{.}8\).
  • \(a = 81\text{.}8/6 = 13\text{.}63\).
  • Las clases resultantes son:
  1. \(C_1 = \{x: l_0 \leq x \leq l_1\}\) donde \(l_0 = 60\text{.}40\) y \(l_1= 60\text{.}40 + 13\text{.}63 = 74\text{.}03\).
  2. \(C_2 = \{x: l_1 < x \leq l_2\}\) donde \(l_2=74\text{.}03 + 13\text{.}63 = 87\text{.}67\).
  3. \(C_3 = \{x: l_2 < x \leq l_3\}\) donde \(l_3=87\text{.}67 + 13\text{.}63 = 101\text{.}30\).
  4. \(C_4 = \{x: l_3 < x \leq l_4\}\) donde \(l_4=101\text{.}30 + 13\text{.}63 = 114\text{.}93\).
  5. \(C_5 = \{x: l_4 < x \leq l_5\}\) donde \(l_5=114\text{.}93 + 13\text{.}63 = 128\text{.}57\).
  6. \(C_6 = \{x: l_5 < x \leq l_6\}\) donde \(l_6=128\text{.}57 + 13\text{.}63 = 142\text{.}20\).

Así, la distribución de frecuencias está dada por:.

Clase F. Absoluta F. Relativa F. Abs. Acumulada F. Rel. Acumulada
\([60\text{.}40 ; 74\text{.}03)\) 5 14.3% 5 14.3%
\((74\text{.}03 ; 87\text{.}67]\) 9 25.7% 14 40.0%
\((87\text{.}67 ; 101\text{.}30]\) 10 28.6% 24 68.6%
\((101\text{.}30 ; 114\text{.}93]\) 6 17.1% 30 85.7%
\((114\text{.}93 ; 128\text{.}57]\) 3 8.6% 33 94.3%
\((128\text{.}57 ; 142\text{.}20]\) 2 5.7% 35 100%
Total 35 100% N.A N.A
# datos
peso<- c(103.1, 82.1, 106.2, 100.9, 91.8,  96.1,  126.9, 119.8, 93.1, 86.8, 75.2, 93.0, 
         82.3,  94.8, 64.2,  105.3, 108.0, 86.3,  81.8,  138.1, 92.5, 66.3, 66.6, 142.2,    
         96.5,  74.8, 95.4,  100.1, 81.9,  112.0, 116.8, 103.2, 66.1, 60.4, 78.7)
# tamaño de la muestra
n <- length(peso)
print(n)
## [1] 35
# numero de intervalos
m <- floor(1 + 3.3*log(n, base = 10))
print(m)
## [1] 6
# rango
R <- max(peso) - min(peso)
print(R)
## [1] 81.8
# amplitud
a <- R/m
print(a)
## [1] 13.63333
# limites
lim <- min(peso) + (0:m)*a
print(lim)
## [1]  60.40000  74.03333  87.66667 101.30000 114.93333 128.56667 142.20000
# frecuencias absolutas
nj <- table(cut(x = peso, breaks = lim, include.lowest = T))
print(nj)
## 
##  [60.4,74]  (74,87.7] (87.7,101]  (101,115]  (115,129]  (129,142] 
##          5          9         10          6          3          2
# frecuencias relativas
hj <- nj/n
print(hj)
## 
##  [60.4,74]  (74,87.7] (87.7,101]  (101,115]  (115,129]  (129,142] 
## 0.14285714 0.25714286 0.28571429 0.17142857 0.08571429 0.05714286
# frecuencias absolutas acumuladas
Nj <- cumsum(nj)
print(Nj)
##  [60.4,74]  (74,87.7] (87.7,101]  (101,115]  (115,129]  (129,142] 
##          5         14         24         30         33         35
# frecuencias relativas acumuladas
Hj <- cumsum(hj)
print(Hj)
##  [60.4,74]  (74,87.7] (87.7,101]  (101,115]  (115,129]  (129,142] 
##  0.1428571  0.4000000  0.6857143  0.8571429  0.9428571  1.0000000