1 Introducción

  • Una de las formas más sencillas de describir variables es a través de tablas de contingencia.
  • Permiten detectar algunos comportamientos tales como los valores más o menos frecuentes de la variable.
  • En general se puede utilizar para analizar variables en cualquier escala, aunque si el rango de la variable es muy amplio, resulta dispendioso y poco aprovechable.

2 Objetivo

  • Ilustrar la forma adecuada de construir y analizar tablas de contingencia

3 Competencias

En esta sección el estudiante comprenderá:

  • En qué consiste el proceso de construcción y análisis de una tabla de contingencia (frecuencias absolutas, realativas y condicionales).
  • En qué cuáles casos es pertinente el uso de tablas de contingencia.

4 Problema de investigación

Para planear la demanda de los servicios de salud y adicionalmente hacer una detección temprana de la enfermedad, el gerente de una EPS quiere saber cuál es el resultado de la mamografía de las mujeres afiliadas y que tienen más de 50 años.

Pregunta de investigación ¿Cuál es la prevalencia de BIRADS 4,5 y 6 en las mujeres mayores de 50 años, en dicha EPS?

5 Clasificación a una vía

  • Partimos de los datos sin agrupar
  • \(n\): número de casos en estudio
  • \(C\): Característica observada para cada caso
  • Determinar las diferentes clases de la característica \(C_1, C_2, ..., C_j, ..., C_m\)
  • \(m\): número de clases

5.1 Frecuencias absolutas

La frecuencia absoluta (\(n_i\)) de la clase \(C_i\), es la cantidad de observaciones que hacen parte de la \(i\)-ésima categoría para \(i=1,\ldots,m\).

\(C_j\) \(n_j\)
\(C_1\) \(n_1\)
\(C_2\) \(n_2\)
\(C_j\) \(n_j\)
\(C_m\) \(n_m\)
——— ———
Total \(n\)

5.1.1 Propiedades de \(n_j\)

  • El valor mínimo de \(n_j\) es cero
  • EL valor máximo de \(n_j\) es \(n\), \(0\leq n_j\leq n\)
  • \(\sum_{j=1}^{m}n_j=n\)

5.2 Frecuencias relativas

Las frecuencias relativas (\(h_j\)) son la proporción de casos que pertenecen a determinada clase:

\[h_j=\frac{n_j}{n}\]

5.2.1 Propiedades de \(h_j\)

  • \(0\leq h_j\leq 1\)
  • \(\sum_{j=1}^{m}h_j=1\)

5.2.1.1 Ejercicio: Problema de investigación

Complete la tabla de contingencia

BIRADS \(n_j\) \(h_j\)
0 145
1 2415
2 3456
3 852
4 0.0603
5 157
6
——– ——– ——
Total 7614

5.3 Análisis gráfico

En general las variables categóricas y las cuantitativas discretas se grafican en diagramas de barras: - eje \(x\): Categorías de la característica observada - eje \(y\): Frecuencia absoluta o frecuencia relativa

5.3.0.1 Ejemplo: Problema de investigación

nj<-c(145,2415,3456,852, 459,157,130)
names(nj)<-0:6
barplot(nj)

# Para graficar las frecuencias relativas
hj<-prop.table(nj)
barplot(hj)

5.4 Frecuencias acumuladas

Las frecuencias acumuladas se calculan para variables que estén medidas como mínimo en escala ordinal

5.4.1 Frecuencia absoluta acumulada

La frecuencia absoluta acumulada (\(N_j\)) de la clase \(C_j\) es la cantidad de individuos cuya modalidad es inferior o igual a la \(i\)-ésima categoría:

\[ N_j = \sum_{k=1}^{j} n_k \]

5.4.2 Propiedades

  1. \(N_1=n_1\)
  2. \(N_m=n\)
  3. \(N_1\leq N_2\leq...\leq N_m\)

5.4.3 Frecuencia relativa acumulada

La frecuencia relativa acumulada (\(H_j\)) de la clase \(C_j\) es la proporción de individuos cuya modalidad es inferior o igual a la \(i\)-ésima categoría:

\[ H_j = \sum_{k=1}^{j} h_k \]

5.4.4 Propiedades

  1. \(H_1=h_1\)
  2. \(H_m=1\)
  3. \(H_1\leq H_2\leq...\leq H_m\)

5.5 Distribución de frecuencias

Se llama distribución de frecuencias a la tabla que contiene las categorías junto con las frecuencias correspondientes.

Clase F. Absoluta F. Relativa F. Abs. Acumulada F. Rel. Acumulada
\(C_1\) \(n_1\) \(h_1\) \(N_1\) \(H_1\)
\(C_2\) \(n_2\) \(h_2\) \(N_2\) \(H_2\)
\(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\)
\(C_m\) \(n_m\) \(h_m\) \(n\) \(1\)
Total \(n\) 1 N.A. N.A.

Ejemplo 1 Considerar el siguiente conjunto de datos asociados con el nivel educativo de una muestra de empleados (Bachillerato (B), Pregrado (P), Maestría (M), y Doctorado (D)). Elaborar la tabla de frecuencias correspondiente.

B, D, M, B, B, P, B, M, B, B, B, P, B, M, B, B, M, B, M, B, B, B, B, B, B, B, P, B, B, B, B, M, B, P, B, B, M, B, B, B, D, B, M, B, P, B, B, B, P, P

Clase F. Absoluta F. Relativa F. Abs. Acumulada F. Rel. Acumulada
Bachillerato 33 66.0% 33 66.0%
Pregrado 7 14.0% 40 80.0%
Maestría 8 16.0% 48 96.0%
Doctorado 2 4.0% 50 100%
Total 50 100% N.A. N.A.
# datos
edu <- c("B", "D", "M", "B", "B", "P", "B", "M", "B", "B", "B", "P", "B", "M", 
         "B", "B", "M", "B", "M", "B", "B", "B", "B", "B", "B", "B", "P", "B", 
         "B", "B", "B", "M", "B", "P", "B", "B", "M", "B", "B", "B", "D", "B", 
         "M", "B", "P", "B", "B", "B", "P", "P")
# tamaño de la muestra
n <- length(edu)
print(n)
## [1] 50
# frecuencias absolutas
nj <- table(edu)
nj <- nj[c(1, 4, 3, 2)]
print(nj)
## edu
##  B  P  M  D 
## 33  7  8  2
# frecuencias relativas
hj <- nj/n
print(hj)
## edu
##    B    P    M    D 
## 0.66 0.14 0.16 0.04
# frecuencias absolutas acumuladas
Nj <- cumsum(nj)
print(Nj)
##  B  P  M  D 
## 33 40 48 50
# frecuencias relativas acumuladas
Hj <- cumsum(hj)
print(Hj)
##    B    P    M    D 
## 0.66 0.80 0.96 1.00

5.6 Variables cuantitativas

Cuando no se tienen las \(m\) clases para elaborar la tabla de distribución de frecuencias:

  1. Seleccionar el número de categorías \(m\). Para tal fin se distinguen tres alternativas:
  • Elegir arbitrariamente o bajo conocimiento previo \(m\).
  • \(m \approx \sqrt{n}\).
  • \(m \approx 1 + 3\text{.}3 \log (n)\).
  1. Obtener el mínimo y el máximo de los valores que de la variable.
  2. Calcular el rango o recorrido: \(R = x_{\max} - x_{\min}\).
  3. Calcular la amplitud de los intervalos. La amplitud se denota con \(a\) y por facilidad conviene que sea igual para todas las clases: \(a =\frac{R}{m}\).
  4. Conformar los intervalos: \(C_j = \{x: l_{j-1} < x \leq l_j\}\) donde \(l_{j}=l_{j-1} + a\).

Ejemplo 2 Considerar el siguiente conjunto de datos asociados con el peso (en kg) de la cosecha en un mes determinado en una muestra de cultivos. Elaborar la distribución de frecuencias correspondiente.

103.1, 82.1 , 106.2, 100.9, 91.8, 96.1 , 126.9, 119.8, 93.1 , 86.8, 75.2 , 93.0, 82.3 , 94.8,
64.2 , 105.3, 108.0, 86.3 , 81.8, 138.1, 92.5, 66.3 , 66.6 , 142.2, 96.5 , 74.8, 95.4 , 100.1, 81.9 , 112.0, 116.8, 103.2, 66.1, 60.4 , 78.7

La variable “peso” es una variable cuantitativa de razón. Es claro que esta variable no está dada en categorías, por lo que es necesario elaborar las clases pertinentes como sigue:

  • Se opta por trabajar con \(m=6\) clases dado que \(\sqrt{35} = 5\text{.}916 \approx 6\) y \(1 + 3\text{.}3 \log_{10} (35) = 6\text{.}095 \approx 6\).
  • \(x_{\min} = 60\text{.}4\) y \(x_{\max} = 142\text{.}2\).
  • \(R = x_{\max} - x_{\min} = 142\text{.}2 - 60\text{.}4 = 81\text{.}8\).
  • \(a = 81\text{.}8/6 = 13\text{.}63\).
  • Las clases resultantes son:
  1. \(C_1 = \{x: l_0 \leq x \leq l_1\}\) donde \(l_0 = 60\text{.}40\) y \(l_1= 60\text{.}40 + 13\text{.}63 = 74\text{.}03\).
  2. \(C_2 = \{x: l_1 < x \leq l_2\}\) donde \(l_2=74\text{.}03 + 13\text{.}63 = 87\text{.}67\).
  3. \(C_3 = \{x: l_2 < x \leq l_3\}\) donde \(l_3=87\text{.}67 + 13\text{.}63 = 101\text{.}30\).
  4. \(C_4 = \{x: l_3 < x \leq l_4\}\) donde \(l_4=101\text{.}30 + 13\text{.}63 = 114\text{.}93\).
  5. \(C_5 = \{x: l_4 < x \leq l_5\}\) donde \(l_5=114\text{.}93 + 13\text{.}63 = 128\text{.}57\).
  6. \(C_6 = \{x: l_5 < x \leq l_6\}\) donde \(l_6=128\text{.}57 + 13\text{.}63 = 142\text{.}20\).

Así, la distribución de frecuencias está dada por:.

Clase F. Absoluta F. Relativa F. Abs. Acumulada F. Rel. Acumulada
\([60\text{.}40 ; 74\text{.}03)\) 5 14.3% 5 14.3%
\((74\text{.}03 ; 87\text{.}67]\) 9 25.7% 14 40.0%
\((87\text{.}67 ; 101\text{.}30]\) 10 28.6% 24 68.6%
\((101\text{.}30 ; 114\text{.}93]\) 6 17.1% 30 85.7%
\((114\text{.}93 ; 128\text{.}57]\) 3 8.6% 33 94.3%
\((128\text{.}57 ; 142\text{.}20]\) 2 5.7% 35 100%
Total 35 100% N.A N.A
# datos
peso<- c(103.1, 82.1, 106.2, 100.9, 91.8,  96.1,  126.9, 119.8, 93.1, 86.8, 75.2, 93.0, 
         82.3,  94.8, 64.2,  105.3, 108.0, 86.3,  81.8,  138.1, 92.5, 66.3, 66.6, 142.2,    
         96.5,  74.8, 95.4,  100.1, 81.9,  112.0, 116.8, 103.2, 66.1, 60.4, 78.7)
# tamaño de la muestra
n <- length(peso)
print(n)
## [1] 35
# numero de intervalos
m <- floor(1 + 3.3*log(n, base = 10))
print(m)
## [1] 6
# rango
R <- max(peso) - min(peso)
print(R)
## [1] 81.8
# amplitud
a <- R/m
print(a)
## [1] 13.63333
# limites
lim <- min(peso) + (0:m)*a
print(lim)
## [1]  60.40000  74.03333  87.66667 101.30000 114.93333 128.56667 142.20000
# frecuencias absolutas
nj <- table(cut(x = peso, breaks = lim, include.lowest = T))
print(nj)
## 
##  [60.4,74]  (74,87.7] (87.7,101]  (101,115]  (115,129]  (129,142] 
##          5          9         10          6          3          2
# frecuencias relativas
hj <- nj/n
print(hj)
## 
##  [60.4,74]  (74,87.7] (87.7,101]  (101,115]  (115,129]  (129,142] 
## 0.14285714 0.25714286 0.28571429 0.17142857 0.08571429 0.05714286
# frecuencias absolutas acumuladas
Nj <- cumsum(nj)
print(Nj)
##  [60.4,74]  (74,87.7] (87.7,101]  (101,115]  (115,129]  (129,142] 
##          5         14         24         30         33         35
# frecuencias relativas acumuladas
Hj <- cumsum(hj)
print(Hj)
##  [60.4,74]  (74,87.7] (87.7,101]  (101,115]  (115,129]  (129,142] 
##  0.1428571  0.4000000  0.6857143  0.8571429  0.9428571  1.0000000

6 Bibliografía

  1. Barón F.J. Bioestadística. Universidad de Málaga. http://www.bioestadistica.uma.es/baron/bioestadistica.pdf
  2. Soto O, Franco D. Fundamentos conceptuales de estadística. Universidad Nacional de Colombia. Notas de clase.