1 Introducción

Tal como lo hemos visto,las tablas de contingencia son útiles para describir cualquier tipo de variable, en particular, las cuantitativas, tanto discretas como continuas. Sin embargo, veremos que para describir estas últimas, debemos crear unas clases por medio de intervalos.

2 Objetivo

  • Ilustrar la forma adecuada de construir, analizar y representar gráficamente distribuciones de frecuencias para variables cuantitativas.

3 Competencias

Al finalizar este módulo, el estudiante estará en la capacidad de elaborar, analizar y representar gráficamente distribuciones de frecuencias para variables cuantitativas.

4 Problema de investigación

Para planear la demanda de los servicios de salud y adicionalmente hacer una detección temprana de la enfermedad, el gerente de una EPS quiere saber cuál es el resultado de la mamografía de las mujeres afiliadas y que tienen más de 50 años.

Pregunta de investigación: ¿Cuál es la prevalencia de BIRADS 4,5 y 6 en las mujeres mayores de 50 años, en dicha EPS?

5 Variables cuantitativas

5.1 Discretas

Para el caso de las variables discretas, con rango pequeño, se puede eleaborar elinterpretar la distribución de frecuencias tal como lo hicimos para las variables cualitativas medidas en escala ordinal.

5.2 Continuas

Cuando no se tienen las \(m\) clases para elaborar la tabla de distribución de frecuencias:

  1. Seleccionar el número de categorías \(m\). Para tal fin se distinguen tres alternativas:
  • Elegir bajo conocimiento previo \(m\).
  • \(m \approx \sqrt{n}\).
  • \(m \approx 1 + 3\text{.}3 \log (n)\) (Regla de Sturges).
  1. Obtener el mínimo y el máximo de los valores de la variable.
  2. Calcular el rango o recorrido: \(R = x_{\max} - x_{\min}\).
  3. Calcular la amplitud de los intervalos. La amplitud se denota con \(a\) y por facilidad conviene que sea igual para todas las clases: \(a =\frac{R}{m}\).
  4. Conformar los intervalos: \(C_j = \{x: l_{j-1} < x \leq l_j\}\) donde \(l_{j}=l_{j-1} + a\).

5.3 Ejemplo

Considerar el siguiente conjunto de datos asociados con el peso (en kg) de la cosecha en un mes determinado en una muestra de cultivos. Elaborar la distribución de frecuencias correspondiente.

103.1, 82.1 , 106.2, 100.9, 91.8, 96.1 , 126.9, 119.8, 93.1 , 86.8, 75.2 , 93.0, 82.3 , 94.8, 64.2 , 105.3, 108.0, 86.3 , 81.8, 138.1, 92.5, 66.3 , 66.6 , 142.2, 96.5 , 74.8, 95.4 , 100.1, 81.9 , 112.0, 116.8, 103.2, 66.1, 60.4 , 78.7

La variable “peso” es una variable cuantitativa de razón. Es claro que esta variable no está dada en categorías, por lo que es necesario elaborar las clases pertinentes como sigue:

  • Se opta por trabajar con \(m=6\) clases dado que \(\sqrt{35} = 5\text{.}916 \approx 6\) y \(1 + 3\text{.}3 \log_{10} (35) = 6\text{.}095 \approx 6\).
  • \(x_{\min} = 60\text{.}4\) y \(x_{\max} = 142\text{.}2\).
  • \(R = x_{\max} - x_{\min} = 142\text{.}2 - 60\text{.}4 = 81\text{.}8\).
  • \(a = 81\text{.}8/6 = 13\text{.}63\).

Las clases resultantes son:

  1. \(C_1 = \{x: l_0 \leq x \leq l_1\}\) donde \(l_0 = 60\text{.}40\) y \(l_1= 60\text{.}40 + 13\text{.}63 = 74\text{.}03\).
  2. \(C_2 = \{x: l_1 < x \leq l_2\}\) donde \(l_2=74\text{.}03 + 13\text{.}63 = 87\text{.}67\).
  3. \(C_3 = \{x: l_2 < x \leq l_3\}\) donde \(l_3=87\text{.}67 + 13\text{.}63 = 101\text{.}30\).
  4. \(C_4 = \{x: l_3 < x \leq l_4\}\) donde \(l_4=101\text{.}30 + 13\text{.}63 = 114\text{.}93\).
  5. \(C_5 = \{x: l_4 < x \leq l_5\}\) donde \(l_5=114\text{.}93 + 13\text{.}63 = 128\text{.}57\).
  6. \(C_6 = \{x: l_5 < x \leq l_6\}\) donde \(l_6=128\text{.}57 + 13\text{.}63 = 142\text{.}20\).

Así, la distribución de frecuencias está dada por:

Clase F. Absoluta F. Relativa F. Abs. Acumulada F. Rel. Acumulada
\([60\text{.}40 ; 74\text{.}03]\) 5 14.3% 5 14.3%
\((74\text{.}03 ; 87\text{.}67]\) 9 25.7% 14 40.0%
\((87\text{.}67 ; 101\text{.}30]\) 10 28.6% 24 68.6%
\((101\text{.}30 ; 114\text{.}93]\) 6 17.1% 30 85.7%
\((114\text{.}93 ; 128\text{.}57]\) 3 8.6% 33 94.3%
\((128\text{.}57 ; 142\text{.}20]\) 2 5.7% 35 100%
Total 35 100% N.A N.A
# datos
peso<- c(103.1, 82.1, 106.2, 100.9, 91.8,  96.1,  126.9, 119.8, 93.1, 86.8, 75.2, 93.0, 
         82.3,  94.8, 64.2,  105.3, 108.0, 86.3,  81.8,  138.1, 92.5, 66.3, 66.6, 142.2,    
         96.5,  74.8, 95.4,  100.1, 81.9,  112.0, 116.8, 103.2, 66.1, 60.4, 78.7)
# tamaño de la muestra
n <- length(peso)
print(n)
## [1] 35
# numero de intervalos
m <- floor(1 + 3.3*log(n, base = 10))
print(m)
## [1] 6
# rango
R <- max(peso) - min(peso)
print(R)
## [1] 81.8
# amplitud
a <- R/m
print(a)
## [1] 13.63333
# limites
lim <- min(peso) + (0:m)*a
print(lim)
## [1]  60.40000  74.03333  87.66667 101.30000 114.93333 128.56667 142.20000
# frecuencias absolutas
nj <- table(cut(x = peso, breaks = lim, include.lowest = T))
print(nj)
## 
##  [60.4,74]  (74,87.7] (87.7,101]  (101,115]  (115,129]  (129,142] 
##          5          9         10          6          3          2
# frecuencias relativas
hj <- nj/n
print(hj)
## 
##  [60.4,74]  (74,87.7] (87.7,101]  (101,115]  (115,129]  (129,142] 
## 0.14285714 0.25714286 0.28571429 0.17142857 0.08571429 0.05714286
# frecuencias absolutas acumuladas
Nj <- cumsum(nj)
print(Nj)
##  [60.4,74]  (74,87.7] (87.7,101]  (101,115]  (115,129]  (129,142] 
##          5         14         24         30         33         35
# frecuencias relativas acumuladas
Hj <- cumsum(hj)
print(Hj)
##  [60.4,74]  (74,87.7] (87.7,101]  (101,115]  (115,129]  (129,142] 
##  0.1428571  0.4000000  0.6857143  0.8571429  0.9428571  1.0000000

6 Bibliografía

  1. Barón F.J. Bioestadística. Universidad de Málaga. http://www.bioestadistica.uma.es/baron/bioestadistica.pdf
  2. Soto O, Franco D. Fundamentos conceptuales de estadística. Universidad Nacional de Colombia. Notas de clase.