En esta sección el estudiante comprenderá:
Para planear la demanda de los servicios de salud y adicionalmente hacer una detección temprana de la enfermedad, el gerente de una EPS quiere saber cuál es el resultado de la mamografía de las mujeres afiliadas y que tienen más de 50 años.
Pregunta de investigación ¿Cuál es la prevalencia de BIRADS 4,5 y 6 en las mujeres mayores de 50 años, en dicha EPS?
La frecuencia absoluta (\(n_i\)) de la clase \(C_i\), es la cantidad de observaciones que hacen parte de la \(i\)-ésima categoría para \(i=1,\ldots,m\).
| \(C_j\) | \(n_j\) |
|---|---|
| \(C_1\) | \(n_1\) |
| \(C_2\) | \(n_2\) |
| … | … |
| \(C_j\) | \(n_j\) |
| … | … |
| \(C_m\) | \(n_m\) |
| ——— | ——— |
| Total | \(n\) |
Las frecuencias relativas (\(h_j\)) son la proporción de casos que pertenecen a determinada clase:
\[h_j=\frac{n_j}{n}\]
Complete la tabla de contingencia
| BIRADS | \(n_j\) | \(h_j\) |
|---|---|---|
| 0 | 145 | |
| 1 | 2415 | |
| 2 | 3456 | |
| 3 | 852 | |
| 4 | 0.0603 | |
| 5 | 157 | |
| 6 | ||
| ——– | ——– | —— |
| Total | 7614 |
En general las variables categóricas y las cuantitativas discretas se grafican en diagramas de barras: - eje \(x\): Categorías de la característica observada - eje \(y\): Frecuencia absoluta o frecuencia relativa
Las frecuencias acumuladas se calculan para variables que estén medidas como mínimo en escala ordinal
La frecuencia absoluta acumulada (\(N_j\)) de la clase \(C_j\) es la cantidad de individuos cuya modalidad es inferior o igual a la \(i\)-ésima categoría:
\[ N_j = \sum_{k=1}^{j} n_k \]
La frecuencia relativa acumulada (\(H_j\)) de la clase \(C_j\) es la proporción de individuos cuya modalidad es inferior o igual a la \(i\)-ésima categoría:
\[ H_j = \sum_{k=1}^{j} h_k \]
Se llama distribución de frecuencias a la tabla que contiene las categorías junto con las frecuencias correspondientes.
| Clase | F. Absoluta | F. Relativa | F. Abs. Acumulada | F. Rel. Acumulada |
|---|---|---|---|---|
| \(C_1\) | \(n_1\) | \(h_1\) | \(N_1\) | \(H_1\) |
| \(C_2\) | \(n_2\) | \(h_2\) | \(N_2\) | \(H_2\) |
| \(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) |
| \(C_m\) | \(n_m\) | \(h_m\) | \(n\) | \(1\) |
| Total | \(n\) | 1 | N.A. | N.A. |
Ejemplo 1 Considerar el siguiente conjunto de datos asociados con el nivel educativo de una muestra de empleados (Bachillerato (B), Pregrado (P), Maestría (M), y Doctorado (D)). Elaborar la tabla de frecuencias correspondiente.
B, D, M, B, B, P, B, M, B, B, B, P, B, M, B, B, M, B, M, B, B, B, B, B, B, B, P, B, B, B, B, M, B, P, B, B, M, B, B, B, D, B, M, B, P, B, B, B, P, P
| Clase | F. Absoluta | F. Relativa | F. Abs. Acumulada | F. Rel. Acumulada |
|---|---|---|---|---|
| Bachillerato | 33 | 66.0% | 33 | 66.0% |
| Pregrado | 7 | 14.0% | 40 | 80.0% |
| Maestría | 8 | 16.0% | 48 | 96.0% |
| Doctorado | 2 | 4.0% | 50 | 100% |
| Total | 50 | 100% | N.A. | N.A. |
# datos
edu <- c("B", "D", "M", "B", "B", "P", "B", "M", "B", "B", "B", "P", "B", "M",
"B", "B", "M", "B", "M", "B", "B", "B", "B", "B", "B", "B", "P", "B",
"B", "B", "B", "M", "B", "P", "B", "B", "M", "B", "B", "B", "D", "B",
"M", "B", "P", "B", "B", "B", "P", "P")
# tamaño de la muestra
n <- length(edu)
print(n)## [1] 50
## edu
## B P M D
## 33 7 8 2
## edu
## B P M D
## 0.66 0.14 0.16 0.04
## B P M D
## 33 40 48 50
## B P M D
## 0.66 0.80 0.96 1.00
Cuando no se tienen las \(m\) clases para elaborar la tabla de distribución de frecuencias:
Ejemplo 2 Considerar el siguiente conjunto de datos asociados con el peso (en kg) de la cosecha en un mes determinado en una muestra de cultivos. Elaborar la distribución de frecuencias correspondiente.
103.1, 82.1 , 106.2, 100.9, 91.8, 96.1 , 126.9, 119.8, 93.1 , 86.8, 75.2 , 93.0, 82.3 , 94.8,
64.2 , 105.3, 108.0, 86.3 , 81.8, 138.1, 92.5, 66.3 , 66.6 , 142.2, 96.5 , 74.8, 95.4 , 100.1, 81.9 , 112.0, 116.8, 103.2, 66.1, 60.4 , 78.7
La variable “peso” es una variable cuantitativa de razón. Es claro que esta variable no está dada en categorías, por lo que es necesario elaborar las clases pertinentes como sigue:
Así, la distribución de frecuencias está dada por:.
| Clase | F. Absoluta | F. Relativa | F. Abs. Acumulada | F. Rel. Acumulada |
|---|---|---|---|---|
| \([60\text{.}40 ; 74\text{.}03)\) | 5 | 14.3% | 5 | 14.3% |
| \((74\text{.}03 ; 87\text{.}67]\) | 9 | 25.7% | 14 | 40.0% |
| \((87\text{.}67 ; 101\text{.}30]\) | 10 | 28.6% | 24 | 68.6% |
| \((101\text{.}30 ; 114\text{.}93]\) | 6 | 17.1% | 30 | 85.7% |
| \((114\text{.}93 ; 128\text{.}57]\) | 3 | 8.6% | 33 | 94.3% |
| \((128\text{.}57 ; 142\text{.}20]\) | 2 | 5.7% | 35 | 100% |
| Total | 35 | 100% | N.A | N.A |
# datos
peso<- c(103.1, 82.1, 106.2, 100.9, 91.8, 96.1, 126.9, 119.8, 93.1, 86.8, 75.2, 93.0,
82.3, 94.8, 64.2, 105.3, 108.0, 86.3, 81.8, 138.1, 92.5, 66.3, 66.6, 142.2,
96.5, 74.8, 95.4, 100.1, 81.9, 112.0, 116.8, 103.2, 66.1, 60.4, 78.7)
# tamaño de la muestra
n <- length(peso)
print(n)## [1] 35
## [1] 6
## [1] 81.8
## [1] 13.63333
## [1] 60.40000 74.03333 87.66667 101.30000 114.93333 128.56667 142.20000
##
## [60.4,74] (74,87.7] (87.7,101] (101,115] (115,129] (129,142]
## 5 9 10 6 3 2
##
## [60.4,74] (74,87.7] (87.7,101] (101,115] (115,129] (129,142]
## 0.14285714 0.25714286 0.28571429 0.17142857 0.08571429 0.05714286
## [60.4,74] (74,87.7] (87.7,101] (101,115] (115,129] (129,142]
## 5 14 24 30 33 35
## [60.4,74] (74,87.7] (87.7,101] (101,115] (115,129] (129,142]
## 0.1428571 0.4000000 0.6857143 0.8571429 0.9428571 1.0000000