Entender el concepto de variable y sus diferentes tipos.
Comprender las diferentes escalas de medición.
Ilustrar la forma adecuada de construir y analizar tablas de contingencia
En esta sección el estudiante comprenderá:
Para planear la demanda de los servicios de salud y adicionalmente hacer una detección temprana de la enfermedad, el gerente de una EPS quiere saber cuál es el resultado de la mamografía de las mujeres afiliadas y que tienen más de 50 años.
Pregunta de investigación: ¿Cuál es la prevalencia de BIRADS 4,5 y 6 en las mujeres mayores de 50 años, en dicha EPS?
Una variable es una característica medible en cada uno de los individuos de la población. Ej:
Hay dos tipos de variables: cuantitativas y cualitativas
Son aquellas cuyos valores no pueden usarse para hacer operaciones aritméticas.
Ej: Color de ojos, estado civil, estado de salud,…
Son aquellas cuyos valores pueden ser usados (y tiene sentido) para hacer operaciones aritméticas. Es decir, son aquellas de carácter numérico. Éstas a su vez pueden ser:
Discretas: Son aquellas contables, es decir, entre dos posibles valores de ella se puede contar cuántos otros posibles valores hay. Ej: Número de hijos.
Continuas: Son aquellas en las que entre dos valores hay infinitos posibles valores. Ej: Estatura (cm).
En toda investigación se quiere obtener datos precisos en relación con las características de interés. Por consiguiente, la medición es fundamental para que los resultados sean acertados y válidos.
La medición es un proceso mediante el cual se asignan valores cuantitativos o cualitativos a los atributos de los elementos objeto de estudio, de acuerdo con unas reglas claramente preestablecidas.
Una escala de medición es un esquema específico para asignar símbolos o números con el objeto de designar los valores de una variable. Es importante tener claro en qué escala de medición tenemos cada una de las variables que vamos a analizar, pues de esto dependerá el tipo de análisis que podamos llevar a cabo.
Corresponde a aquellas variables medidas de tal forma que solo podamos establecer relaciones de equivalencia: “igual a”, “diferente de”.
Ej: Un importante marcador pronóstico en cáncer de mama es el factor de crecimiento epidérmico 2, HER2 (positivo-negativo). Las pacientes que resulten con dicho factor positivo tienen peor pronóstico de su enfermedad.
Un variable está medida en escala ordinal si se puede establecer un orden en sus categorías.
Ej: Colesterol LDL medido como: Normal (<100 mg/dL), alto (>100 mg/dL)
También permite establecer un orden entre sus posibles valores, pero adicionalmente permite determinar la distancia (diferencia), entre dos de ellos. De otra parte su cero es arbitrario (también conocido como cero relativo), es decir, que no significa ausencia de la característica. Ej: Temperatura medida en grados centígrados, año calendario.
Permite establecer un orden, medir distancia y adicionalmente determinar qué proporción es un valor del otro. Adicionalmente su cero es real (también conocido como cero absoluto), es decir, implica ausencia de la característica.
Ej: Talla, colesterol HDL, peso, IMC.
La frecuencia absoluta (\(n_i\)) de la clase \(C_i\), es la cantidad de observaciones que hacen parte de la \(i\)-ésima categoría para \(i=1,\ldots,m\).
\(C_j\) | \(n_j\) |
---|---|
\(C_1\) | \(n_1\) |
\(C_2\) | \(n_2\) |
… | … |
\(C_j\) | \(n_j\) |
… | … |
\(C_m\) | \(n_m\) |
——— | ——— |
Total | \(n\) |
\(0\leq n_j\leq n\), es decir, el valor mínimo de \(n_j\) es cero y eL valor máximo de \(n_j\) es \(n\).
\(\sum_{j=1}^{m}n_j=n\)
Las frecuencias relativas (\(h_j\)) son la proporción de casos que pertenecen a determinada clase:
\[h_j=\frac{n_j}{n}\]
Complete la tabla de contingencia
Complete la tabla de contingencia
BIRADS | \(n_j\) | \(h_j\) |
---|---|---|
0 | 145 | |
1 | 2415 | |
2 | 3456 | |
3 | 852 | |
4 | 0.0603 | |
5 | 157 | |
6 | ||
——– | ——– | —— |
Total | 7614 |
En general las variables categóricas y las cuantitativas discretas se grafican en diagramas de barras:
<-c(145,2415,3456,852, 459,157,130)
njnames(nj)<-0:6
barplot(nj, xlab="BIRADS", ylab="Frecuencia absoluta")
# Para graficar las frecuencias relativas
<-prop.table(nj)
hjbarplot(hj, xlab="BIRADS", ylab="Frecuencia relativa")
Las frecuencias acumuladas se calculan para variables que estén medidas como mínimo en escala ordinal.
La frecuencia absoluta acumulada (\(N_j\)) de la clase \(C_j\) es la cantidad de individuos cuya modalidad es inferior o igual a la \(i\)-ésima categoría:
\[ N_j = \sum_{k=1}^{j} n_k \]
La frecuencia relativa acumulada (\(H_j\)) de la clase \(C_j\) es la proporción de individuos cuya modalidad es inferior o igual a la \(i\)-ésima categoría:
\[ H_j = \sum_{k=1}^{j} h_k \]
Se llama distribución de frecuencias a la tabla que contiene las categorías junto con las frecuencias correspondientes.
Clase | F. Absoluta | F. Relativa | F. Abs. Acumulada | F. Rel. Acumulada |
---|---|---|---|---|
\(C_1\) | \(n_1\) | \(h_1\) | \(N_1\) | \(H_1\) |
\(C_2\) | \(n_2\) | \(h_2\) | \(N_2\) | \(H_2\) |
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) |
\(C_m\) | \(n_m\) | \(h_m\) | \(n\) | \(1\) |
Total | \(n\) | 1 | N.A. | N.A. |
Ejemplo 1 Considerar el siguiente conjunto de datos asociados con el nivel educativo de una muestra de empleados (Bachillerato (B), Pregrado (P), Maestría (M), y Doctorado (D)). Elaborar la tabla de frecuencias correspondiente.
B, D, M, B, B, P, B, M, B, B, B, P, B, M, B, B, M, B, M, B, B, B, B, B, B, B, P, B, B, B, B, M, B, P, B, B, M, B, B, B, D, B, M, B, P, B, B, B, P, P
Clase | F. Absoluta | F. Relativa | F. Abs. Acumulada | F. Rel. Acumulada |
---|---|---|---|---|
Bachillerato | 33 | 66.0% | 33 | 66.0% |
Pregrado | 7 | 14.0% | 40 | 80.0% |
Maestría | 8 | 16.0% | 48 | 96.0% |
Doctorado | 2 | 4.0% | 50 | 100% |
Total | 50 | 100% | N.A. | N.A. |
# datos
<- c("B", "D", "M", "B", "B", "P", "B", "M", "B", "B", "B", "P", "B", "M",
edu "B", "B", "M", "B", "M", "B", "B", "B", "B", "B", "B", "B", "P", "B",
"B", "B", "B", "M", "B", "P", "B", "B", "M", "B", "B", "B", "D", "B",
"M", "B", "P", "B", "B", "B", "P", "P")
# tamaño de la muestra
<- length(edu)
n print(n)
## [1] 50
# frecuencias absolutas
<- table(edu)
nj #Ordenamos las frecuencias absolutas
<- nj[c(1, 4, 3, 2)]
nj print(nj)
## edu
## B P M D
## 33 7 8 2
# frecuencias relativas
<- nj/n
hj print(hj)
## edu
## B P M D
## 0.66 0.14 0.16 0.04
# frecuencias absolutas acumuladas
<- cumsum(nj)
Nj print(Nj)
## B P M D
## 33 40 48 50
# frecuencias relativas acumuladas
<- cumsum(hj)
Hj print(Hj)
## B P M D
## 0.66 0.80 0.96 1.00
Ejercicio: Elaborar la tabla de distribución de frecuencias del estado nutricional de los adolescentes de la subregión: Santander y Norte de Santander, teniendo en cuenta la tabla 4 del artículo de Poveda y Poveda, 2021
Una de las primeras etapas en el análisis de datos es la exploración de estos por medio de gráficos, en la cuál se evidencian las características de las variables de manera compacta y precisa. Los gráficos son extremadamente útiles para describir la distribución de un conjunto de datos.
En la estadística descriptiva se utilizan gráficas de diversos tipos dependiendo de las variables de estudio.
Las rutinas para realizar estos gráficos se encuentran disponibles en
R
.
Su objetivo principal es dar a entender de manera clara y sencilla el comportamiento de una o varias variables con el fin de identificar fácilmente patrones y anomalías como:
Se debe tener especial atención en las partes que conforman las gráficas, como el título principal, el título de los ejes, el color, el tamaño, y la escala.
En un diagrama de barras se representa cada categoría mediante una barra, de forma que su tamaño sea proporcional a la frecuencia de dicha categoría.
En un diagrama de sectores se divide un círculo en tantas porciones como categorías, de forma que a cada clase le corresponda un sector del círculo con tamaño proporcional a la frecuencia de la clase.
Estos diagramas también se pueden utilizar para variables cuantitativas discretas cuando la cantidad de categorías lo permite.
En la base de datos “births” del paquete “Epi”, se encuentran registrados los datos de 500 nacimientos en un hospital de Londres, para cada uno de estos 500 nacimientos se midieron las siguientes variables:
Para analizar la variable “sex”:
# Los datos se encuentran en el paquete "Epi" de R, por lo que primero se
# debe instalar y cargar dicho paquete. de necesitar instalarlo:
# install.packages("Epi")
library(Epi)
#help(births)
data(births)
# tamaño de la muestra
<- nrow(births)
n # tabla de frecuencias relativas
<- 100*table(births$sex)/n
tabla names(tabla) <- c("Masculino","Femenino")
#addmargins agrega la columna con el total
print(round(x = addmargins(tabla), digits = 2))
## Masculino Femenino Sum
## 52.8 47.2 100.0
# diagramas
par(mfrow = c(1,2))
barplot(height = tabla, xlab = "Sexo", ylab = "Porcentaje")
pie(x = tabla)
Ahora, de manera conjunta, se caracteriza el sexo y el indicador de bajo
peso al nacer:
# tabla de frecuencias relativas
<- round(100*table(births$sex, births$lowbw)/n, 3)
tabla rownames(tabla) <- c("Masculino","Femenino")
colnames(tabla) <- c("No","Si")
print(round(x = addmargins(tabla), digits = 2))
##
## No Si Sum
## Masculino 47.4 5.4 52.8
## Femenino 40.6 6.6 47.2
## Sum 88.0 12.0 100.0
# diagrama de barras
barplot(height = tabla,xlab="Bajo peso al nacer", ylab = "Porcentaje",
legend.text = TRUE, beside = TRUE, args.legend = list(x = "topright"), ylim=c(0,50))
En este escenario se dispone de un conjunto de \(n\) individuos, cada uno de ellos observado en dos atributos que en adelante se representan mediante \(X\) y \(Y\).
Se elabora una tabla de frecuencias conformada por \(k \times p\) casillas o categorías, denotadas con \(C_{ij}\), para \(i=1,\ldots,k\) y \(j=1,\ldots,p\), organizadas de tal forma que se tengan \(k\) filas y \(p\) columnas con las categorías de las variables \(X\) y \(Y\), respectivamente. Tal estructura se denomina tabla de doble entrada o tabla de contingencia o tabla de clasificación.
La frecuencia absoluta conjunta de la clase \(C_{ij}\), denotada con \(n_{ij}\), es la cantidad de observaciones que hacen parte de la \(i\)-ésima fila y la \(j\)-ésima columna para \(i=1,\ldots,k\) y \(j=1,\ldots,p\).
La frecuencia relativa conjunta de la clase \(C_{ij}\), denotada con \(h_{ij}\), es la proporción de la frecuencia absoluta conjunta de la \(ij\)-ésima categoría respecto a la cantidad total de observaciones, esto es, \[ h_{ij} = \frac{n_{ij}}{n} \] para \(i=1,\ldots,k\) y \(j=1,\ldots,p\).
La frecuencia absoluta marginal de la fila \(i\), denotada con \(n_{i\bullet}\), es el total de observaciones de la \(i\)-ésima categoría de la variable de las filas para \(i=1,\ldots,k\).
La frecuencia absoluta marginal de la columna \(j\), denotada con \(n_{\bullet j}\), es el total de observaciones de la \(j\)-ésima categoría de la variable de las columnas para \(j=1,\ldots,p\).
A partir de la definición se tiene que \[ n_{i \bullet} = n_{i1} + n_{i2} + \ldots + n_{ip} = \sum_{j=1}^{p} n_{ij} \quad\text{para $i=1,\ldots,k$,} \] y además, \[ n_{\bullet j} = n_{1j} + n_{2j} + \ldots + n_{kj} = \sum_{i=1}^{k} n_{ij} \quad\text{para $j=1,\ldots,p$.} \]
Las frecuencias relativas marginales se definen análogamente.
\[ \sum_{i=1}^{k}\sum_{j=1}^{p} n_{ij} = \sum_{i=1}^{k} n_{i\bullet} = \sum_{j=1}^{p} n_{\bullet j} = n. \]
\[ \sum_{i=1}^{k}\sum_{j=1}^{p} h_{ij} = \sum_{i=1}^{k} h_{i\bullet} = \sum_{j=1}^{p} h_{\bullet j} = 1. \]
\[ h_{i \bullet} = \sum_{j=1}^{p} h_{ij} \quad\text{para $i=1,\ldots,k$.} \]
\[ h_{\bullet j} = \sum_{i=1}^{k} h_{ij} \quad\text{para $j=1,\ldots,p$.} \]
La siguiente tabla corresponde a una tabla de contingencia en la que se estudia la variable sexo (\(X\)) y nivel educativo (\(Y\)) de una muestra de personas. Obtener las frecuencias relativas conjuntas y marginales correspondientes.
\(\ \ X\ \backslash \ Y\) | Bachillerato | Pregrado | Posgrado | Total |
---|---|---|---|---|
Hombre | 4 | 9 | 12 | 25 |
Mujer | 12 | 7 | 2 | 21 |
Total | 16 | 16 | 14 | 46 |
En este caso se tiene que \[ k = 2,\,\, p=3,\,\, n_{1 \bullet} = 25,\,\, n_{2 \bullet} = 21,\,\, n_{\bullet 1} = 16,\,\, n_{\bullet 2} = 16,\,\, n_{\bullet 3} = 14 \quad\text{y}\quad n = 46. \] En la siguiente tabla se presentan las frecuencias relativas correspondientes que han sido calculadas con respecto al tamaño de la muestra, es decir, con respecto a \(n=46\), usando las fórmulas \[ h_{ij} = \frac{n_{ij}}{n}, \,\, h_{i \bullet}=\frac{n_{i \bullet}}{n} \quad\text{y}\quad h_{\bullet j} = \frac{n_{\bullet j}}{n} \] donde \(n_{ij}\) es la frecuencia absoluta conjunta de la \(ij\)-ésima categoría para \(i=1,2\) y \(j=1,2,3\).
\(\ \ X\ \backslash \ Y\) | Bachillerato | Pregrado | Posgrado | Total |
---|---|---|---|---|
Hombre | 8.7% | 19.6% | 26.1% | 54.3% |
Mujer | 26.1% | 15.2% | 4.3% | 45.7% |
Total | 34.8% | 34.8% | 30.4% | 100.0% |
Por ejemplo, se observa que el porcentaje de empleados que son hombres es \(54.3\%\), el porcentaje de empleados que tienen estudios de posgrado es \(30.4\%\) y que el porcentaje de empleados que son hombres y tienen solo bachillerato es \(8.7\%\).
# datos
<- rbind(c(4, 9, 12), c(12, 7, 2))
tabla rownames(tabla) <- c("Hombre","Mujer")
colnames(tabla) <- c("Bachillerato","Pregrado","Posgrado")
print(tabla)
## Bachillerato Pregrado Posgrado
## Hombre 4 9 12
## Mujer 12 7 2
# agregar totales
addmargins(A = tabla, margin = c(1,2))
## Bachillerato Pregrado Posgrado Sum
## Hombre 4 9 12 25
## Mujer 12 7 2 21
## Sum 16 16 14 46
# frecuencias relativas
addmargins(A = 100*prop.table(x = tabla), margin = c(1,2))
## Bachillerato Pregrado Posgrado Sum
## Hombre 8.695652 19.56522 26.086957 54.34783
## Mujer 26.086957 15.21739 4.347826 45.65217
## Sum 34.782609 34.78261 30.434783 100.00000
Los perfiles fila están asociados con una tabla de doble entrada en la que se calculan las frecuencias relativas conjuntas respecto a los totales de las filas correspondientes.
Análogamente, se definen los perfiles columna.
A partir de la definición, se tiene que la frecuencia relativa de la \(ij\)-ésima categoría de una tabla de perfiles fila, denotada con \(h_{ij|i\bullet}\), está dada por: \[ h_{ij|i\bullet}=\frac{n_{ij}}{n_{i \bullet}}, \] mientras que la frecuencia relativa de la \(ij\)-ésima categoría de una tabla de perfiles columna, denotada con \(h_{ij|\bullet j}\), se está dada por: \[ h_{ij|\bullet j}=\frac{n_{ij}}{n_{\bullet j}} \] para \(i=1,\ldots,k\) y \(j=1,\ldots,p\).
\[ h_{ij|i\bullet}=\frac{h_{ij}}{h_{i \bullet}} \quad\text{para $i=1,\ldots,k$ y $j=1,\ldots,p$.} \]
\[ h_{ij|\bullet j}=\frac{h_{ij}}{h_{\bullet j}} \quad\text{para $i=1,\ldots,k$ y $j=1,\ldots,p$.} \]
\[ \sum_{j=1}^p h_{ij|i\bullet} = 1 \quad\text{para $i=1,\ldots,k$.} \]
\[ \sum_{i=1}^k h_{ij|\bullet j} = 1 \quad\text{para $j=1,\ldots,p$.} \]
Elaborar los perfiles fila y los perfiles columna de la muestra para la tabla bidimensional del ejemplo anterior.
Los perfiles fila y los perfiles columna de la muestra se las siguientes tablas. Las frecuencias relativas de estas tablas se calcularon con las fórmulas \[ h_{ij|i\bullet } =\frac{n_{ij}}{n_{i \bullet}} \quad\text{y}\quad h_{ij|\bullet j} =\frac{n_{ij}}{n_{\bullet j}} \] para \(i=1,2\) y \(j=1,2,3\).
Perfiles fila:
\(\ \ X\ \backslash \ Y\) | Bachillerato | Pregrado | Posgrado | Total |
---|---|---|---|---|
Hombre | 16.0% | 36.0% | 48.0% | 100.0% |
Mujer | 57.1% | 33.3% | 9.5% | 100.0% |
Total | 34.8% | 34.8% | 30.4% | 100.0% |
Perfiles columna:
\(\ \ X\ \backslash \ Y\) | Bachillerato | Pregrado | Posgrado | Total |
---|---|---|---|---|
Hombre | 25.0% | 56.3% | 85.7% | 54.3% |
Mujer | 75.0% | 43.8% | 14.3% | 45.7% |
Total | 100.0% | 100.0% | 100.0% | 100.0% |
Por ejemplo, se observa que, de los hombres, tiene posgrado el 48.0%. Además, de los individuos con posgrado, son hombres el 85.7%. Al interpretar las frecuencias relativas de los perfiles es indispensable fijarse cuál es el grupo de individuos de referencia.
# datos
<- rbind(c(4, 9, 12), c(12, 7, 2))
tabla rownames(tabla) <- c("Hombre","Mujer")
colnames(tabla) <- c("Bachi","Preg","Posg")
# perfiles fila
<- 100*prop.table(x = tabla, margin = 1)
pf # perfiles columna
<-100*prop.table(x = tabla, margin = 2)
pc # diagrama de barras perfiles fila
par(mfrow = c(1,2))
barplot(height = t(pf), ylim = c(0,120), legend.text = TRUE,
args.legend = list(x = "top", bty = "n", ncol = 3),
main = "Perfil fila", xlab = "Sexo", ylab = "Porcentaje (%)")
# diagrama de barras perfiles columna
barplot(height = pc, beside = FALSE, las = 1, ylim = c(0, 120),
legend.text = TRUE, args.legend = list(x = "top", bty = "n", ncol = 2),
main = "Perfil columna", xlab = "Nivel educativo", ylab = "Porcentaje (%)")
# datos
<- rbind(c(4, 9, 12), c(12, 7, 2))
tabla rownames(tabla) <- c("Hombre","Mujer")
colnames(tabla) <- c("Bachillerato","Pregrado","Posgrado")
# perfiles fila
addmargins(A = 100*prop.table(x = tabla, margin = 1), margin = 2)
## Bachillerato Pregrado Posgrado Sum
## Hombre 16.00000 36.00000 48.00000 100
## Mujer 57.14286 33.33333 9.52381 100
# perfiles columna
addmargins(A = 100*prop.table(x = tabla, margin = 2), margin = 1)
## Bachillerato Pregrado Posgrado
## Hombre 25 56.25 85.71429
## Mujer 75 43.75 14.28571
## Sum 100 100.00 100.00000
# perfiles fila
<- 100*prop.table(x = tabla, margin = 1)
pf # perfiles columna
<-100*prop.table(x = tabla, margin = 2)
pc # diagrama de barras perfiles fila
barplot(height = t(pf), ylim = c(0,120), legend.text = TRUE,
args.legend = list(x = "top", bty = "n", ncol = 3),
main = "Perfil fila", xlab = "Sexo", ylab = "Porcentaje (%)")
# diagrama de barras perfiles columna
barplot(height = pc, beside = FALSE, las = 1, ylim = c(0, 120),
legend.text = TRUE, args.legend = list(x = "top", bty = "n", ncol = 2),
main = "Perfil columna", xlab = "Nivel educativo", ylab = "Porcentaje (%)")
Ejercicio: Con base en la tabla 4 del artículo de Poveda y Poveda, 2021, calcule e interprete las frecuencias relativas conjuntas y los perfiles fila y columna.