El Coeficiente <i>D<sub>YX</sub></i> de Somers:<br>
Asimetría y Capacidad Discriminatoria
Jairo Alvarez — Jose Luis Quintero
Universidad Nacional de Colombia – Sede La Paz<br>
Programa de Estadística 2025-II
El estadístico gamma que estudiamos en la sección anterior es un índice apropiado para medir la asociación entre variables ordenadas. Como con el coeficiente de Cramér, que mide la asociación entre dos variables que son categóricas, el estadístico gamma no es sensible a la relación diferencial entre dos variables. Cuando las variables son categóricas en escalas nominales, el estadístico lambda es un índice adecuado de asociación asimétrica entre una variable y otra.
Cuando las variables están ordenadas, existe algunas veces la necesidad de medir el grado de asociación entre una variable particular y otra. Un ejemplo sería cuando una de las variables está diseñada como una variable independiente y la otra como una variable dependiente. Otro caso sería cuando estudiamos secuencias de conductas: ¿están las conductas antecedentes relacionadas con las conductas consecuentes?
La d de Somers es un índice asimétrico apropiado de relación entre dos variables ordenadas. Siguiendo el notamiento de la sección previa, supongamos que la variable X es una variable en una escala ordinal para la cual:
\[ X_1 < X_2 < X_3 < \dots < X_k \]
y que puede considerarse como una variable independiente. Más aún, supongamos que la variable B es una variable en una escala ordinal para la cual:
\[ Y_1 < Y_2 < Y_3 < \dots < Y_r \]
y que puede considerarse como una variable dependiente. Esto es, suponemos que A y B están ordenadas en magnitud por sus subíndices.
Entonces, \(\Delta_{YX}\) es un índice asimétrico de asociación entre las variables. Si los papeles de las dos variables se invierten, entonces el índice se denota \(\Delta_{XY}\). En una muestra, los estadísticos correspondientes serían \(d_{YX}\) y \(d_{AB}\), respectivamente.
El parámetro \(\Delta_{YX}\) es la diferencia entre la probabilidad de que dentro de un par de observaciones, X y Y estén en el mismo orden y la probabilidad de que dentro de un par de observaciones X y Y no concuerden en su orden, condicionado a no empates en la variable X. Una expresión para este parámetro es:
\[ \Delta_{YX} = \frac{P[\text{X y Y concuerdan en el orden}] - P[\text{X y Y no concuerdan en el orden}]}{P[\text{un par de observaciones no estén ligadas en A}]} \]
En forma similar:
\[ \Delta_{XY} = \frac{P[\text{X y Y concuerdan en el orden}] - P[\text{X y Y no concuerdan en el orden}]}{P[\text{un par de observaciones no ligadas en Y}]} \]
Ya que raramente conocemos las probabilidades en la población, debemos estimarlas a partir de los datos; así, debemos usar el estadístico \(d_{YX}\) y \(d_{XY}\) para estimar \(\Delta_{YX}\) y \(\Delta_{XY}\), respectivamente.
Para calcular la d de Somers de dos conjuntos de variables
ordinales, digamos
\(X_1, X_2, \dots, X_k\) y \(Y_1, Y_2, \dots, Y_r\), arreglamos las
frecuencias en una tabla de contingencia:
| \(X_1\) | \(X_2\) | \(\dots\) | \(X_k\) | Total | |
|---|---|---|---|---|---|
| \(Y_1\) | \(n_{11}\) | \(n_{12}\) | \(\dots\) | \(n_{1k}\) | \(R_1\) |
| \(Y_2\) | \(n_{21}\) | \(n_{22}\) | \(\dots\) | \(n_{2k}\) | \(R_2\) |
| \(\vdots\) | \(\vdots\) | \(\vdots\) | \(\ddots\) | \(\vdots\) | \(\vdots\) |
| \(Y_r\) | \(n_{r1}\) | \(n_{r2}\) | \(\dots\) | \(n_{rk}\) | \(R_r\) |
| Total | \(C_1\) | \(C_2\) | \(\dots\) | \(C_k\) | \(N\) |
Los datos pueden consistir en cualquier número de categorías. Es posible calcular el estadístico d de Somers para tablas:
Como en el estadístico gamma, empezamos calculando los números de acuerdos y desacuerdos entre los pares de variables.
La diferencia para Somers es que el denominador cambia, ya que debemos omitir las ligas (empates) en la variable X para calcular \(d_{YX}\).
La ecuación es:
\[ d_{YX} = \frac{\#\text{acuerdos} - \#\text{desacuerdos}} {\#\text{pares no ligados en la variable X}} \]
Usando la notación del texto:
\[ d_{YX} = \frac{2 [ \#(+) - \#(-) ]} {N^2 - \sum_{j=1}^{k} C_j^2} \tag{8.41} \]
donde:
Aunque inicialmente puede no parecerlo, esta expresión sí elimina todos los empates en la variable X.
\[ \frac{1}{2} C_j^2 \]
pares empatados que deben excluirse.
El número total de pares no empatados en X es entonces:
\[ N^2 - \sum_{j=1}^{k} C_j^2 \]
Si deseamos calcular la asociación cuando X es dependiente y Y es predictora, usamos:
\[ d_{AB} = \frac{\#\text{acuerdos} - \#\text{desacuerdos}} {\#\text{pares no ligados en la variable Y}} \]
Usando la notación equivalente:
\[ d_{XY} = \frac{2 [ \#(+) - \#(-) ]} {N^2 - \sum_{i=1}^{r} R_i^2} \tag{8.42} \]
donde:
Esto refleja la naturaleza asimétrica del coeficiente de Somers.
Para ilustrar el cálculo de \(d_{YX}\), calcularemos el estadístico para
los datos de la tabla 8.16 correspondiente.
El uso del estadístico \(d_{YX}\) de
Somers será apropiado si suponemos que la variable X es
la variable independiente y que la variable Y es la
variable dependiente, y que deseamos evaluar la asociación de X
→ Y.
La tabla 8.16 contiene los valores observados:
tabla <- matrix(c(
10, 5, 2, 3,
8, 9, 7, 1,
2, 6, 8, 9
), nrow = 3, byrow = TRUE)
colnames(tabla) <- c("A1", "A2", "A3", "A4")
rownames(tabla) <- c("B1", "B2", "B3")
tabla
## A1 A2 A3 A4
## B1 10 5 2 3
## B2 8 9 7 1
## B3 2 6 8 9
La definición según el libro es:
\[ \#(+) \;=\; \sum_{i,j} n_{ij} \, N^{+}_{ij} \]
\[ \#(-) \;=\; \sum_{i,j} n_{ij} \, N^{-}_{ij} \]
donde cada \(N^{+/-}_{ij}\) es el número de observaciones discordantes con \(n_{ij}\).
# Función para calcular parejas concordantes y discordantes
calcular_parejas <- function(tabla){
filas <- nrow(tabla)
cols <- ncol(tabla)
plus <- 0 # #(+) concordantes
minus <- 0 # #(-) discordantes
for(i in 1:filas){
for(j in 1:cols){
for(ii in 1:filas){
for(jj in 1:cols){
# Solo comparar posiciones posteriores (evita duplicación)
if(i < ii){
# Concordantes
if(j < jj){
plus <- plus + tabla[i,j] * tabla[ii,jj]
}
# Discordantes
if(j > jj){
minus <- minus + tabla[i,j] * tabla[ii,jj]
}
}
}
}
}
}
list(plus = plus, minus = minus)
}
resultados <- calcular_parejas(tabla)
resultados
## $plus
## [1] 945
##
## $minus
## [1] 310
En la sección correspondiente al estadístico gamma encontramos que:
\[ \#(+) = 945,\qquad \#(-) = 310 \]
Usando estos valores y los totales marginales de la columna de la tabla, encontramos:
\[ d_{YX} = \frac{2[\#(+) - \#(-)]}{N^2 - \sum_{j=1}^{k} C_j^2} \tag{8.41} \]
Sustituyendo:
\[ d_{YX} = \frac{2(945 - 310)}{70^2 - (20^2 + 20^2 + 17^2 + 13^2)} = \frac{2(635)}{3642} \approx 0.35 \]
Este valor de \(d_{YX}\) indica que
existe una moderada relación o asociación asimétrica
desde la variable X hacia la variable
Y.
(Nótese que no hemos calculado \(d_{XY}\).)
# Totales por columnas
Cj <- colSums(tabla)
# Total N
N <- sum(tabla)
# Numerador: 2[(+) - (-)]
num <- 2 * (resultados$plus - resultados$minus)
# Denominador: N^2 - Σ Cj^2
den <- N^2 - sum(Cj^2)
# Somers d_BA
d_YX <- num / den
d_YX
## [1] 0.3487095
library(DescTools)
## Warning: package 'DescTools' was built under R version 4.5.2
SomersDelta(tabla)
## [1] 0.3487095
El valor obtenido para el estadístico asimétrico de Somers es:
d_{YX} = 0.35
Este resultado permite concluir lo siguiente:
Asociación positiva: El signo positivo indica que, a medida que aumenta la categoría de la variable X, tiende también a aumentar la categoría de la variable Y. Es decir, valores más altos en A están asociados con valores más altos en Y.
Magnitud moderada: Un valor de 0.35 se interpreta como una asociación moderada entre variables ordinales. No es una relación débil, pero tampoco lo suficientemente fuerte como para considerarse alta.
Asimetría de la medida: Somers \(d\) es una medida direccional, por lo que este resultado describe la asociación desde A hacia B. Esto indica cuánto mejora la predicción del orden en B al conocer el orden en A. Obsérvese que este valor puede ser diferente de \(d_{XY}\), cuya estimación no se ha calculado aquí.
En resumen, el valor d_{YX} = 0.35 indica que existe una relación positiva y moderada entre las variables, donde el orden en X proporciona información útil para predecir el orden en Y.
Con el desarrollo de un código de barras exploratorio para usar en supermercados y muchas otras tiendas, ha habido una tendencia hacia la omisión de marcar los precios en los reactivos individuales. Los comerciantes están bastante entusiasmados e interesados en no marcar los precios individuales. Dos de las más importantes razones son las siguientes: 1. el ahorro de trabajo resultante de no tener que marcar cada artículo, y 2. la habilidad de reimprimir los artículos rápidamente en respuesta a los cambios en el costo, ventas especiales, etc.
Por otra parte, los compradores se han vuelto a acostumbrar a tener los precios marcados sobre los artículos individuales. Las ventajas de los precios unitarios que los compradores citan incluyen la habilidad de: 1. comparar fácilmente los precios en diferentes marcas de un producto particular, 2. revisar el costo total de artículos en una canasta marcada, y 3. asegurar los cargos correctos al pagar.
Si los comerciantes quieren cambiar hacia la omisión de marcar los precios, los especialistas de mercado argumentan que deben mantenerse las campañas de relaciones públicas para educar al público acerca de las ventajas de tales omisiones. Para tener una campaña efectiva, es importante conocer las actitudes actuales y qué tipo de compradores tienen las mayores resistencias a la omisión de precios.
En un estudio de compradores en una gran ciudad del Oeste Medio en Estados Unidos se obtuvieron las actitudes hacia la omisión de precios individuales y se relacionaron con un número de variables demográficas tales como edad, sueldo, educación, etcétera.
En una investigación, las variables demográficas pueden considerarse variables independientes y la respuesta a una pregunta de actitud es la variable dependiente. Una de las variables demográficas fue la educación, y los investigadores querían determinar cómo esta afectaba la actitud. Ya que las variables educación y actitud son ambas variables ordinales y debido a que estamos interesados principalmente en el efecto de la educación sobre la actitud, el d_{EA} de Somers es una medida apropiada.
En la tabla 8.19 se resumen las respuestas de N = 165 mujeres compradoras. Para determinar la asociación, se calculará el d_{EA} de Somers.
| Actitud | Menor de secundaria | Secundaria | Comercio | Bachillerato | Total |
|---|---|---|---|---|---|
| Muy mala a mala | 22 | 39 | 19 | 8 | 88 |
| Indiferente | 6 | 8 | 6 | 14 | 34 |
| Buena a muy buena | 5 | 16 | 12 | 10 | 43 |
| Total | 33 | 63 | 37 | 32 | 165 |
Para evaluar la asociación asimétrica entre educación (independiente) y actitud (dependiente), se calcularán las parejas concordantes y discordantes, y posteriormente se obtendrá el estadístico d_{YX} de Somers.
## ---- concord-discord ----
calcular_parejas <- function(tabla2){
filas <- nrow(tabla2)
cols <- ncol(tabla2)
plus <- 0 # Concordantes
minus <- 0 # Discordantes
for(i in 1:filas){
for(j in 1:cols){
for(ii in 1:filas){
for(jj in 1:cols){
# Solo comparar hacia adelante
if(i < ii){
# concordantes si ambas aumentan
if(j < jj){
plus <- plus + tabla2[i,j] * tabla2[ii,jj]
}
# discordantes si una sube y la otra baja
if(j > jj){
minus <- minus + tabla2[i,j] * tabla2[ii,jj]
}
}
}
}
}
}
list(plus = plus, minus = minus)
}
resultados <- calcular_parejas(tabla2)
resultados
## $plus
## [1] 4010
##
## $minus
## [1] 2146
## ---- somers ----
plus <- resultados$plus
minus <- resultados$minus
N <- sum(tabla2)
Cj_sq <- colSums(tabla2)^2
somers_d <- (2*(plus - minus)) / (N^2 - sum(Cj_sq))
somers_d
## [1] 0.1885304
library(DescTools)
SomersDelta(tabla2)
## [1] 0.1885304
Con base en este análisis concluimos que la educación tiene una pequeña relación con la omisión de los precios en los artículos. La tabla muestra una tendencia de que las mujeres con mayor educación tienen actitudes más positivas hacia la omisión de los precios en los artículos y que las mujeres con menor educación tienen actitudes más negativas. Posteriormente se examinará si esta tendencia es significativa.
Ya que \(d_{XY}\) “ignora” los empates entre las variables de la columna, es un índice de la asociación entre dos pares de observaciones que están en dos diferentes columnas (esto es, no existen empates en la variable X). Considérense dos observaciones seleccionadas aleatoriamente \((X \rightarrow Y)\) y \((X' \rightarrow Y')\), en las que X y X’ son diferentes.
El \(d_{XY}\) de Somers es la diferencia entre la probabilidad de que X y X’ estén en el mismo orden en que están Y y Y’ (siendo Y = Y’ considerado como un acuerdo en el orden), menos la probabilidad de que X y X’ estén en un orden diferente que Y y Y’, todo ello condicionado a que X ≠ X’.
El índice \(d_{XY} = 1\) si y sólo si \(\#(+) = 0\) (no existen desacuerdos en el orden) y cada fila tiene al menos una celda diferente de cero. La apariencia de la tabla de contingencia tendrá las celdas diferentes de cero descendiendo desde el extremo superior izquierdo hasta el extremo inferior derecho, como una escalera. De modo similar, \(d_{XY} = -1\) si las celdas diferentes de cero ascienden desde el extremo inferior izquierdo hasta el extremo superior derecho.
El índice \(d_{XY} = 0\) si las variables (en la muestra) son independientes; sin embargo, \(d_{XY} = 0\) no implica independencia, a menos que la tabla de contingencia sea de 2 × 2. El lector notará que en la población, si las variables X y Y son independientes, \(\Delta_{XY} = 0\) mientras que \(d_{XY} = 0\) no implica independencia.
Si el investigador se centra en \(d_{XY}\), entonces se pueden hacer los argumentos correspondientes; sin embargo, el papel de X y Y puede intercambiarse cuando el interés es distinto.
Por otra parte, si el interés es el efecto de la variable X sobre la variable Y, el estadístico apropiado es \(d_{YX}\), que es una medida asimétrica de Somers enfocada en cómo el orden de X ayuda a predecir el orden de Y.
La medida \(M^{+}\) corresponde al total de pares concordantes, y se calcula como:
\[ M^{+} = \sum n_{ij} \cdot N^{+}_{ij} \]
La medida \(M^{-}\) corresponde al total de pares discordantes, y se calcula como:
\[ M^{-} = \sum n_{ij} \cdot N^{-}_{ij} \]
Con el uso de estas sumas, junto con \(N_{ij}^+\) y \(N_{ij}^-\) y ponderándolas por la frecuencia en la ij-ésima celda, podemos contar los acuerdos y desacuerdos para cada par de datos en la tabla entera. (Hemos contado acuerdos y desacuerdos considerando cada objeto como cualquier otro objeto: cada par ha sido contado dos veces.)
Todos estos términos se usan para calcular la varianza de \(d_{YX}\) según la hipótesis
\(H_0: \Delta_{YX} = 0\):
\[ \mathrm{var}(d_{YX}) = 4 \left[ \sum_{i=1}^{r} \sum_{j=1}^{k} n_{ij}\,(N_{ij}^+ + M_{ij}^+ - N_{ij}^- - M_{ij}^-)^2 \right] - \left[ N^2 - \sum_{j=1}^{k} C_j^2 \right]^2 \tag{8.45} \]
Si suponemos que la muestra ha sido extraída de una población con una distribución uniforme sobre todas las celdas en la tabla, la ecuación (8.45) se simplifica a:
\[ \mathrm{var}(d_{YX}) = \frac{4(r^2 - 1)(k + 1)}{9 N r^2 (k - 1)} \tag{8.46a} \]
La ecuación (8.46a) también parece ser un estimador razonable
de
\(\mathrm{var}(d_{YX})\), aun cuando la
muestra no sea multinomial. Debido a su facilidad de cálculo, puede
usarse la ecuación (8.46a) cuando el investigador puede suponer un
muestreo multinomial uniforme.
Para probar la hipótesis
\(H_0: \Delta_{YX} = 0\)
contra la alterna uni o bidireccional se usa el siguiente
estadístico:
\[ z = \frac{d_{BA}}{\sqrt{\mathrm{var}(d_{YX})}} \tag{8.47} \]
Este valor se distribuye de manera aproximadamente normal con media cero y desviación estándar uno. Esta significación de \(z\) y, de aquí, la de \(d_{BA}\), puede determinarse consultando la tabla A del Apéndice I.
Si el investigador quiere probar la hipótesis acerca de \(\Delta_{AB}\), entonces la varianza \(\mathrm{var}(d_{AB})\) podría calcularse mediante la ecuación (8.45), excepto que el denominador fuera reemplazado por
\[ \left( N^2 - \sum_{i=1}^{r} R_i^2 \right)^2 \]
Si la varianza fuera a estimarse mediante la ecuación (8.46a), las variables \(r\) y \(k\) serían intercambiadas:
\[ \mathrm{var}(d_{XY}) = \frac{4(k^2 - 1)(r + 1)}{9 N k^2 (r - 1)} \tag{8.46b} \]
Debe notarse que la varianza proporcionada por la ecuación (8.45) no puede usarse para determinar intervalos de confianza o para probar otras hipótesis diferentes de \(H_0 : \Delta_{BA} = 0\). En las referencias al final de esta sección se proporcionan las varianzas para otras situaciones.
Ejemplo. En el estudio de actitud del ejemplo previo, encontramos que
\(d_{YX} = 0.189\). No podemos hablar
acerca de la magnitud de \(d_{YX}\)
sola si el valor observado es significativamente diferente de 0.
Probaremos la hipótesis
\(H_0: \Delta_{BA} = 0\) contra la
hipótesis
\(H_1: \Delta_{BA} \neq 0\).
Se usará una prueba bidireccional debido a que los autores no tienen
nociones a priori acerca de la relación entre la educación y la
actitud. Empezamos calculando \(\mathrm{var}(d_{YX})\):
\[ \mathrm{var}(d_{BA}) = 4 \left[ \sum_{i=1}^{r} \sum_{j=1}^{k} n_{ij} (N_{ij}^+ + M_{ij}^+ - N_{ij}^- - M_{ij}^-)^2 \right] - \left( N^2 - \sum_{j=1}^{k} C_j^2 \right)^2 \tag{8.45} \]
\[ = 4[(22)(66 - 0) + (39)(42 - 11) + \ldots + (12)(75 - 22) + (10)(100 - 0)] \]
\[ \div\ [165^2 - (33^2 + 63^2 + 37^2 + 32^2)]^2 \]
\[ = \frac{4(389\,112)}{19\,774^2} \]
\[ = 0.00398 \]
# Valores del ejemplo tal como aparecen en el libro
# (suma = 389112, N = 165, columnas = 33, 63, 37, 32)
suma <- 389112
N <- 165
C <- c(33, 63, 37, 32)
# Denominador del libro
den <- (N^2 - sum(C^2))^2
# Varianza
var_dBA <- 4 * suma / den
var_dBA
## [1] 0.003980573
Usando este valor para la varianza, podemos calcular
z <- round(somers_d / sqrt(var_dBA),)
z
## [1] 3
Ya que este valor excede el valor crítico (bidireccional) de z para a = 0.05, podemos rechazar la hipótesis de que la educación no tiene relación con la actitud. Nótese, sin embargo, que no hemos probado si existe una asociación entre la educación y la actitud. Hemos considerado sólo la relación asimétrica de la relación con la actitud.