Introducción

En la investigación es común encontrar variables categóricas tales como

Estas variables requieren un tipo de análisis particular

Escala Nominal Escala Ordinal Escala Intervalo Escala Razón
Métodos de presentación de los datos tabulación y presentación de graficos
Medias La Moda
La Mediana
Media Aritmética
Desviación de Cuartil
Medidas de dispersión El Rango
Desviación Estándar

Estamos interesados en métodos que nos permitan estudiar variables categóricas, es decir de escala nominal u ordinal.

todos los ejemplos enunciados pueden modelarse mediante un modelo multinomial

Multinomial

Un experimento multinomial es una generalización del experimento binomial, son iguales en el caso en que solo hay dos categorías

x<-c(6,5,1,3,10,1)
prob_injusto<-x/sum(x)
prob_justo<-rep(1/6,6)

dado_justo <- function(){
  dado <- sample(1:6,prob=prob_justo, size = 1000, replace = TRUE)
  return(dado)
}


dado_injusto <- function(){
  dado <- sample(1:6,prob=prob_injusto, size = 1000, replace = TRUE)
  return(dado)
}

barplot(table(dado_justo()))

barplot(table(dado_injusto()))

  • Estamos interesados en el número de exitos para cada categoría (o su frecuencia relativa), en el caso del dado el número de veces que obtuvimos uno, dos, tres…
  • La suma de las probabilidades de las caras debe ser uno
  • El número de ensayos es igual a la suma del número de resultados en cada categoría.

El objetivo es hacer inferencias sobre las probabilidades en cada categoría. Inferencias que se expresarán en terminos de pruebas de hipótesis (valores específicos de p )

Debido a que el cálculo de probabilidades multinomiales es un tanto engorroso,(grados de libertad, en el caso de la binomial las probabilidades de éxito determina la de fracaso en el caso multinomial se determinan conjuntamente) sería difícil calcular los niveles exactos de significancia (probabilidades de cometer errores tipo I)

Por suerte Karl Pearson, propuso un estadístico muy útil para realizar pruebas de hipótesis sobre \(p_i\) construyendo la distribución muestral aproximada de este estadístico.

La fórmula que da el estadístico es la siguiente:

\[\displaystyle \chi^{2}_c=\sum_{i}^k{\frac{(n_{i}-E(n_i))^{2}}{E(n_i)}}=\sum_{i}^k{\frac{(n_{i}-np_i)^{2}}{np_i}}\]

\[\displaystyle \chi^{2}_c=\sum_{i}^k{\frac{(\mathrm{observada}_{i}-\mathrm {teorica}_{i})^{2}}{\mathrm{teorica}_{i}}}\] Cuanto mayor sea el valor de \({\displaystyle \chi ^{2}}\) , menos verosímil es que la hipótesis nula (que asume la igualdad entre ambas distribuciones) sea correcta. De la misma forma, cuanto más se aproxima a cero el valor de chi-cuadrado, más ajustadas están ambas distribuciones.

Los grados de libertad gl vienen dados por :

\({\displaystyle gl=(r-1)(k-1)}\) Donde r es el número de filas y k el de columnas.

\(H_0\): La variable sigue la distribución teórica (bondad de ajuste) \(vs\) \(H_1\): Las variables no sigue la distribución

Criterio de decisión:

Dado que el estadístico de prueba son diferencias al cuadrado de las proporciones observadas vs las que se encontrarían bajo independencia la prueba será de una cola, pues a mayores diferencias se hará mayor.

No se rechaza la hipótesis nula \(H_0\) cuando \({\displaystyle \chi ^{2}<\chi_{c}^{2}((r-1)(k-1))}\). En caso contrario sí se rechaza.

Donde \(\chi_{c}^{2}\) representa el valor crítico por las tablas, según el nivel de significación estadística elegido.

La experiencia ha demostrado que las cantidades \(n_i\) en la celda no deben ser tan pequeñas, Como regla práctica, requeriremos que todas las cantidades esperadas por celda sean al menos cinco.

La forma de la distribución \(\chi^2\) cambia según sus grados de libertad, por lo cual su determinación es importante para la prueba, de manera empírica si ya se conocen k-1 probabilidades, por la condición de que la suma de los \(p_i\) para \(i=1,2,...,k\) el k-ésimo estará determinado., esta condición de las probabilidades elimina un grado de libertad.

Ejemplo Bondad de ajuste

El número de accidentes Y por semana en un cruce vial se contabilizo por \(n=50\) semanas. \(H_0\): La variable sigue la distribución de Poisson \(vs\) \(H_1\): Las variables no sigue la distribución de Poisson

Suponga que las observaciones son independientes. Use un nivel de significancia de \(\alpha =.05\).

y Frecuencia
0 32
1 12
2 o más 6

Solución Bajo la hipótesis nula

\[{\displaystyle p(y,\lambda )={\frac {e^{-\lambda }\lambda ^{y}}{y!}}}\] como lambda es desconocida la estimaremos con la media muestral, para el caso es similar a un promedio ponderado

\[\displaystyle \bar y=\frac{0*32+1*12+2+6}{50}=\frac{24}{50}=0.48\] Bajo la nula y con nuestro estimador de \(\lambda\)

\(p_1=P(Y=0)=e^{-\lambda}=e^{-0.48}=0.619\)

\(p_1=P(Y=0)=e^{-\lambda}\lambda=0.48e^{-0.48}= 0.297\)

\(p_1=P(Y \ge 0)=1-e^{-\lambda}-e^{-\lambda}\lambda=0.084\)

Bajo esta distribución los valores esperados para los accidentes serán

y Freciencia observada Frecuencia teórica estadistico
0 32 0.619*50=30.95 \(\frac{(32 - 30.95)^2}{30.95}\)
1 12 0.297*50=14.85 \(\frac{(12 - 14.85)^2}{14.85}\)
2 o más 6 0.084*50=4.20 \(\frac{(6 - 4.20)^2}{4.20}\)
50 50 1.354

que tiene aproximadamente una distribución \(\chi^2\) con (k − 2) = 1 grados de libertad. (Un grado de libertad se pierde porque \(\lambda\) tenía que calcularse, el otro, porque \(\sum^3_ip_i = 1\)

que es una prueba a una cola derecha, por lo cual nuestro estadístico de prueba debería ser mayor al valor crítico

qchisq(0.95,1)
## [1] 3.841459
1.354>qchisq(0.95,1)
## [1] FALSE

con valor \(p\)

1-pchisq(1.354,1)
## [1] 0.24458

p-value measures the degree of disagreement between the sample and the null hypothesis.

Ejemplo (Contraste de Homogenidad de muestras respecto a una variable)

Se desea saber si la distribución de los grupos sanguíneos es similar en los individuos de dos poblaciones. Para ello se elige una muestra aleatoria simple de cada una de ellas, obteniéndose los datos reflejados en la tabla:

Frec. Obs. A B AB O
Muestra 1 90 80 110 20
Muestra 2 200 180 240 30

¿Qué conclusiones pueden obtenerse de estos datos si se usa un nivel de significaci´on del 5 %?

Frec. Esp A B AB O Total
Muestra 1 90 80 110 20 300
Muestra 2 200 180 240 30 650
Total 290 260 350 50 950
Frec. Esp A B AB O Total
Muestra 1 (300*290)/950 (300x260)/950 (300x350)/950 20 300
Muestra 2 (650x290)/950 (650x260)/950 (650x350)/950 (650x)/950 650
Total 290 260 350 50 950
Frec. Esp A B AB O Total
Muestra 1 91.58 82.11 110.53 15.79 300
Muestra 2 198.42 177.89 239.47 34.21 650
Total 290 260 350 50 950

\[\displaystyle \chi^{2}_c=\sum_{i}^r\sum_{j}^k{\frac{(n_{ij}-E(n_ij))^{2}}{E(n_ij)}}\]

(300)/950
## [1] 0.3157895
Frec. Esp A B AB O Total
Muestra 1 90 80 110 20 300
Muestra 2 200 180 240 30 650
Total 290 260 350 50 950
A B AB O
Muestra 1 (90-91.58)^2/91.58 (80-82.11)^2/82.11 (110-110.53)^2/110.53 (20-15.79)^2/15.79
Muestra 2 (200-198.42)^2/198.42 (180-177.89)^2/177.89 (240-239.47)^2/239.47 (30-34.21)^2/34.21

Sumando los valores de la tabla anterior se obtiene el valor del estadìstico 1.76.

De nuevo estamos en una prueba a una cola por la derecha

qchisq(0.95,3)
## [1] 7.814728
1.76>qchisq(0.95,3)
## [1] FALSE

Por tanto de dichas muestras no se obtiene evidencia estadística suficiente en contra de que exista una distribución homogénea del grupo sanguíneo en ambas poblaciones.

Pruebas de hipótesis de independencia de variables cualitativas

A partir de una población se toma mediante muestreo aleatorio simple una muestra de tamaño \(n\). En cada observación se analizan dos características cualitativas A y B ( o cuantitativas agrupadas en intervalos), las cuales presentan r y s modalidades respectivamente. Deseamos contrastar si las dos variables son independientes, o sea, queremos realizar un test de significación para las hipótesis: 

Test aproximado de Pearson

\(H_0\) : Las características A y B son independientes \(H_1\) : Las características A y B están asociadas

Como se ve la independencia, dependencia?

mosaicplot(independientes<-outer(c(6,6),c(6,6)))

mosaicplot(dependientes_pos<-matrix(c(71,1,1,71),nrow = 2,byrow = TRUE))

mosaicplot(dependientes_neg<-matrix(c(1,72,72,1),nrow = 2,byrow = TRUE))

De probabilidad sabemos que para que dos variables sean independientes se debe satisfacer que la probabilidad conjunta sea igual al producto de las marginales, por ejemplo:

309 niños de escuela primaria se clasificaron de acuerdo con el grupo socioeconómico y el grado de un defecto del habla en Alto, medio y bajo de cierto defecto en la pronunciación, los resultados son los siguientes:

datos<-data.frame(matrix(c(15,21,45,13,26,31,34,5,33,17,49,20),nrow = 3,byrow = T) )
row.names(datos)<-c("alto","medio","bajo")
colnames(datos)<-c("Superior","Medio-Superior","Medio-Inferior","Inferior")
datos
##       Superior Medio-Superior Medio-Inferior Inferior
## alto        15             21             45       13
## medio       26             31             34        5
## bajo        33             17             49       20
colSums(datos)
##       Superior Medio-Superior Medio-Inferior       Inferior 
##             74             69            128             38
colSums(datos)/sum(datos)
##       Superior Medio-Superior Medio-Inferior       Inferior 
##      0.2394822      0.2233010      0.4142395      0.1229773
rowSums(datos)/sum(datos)
##      alto     medio      bajo 
## 0.3042071 0.3106796 0.3851133
# teorica<-round(outer(c(94,190,119),c(74,69,128,38))/309,2)

teorica<-  round(outer(rowSums(datos)/sum(datos),colSums(datos)/sum(datos))*309,2)

La prueba busca estimar las diferencias entre la teórica y la observada

mosaicplot(datos,main="observada",las=2)

mosaicplot(teorica,main="Teórica",las=2)

La prueba de hipótesis en \(R\)

chisq.test(datos,teorica)
## 
##  Pearson's Chi-squared test
## 
## data:  datos
## X-squared = 19.178, df = 6, p-value = 0.003873

Por lo cual se rechaza la hipótesis nula

El test \(\chi^2\) de Pearson tiene unos requerimientos sobre el tamaño de muestra que no siempre se cumplen, una solución es unir categorías para aumentar los tamaños en los cruces,

library(MASS)       
tbl = table(survey$Smoke, survey$Exer) 
tbl                 
##        
##         Freq None Some
##   Heavy    7    1    3
##   Never   87   18   84
##   Occas   12    3    4
##   Regul    9    1    7
chisq.test(tbl) 
## Warning in chisq.test(tbl): Chi-squared approximation may be incorrect
## 
##  Pearson's Chi-squared test
## 
## data:  tbl
## X-squared = 5.4885, df = 6, p-value = 0.4828
ctbl = cbind(tbl[,"Freq"], tbl[,"None"] + tbl[,"Some"]) 
ctbl 
##       [,1] [,2]
## Heavy    7    4
## Never   87  102
## Occas   12    7
## Regul    9    8
chisq.test(ctbl) 
## 
##  Pearson's Chi-squared test
## 
## data:  ctbl
## X-squared = 3.2328, df = 3, p-value = 0.3571

otro es usar el test exacto de Fisher

Test exacto de Fisher

https://www.fisterra.com/mbe/investiga/fisher/fisher.asp

El test exacto de Fisher permite analizar si dos variables categóricas (dicotómicas, binarias) están asociadas cuando la muestra a estudiar es demasiado pequeña y no se cumplen las condiciones necesarias para que la aplicación del test \(\chi^2\)1

\(H_0\): Las variables son independientes por lo que una variable no varía entre los distintos niveles de la otra variable.(no co-varian)

\(H_a\): Las variables son dependientes, una variable varía entre los distintos niveles de la otra variable. (co-varian)

El test exacto de Fisher consiste en calcular la probabilidad asociada a cada una de las tablas 2 x 2 que se pueden formar manteniendo los mismos totales de filas y columnas que los de la tabla observada (Prueba de permutaciones). Todas estas posibles tablas y sus probabilidades se obtiene bajo la hipótesis nula de independencia de las dos variables que se están considerando.

Es decir se calcula la distribución de todas las tablas posibles bajo independencia y se contrasta con la observada.

Característica A
Característica B Presente Ausente Total
Presente a b a + b
Ausente c d c + d
Total a + c b + d n

es igual a

\[\displaystyle p={\frac {{a+b \choose a}{c+d \choose c}}{n \choose a+c}}=\frac{(a+b)!(c+d)!(a+c)(b+d)}{a!b!c!d!n!}\]

En esta fórmula se calculan todas las posibles formas en las que podemos disponer \(n\) sujetos en una tabla 2 x 2 de modo que los totales de filas y columnas enten fijos, \((a+b)\), \((c+d)\), \((a+c)\) y \((b+d)\).

La probabilidad anterior deberá calcularse para todas las tablas de contingencia que puedan formarse con los mismos totales marginales que la tabla observada. Posteriormente, estas probabilidades se usan para calcular valor de la p asociado al test exacto de Fisher. Este valor de p indicará la probabilidad de obtener una diferencia entre los grupos mayor o igual a la observada, bajo la hipótesis nula de independencia. Si esta probabilidad es pequeña (\(p<0.05\)) se deberá rechazar la hipótesis de partida y deberemos asumir que las dos variables no son independientes, sino que están asociadas. En caso contrario, se dirá que no existe evidencia estadística de asociación entre ambas variables. 1

Obesidad
Sexo Si No Total
Mujeres l (a) 4 (b) 5 (a+b)
Hombres 7 (c) 2 (d ) 9 (c+d)
Total 8 (a+c) No 14(n)

Posibles combinaciones de frecuencias con los mismos totales marginales de filas y columnas.

La probabilidad exacta de ocurrencia bajo la hipótesis nula se calcula en la siguiente tabla.

(i) a b c d p
(i) 0 5 8 1 0,0030
** (ii)** 1 4 7 2 0,0599
(iii) 2 3 6 3 0,2797
(iv) 3 2 5 4 0,4 196
(v) 4 1 4 5 0,2098
(vi) 5 0 3 6 0,0280

El valor de la p asociado al test exacto de Fisher puede entonces calcularse sumando las probabilidades de las tablas que resultan ser menores o iguales a la probabilidad de la tabla que ha sido observada:

p=0.0030+0.0599+0.0280=0.909

0.0030+0.0599+0.0280
## [1] 0.0909
# install.packages("vcd")
library(vcd)
## Loading required package: grid
data("Arthritis")
tab <- xtabs(~Improved + Treatment, data = Arthritis)
#summary(assocstats(tab))


chisq.test(tab)
## 
##  Pearson's Chi-squared test
## 
## data:  tab
## X-squared = 13.055, df = 2, p-value = 0.001463
fisher.test(tab,teorica,workspace =1800000 )
## 
##  Fisher's Exact Test for Count Data
## 
## data:  tab
## p-value = 0.001393
## alternative hypothesis: two.sided

Exacto vs aproximado

Los test exactos calculan la probabilidad de obtener los resultados observados de forma directa generando todos los posibles escenarios y calculando la proporción en los que se cumple la condición estudiada (son test de permutaciones).

Los test aproximados calculan primero un estadístico y luego emplean la distribución teórica de dicho estadístico para obtener la probabilidad de que adquiera valores iguales o más extremos.2

Existe bastante controversia en cuanto a si se deben de utilizar test exactos o aproximados. En la era pre-computacional, los test exactos requerían alta capacidad de computo cuando el tamaño total de muestras aumentaba, sin embargo, por medio de la computación esta barrera se ha eliminado. Los test exactos son más precisos cuando el tamaño total de observaciones es bajo o alguno de los grupos tiene pocas observaciones, para muestras grandes las diferencias son mínimas.

Bibliografía

https://www.fisterra.com/mbe/investiga/fisher/fisher.asp https://rpubs.com/Joaquin_AR/220579