En la investigación es común encontrar variables categóricas tales como
Estas variables requieren un tipo de análisis particular
| Escala Nominal | Escala Ordinal | Escala Intervalo | Escala Razón | ||
|---|---|---|---|---|---|
| Métodos de presentación de los datos | tabulación y presentación de graficos | ✓ | ✓ | ✓ | ✓ |
| Medias | La Moda | ✓ | ✓ | ✓ | ✓ |
| La Mediana | ✓ | ✓ | ✓ | ||
| Media Aritmética | ✓ | ✓ | |||
| Desviación de Cuartil | ✓ | ✓ | ✓ | ||
| Medidas de dispersión | El Rango | ✓ | ✓ | ✓ | |
| Desviación Estándar | ✓ | ✓ |
Estamos interesados en métodos que nos permitan estudiar variables categóricas, es decir de escala nominal u ordinal.
todos los ejemplos enunciados pueden modelarse mediante un modelo multinomial
Un experimento multinomial es una generalización del experimento binomial, son iguales en el caso en que solo hay dos categorías
x<-c(6,5,1,3,10,1)
prob_injusto<-x/sum(x)
prob_justo<-rep(1/6,6)
dado_justo <- function(){
dado <- sample(1:6,prob=prob_justo, size = 1000, replace = TRUE)
return(dado)
}
dado_injusto <- function(){
dado <- sample(1:6,prob=prob_injusto, size = 1000, replace = TRUE)
return(dado)
}
barplot(table(dado_justo()))
barplot(table(dado_injusto()))
El objetivo es hacer inferencias sobre las probabilidades en cada categoría. Inferencias que se expresarán en terminos de pruebas de hipótesis (valores específicos de p )
Debido a que el cálculo de probabilidades multinomiales es un tanto engorroso,(grados de libertad, en el caso de la binomial las probabilidades de éxito determina la de fracaso en el caso multinomial se determinan conjuntamente) sería difícil calcular los niveles exactos de significancia (probabilidades de cometer errores tipo I)
Por suerte Karl Pearson, propuso un estadístico muy útil para realizar pruebas de hipótesis sobre \(p_i\) construyendo la distribución muestral aproximada de este estadístico.
La fórmula que da el estadístico es la siguiente:
\[\displaystyle \chi^{2}_c=\sum_{i}^k{\frac{(n_{i}-E(n_i))^{2}}{E(n_i)}}=\sum_{i}^k{\frac{(n_{i}-np_i)^{2}}{np_i}}\]
\[\displaystyle \chi^{2}_c=\sum_{i}^k{\frac{(\mathrm{observada}_{i}-\mathrm {teorica}_{i})^{2}}{\mathrm{teorica}_{i}}}\] Cuanto mayor sea el valor de \({\displaystyle \chi ^{2}}\) , menos verosímil es que la hipótesis nula (que asume la igualdad entre ambas distribuciones) sea correcta. De la misma forma, cuanto más se aproxima a cero el valor de chi-cuadrado, más ajustadas están ambas distribuciones.
Los grados de libertad gl vienen dados por :
\({\displaystyle gl=(r-1)(k-1)}\) Donde r es el número de filas y k el de columnas.
\(H_0\): La variable sigue la distribución teórica (bondad de ajuste) \(vs\) \(H_1\): Las variables no sigue la distribución
Dado que el estadístico de prueba son diferencias al cuadrado de las proporciones observadas vs las que se encontrarían bajo independencia la prueba será de una cola, pues a mayores diferencias se hará mayor.
No se rechaza la hipótesis nula \(H_0\) cuando \({\displaystyle \chi ^{2}<\chi_{c}^{2}((r-1)(k-1))}\). En caso contrario sí se rechaza.
Donde \(\chi_{c}^{2}\) representa el valor crítico por las tablas, según el nivel de significación estadística elegido.
La experiencia ha demostrado que las cantidades \(n_i\) en la celda no deben ser tan pequeñas, Como regla práctica, requeriremos que todas las cantidades esperadas por celda sean al menos cinco.
La forma de la distribución \(\chi^2\) cambia según sus grados de libertad, por lo cual su determinación es importante para la prueba, de manera empírica si ya se conocen k-1 probabilidades, por la condición de que la suma de los \(p_i\) para \(i=1,2,...,k\) el k-ésimo estará determinado., esta condición de las probabilidades elimina un grado de libertad.
El número de accidentes Y por semana en un cruce vial se contabilizo por \(n=50\) semanas. \(H_0\): La variable sigue la distribución de Poisson \(vs\) \(H_1\): Las variables no sigue la distribución de Poisson
Suponga que las observaciones son independientes. Use un nivel de significancia de \(\alpha =.05\).
| y | Frecuencia |
|---|---|
| 0 | 32 |
| 1 | 12 |
| 2 o más | 6 |
Solución Bajo la hipótesis nula
\[{\displaystyle p(y,\lambda )={\frac {e^{-\lambda }\lambda ^{y}}{y!}}}\] como lambda es desconocida la estimaremos con la media muestral, para el caso es similar a un promedio ponderado
\[\displaystyle \bar y=\frac{0*32+1*12+2+6}{50}=\frac{24}{50}=0.48\] Bajo la nula y con nuestro estimador de \(\lambda\)
\(p_1=P(Y=0)=e^{-\lambda}=e^{-0.48}=0.619\)
\(p_1=P(Y=0)=e^{-\lambda}\lambda=0.48e^{-0.48}= 0.297\)
\(p_1=P(Y \ge 0)=1-e^{-\lambda}-e^{-\lambda}\lambda=0.084\)
Bajo esta distribución los valores esperados para los accidentes serán
| y | Freciencia observada | Frecuencia teórica | estadistico |
|---|---|---|---|
| 0 | 32 | 0.619*50=30.95 | \(\frac{(32 - 30.95)^2}{30.95}\) |
| 1 | 12 | 0.297*50=14.85 | \(\frac{(12 - 14.85)^2}{14.85}\) |
| 2 o más | 6 | 0.084*50=4.20 | \(\frac{(6 - 4.20)^2}{4.20}\) |
| 50 | 50 | 1.354 |
que tiene aproximadamente una distribución \(\chi^2\) con (k − 2) = 1 grados de libertad. (Un grado de libertad se pierde porque \(\lambda\) tenía que calcularse, el otro, porque \(\sum^3_ip_i = 1\)
que es una prueba a una cola derecha, por lo cual nuestro estadístico de prueba debería ser mayor al valor crítico
qchisq(0.95,1)
## [1] 3.841459
1.354>qchisq(0.95,1)
## [1] FALSE
con valor \(p\)
1-pchisq(1.354,1)
## [1] 0.24458
p-value measures the degree of disagreement between the sample and the null hypothesis.
Se desea saber si la distribución de los grupos sanguíneos es similar en los individuos de dos poblaciones. Para ello se elige una muestra aleatoria simple de cada una de ellas, obteniéndose los datos reflejados en la tabla:
| Frec. Obs. | A | B | AB | O |
|---|---|---|---|---|
| Muestra 1 | 90 | 80 | 110 | 20 |
| Muestra 2 | 200 | 180 | 240 | 30 |
¿Qué conclusiones pueden obtenerse de estos datos si se usa un nivel de significaci´on del 5 %?
| Frec. Esp | A | B | AB | O | Total |
|---|---|---|---|---|---|
| Muestra 1 | 90 | 80 | 110 | 20 | 300 |
| Muestra 2 | 200 | 180 | 240 | 30 | 650 |
| Total | 290 | 260 | 350 | 50 | 950 |
| Frec. Esp | A | B | AB | O | Total |
|---|---|---|---|---|---|
| Muestra 1 | (300*290)/950 | (300x260)/950 | (300x350)/950 | 20 | 300 |
| Muestra 2 | (650x290)/950 | (650x260)/950 | (650x350)/950 | (650x)/950 | 650 |
| Total | 290 | 260 | 350 | 50 | 950 |
| Frec. Esp | A | B | AB | O | Total |
|---|---|---|---|---|---|
| Muestra 1 | 91.58 | 82.11 | 110.53 | 15.79 | 300 |
| Muestra 2 | 198.42 | 177.89 | 239.47 | 34.21 | 650 |
| Total | 290 | 260 | 350 | 50 | 950 |
\[\displaystyle \chi^{2}_c=\sum_{i}^r\sum_{j}^k{\frac{(n_{ij}-E(n_ij))^{2}}{E(n_ij)}}\]
(300)/950
## [1] 0.3157895
| Frec. Esp | A | B | AB | O | Total |
|---|---|---|---|---|---|
| Muestra 1 | 90 | 80 | 110 | 20 | 300 |
| Muestra 2 | 200 | 180 | 240 | 30 | 650 |
| Total | 290 | 260 | 350 | 50 | 950 |
| A | B | AB | O | |
|---|---|---|---|---|
| Muestra 1 | (90-91.58)^2/91.58 | (80-82.11)^2/82.11 | (110-110.53)^2/110.53 | (20-15.79)^2/15.79 |
| Muestra 2 | (200-198.42)^2/198.42 | (180-177.89)^2/177.89 | (240-239.47)^2/239.47 | (30-34.21)^2/34.21 |
Sumando los valores de la tabla anterior se obtiene el valor del estadìstico 1.76.
De nuevo estamos en una prueba a una cola por la derecha
qchisq(0.95,3)
## [1] 7.814728
1.76>qchisq(0.95,3)
## [1] FALSE
Por tanto de dichas muestras no se obtiene evidencia estadística suficiente en contra de que exista una distribución homogénea del grupo sanguíneo en ambas poblaciones.
A partir de una población se toma mediante muestreo aleatorio simple una muestra de tamaño \(n\). En cada observación se analizan dos características cualitativas A y B ( o cuantitativas agrupadas en intervalos), las cuales presentan r y s modalidades respectivamente. Deseamos contrastar si las dos variables son independientes, o sea, queremos realizar un test de significación para las hipótesis:
\(H_0\) : Las características A y B son independientes \(H_1\) : Las características A y B están asociadas
mosaicplot(independientes<-outer(c(6,6),c(6,6)))
mosaicplot(dependientes_pos<-matrix(c(71,1,1,71),nrow = 2,byrow = TRUE))
mosaicplot(dependientes_neg<-matrix(c(1,72,72,1),nrow = 2,byrow = TRUE))
De probabilidad sabemos que para que dos variables sean independientes se debe satisfacer que la probabilidad conjunta sea igual al producto de las marginales, por ejemplo:
309 niños de escuela primaria se clasificaron de acuerdo con el grupo socioeconómico y el grado de un defecto del habla en Alto, medio y bajo de cierto defecto en la pronunciación, los resultados son los siguientes:
datos<-data.frame(matrix(c(15,21,45,13,26,31,34,5,33,17,49,20),nrow = 3,byrow = T) )
row.names(datos)<-c("alto","medio","bajo")
colnames(datos)<-c("Superior","Medio-Superior","Medio-Inferior","Inferior")
datos
## Superior Medio-Superior Medio-Inferior Inferior
## alto 15 21 45 13
## medio 26 31 34 5
## bajo 33 17 49 20
colSums(datos)
## Superior Medio-Superior Medio-Inferior Inferior
## 74 69 128 38
colSums(datos)/sum(datos)
## Superior Medio-Superior Medio-Inferior Inferior
## 0.2394822 0.2233010 0.4142395 0.1229773
rowSums(datos)/sum(datos)
## alto medio bajo
## 0.3042071 0.3106796 0.3851133
# teorica<-round(outer(c(94,190,119),c(74,69,128,38))/309,2)
teorica<- round(outer(rowSums(datos)/sum(datos),colSums(datos)/sum(datos))*309,2)
La prueba busca estimar las diferencias entre la teórica y la observada
mosaicplot(datos,main="observada",las=2)
mosaicplot(teorica,main="Teórica",las=2)
La prueba de hipótesis en \(R\)
chisq.test(datos,teorica)
##
## Pearson's Chi-squared test
##
## data: datos
## X-squared = 19.178, df = 6, p-value = 0.003873
Por lo cual se rechaza la hipótesis nula
El test \(\chi^2\) de Pearson tiene unos requerimientos sobre el tamaño de muestra que no siempre se cumplen, una solución es unir categorías para aumentar los tamaños en los cruces,
library(MASS)
tbl = table(survey$Smoke, survey$Exer)
tbl
##
## Freq None Some
## Heavy 7 1 3
## Never 87 18 84
## Occas 12 3 4
## Regul 9 1 7
chisq.test(tbl)
## Warning in chisq.test(tbl): Chi-squared approximation may be incorrect
##
## Pearson's Chi-squared test
##
## data: tbl
## X-squared = 5.4885, df = 6, p-value = 0.4828
ctbl = cbind(tbl[,"Freq"], tbl[,"None"] + tbl[,"Some"])
ctbl
## [,1] [,2]
## Heavy 7 4
## Never 87 102
## Occas 12 7
## Regul 9 8
chisq.test(ctbl)
##
## Pearson's Chi-squared test
##
## data: ctbl
## X-squared = 3.2328, df = 3, p-value = 0.3571
otro es usar el test exacto de Fisher
https://www.fisterra.com/mbe/investiga/fisher/fisher.asp
El test exacto de Fisher permite analizar si dos variables categóricas (dicotómicas, binarias) están asociadas cuando la muestra a estudiar es demasiado pequeña y no se cumplen las condiciones necesarias para que la aplicación del test \(\chi^2\)1
\(H_0\): Las variables son independientes por lo que una variable no varía entre los distintos niveles de la otra variable.(no co-varian)
\(H_a\): Las variables son dependientes, una variable varía entre los distintos niveles de la otra variable. (co-varian)
El test exacto de Fisher consiste en calcular la probabilidad asociada a cada una de las tablas 2 x 2 que se pueden formar manteniendo los mismos totales de filas y columnas que los de la tabla observada (Prueba de permutaciones). Todas estas posibles tablas y sus probabilidades se obtiene bajo la hipótesis nula de independencia de las dos variables que se están considerando.
Es decir se calcula la distribución de todas las tablas posibles bajo independencia y se contrasta con la observada.
| Característica A | |||
|---|---|---|---|
| Característica B | Presente | Ausente | Total |
| Presente | a | b | a + b |
| Ausente | c | d | c + d |
| Total | a + c | b + d | n |
es igual a
\[\displaystyle p={\frac {{a+b \choose a}{c+d \choose c}}{n \choose a+c}}=\frac{(a+b)!(c+d)!(a+c)(b+d)}{a!b!c!d!n!}\]
En esta fórmula se calculan todas las posibles formas en las que podemos disponer \(n\) sujetos en una tabla 2 x 2 de modo que los totales de filas y columnas enten fijos, \((a+b)\), \((c+d)\), \((a+c)\) y \((b+d)\).
La probabilidad anterior deberá calcularse para todas las tablas de contingencia que puedan formarse con los mismos totales marginales que la tabla observada. Posteriormente, estas probabilidades se usan para calcular valor de la p asociado al test exacto de Fisher. Este valor de p indicará la probabilidad de obtener una diferencia entre los grupos mayor o igual a la observada, bajo la hipótesis nula de independencia. Si esta probabilidad es pequeña (\(p<0.05\)) se deberá rechazar la hipótesis de partida y deberemos asumir que las dos variables no son independientes, sino que están asociadas. En caso contrario, se dirá que no existe evidencia estadística de asociación entre ambas variables. 1
| Obesidad | |||
|---|---|---|---|
| Sexo | Si | No | Total |
| Mujeres | l (a) | 4 (b) | 5 (a+b) |
| Hombres | 7 (c) | 2 (d ) | 9 (c+d) |
| Total | 8 (a+c) | No | 14(n) |
Posibles combinaciones de frecuencias con los mismos totales marginales de filas y columnas.
La probabilidad exacta de ocurrencia bajo la hipótesis nula se calcula en la siguiente tabla.
| (i) | a | b | c | d | p |
|---|---|---|---|---|---|
| (i) | 0 | 5 | 8 | 1 | 0,0030 |
| ** (ii)** | 1 | 4 | 7 | 2 | 0,0599 |
| (iii) | 2 | 3 | 6 | 3 | 0,2797 |
| (iv) | 3 | 2 | 5 | 4 | 0,4 196 |
| (v) | 4 | 1 | 4 | 5 | 0,2098 |
| (vi) | 5 | 0 | 3 | 6 | 0,0280 |
El valor de la p asociado al test exacto de Fisher puede entonces calcularse sumando las probabilidades de las tablas que resultan ser menores o iguales a la probabilidad de la tabla que ha sido observada:
p=0.0030+0.0599+0.0280=0.909
0.0030+0.0599+0.0280
## [1] 0.0909
# install.packages("vcd")
library(vcd)
## Loading required package: grid
data("Arthritis")
tab <- xtabs(~Improved + Treatment, data = Arthritis)
#summary(assocstats(tab))
chisq.test(tab)
##
## Pearson's Chi-squared test
##
## data: tab
## X-squared = 13.055, df = 2, p-value = 0.001463
fisher.test(tab,teorica,workspace =1800000 )
##
## Fisher's Exact Test for Count Data
##
## data: tab
## p-value = 0.001393
## alternative hypothesis: two.sided
Los test exactos calculan la probabilidad de obtener los resultados observados de forma directa generando todos los posibles escenarios y calculando la proporción en los que se cumple la condición estudiada (son test de permutaciones).
Los test aproximados calculan primero un estadístico y luego emplean la distribución teórica de dicho estadístico para obtener la probabilidad de que adquiera valores iguales o más extremos.2
Existe bastante controversia en cuanto a si se deben de utilizar test exactos o aproximados. En la era pre-computacional, los test exactos requerían alta capacidad de computo cuando el tamaño total de muestras aumentaba, sin embargo, por medio de la computación esta barrera se ha eliminado. Los test exactos son más precisos cuando el tamaño total de observaciones es bajo o alguno de los grupos tiene pocas observaciones, para muestras grandes las diferencias son mínimas.