Queremos saber si dos variables cualitativas son independientes o tienen algun tipo de asociacion.
Hemos medido el grado de asociacion con el estadistico de contingencia, pero queremos saber si la asociacion que observamos a traves de este estadistico (obtenido a partir de los datos de una muestra) se debe al azar muestral o si realmente existe una asociacion entre las variables.
Para comprobarlo, al igual que en el tema 3 realizamos un contraste de hipotesis.
En este caso, las hipotesis a contrastar son
\[ H_0: \text{las variables son independientes} \]
\[ H_A: \text{existe asociacion entre las variables} \]
\[ \chi^2 = \sum_{i=1}^{I}\sum_{j=1}^{J}\frac{(n_{ij} - e_{ij})^2}{e_{ij}} \]
Al igual que pasaba en el tema 3 con la media muestral y la proporcion muestral, este estadistico es una variable aleatoria: tiene una distribucion de probabilidad.
Sin embargo, la distribucion de probabilidad de este estadistico no es la normal, como pasaba en el tema 3 (no podemos utilizar la tabla de variables estandarizadas z), sino que sigue una distribucion \chi cuadrado en caso de que la hipotesis nula sea cierta.
¿como sabemos que valores del estadistico \( \chi^2 \) son mas probabiles y cuales son menos probables bajo hipotesis nula cierta?.
Al igual que con la distribucion normal estandar tenemos unas tablas que nos dan la probabidad de obtener valores iguales o mayores que toda un rango de diferentes valores, para cada grado de libertad de la funcion
Para el ejemplo anterior de nivel de satisfaccion del turista y el rango de edad, realizamos un contraste de independentia con un nivel de significacion del 5% (esto es, rechazamos la hipotesis nula si el valor del estadistico de contraste obtenido se observara con una probabilidad igual o inferior al 5% en caso de que le las variables fueran independientes).
Tenemos que comparar el valor del estadistico obtenido (40,22), con el valor correspondiente a un nivel de significacion del 5%.
Antes, tenemos que determinar los grados de libertad. Estos vienen dados por
\[ (r - 1)(c - 1) \]
siendo \( r \) el numero de filas de la tabla de contingencia y \( c \) el numero de columnas. En nuestro ejemplo, los grados de libertad serian 4x4 = 16. Si miramos la tabla, el valor limite Para un contraste con 16 grados de libertad y un nivel de significacion del 5% es 24,996. Al ser el valor obtenido en el estadistico mayor que este valor limite, rechazamos la hipotesis nula: las variables nivel de satisfaccion y edad estan asociadas.
Ejercicio
Se ha ampliado la muestra del estudio del ejemplo en donde se examinaba conjuntamente la region visitada por los turistas en un destino turistico y las ganas de repetir el viaje. De una muestra de 40 individuos se ha obtenido la siguiente tabla de contingencia
Region
Repiten Region1 Region2
No 6 8
Si 10 16
Realiza un contraste de hipotesis para evaluar la independencia de las dos variables. Si las variables no son independientes (estan asociadas), calcula el grado de asociacion con el estadistico C de Contingencia.