Contraste de independencia

Contraste de independencia

  • Queremos saber si dos variables cualitativas son independientes o tienen algun tipo de asociacion.

  • Hemos medido el grado de asociacion con el estadistico de contingencia, pero queremos saber si la asociacion que observamos a traves de este estadistico (obtenido a partir de los datos de una muestra) se debe al azar muestral o si realmente existe una asociacion entre las variables.

  • Para comprobarlo, al igual que en el tema 3 realizamos un contraste de hipotesis.

  • En este caso, las hipotesis a contrastar son

\[ H_0: \text{las variables son independientes} \]

\[ H_A: \text{existe asociacion entre las variables} \]

Contraste de independencia

  • Para realizar el contrastre utilizaremos el estadistico \( \chi^2 \) calculado antes en este tema.

\[ \chi^2 = \sum_{i=1}^{I}\sum_{j=1}^{J}\frac{(n_{ij} - e_{ij})^2}{e_{ij}} \]

  • Al igual que pasaba en el tema 3 con la media muestral y la proporcion muestral, este estadistico es una variable aleatoria: tiene una distribucion de probabilidad.

  • Sin embargo, la distribucion de probabilidad de este estadistico no es la normal, como pasaba en el tema 3 (no podemos utilizar la tabla de variables estandarizadas z), sino que sigue una distribucion \chi cuadrado en caso de que la hipotesis nula sea cierta.

Contraste de independencia

  • La forma de la distribucion \( \chi^2 \) depende de los grados de libertad

plot of chunk unnamed-chunk-1

  • La evaluacion del cumplimiento de la hipotesis nula sigue la misma logica que los contrastes del tema 3: ya que suponemos que, primero, bajo la hipotesis nula las dos variables no estan asociadas, y segundo, que si las variables no estan asociadas el estadistico \( \chi^2 \) sigue una distribucion que lleva su nombre: \( \chi^2 \), si el valor obtenido al calcular el estadistico es un valor poco probable bajo hipotesis nula cierta, rechazaremos la hipotesis nula.

Contraste de independencia

  • ¿como sabemos que valores del estadistico \( \chi^2 \) son mas probabiles y cuales son menos probables bajo hipotesis nula cierta?.

  • Al igual que con la distribucion normal estandar tenemos unas tablas que nos dan la probabidad de obtener valores iguales o mayores que toda un rango de diferentes valores, para cada grado de libertad de la funcion

Tabla chi cuadrado

Contraste de independencia

  • Para el ejemplo anterior de nivel de satisfaccion del turista y el rango de edad, realizamos un contraste de independentia con un nivel de significacion del 5% (esto es, rechazamos la hipotesis nula si el valor del estadistico de contraste obtenido se observara con una probabilidad igual o inferior al 5% en caso de que le las variables fueran independientes).

  • Tenemos que comparar el valor del estadistico obtenido (40,22), con el valor correspondiente a un nivel de significacion del 5%.

  • Antes, tenemos que determinar los grados de libertad. Estos vienen dados por

\[ (r - 1)(c - 1) \]

siendo \( r \) el numero de filas de la tabla de contingencia y \( c \) el numero de columnas. En nuestro ejemplo, los grados de libertad serian 4x4 = 16. Si miramos la tabla, el valor limite Para un contraste con 16 grados de libertad y un nivel de significacion del 5% es 24,996. Al ser el valor obtenido en el estadistico mayor que este valor limite, rechazamos la hipotesis nula: las variables nivel de satisfaccion y edad estan asociadas.

Contraste de independencia

Ejercicio

Se ha ampliado la muestra del estudio del ejemplo en donde se examinaba conjuntamente la region visitada por los turistas en un destino turistico y las ganas de repetir el viaje. De una muestra de 40 individuos se ha obtenido la siguiente tabla de contingencia

       Region
Repiten Region1 Region2
     No       6       8
     Si      10      16

Realiza un contraste de hipotesis para evaluar la independencia de las dos variables. Si las variables no son independientes (estan asociadas), calcula el grado de asociacion con el estadistico C de Contingencia.