TEMA 4: ANALISIS CONJUNTO DE DOS VARIABLES CUALITATIVAS

Martin Pons

Indice

Relacion entre dos variables cualitativas
Frecuencias conjuntas. Tablas de contingencia
Independencia y asociacion. Estadisticos de asociacion
Contraste de independencia

Bibliografia: Tema 4 del libro

Relacion entre dos variables cualitativas

Estamos interesados en analizar la relacion entre dos variables cualitativas
¿Esta relacionada la nacionalidad de un turista con el tipo de alojamiento en el que se aloja?
¿Esta relacionada la percepcion del turista sobre el precio del viaje con sus ganas de repetir?

Relacion entre dos variables cualitativas

Frecuencias conjuntas. Tablas de contingencia

Ejemplo. Relacion entre la edad y la impresion sobre el viaje

Tabla de contingencia: Muestra la frecuencia de cada categoria de las dos variables de forma conjunta.

Frecuencias conjuntas. Tablas de contingencia

Distribuciones marginales. Son las frecuencias (absolutas y relativas) de cada una ve las variables. Para obtenerlas es suficiente con sumar todas las celdas correspondientes a cada una de las filas o de las columnas.

Frecuencias conjuntas. Tablas de contingencia

Distribucion de frecuencias relativas. Son las frecuencias relativas de cada una de las celdas con respecto al total de observaciones.

Frecuencias conjuntas. Tablas de contingencia

Distribucion de frecuencias relativas. Son las frecuencias relativas de cada una de las celdas con respecto al total de observaciones.

Frecuencias conjuntas. Tablas de contingencia

Ejercicio

En una encuesta se pregunta a una serie de turistas de un determinado destino turistico por la region visitada y si han realizado la visita con anterioridad. Estos son los resultados de la encuesta

     Region Repiten
1  Region 1      Si
2  Region 2      Si
3  Region 2      No
4  Region 2      No
5  Region 2      No
6  Region 1      No
7  Region 1      Si
8  Region 2      Si
9  Region 1      No
10 Region 1      Si
11 Region 2      Si
12 Region 2      Si
13 Region 2      Si
14 Region 1      No
15 Region 1      Si

Representa una tabla de contingencia con las frecuencias absolutas y otra con las frecuencias relativas. Incluye en ambos casos las frecuencias marginales.

Frecuencias conjuntas. Tablas de contingencia

Perfiles fila (porcentajes fila). Recogen las frecuencias relativas de cada una de las celdas con respecto al total de las filas.

Frecuencias conjuntas. Tablas de contingencia

Perfiles fila (porcentajes fila). Recogen las frecuencias relativas de cada una de las celdas con respecto al total de las filas.

Frecuencias conjuntas. Tablas de contingencia

Perfiles columna (porcentajes columna). Son las frecuencias relativas de cada una de las celdas con respecto al total de las columnas.

Frecuencias conjuntas. Tablas de contingencia

Perfiles columna (porcentajes columna). Son las frecuencias relativas de cada una de las celdas con respecto al total de las columnas.

Frecuencias conjuntas. Tablas de contingencia

Ejemplo

Con el objetivo de conocer el nivel de satisfaccion de los turistas que han pasado sus vacaciones en una region, se ha realizado una encuesta en la que se pregunta al turista si esta satisfecho de sus vacaciones. Las posibles respuestas a la pregunta son: mucho, bastante, poco y nada. Considerando que la satisfaccion alcanzada puede estar en funcion de la zona concreta en donde se ha realizado la estancia, se ha cruzado la pregunta sobre satisfaccion con una variable que identifica cuatro zonas de la region. En el 4.7 se muestran las frecuencias relativas, mientras que en los cuadrod 4.8 y 4.9 se expresa la tabla como porcentajes fila y columna, respectivamente.

Frecuencias conjuntas. Tablas de contingencia

Para dos variables cualquiera A y B

Tabla de contingencia

\( n_ij \) indica el numero de observaciones que presentan simultaneamente las caracteristicas \( i \) y \( j \) de las variables \( A \) y \( B \)

Frecuencias conjuntas. Tablas de contingencia

Distribucion de frecuencias marginales

Frecuencias conjuntas. Tablas de contingencia

Distribucion conjunta de frecuencias relativas

Frecuencias conjuntas. Tablas de contingencia

Perfiles fila

Frecuencias conjuntas. Tablas de contingencia

Perfiles columna

Frecuencias conjuntas. Tablas de contingencia

Representacion grafica

Independencia y asociacion. Estadisticos de asociacion

Estadisticos de asociacion:

Chi-cuadrado
C de contingencia
Lambda

Independencia y asociacion. Estadisticos de asociacion

Chi-cuadrado

Idea principal: Comparamos las frecuencias conjuntas de las dos variables (representadas en la tabla de contingencia), que en este contexto llamaremos tabla de frecuencias observadas con las frecuencias conjuntas que hubieramos obtenido si las variables fueran independientes. Si las diferencias son demasiado grandes concluiremos que las variables estan asociadas. Es la tabla de frecuencias esperadas

Sera necesario entonces construir esta tabla de frecuencias esperadas

A continuacion se explica como construir esta tabla a partir del ejemplo del principio del tema.

Independencia y asociacion. Estadisticos de asociacion

Chi-cuadrado

Esta es la tabla de frecuencias conjuntas del ejemplo en el que se representan las frecuencias conjuntas de la impresion del viaje y el rango de edad. Esta es nuestra tabla de frecuencias observadas

Independencia y asociacion. Estadisticos de asociacion

Chi-cuadrado

En un primer paso para obtener nuestra tabla de frecuencias esperadas, podemos construir, a partir de la anterior, una tabla de perfiles columna relativa. Esta tabla representa, para cada categoria de edad, el porcentaje de personas en cada categoria de la variable impresion.

Independencia y asociacion. Estadisticos de asociacion

Chi-cuadrado

Si las variables Impresion i Edad fueran independientes, el porcentaje de turistas en cada categoria de la variable impresion seria la misma independientemente de la edad.

Para cada rango de edad entonces, el porcentaje que veriamos en cada categoria de la variable impresion, seria el que viene dado por la frecuencia marginal de la edad.

Es decir, si las variables son independientes y sabemos que el 42,1% (42,09 sin no redondeamos) de los turistas han tenido una impresion muy buena sobre el viaje ¿Importa en que rango de edad se encuentre un turista? No. Si las variables son independientes la probabilidad de encontrar un turista con una opinion determinada sobre el viaje sera la misma sin importar el rango de edad: el porcentaje de turistas con una impresion muy buena sobre el viaje tiene que ser el mismo para cada rango de edad.

Independencia y asociacion. Estadisticos de asociacion

Chi-cuadrado

De todas formas, con la tabla anterior aun no hemos acabado. Queremos que nuestra tabla de frecuencias esperadas tenga el mismo formato que la tabla de frecuencias observadas, es decir, queremos frecuencias absolutas y no porcentajes.

Tabla de frecuencias observadas

Independencia y asociacion. Estadisticos de asociacion

Chi-cuadrado

Para obtener las frecuencias en terminos absolutos, podemos multiplicar los porcentajes de la tabla anterior, por el total de turistas en cada categoria de edad que tenemos en la tabla de frecuencias observadas.

Independencia y asociacion. Estadisticos de asociacion

Chi-cuadrado

Al efectuar la multiplicacion ya tenemos nuestra tabla de frecuencias esperadas

Tabla de frecuencias esperadas

Estas son las frecuencias que observariamos si las dos variables fueran independientes, dadas sus frecuencias marginales (las frecuencias de las variables analizadas separadamente).

En este caso tiene sentido expresar las frecuencias con decimales ya que no son reales, sino esperadas.

Independencia y asociacion. Estadisticos de asociacion

Chi-cuadrado

Para medir la asociacion, el estadistico Chi-cuadrado resumira las diferencias que observamos en cada celda de las dos tablas, en un solo numero.

Frecuencias observadas

Frecuencias esperadas

Independencia y asociacion. Estadisticos de asociacion

Chi-cuadrado

Estadistico Chi-cuadrado

\[ \chi^2 = \sum_{i=1}^{I}\sum_{j=1}^{J}\frac{(n_{ij} - e_{ij})^2}{n_{ij}} \]

\( n_{ij} \) es la frecuencia conjunta de la tabla de frecuencias observadas en la posicion \( ij \)

\( e_{ij} \) es la frecuencia conjunta de la tabla de frecuencias esperadas en la posicion \( ij \)

Simplemente sumamos las diferencias de todas las celdas analogas de las dos tablas. Las elevamos al cuadrado para que diferencias positivas no se compensen con negativas, y dividimos entre \( e_{ij} \) para relativizar el resultado (no es lo mismo una diferencia de 5 unidades sobre una frecuencia esperada de 10 que la misma diferencia sobre una frecuencia esperada de 1000).

Independencia y asociacion. Estadisticos de asociacion

Chi-cuadrado

Una buena manera de ilustrar el calculo de este estadistico es construir una tabla con las diferencias en las frecuencias conjuntas. Es decir una tabla, donde en cada posicion \( ij \) se calcula \( \frac{(n_{ij} - e_{ij})^2}{e_{ij}} \)

Lo podemos hacer con nuestro ejemplo

Si sumamos las cantidades de todas las celdas obtenemos nuestro estadistico Chi-cuadrado

\[ \chi^2 = \sum_{i=1}^{I}\sum_{j=1}^{J}\frac{(n_{ij} - e_{ij})^2}{n_{ij}} = 7,035 \]

Independencia y asociacion. Estadisticos de asociacion

Chi-cuadrado

Ejemplo

Calculamos el estadistico chi-cuadrado para la asociacion entre dos variables relacionadas con el nivel de stisfaccion del turista y la zona visitada. Al hacer una encuesta a 3.328 turistas se ha obtenido la siguiente tabla de contingencia

Independencia y asociacion. Estadisticos de asociacion

Chi-cuadrado

Construimos la tabla relativa (porcentajes) de perfiles columna: si las variables son independientes la distribucion de los porcentajes del nivel de satisfaccion sera la misma independientemente de la zona turistica.

Multiplicando por el total de la columna, obtenemos la tabla de frecuencias esperadas

Independencia y asociacion. Estadisticos de asociacion

Chi-cuadrado

Para obtener la tabla de frecuencias esperadas de manera directa, sin pasos intermedios, basta multiplicar el total de la fila correspondiente, por el total de la columna correspondiente y dividirlo entre el total de observaciones

Si lo aplicamos a los datos de nuestro ejemplo, a partir de la tabla de contingencia

\[ e_{11} = \frac{1546}{3328}874 = 406,01 \]

\[ e_{12} = \frac{1546}{3328}1257 = 583,93 \]

\[ e_{21} = \frac{496}{3328}874 = 130,26 \]

\[ e_{22} = \frac{496}{3328}1257 =187,34 \]

Independencia y asociacion. Estadisticos de asociacion

Chi-cuadrado

Calculamos ahora la tabla de desviaciones \( \frac{(n_{ij} - e_{ij})^2}{e_{ij}} \)

Sumando el contenido de cada celda tendremos el valor del estadistico chi-cuadrado

\[ \chi^2 = \sum_{i=1}^{I}\sum_{j=1}^{J}\frac{(n_{ij} - e_{ij})^2}{n_ij} = 40,223 \]

Independencia y asociacion. Estadisticos de asociacion

Chi-cuadrado

Hemos calculado el estadistico pero ¿como lo interpretamos?
El estadistico toma valores proximos a 0 en el supuesto de que las variables sean independientes.
Si el estadistico esta demasiado alejado de 0 concluiremos que las variables estan asociadas.
¿Cuando podemos considerar que el estadistico esta demasiado alejado de 0? Al igual que en el tema 3 lo haremos a traves de un contraste de hipotesis.
Veremos como funciona este contraste en el ultimo apartado de este tema.
De momento utilizaremos el valor de Chi-cuadrado para calcular otro estadistico con el que podemos medir el grado de asociacion entre dos variables cualitativas: el C de contingencia

Independencia y asociacion. Estadisticos de asociacion

Estadistico C de contingencia

El estadistico C de contingencia sirve para medir el grado de asociacion entre dos variables cualitativas

\[ C = \sqrt{\frac{\chi^2}{n + \chi^2}} \]

Donde \( chi^2 \) es el valor del estadistico chi-cuadrado y \( n \) es el numero todal de observaciones de la muestra

El valor minimo que toma este estadistico es 0. El valor maximo depende del numero de categorias de cada variable.

Limite maximo

\[ \sqrt{1 - \frac{1}{min(I,J)}} \]

Donde \( min(I,J) \) es el minimo de las categorias de las dos variables (el minimo entre el numero de filas y numero de columnas de la tabla de contingencia).

Independencia y asociacion. Estadisticos de asociacion

Estadistico C de contingencia

Para el estadistico de la impresion del viaje y el rango de edad, el estadistico chi-cuadrado nos habia dado \( \chi^2 = 7,035 \). El numero total de observaciones era \( n = 4852 \)

El estadistico C de contingencia sera entonces

\[ C = \sqrt{\frac{7,035}{4852 + 7,035}} = 0,038 \]

Dado que tenemos cuatro categorias para las dos variables, el valor maximo que podria haber tomado este estadistico es

\[ \sqrt{1- \frac{1}{4}} = 0,866 \]

El porcentaje del estadistico C sobre el valor maximo es entonces

\[ \frac{0,038}{0,866} = 0,043 = 4,3 \% \]

El estadistico es un 4,3% del valor maximo que potencialmente puede tomar. El nivel de asociacion de estas dos variables es muy bajo.