Martin Pons
Bibliografia: Tema 4 del libro
Estamos interesados en analizar la relacion entre dos variables cualitativas
¿Esta relacionada la nacionalidad de un turista con el tipo de alojamiento en el que se aloja?
¿Esta relacionada la percepcion del turista sobre el precio del viaje con sus ganas de repetir?
Tabla de contingencia: Muestra la frecuencia de cada categoria de las dos variables de forma conjunta.
Distribuciones marginales. Son las frecuencias (absolutas y relativas) de cada una ve las variables. Para obtenerlas es suficiente con sumar todas las celdas correspondientes a cada una de las filas o de las columnas.
Distribucion de frecuencias relativas. Son las frecuencias relativas de cada una de las celdas con respecto al total de observaciones.
Distribucion de frecuencias relativas. Son las frecuencias relativas de cada una de las celdas con respecto al total de observaciones.
Ejercicio
En una encuesta se pregunta a una serie de turistas de un determinado destino turistico por la region visitada y si han realizado la visita con anterioridad. Estos son los resultados de la encuesta
Region Repiten
1 Region 1 Si
2 Region 2 Si
3 Region 2 No
4 Region 2 No
5 Region 2 No
6 Region 1 No
7 Region 1 Si
8 Region 2 Si
9 Region 1 No
10 Region 1 Si
11 Region 2 Si
12 Region 2 Si
13 Region 2 Si
14 Region 1 No
15 Region 1 Si
Representa una tabla de contingencia con las frecuencias absolutas y otra con las frecuencias relativas. Incluye en ambos casos las frecuencias marginales.
Perfiles fila (porcentajes fila). Recogen las frecuencias relativas de cada una de las celdas con respecto al total de las filas.
Perfiles fila (porcentajes fila). Recogen las frecuencias relativas de cada una de las celdas con respecto al total de las filas.
Perfiles columna (porcentajes columna). Son las frecuencias relativas de cada una de las celdas con respecto al total de las columnas.
Perfiles columna (porcentajes columna). Son las frecuencias relativas de cada una de las celdas con respecto al total de las columnas.
Ejemplo
Con el objetivo de conocer el nivel de satisfaccion de los turistas que han pasado sus vacaciones en una region, se ha realizado una encuesta en la que se pregunta al turista si esta satisfecho de sus vacaciones. Las posibles respuestas a la pregunta son: mucho, bastante, poco y nada. Considerando que la satisfaccion alcanzada puede estar en funcion de la zona concreta en donde se ha realizado la estancia, se ha cruzado la pregunta sobre satisfaccion con una variable que identifica cuatro zonas de la region. En el 4.7 se muestran las frecuencias relativas, mientras que en los cuadrod 4.8 y 4.9 se expresa la tabla como porcentajes fila y columna, respectivamente.
Para dos variables cualquiera A y B
Tabla de contingencia
\( n_ij \) indica el numero de observaciones que presentan simultaneamente las caracteristicas \( i \) y \( j \) de las variables \( A \) y \( B \)
Distribucion de frecuencias marginales
Distribucion conjunta de frecuencias relativas
Perfiles fila
Perfiles columna
Representacion grafica
Estadisticos de asociacion:
Chi-cuadrado
C de contingencia
Lambda
Idea principal: Comparamos las frecuencias conjuntas de las dos variables (representadas en la tabla de contingencia), que en este contexto llamaremos tabla de frecuencias observadas con las frecuencias conjuntas que hubieramos obtenido si las variables fueran independientes. Si las diferencias son demasiado grandes concluiremos que las variables estan asociadas. Es la tabla de frecuencias esperadas
Sera necesario entonces construir esta tabla de frecuencias esperadas
A continuacion se explica como construir esta tabla a partir del ejemplo del principio del tema.
Esta es la tabla de frecuencias conjuntas del ejemplo en el que se representan las frecuencias conjuntas de la impresion del viaje y el rango de edad. Esta es nuestra tabla de frecuencias observadas
En un primer paso para obtener nuestra tabla de frecuencias esperadas, podemos construir, a partir de la anterior, una tabla de perfiles columna relativa. Esta tabla representa, para cada categoria de edad, el porcentaje de personas en cada categoria de la variable impresion.
Si las variables Impresion i Edad fueran independientes, el porcentaje de turistas en cada categoria de la variable impresion seria la misma independientemente de la edad.
Para cada rango de edad entonces, el porcentaje que veriamos en cada categoria de la variable impresion, seria el que viene dado por la frecuencia marginal de la edad.
Es decir, si las variables son independientes y sabemos que el 42,1% (42,09 sin no redondeamos) de los turistas han tenido una impresion muy buena sobre el viaje ¿Importa en que rango de edad se encuentre un turista? No. Si las variables son independientes la probabilidad de encontrar un turista con una opinion determinada sobre el viaje sera la misma sin importar el rango de edad: el porcentaje de turistas con una impresion muy buena sobre el viaje tiene que ser el mismo para cada rango de edad.
De todas formas, con la tabla anterior aun no hemos acabado. Queremos que nuestra tabla de frecuencias esperadas tenga el mismo formato que la tabla de frecuencias observadas, es decir, queremos frecuencias absolutas y no porcentajes.
Tabla de frecuencias observadas
Para obtener las frecuencias en terminos absolutos, podemos multiplicar los porcentajes de la tabla anterior, por el total de turistas en cada categoria de edad que tenemos en la tabla de frecuencias observadas.
Al efectuar la multiplicacion ya tenemos nuestra tabla de frecuencias esperadas
Tabla de frecuencias esperadas
Estas son las frecuencias que observariamos si las dos variables fueran independientes, dadas sus frecuencias marginales (las frecuencias de las variables analizadas separadamente).
En este caso tiene sentido expresar las frecuencias con decimales ya que no son reales, sino esperadas.
Para medir la asociacion, el estadistico Chi-cuadrado resumira las diferencias que observamos en cada celda de las dos tablas, en un solo numero.
Frecuencias observadas
Frecuencias esperadas
Estadistico Chi-cuadrado
\[ \chi^2 = \sum_{i=1}^{I}\sum_{j=1}^{J}\frac{(n_{ij} - e_{ij})^2}{n_{ij}} \]
\( n_{ij} \) es la frecuencia conjunta de la tabla de frecuencias observadas en la posicion \( ij \)
\( e_{ij} \) es la frecuencia conjunta de la tabla de frecuencias esperadas en la posicion \( ij \)
Simplemente sumamos las diferencias de todas las celdas analogas de las dos tablas. Las elevamos al cuadrado para que diferencias positivas no se compensen con negativas, y dividimos entre \( e_{ij} \) para relativizar el resultado (no es lo mismo una diferencia de 5 unidades sobre una frecuencia esperada de 10 que la misma diferencia sobre una frecuencia esperada de 1000).
Una buena manera de ilustrar el calculo de este estadistico es construir una tabla con las diferencias en las frecuencias conjuntas. Es decir una tabla, donde en cada posicion \( ij \) se calcula \( \frac{(n_{ij} - e_{ij})^2}{e_{ij}} \)
Lo podemos hacer con nuestro ejemplo
Si sumamos las cantidades de todas las celdas obtenemos nuestro estadistico Chi-cuadrado
\[ \chi^2 = \sum_{i=1}^{I}\sum_{j=1}^{J}\frac{(n_{ij} - e_{ij})^2}{n_{ij}} = 7,035 \]
Ejemplo
Calculamos el estadistico chi-cuadrado para la asociacion entre dos variables relacionadas con el nivel de stisfaccion del turista y la zona visitada. Al hacer una encuesta a 3.328 turistas se ha obtenido la siguiente tabla de contingencia
Construimos la tabla relativa (porcentajes) de perfiles columna: si las variables son independientes la distribucion de los porcentajes del nivel de satisfaccion sera la misma independientemente de la zona turistica.
Multiplicando por el total de la columna, obtenemos la tabla de frecuencias esperadas
Para obtener la tabla de frecuencias esperadas de manera directa, sin pasos intermedios, basta multiplicar el total de la fila correspondiente, por el total de la columna correspondiente y dividirlo entre el total de observaciones
Si lo aplicamos a los datos de nuestro ejemplo, a partir de la tabla de contingencia
\[ e_{11} = \frac{1546}{3328}874 = 406,01 \]
\[ e_{12} = \frac{1546}{3328}1257 = 583,93 \]
\[ e_{21} = \frac{496}{3328}874 = 130,26 \]
\[ e_{22} = \frac{496}{3328}1257 =187,34 \]
Calculamos ahora la tabla de desviaciones \( \frac{(n_{ij} - e_{ij})^2}{e_{ij}} \)
Sumando el contenido de cada celda tendremos el valor del estadistico chi-cuadrado
\[ \chi^2 = \sum_{i=1}^{I}\sum_{j=1}^{J}\frac{(n_{ij} - e_{ij})^2}{n_ij} = 40,223 \]
Hemos calculado el estadistico pero ¿como lo interpretamos?
El estadistico toma valores proximos a 0 en el supuesto de que las variables sean independientes.
Si el estadistico esta demasiado alejado de 0 concluiremos que las variables estan asociadas.
¿Cuando podemos considerar que el estadistico esta demasiado alejado de 0? Al igual que en el tema 3 lo haremos a traves de un contraste de hipotesis.
Veremos como funciona este contraste en el ultimo apartado de este tema.
De momento utilizaremos el valor de Chi-cuadrado para calcular otro estadistico con el que podemos medir el grado de asociacion entre dos variables cualitativas: el C de contingencia
El estadistico C de contingencia sirve para medir el grado de asociacion entre dos variables cualitativas
\[ C = \sqrt{\frac{\chi^2}{n + \chi^2}} \]
Donde \( chi^2 \) es el valor del estadistico chi-cuadrado y \( n \) es el numero todal de observaciones de la muestra
El valor minimo que toma este estadistico es 0. El valor maximo depende del numero de categorias de cada variable.
Limite maximo
\[ \sqrt{1 - \frac{1}{min(I,J)}} \]
Donde \( min(I,J) \) es el minimo de las categorias de las dos variables (el minimo entre el numero de filas y numero de columnas de la tabla de contingencia).
Para el estadistico de la impresion del viaje y el rango de edad, el estadistico chi-cuadrado nos habia dado \( \chi^2 = 7,035 \). El numero total de observaciones era \( n = 4852 \)
El estadistico C de contingencia sera entonces
\[ C = \sqrt{\frac{7,035}{4852 + 7,035}} = 0,038 \]
Dado que tenemos cuatro categorias para las dos variables, el valor maximo que podria haber tomado este estadistico es
\[ \sqrt{1- \frac{1}{4}} = 0,866 \]
El porcentaje del estadistico C sobre el valor maximo es entonces
\[ \frac{0,038}{0,866} = 0,043 = 4,3 \% \]
El estadistico es un 4,3% del valor maximo que potencialmente puede tomar. El nivel de asociacion de estas dos variables es muy bajo.