Martin Pons
Conceptos basicos del analisis univariante de variables cualitativas y cuantitativas
Herramientas del analisis estadistico univariante
El analisis de las caracteristicas del turista y del viaje
El analisis de la evolucion de los flujos y el gasto turistico
Empezemos a trabajar con datos
Variable: recoge las diferentes observaciones realizadas sobre una determinada caracteristica.
Entrada de turistas por via aerea a las Illes Balears. 2005
| Nacionalidad | Turistas |
|---|---|
| Alemanes | 3.757.957 |
| Britanicos | 3.333.871 |
| Franceses | 285.993 |
| Italianos | 417.574 |
| Suizos | 180.441 |
| Belgas | 115.179 |
| Suecos | 142.096 |
| Holandeses | 159.194 |
| Austriacos | 143.124 |
| Irlandeses | 174.622 |
| Daneses | 105.334 |
| Noruegos | 95.869 |
| Luxemburgeses | 28.971 |
| Portugueses | 91.750 |
| Filandeses | 21.058 |
| Rusos | 21.811 |
| Otros Europeos | 68.504 |
| Otros | 128.731 |
Indicador: Son variables que sin medir directamente una caracteristica, nos aproximan a ella de una manera indirecta, recogiendo informacion que se relaciona con la que queremos obtener realmente.
| Numero de visitas | Alemanes | Britanicos |
|---|---|---|
| Una | 39,74% | 23,10% |
| Dos | 21,33% | 18,29% |
| Tres | 12,74% | 16,41% |
| Cuatro | 7,28% | 10,44% |
| Mas de cuatro | 18,91% | 31,76% |
Aqui se utiliza el numero de visitas como un indicador de fidelidad
Variables temporales: son las que se observan en varios periodos de tiempo consecutivos.
Variables transversales: son las que se observan en un mismo momento del tiempo para distintos individuos.
Variables cuantitativas: Toman valores numericos. Pueden ser discretas o continuas.
Variables cualitativas: Reflejan diferentes caracteristicas o categorias de una cualidad. Pueden ser nominales u ordinales.
Analisis descriptivo: conjunto de tecnicas para describir de forma resumida y ordenada el comportamiento de una variable
Las herramientas adecuadas dependen del tipo de variable (cualitativa o cuantitativa)
Distribucion de frecuencias: registro de todos los posibles valores de la variable, junto con sus frecuencias asociadas.
Frecuencia (frecuencia absoluta): numero de veces que se repite uno de los valores de una variable.
Frecuencia relativa: la frecuencia en cada categoria de la variable dividida por el total de observaciones.
Frecuencia absoluta acumulada de una categoria: numero de observaciones que toman una categoria igual o inferior a la considerada.
Frecuencia relativa acumulada: recoge los valores acumulados de las frecuencias relativas.
Ejemplo
La nacionalidad de los turistas que visitan una region es una variable cualitativa. Una vez recogida la informacion, lo usual sera presentarla de una manera simila a la del cuadro a continuacion
En la columna frecuencia aparecen las frecuencias absoutas, que indican el numero de turistas de cada nacionalidad; la columna porcentaje recoge la frecuencia relativa (el 30% de los turistas, por ejemplo, son de nacionalidad alemana). Aparecen dos columnas adicionales, la correspondiente a porcentaje valido recalcula los porcentajes en el caso de que para alguna de las observaciones no se conozca la nacionalidad, en este caso esto no ocurre para ninguna observacion y, por lo tanto, coincide con las frecuencias relativas. En la columna porcentaje acumulado aparecen las frecuencias relativas acumuladas, resuldato de ir sumando las sucesivas frecuencias relativas (el 69,6% de los turistas son de nacionalidad britanica o alemana).
Ejemplo
Se ha definido para los turistas llegados a una zona una variable que define el tipo de alojamiento, segun se trate e alojamiento en un establecimiento hotelero, en un apartamento o chalet o en casa de amigos o familiares. La distribucion de frecuencias de esta variable se muestra en el cuadro a continuacion. Diez observaciones han sido recogidas erroneamente y en los resultados de la distribucion aparecen como perdidos por el sistema. Las frecuencias relativas calculadas exluyendo estas diez observaciones aparecen en la columna de porcentaje valido. En este caso, al ser tan pocas las obseraciones perdidas, los resultados practicamente no difieren.
Ejercicio
Se ha encuestado a 15 turistas sobre en la terminal de salida del aeropuerto sobre el nivel de satisfaccion de la visita, con cuatro respuestas posibles: Malo, Regular, Bueno. Estas fueron las respuestas obtenidas
| Turista | Niv.Satisfaccion |
|---|---|
| 1 | Bueno |
| 2 | Regular |
| 3 | Bueno |
| 4 | Regular |
| 5 | Malo |
| 6 | Bueno |
| 7 | Bueno |
| 8 | Regular |
| 9 | Bueno |
| 10 | Bueno |
| 11 | Malo |
| 12 | Bueno |
| 13 | Regular |
| 14 | Bueno |
| 15 | Bueno |
Obten las frecuencias relativas, absolutas y acumuladas
\[ {f_i = \frac{n_i}{n}} \]
Diagrama de barras
“Piechart”
Ejemplo
Para el mismo grupo de turistas de los ejemplos anteriores, en el cuadro a continuacion se muestra la distribucion de frecuencias de la variable edad. Aunque la edad puede tratarse como una variable continua, esta informacion suele recogerse en intervalos. En nuestro caso aparece en cuatro intervalos. Lo correcto es tratar ahora la variable como cualitativa de tipo ordinal, puesto que los atributos de la variable pueden ser ordenados de menos a mas. La moda es la categoria de edad entre 30 y 45 años, al presentar la frecuencia mas alta. En este caso puede conocerse cual es el valor de la mediana leyendo los porcentaje acumulados. Ell 37,2% de los turistas tieen meos de 30 años y el 76,5% de los turistas tienen menos de 45 años. Si los individuos se ordenan por categorias de la variable, el individuo que se situaria en la mitad de la lista, en la posicion 2500, acumularia por debajo el 50% de las observaciones. Esta posicion corresponderia a un individuo que tendria entre 30 y 45 años, siendo esta categoria la mediana de la distribucion.
Histograma: representacion grafica de la distribucion de frecuencias de una variable continua. En un histograma se representan los intervalos de la variable en uno de los ejes, en la otra dimension se dibuja un rectangulo, cuya area es proporcional a la frecuencia de observaciones en el intervalo.
Marca de clase: punto medio del intervalo.
Posicion
Dispersion
Forma
Denotaremos la variable a describir como \( X \) y a las observaciones de la misma, desde i igual a 1 hasta n, como \( X_i \).
Medidas de posicion central
La moda es aquel valor que presenta una frecuencia mayor.
La mediana es aquel valor que se situa en el punto medio de la distribucion, cuando los valores estan ordenados de menor a mayor.
Ejemplo
Supongamos que disponemos de los dias de vacaciones que han disfrutado nueve turistas: 16, 29, 13, 15, 25, 14, 26, 17, 26. Para calcular la mediana de estas observaciones, primero deben ordenarse los valores de menor a mayor: 13, 14, 15, 16, 17, 25, 26, 26, 29. Mediana = 17.
Ejemplo
Supongamos que tenemos diez observaciones: 13, 14, 15, 16, 17, 25, 26, 26, 29, 31 Ninguna de ellas queda ahora exactamente en el centro de la distribucion. El valor 17 deja por debajo cuatro observaciones y por encima cinco, mientras que el valor 25 deja cinco por debajo y cuatro por encima. En el caso de tener un numero n de observaciones par, se puede considerar que la mediana es el promedio de los dos valores centrales.
\[ {Mediana = \frac{17 + 25} {2} = 21} \]
Ninguna de ellas queda ahora exactamente en el centro de la distribucion. El valor 17 deja por debajo cuatro observaciones y por encima cinco, mientras que el valor 25 deja cinco por debajo y cuatro por encima. En el caso de tener un numero n de observaciones par, se puede considerar que la mediana es el promedio de los dos valores centrales.
| \( \text{X} \) | \( \text{Fr} \) |
|---|---|
| \( X_1 \) | \( n_1 \) |
| \( X_2 \) | \( n_2 \) |
| \( X_3 \) | \( n_3 \) |
| … | … |
| \( X_p \) | \( n_p \) |
\( \large\bar{x} = \frac{\sum_{i=1}^{p}n_ix_i}{n} \)
A una muestra de 100 turistas se les pregunta cuantas veces han visitado un determinado destino turistico. La distribucion de la variable se muestra en el cuatro a continuacion
| Numero visitas | 1 | 2 | 3 | 4 | 5 | 6 |
| Frecuencia absoluta | 48 | 30 | 15 | 4 | 0 | 3 |
| Frecuencia acumulada | 48 | 78 | 93 | 97 | 97 | 100 |
El valor medio sera
\[ {\bar{x} = \frac{48 \cdot 1 + 30 \cdot 2 + 15 \cdot 3 + 4 \cdot 4 + 0 \cdot 5 + 3 \cdot 6} {48 + 30 + 15 + 4 + 0 + 3}} = 1,87 \]
Dado que hay 100 observaciones (numero par), la mediana sera el promedio de los valores de las posiciones 50 y 51. En la distribucion de las frecuencias acumuladas las dos posiciones corresponden a dos visitas, que sera por tanto la mediana de la distribucion.
En ocasiones la informacion disponible de una variable esta unicamente en intervalos. Por ejemplo, la informacion de una muestr de turistas sobre el numero de dias de estancia en el lugar de vacaciones se presenta en el cuadro a continuacion agrupada en intervalos
| Dias de estancia | 1 - 7 | 8 - 14 | 15- 21 | 22 - 30 |
|---|---|---|---|---|
| Frecuencia absoluta | 1991 | 2422 | 172 | 24 |
El numero medio de los dias de estancia puede calcularse tomando como valores de la variable las marcas de clase: los puntos medios de los limites de cada intervalo (4, 11, 18 y 26).
\[ \bar{x} = \frac{1991 \cdot 4 + 2422 \cdot 11 + 172 \cdot 18 + 24 \cdot 26}{1991 + 2422 + 172 + 24} = 8,3 \]
Ejercicio
Calcula la moda, la mediana y la media aritmetica de la siguiente distribucion de frecuencias
| \( X_i \) | \( Fr \) |
|---|---|
| 1 | 2 |
| 2 | 5 |
| 3 | 6 |
| 4 | 4 |
| 5 | 3 |
| 7 | 1 |
\[ {\sum_{i=1}^{n}(x_i - \bar{x})} = 0 \]
\[ {\bar{x}_{c + X} = \frac{\sum_{i = 1}^{n}(c + x_i)}{n} = \frac{\sum_{i = 1}^{n}c + \sum_{i = 1}^{n} x_i} {n} = \frac{nc +\sum_{i = 1}^{n} x_i}{n} = c + \frac{\sum_{i = 1}^{n}x_i}{n}} \]
\[ {\bar{x}_{cX} = \frac{\sum_{i=1}^{n} cx_i}{n}} \]
¿Cuando es mejor utilizar la mediana y cuando la media aritmetica?
La media aritmetica emplea la informacion de todos los datos. No asi la mediana, que solo recoge informacion sobre el valor central.
Pero la mediana es mas representativa que la media aritmetica cuando hay valores extremos.
Media ponderada: los valores promediados son ponderados mediante un peso determinado. Si tenemos p valores distintos de la variable Xi y a cada uno de ellos se le da un peso wi, la media ponderada se define como:
\[ {\bar{x} = \frac{\sum_{i=1}^{p}w_ix_i}{\sum_{i=1}^{p}w_i}} \]
Ejemplo
En ocasiones, la ponderacion tiene que ver con el peso en la poblacion de las distintas observaciones. Suponga, por ejemplo, que dispone del gasto turistico diario de tres personas que representan a los turistas que han visitado tres municipios distintos de una region. El gasto de cada uno de ellos es de 200, 200 y 100 euros. Si se le pidiese calcular el gasto turistico medio diario en la region, una opcion directa seria la siguiente:
\[ \bar{x} = \frac{200 + 200 + 100}{3} \]
En ese periodo el numero de turistas que ha visitado cada municipio ha sido 10000, 20000 y 1000000 turistas, respectivamente. Resultaria logico utilizar una media ponderada, donde el gasto de cada turista de la muestra seria asignado a todos los turistas del correspondiente municipio:
\[ \bar{x} = \frac{200 \cdot 10000 + 200 \cdot 20000 + 100 \cdot 1000000}{10000 + 20000 + 1000000} \]
Si se emplea la notacion para valores agrupados segun su frecuencia, la media geometrica se define como:
\[ g=\sqrt[n]{X_1 X_2 ... X_n} \]
La media geometrica debe emplearse cuando se quieren promediar porcentajes, tasas, tipos de interes, numeros indices, etc., es decir valores que representan variaciones acumulativas, de un periodo respecto al anterior
\[ g=\sqrt[n]{X_1^{n_1} X_2^{n_2} ... X_n^{n_p}} \]
Ejemplo
| Ingresos | Crecimiento |
|---|---|
| 100 | NA |
| 125 | 0.25000 |
| 160 | 0.28000 |
| 197 | 0.23125 |
\[ g=\sqrt[n]{X_1 X_2 ... X_n} \]
Capitalizacion
\[ 100(1 + i)^3 = 100(1,25)(1,28)(1,2313) \]
\[ (1 + i)^3 = (1,25)(1,28)(1,2313) \]
\[ (1 + i) = \sqrt[3]{(1,25)(1,28)(1,2313)} \]
\[ \text{Moda} = \text{Mediana} = \text{Media} \]
\[ \text{Moda} \leq \text{Mediana} \leq \text{Media} \]
\[ \text{Media} \leq \text{Mediana} \leq \text{Moda} \]
Los cuartiles (primer, segundo y tercer cuartil) son los valores que (con la variable ordenada de menor a mayor) dejan por debajo de su posicion el 25%, 50% y 75% de las frecuencias acumuladas, respectivamente. Los cuartiles dividen la variable en cuatro grupos con igual numero de observaciones (el 25% de valores mas bajos, el 25% siguiente,…).
Los deciles dividen la muestra en porcentajes del 10, 20, …, hasta el 90 por ciento.
Los percentiles amplian esta idea para definirse sobre porcentajes del 1, 2, 3, ., hasta el 99 por ciento.
Ejemplo
Para la variable que mide el gasto en la zona, que hemos empleado en el ejempo anterior, se han calculado los percentiles
| 1 | 2 | 3 | 4 | 5 | 6 | 7 | |
|---|---|---|---|---|---|---|---|
| Percentil | 5.00 | 10.00 | 25.00 | 50.00 | 75.00 | 90.00 | 95.00 |
| Valor | 5.75 | 8.26 | 19.58 | 30.78 | 43.97 | 55.44 | 5.75 |
La mediana es 19,58 euros y coincide con el 50 percentil. El primer cuartil es igual a 12,94 y el tercer cuartil es 30,78 euros. El 5% de los turistas gastan menos de 5,75 euros diarios; el 10% menos de 8,26 euros; el 25% gatan menos de 12,94 euors,… Tambien puede verse que un 5% de los turistas gastan mas de 55,44 euros; un 10% gastan mas de 43, 97 euros…
Ejemplo
Con los siguientes siete datos (ya ordenados de menor a mayor):9, 23, 5, 28, 32, 4 y 50 obtendremos los tres cuartiles. El primer cuartil es igual a 23 (el alor en el lugar 8/2 = 2); el segundo cuartil es 28 (ocupa la posicion 16/4 = 4); y el tercer cuartil es 47 (posicion 24/4 = 6).
Ejemplo
Con los siguientes ocho datos (un numero par de observaciones): 9, 23, 25, 28, 32, 50 y 51 obtendremos de nuevo los dos cuartiles. El primer cuartil sera el promedio del as posiciones n/4 y (n/4) + 1, en este caso el promeio de las posiciones 2 y 3, que era el valor 24. El segundo cuartil sera el promedio de las posiciones 4 y 5, siendo igual a 30. El tercer cuartil promedia los lugares 6 y 7, iendo iual a 48,5.
El rango de una variable es la diferencia entre el mayor y el menor valor de las observaciones:
\[ Rango = X_{Max} - X_{Min} \]
Como medida de dispersion el rango es muy sensible a los valores extremos.
El rango intercuartilico es la diferencia entre el tercer y primer cuartil de la variable. En ese intervalo se incluyen, por tanto, el 50% de las observaciones situadas en la zona central de la distribucion:
\[ Rango_{IQ} = Q_3 - Q_1 \]
La varianza es el promedio de las desviaciones de la variable con respecto a la media:
\[ s_x^2 = \frac {\sum_{i=1}^{n}(x_i - \bar{x})^2}{n} \]
O de manera equivalente:
\[ s_x^2 = \frac {\sum_{i=1}^{n}x_i}{n} - \bar{x}^2 \]
Ejemplo
| \( \Large x_i \) | \( \Large (x_i - \bar{x}) \) | \( \Large (x_i - \bar{x})^2 \) | |
|---|---|---|---|
| 1 | 13.00 | -8.20 | 67.24 |
| 2 | 14.00 | -7.20 | 51.84 |
| 3 | 15.00 | -6.20 | 38.44 |
| 4 | 16.00 | -5.20 | 27.04 |
| 5 | 17.00 | -4.20 | 17.64 |
| 6 | 25.00 | 3.80 | 14.44 |
| 7 | 26.00 | 4.80 | 23.04 |
| 8 | 26.00 | 7.80 | 60.84 |
| 9 | 29.00 | 9.80 | 96.04 |
| 10 | 31.00 | -8.20 | 67.24 |
\[ s_x^2 = \frac{419,6}{10} = 41,96 \]
Desviacion estandar o desviacion tipica
La desviacion estandar es la raiz cuadrada de la varianza:
\[ S_x = \sqrt{s_x^2} \]
Como medidas de dispersion, la desviacion estandar o la varianza muestran su utilidad especialmente cuando se emplean de manera comparativa.
Coeficiente de variacion
El coeficiente de variacion es el cociente entre la desviacion estandar y la media de la variable:
\[ CV = \frac{s_x}{\bar{x}} \]
El coeficiente de variacion facilita la discusion de la importancia de la dispersion de una variable. Resulta de especial interes en dos circunstancias:
Ejemplo
Para cuatro nacionalidades se dispone de los resultados de los valores medios y la desviacion estandar del gasto per capita y dia.. Se esta interesado en detectar cual es la nacionalidad que presenta mayor dispersion en el gasto realizado
| Media | Desviacion Estandar | Coeficiente de Variacion | |
|---|---|---|---|
| Alemana | 60 | 22 | 36,67 |
| Britanica | 75 | 30 | 40 |
| Española | 60 | 31 | 51,67 |
| Nordicos | 75 | 36 | 48 |
Si se juzga directamente por el valor de la desviacion estandar, la nacionalidad con mayor dispersion en el gasto corresponde a los paises nordicos, seguida de a española y la britanica. Sin embargo, si se juzga por el coeficiente de variacion la nacionalidad que presenta mayor dispersion es la española, con una desviacion estandar igual al 51,67% de su gasto medio.
Propiedades de la varianza
No puede ser negativa.
Es sensible a valores extremos.
Si a los valores de una variable se les suma una constante, la varianza de la nueva variable no se modifica:
\[ s_{c+x}^2 =\frac{\sum_{i=1}^{n}(c + x_i -(c + \bar{x}))^2}{n} = \frac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{n} = s_x^2 \]
\[ s_{c+x}^2 =\frac{\sum_{i=1}^{n}(cx_i -c\bar{x})^2}{n} = \frac{c^2\sum_{i=1}^{n}(x_i - \bar{x})^2}{n} = c^2s_x^2 \]
Y, por tanto, para la desviacion estandar:
\[ s_cx = cs_x \]
Con los siguientes datos: {9, 23, 25, 28, 32, 47, 50} calcularemos las diversas medidas de dispersion
\[ Rango = X_{MAX} - X_{MIN} = 50 - 9 = 41 \]
\[ Rango_{IQ} = Q_3 - Q_1 = 47 - 23 = 24 \]
Para calcular la varianza emplearemos los datos del cuadro, y nos basaremos en su expresion
| \[ i \] | \[ x_i \] | \[ x_i^2 \] |
|---|---|---|
| 1 | 9 | 81 |
| 2 | 23 | 529 |
| 3 | 25 | 625 |
| 4 | 28 | 784 |
| 5 | 32 | 1024 |
| 6 | 47 | 2209 |
| 7 | 50 | 2500 |
| \[ \sum_{i=1}^{7}x_i = 214 \] | \[ \sum_{i=1}^{7}x_i^2 = 7752 \] |
|---|---|
| \[ \bar{x}=\frac{\sum_{i=1}^{7}x_i}{7} = 30,571 \] | \[ \bar{x}=\frac{\sum_{i=1}^{7}x_i^2}{7} = 1107,43 \] |
| \[ s_x^2=\frac{\sum_{i=1}^{7}x_i^2}{7} - \bar{x}^2=172,84 \] | |
Medidas de asimetria
Medidas de curtosis
Medidas de asimetria
Medidas de curtosis
Medidas de asimetria y curtosis
Los coeficientes de asimetria de R. A. Fisher y Pearson.
El coeficiente de curtosis
Medida de asimetria de Fisher: interpretacion
\[ \begin{aligned}
& g = 0 \text{: Simetria}\\
\\
& g > 0 \text{: Asimetria positiva o por la derecha}\\
\\
& g < 0 \text{: Asimetria negativa o por la izquierda}\\
\end{aligned} \]
Cuanto mas alejada este la medida de 0, mas asimetrica es la distribucion (por la izquierda o por la derecha, segun el caso)
Coeficiente de asimetria de Pearson
\[ AS = \frac{\bar{x} -\text{Moda}}{s_x} \]
\[ \begin{aligned} & AS = 0 \text{: Simetria}\\ \\ & AS > 0 \text{: Asimetria positiva o por la derecha}\\ \\ & AS < 0 \text{: Asimetria negativa o por la izquierda}\\ \end{aligned} \]
Medidas de apuntamiento o curtosis
Medidas de apuntamiento o curtosis
Se aplican a distribuciones simetricas y unimodales, pretenden medir hasta que punto las observaciones de la variable se acumulan en la parte central de la distribucion.
Interpretacion del coeficiente de curtosis
\[ \begin{aligned} & g_2 = 0 \text{: Distribucion mesocurtica (normal)}\\ \\ & g_2 < 0 \text{: Distribucion platicurtica ("achatada")}\\ \\ & g_2 > 0 \text{: Distribucion leptocurtica ("apuntada")}\\ \end{aligned} \]