COVARIANZA Y MEDIDAS DE FORMA

Jorge Luis Villalba Acevedo

Coeficiente de variación

Sea \( x_{1},...,x_{n} \) una colección de \( n \) observaciones de una variable cuantitativa. Sea \( \bar{x} \) su media y sea \( s \) su desviación estándar. Al cociente \( s/\bar{x} \) se le llama coeficiente de variación y se le denota por \( CV(x) \) , suponiendo por supuesto que \( \bar{x} \ne 0 \)

\[ CV(x) = \dfrac{s}{\bar{x}} \]

Tanto la desviación estándar \( s \) como la media \( \bar{x} \) poseen las mismas unidades de medición. Por lo tanto, el cociente de estas cantidades no posee unidad de medición y, en consecuencia, el coeficiente de variación puede servir para comparar la dispersión de dos o más conjuntos de datos de variables cuantitativas.

Ejercicio 1.

A continuación se presentan los tiempos de espera (en minutos) de los clientes del banco Jefferson Valley (donde todos los clientes forman una sola fila) y del banco Providence (donde los clientes esperan en filas individuales, en tres ventanillas diferentes). Jefferson Valley (una sola fila): 6.5, 6.6, 6.7, 6.8, 7.1, 7.3, 7.4, 7.7, 7.7, 7.7 Providence (filas individuales): 4.2, 5.4, 5.8, 6.2, 6.7, 7.7, 7.7, 8.5, 9.3, 10.0

Calcular el coeficiente de variación para cada uno y determine cuál es más consistente.

Momentos

Las cantidades que hemos definido como media y varianza pueden generalizarse a un concepto más amplio llamado momento. Consideremos una vez más que tenemos una serie de observaciones \( x_{1},...,x_{n} \) de una variable cuantitativa de interés. Sea \( k \ge 1 \) un número entero. A la cantidad definida a continuación se le llama el \( k \)-ésimo momento muestral, o bien momento muestral de orden \( k \).

\[ m´_{k} = \dfrac{1}{n} \sum_{i=1}^{n} x_{i}^{k} \]

Se trata simplemente del promedio aritmético de cada uno de los datos elevados a la potencia \( k \). El valor entero de \( k \) determina el numeral del momento

Ejercicio 2.

Determine los mementos 3 y 4 para cada banco.

Momentos centrales

Si \( \bar{x} \) es la media de los datos, entonces a las cantidades que se definen a continuación se les conoce como momentos centrales de orden \( k \).

\[ m_{k} = \dfrac{1}{n} \sum_{i=1}^{n}( x_{i} -\bar{x})^{k} \]

Es decir, tenemos nuevamente un promedio aritmético pero esta vez se trata de los datos centralizados al restarles a cada uno de ellos la media \( \bar{x} \). No es difícil verificar que \( m_{1} = 0 \) y que \( m_{2} \) es la varianza de los datos.

Ejercicio 3.

Determine los mementos centrales 3 y 4 para cada banco.

Coeficiente de asimetría (Skewness)

Un conjunto de datos numéricos es simétrico si estas cantidades se encuentran distribuidas simétricamente alrededor de la media. La cantidad que llamaremos coeficiente de asimetría (en inglés skewness) es una medida de la asimetría (falta de simetría) de un conjunto de datos numéricos \( x_{1},...,x_{n} \). Si \( \bar{x} \) es la media y s es la desviación estándar, entonces el coeficiente de asimetría se define como el siguiente número.

\[ sk = \dfrac{1}{s^{3}} \left( \dfrac{1}{n} \sum_{i=1}^{n}( x_{i} -\bar{x})^{3} \right) \]

Recordemos que \( s^{2} \) denota la varianza, en consecuencia, el término \( s^{3} \) se calcula de la forma siguiente

\[ s^{3} = (s^{2})^{3/2} = \left( \dfrac{1}{n} \sum_{i=1}^{n}( x_{i} -\bar{x})^{2} \right)^{3/2}. \]

  • El coeficiente de asimetría no posee unidad de medición, es un número que puede ser positivo, negativo o cero.

  • Su signo es positivo cuando la gráfica de frecuencias de los datos presenta una cola más alargada hacia la derecha de la media.

  • El signo del coeficiente de asimetría es negativo cuando la gráfica de frecuencias presenta una cola más alargada hacia la izquierda de la media.

  • El caso simétrico verificaremos que en esta situación el coeficiente de asimetría se hace cero.

En términos de los momentos centrales m2 y m3, el coeficiente de asimetría se puede escribir de la siguiente forma.

\[ sk = \dfrac{m_{3}}{m_{2}^{3/2}}. \]

Ejercicio 4.

Determine la asimetria para cada banco.

Curtosis

Sea \( x_{1},...,x_{n} \) una colección de datos numéricos con media \( \bar{x} \) y desviación estándar \( s \). La curtosis, que denotaremos por la letra \( k \), es un número que se define de la siguiente manera.

\[ k = \dfrac{1}{s^{4}} \left( \dfrac{1}{n} \sum_{i=1}^{n}( x_{i} -\bar{x})^{4} \right) \]

Recordemos que \( s^{2} \) denota la varianza, en consecuencia, el término \( s^{4} \) denota la varianza al cuadrado y se calcula de la forma siguiente

\[ s^{4} = (s^{2})^{2} = \left( \dfrac{1}{n} \sum_{i=1}^{n}( x_{i} -\bar{x})^{2} \right)^{2}. \]

  • La curtosis es un número mayor o igual a cero que no tiene una unidad de medición.

  • Es claro que en términos de los momentos centrales, la curtosis puede escribirse de la siguiente manera

\[ k = \dfrac{m_{4}}{m_{2}^{2}}. \]

  • Advertencia: se usa también con el nombre de curtosis (o bien excess kurtosis) la cantidad que aparece abajo. Debido a que la curtosis de la distribución normal estándar es igual a 3, con esta nueva definición la curtosis de la distribución normal es ahora cero.

\[ k = \dfrac{1}{s^{4}} \left( \dfrac{1}{n} \sum_{i=1}^{n}( x_{i} -\bar{x})^{4} \right) -3 \]

  • De esta manera se toma el tipo de cola de la distribución normal como punto de referencia y se adoptan los siguientes nombres:

  • Leptocúrtica \( (k_{3} > 0) \): Decaimiento rápido, colas ligeras.

  • Mesocúrtica \( (k_{3} = 0) \): Curva normal.

  • Platicúrtica \( (k_{3} < 0) \): Decaimiento lento, colas amplias.

Ejercicio 5.

Determine la curtosis para cada banco.

[1] 7.15
[1] 0.2045
[1] -0.06163606
[1] 1.446578

plot of chunk unnamed-chunk-6

[1] 7.15
[1] 2.9865
[1] 0.02790093
[1] 2.019652

plot of chunk unnamed-chunk-7