TEMA 3. CARACTERIZACIÓN DE UNA DISTRIBUCIÓN DE FRECUENCIAS

3.1. INTRODUCCIÓN
A la hora de describir la información se suele recurrir a un conjunto de medidas numéricas que permiten ver y análizar las características más relevantes de los datos. Generalmente, estas medidas suelen analizar tres aspectos fundamentelas sobre la distribución de los datos: su posición, su dispersión y su forma. En este tema, nos centraremos en analizar estos tres aspectos fundamentales del análisis univariante de una variable (generalmente cuantitativa). En la figura 3.1 se puede ver de manera sencilla y resumida, tanto estos tres grandes grupos, como las medidas estadísticas más relevantes en cada una de ellas.
Figura 3.1. Clasificación de las medidas descriptivas
De este modo, a partir de un conjunto de datos, que puede ser muy grande o pequeño, se pueden obtener un conjunto relativamente pequeño de medidas estadísticas que resuma de manera correcta los datos. A pesar de que un conjunto pequeño de medidas estadísticas puede resumir de manera muy feaciente la información, es aconsejable y altamente recomendable que se acompañe de un análisis gráfico, para tener el máximo número de información relevante posible.
3.2. MEDIDAS DE POSICIÓN
Las medidas de posición, son un conjunto de medidas estadísticas que intentan recoger la posción relativa de los datos a analizar. Estas medidas de posición, pueden hacer referencia al centro de la distribución de los datos (medidas de posición central), o bien a cualquier otra posición que no tiene porque ser el centro (medidas de posición no central).
3.2.1. Medidas de Posición Central
Las medidas de posición o de tendencia central son medidas que tienen como objetivo buscar el centro o ‘promedio’ de la distribución, con la finalidad de tener una medida cuantitativa que facilite su compresión y permita su comparación con variables similares.
Existen numerosas medidas de posición central que tienen como propósito este objetivo, pero las más relevantes son la Moda, Mediana y Media.
Antes de comenzar con las definiciones es importante tener claro la siguiente sintáxis.
\(X\) o \(Y\): Variables aleatorias.
\(x_i\): Valor que toma la variable \(X\) en la observación \(i\).
\(i\): Identificador para cada observación.
\(n\): Número total de observaciones en la muestra. Si hay muestras de diferentes tamaños, se pueden representar con diferentes subíndices (\(n_x\), \(n_y\), \(n_1\), etc.).
\(\sum_{i=1}^{n}\): suma de los elementos desde \(i\) hasta \(n\).
\(N\): Número total de observaciones en la población.
\(\bar{x}\): Media muestral de la variable \(X\).
\(S^2\): Varianza muestral de la variable \(X\).
\(S\): Desviación típica muestral de la variable \(X\).
3.2.1.1. La Media (media aritmética)
La Media (\(\bar{x}\)) (o media aritmética), es la medida de posición central más importante y utilizada para el cálculo del centro de los datos. Su cálculo se realiza de la siguiente forma:
\(\bar{x}= \frac{\sum_{i=1}^{n} x_in_i}{N}\)
o si, en su caso, la calculamos con las frecuencias relativas \(f_i\), es:
\(\bar{x}= \sum_{i=1}^{n} x_if_i\)
La media aritmética es el centro de gravedad de una distribución o conjunto de datos, es decir, si los datos fueran pesos, la media sería ese punto que dejaría en equilibrio la balanza dejando a cada lado de la misma el mismo ‘peso’. Es precisamente por esto, que la media aritmética es bastante ‘sensible’ a valores extremos, pues si estos existen el centro de gravedad (la media) se desplaza justo hacia el lado donde están situados estos valores extremos para ‘mantener el equilibrio’. Para ver si la media representa correctamente a los datos que intenta describir, es decir, para ver si la media es representativa (entendida la representatividad como la característica de esta magnitud para representar fielmente a los datos que intenta describir), tiene que ir acompañada por la desviación típica. Aun así, la representatividad suele medirse con el ‘coeficiente de variación de Pearson’ que representa la ratio entre la desviación típica y la media que veremos más adelante.

Supongamos que tenemos los datos de la edad de un grupo de 11 alumnos, cuyos datos son: 17, 17, 18, 18, 18, 18, 19, 19, 20, 20, 21. En este caso, si queremos calcular la media aritmética con R se emplea la función ‘mean’(variable).
Code
edad<-c(17, 17, 18, 18, 18, 18, 19, 19, 20, 20, 21)
mean(edad)[1] 18.63636
Partimos de los datos:
\(17,\;17,\;18,\;18,\;18,\;18,\;19,\;19,\;20,\;20,\;21\), con \(n=11\)
Construimos la tabla de frecuencias absolutas (\(n_i\)):
| \(x_i\) | 17 | 18 | 19 | 20 | 21 |
|---|---|---|---|---|---|
| \(n_i\) | 2 | 4 | 2 | 2 | 1 |
La fórmula de la media aritmética es:
\(\bar{x} = \dfrac{\sum n_i x_i}{N}\)
Sustituyendo los valores:
\(\bar{x} = \dfrac{2\cdot 17 + 4\cdot 18 + 2\cdot 19 + 2\cdot 20 + 1\cdot 21}{11}\)
\(\bar{x} = \dfrac{34 + 72 + 38 + 40 + 21}{11}\)
\(\bar{x} = \dfrac{205}{11} = 18.64\)
De este modo, la media aritmética es \(\bar{x} 0 18.64\) años.
La media arimtética es una de las medidas estadísticas más importantes y por tanto es interesante que conozcamos algo más sobre ella. En concreto es bastante importante conocer las propiedades de la media artimética ya que ayudaran a simplificar cálculos así como profundizar en su utilidad.
Propiedades de la media aritmética
- La media aritmética sólo puede aplicarse a variables cuantitativas
- La media aritmética siempre se encuentra entre los valores mínimo y máximo.
- La media arimética de k grupos de igual tamaño, es exactamente igual a la media aritmética de las medias de cada grupo.
- La suma de las desviaciones de todos los valores de una variable o conjunto de datos respecto a su media es cero, precisamente por eso es el centro de gravedad. \(\sum_{i=1}^{n} (x_i-\bar{x}) n_i=0\).
- Cambio de escala: Si a todos los valores de una variable se les multiplica por una constante \(k_e\) (o \(b\)), la media aritmética resultante de esos datos es exacatamente igual que la media aritmética previa multiplicado por esa constante. \(\bar{x_e}=k_e\bar{x}\) (o \(\bar{x_e}=b\bar{x}\)).
- Cambio de origen: Si a todos los valores de una variable se les suma una constante \(k_o\) (o \(a\)), la media aritmética resultante de esos datos es exactamente igual que la media aritmética previa más esa constante. \(\bar{x_o}=\bar{x}+k_o\) (o \(\bar{x_o}=\bar{x}+a\)).
- Colorario. Si a aplican simultáneamente las propiedades 5 y 6, la variable resultante, \(Y\) será \(Y=a+bX\), la media de la nueva variable \(Y\) será \(\bar{y}=a+b\bar{x}\).
Supongamos que tenemos una variable \(X\) que es la estatura y está medida en metros. Además, supongamos que tenemos 6 observaciones cuyos datos son 1.75m, 1.65m, 1.80m, 1.75m, 1.65m, 1.80m. En este caso la estatura media será 1.73333m. Para evitar tener decimales en las estaturas iniciales, podemos por ejemplo pasar la altura a cm, es decir, realizar un cambio de escala. De este modo la nueva media será la media anterior multiplicada por 100, es decir, será 173,33cm. Ahora, imaginemos que queremos reducir la magnitud de los datos, por lo que podemos restarles a todos el valor mínimo de ellos (165cm), por lo que la nueva media será 8.33. Está claro que este conjunto de datos es mucho más sencillo que el original. En el fondo lo que se ha hecho es aplicar a los datos la transformación \(Y=100X-165\) y la media de la variable transformada será \(\bar{y}=100 \bar{x}-165=8.33\)
Existen otras medias diferentes a la media aritmética cuyo uso es muy útil en algunas ocasiones. Las más habituales son las que se muestran a continuación.
3.2.1.1.1 Media recortada
El hecho de que la media sea sensible a datos extremos, hace que su uso no sea del todo adecuado, Una de las soluciones que se puede emplear para evitar este problema o para comprobar lo robusta que es la media a valores extremos, es usar el media recortada. La media recortada a un \(\alpha\) determinado ( media \(\alpha\)-trimmed) , es la media aritmética sin tener en cuenta el \(\alpha\) por ciento de los valores inferiores y superiores.

Imaginemos que tenemos una vector de datos que comienza en el 5, seguido de una secuencia de datos del 10 al 30 y un último valor igual a 100. En este caso la media se verá afectada por los datos extremos que tiene. En este caso, la media sería 22.83. Sin embargo, si eliminamos el 10% de las observaciones extremas, el resultado será 20.
Code
X<-c(5, 10:30, 100)
medX<-mean(X); medX[1] 22.82609
Code
medt<-mean(X, trim = 0.10); medt[1] 20
3.2.1.1.2 Media Ponderada
La media ponderada se emplea cuando los diferentes valores de un conjunto de datos no tienen el mismo peso o importancia. En este caso, a cada valor hay que darle la importancia que tiene con su peso o ponderación. La expresión para su cálculo es:
\(\bar{x}= \frac{\sum_{i=1}^{n} x_i w_i}{\sum_{i=1}^{n} w_i}\)
donde los \(w_i\) representan los pesos o ponderaciones de los datos. Cuando estos pesos se expresan en porcentaje, la expresión anterior se simplifica al hacerse el denominador igual a 1.
Ejemplo en R
Code
x<-c(5, 6, 7.5, 3, 10)
w<-c(0.05, 0.2, 0.1, 0.15, 0.5)
medP<-weighted.mean(x, w); medP[1] 7.65
Ejemplo de calculadora
Supongamos que un alumno obtiene las siguientes calificaciones:
| Actividad | Nota (\(x_i\)) | Peso (\(w_i\)) | \(x_i \cdot w_i\) |
|---|---|---|---|
| Prácticas | 7 | 0.2 | 1.4 |
| Examen | 5 | 0.5 | 2.5 |
| Trabajo | 8 | 0.3 | 2.4 |
| Total | 1.0 | 6.3 |
La fórmula de la media ponderada es:
\(\bar{x}_p = \dfrac{\sum x_i w_i}{\sum w_i}\)
Sustituyendo los valores:
\(\bar{x}_p = \dfrac{7\cdot 0.2 + 5\cdot 0.5 + 8\cdot 0.3}{1}\)
\(\bar{x}_p = \dfrac{6.3}{1} = 6.3\)
Como resultado la calificación final del alumno es \(\bar{x}_p = 6.3\)
3.2.1.1.3 Media Geométrica
La media geométrica (\(\bar{X}_g\)) se emplea cuando los valores que se van a promediar están en tanto por ciento, como por ejemplo, tipos de interés, crecimientos, etc… La expresión para su cálculo es la siguiente:
\(\bar{X}g = \left( \prod_{i=1}^{n} X_i \right)^{\frac{1}{n}}\)
donde \(\prod\) representa el productorio y \(\frac{1}{n}\) indica la raíz n-ésima.
Algo que hay que tener en cuenta a la hora de promediar valores porcentuales, es que los valores que hay que promediar son sus ‘factores de variación’ o ‘razones de variación’, por lo que hay que, en primer lugar, hacer esa pequeña transformación, para después promediar y, finalmente, pasar de nuevo el valor promediado a porcentaje. Es decir si, por ejemplo, \(r\) es el tipo de interés que en tanto por uno, \(X\) es el factor de variación de \(r\) y lo pondríamos así \(X=1+r\). Es precisamente eso lo que promediamos y al obtener un resultado obtenemos una razón de variación, que habría que transformarla en la variable original.
Ejemplo con R
Code
library("DescTools")
x<-c(12, 4, 13, 5.5, 10.2) #vector de valores en %
rvx<-x/100+1; rvx #cambio a razones de variación (rv)[1] 1.120 1.040 1.130 1.055 1.102
Code
rvxG<-Gmean(rvx); rvxG #media geométrica de las rv[1] 1.088812
Code
Xg<-(rvxG-1)*100; Xg #conversión de la rv a tasa de variación en %[1] 8.881168
Ejemplo de calculadora
Supongamos que un capital se invierte durante tres años consecutivos con los siguientes tipos de interés anuales:
| Año | Tipo de interés (%) | Factor de crecimiento \((1+r_i)\) |
|---|---|---|
| 1 | 5% | 1.05 |
| 2 | 10% | 1.10 |
| 3 | 8% | 1.08 |
La media geométrica se define como:
\(\bar{x}_g = \left( \prod_{i=1}^{n} (1+r_i) \right)^{1/n} - 1\)
donde \(r_i\) son los tipos de interés expresados en forma decimal (en este caso \(r\) es nuestra variable \(x\).
En primer lugar calculamos el poducto de los factores de crecimiento
\((1+r_1)\cdot (1+r_2)\cdot (1+r_3) = 1.05 \cdot 1.10 \cdot 1.08 = 1.2474\)
Después calculamos la raíz enésima (en valor del expomnente es el núnero de valores que hay) y le restamos 1 (para obtener el prpmedio real y no el facotr de variación)
\(\bar{x}_g = (1.2474)^{1/3} - 1\)
Por lo que el tipo de interés medio es:
\(\bar{x}_g = 1.0761 - 1 = 0.0761\)
\(\bar{x}_g = 7.61\%\)
El tipo de interés medio de los tres años es aproximadamente 7.61%.
3.2.1.1.4 Media Armónica
La media armónica se suele emplear cuando las unidades de medida de los datos están en ratios, como por ejemplo, velocidades (km/h), tasas de flujos, rendimientos, etc.
La fórmula de la media armónica \(\bar{X}_h\) se calcula como el recíproco de la media aritmética de los recíprocos de los datos. Para un conjunto de \(n\) valores \(X_1, X_2, \ldots, X_n\), la fórmula de la media armónica es:
\(\bar{X}_h = \frac{n}{\frac{1}{X_1} + \frac{1}{X_2} + \ldots + \frac{1}{X_n}} = \frac{n}{\sum_{i=1}^{n} \frac{1}{X_i}}\)
Donde:
\(\bar{X}_h\) es la media armónica.
\(n\) es el número de elementos en la muestra.
\(X_1, X_2, \ldots, X_n\) son los valores de la muestra.
Es importante destacar que la media armónica es sensible a valores extremadamente altos en la muestra, ya que el recíproco de un valor grande es pequeño. Por lo tanto, la media armónica tiende a dar más peso a los valores más bajos en comparación con la media aritmética.
Ejemplo
Un ciclista recorre 20 km de ida a una velocidad de 10 km/h y vuelve por el mismo camino (20 km) a una velocidad de 30 km/h.
Queremos calcular la velocidad media en el trayecto completo.
La media armónica se calcula como:
\(\bar{x}_h = \dfrac{n}{\sum \dfrac{1}{x_i}}\)
En este caso:
\(\bar{x}_h = \dfrac{2}{\dfrac{1}{10} + \dfrac{1}{30}}\)
\(\bar{x}_h = \dfrac{2}{0.1000 + 0.0333}\)
\(\bar{x}_h = \dfrac{2}{0.1333} = 15 \ \text{km/h}\)
Sin embargo, si calculamos la media aritmética simple:
\(\bar{x} = \dfrac{10 + 30}{2} = 20 \ \text{km/h}\)
¿Cuál es la media rela? Veamos los datos:
- Tiempo de ida: \(20/10 = 2\) horas
- Tiempo de vuelta: \(20/30 = 0.67\) horas
- Tiempo total: \(2.67\) horas
- Distancia total: \(40\) km
Velocidad media real: \(40 / 2.67 = 15\) km/h
Por tanto, como resultado tendríamos:
- Media aritmética: 20 km/h (incorrecta en este contexto)
- Media armónica: 15 km/h (correcta)
¿Por qué es mejor la media armónica?
La media aritmética supone que los tramos tienen la misma duración (tiempos iguales), pero en realidad tienen la misma distancia.
Cuando lo que se promedia son tasas con denominador común (distancias, costes por unidad, productividad, etc.), la medida correcta es la media armónica.
3.2.1.1.5 Media Cuadrática
La media cuadrática, también conocida como la raíz cuadrática media (RMS) o la raíz media cuadrática (RMC), se utiliza comúnmente para describir la dispersión de un conjunto de datos. Se calcula como la raíz cuadrada de la media aritmética de los cuadrados de los valores en un conjunto de datos.
La fórmula para la media cuadrática (\(\bar{X}_C\)) de un conjunto de \(n\) valores \(X_1, X_2, \ldots, X_n\) es:
\(\bar{X}_C = \sqrt{\frac{X_1^2 + X_2^2 + \ldots + X_n^2}{n}}\)
La media cuadrática es útil para caracterizar la magnitud promedio de los valores en un conjunto de datos, teniendo en cuenta tanto los valores positivos como los negativos. Es comúnmente utilizada en finanzas en el análisis de la volatilidad, los errores de pronóstico, campos como la ingeniería eléctrica, procesamiento de señales, análisis de vibraciones, y en general en situaciones donde la magnitud absoluta de los valores es importante.
Una propiedad interesante de la media cuadrática es que minimiza la función de pérdida cuadrática y se utiliza a menudo como una medida de eficacia en problemas de regresión, donde se busca minimizar la diferencia entre los valores predichos y los observados.
En términos generales, para un mismo conjunto de datos se cumple que:
\(\text{Mínimo} \leq \text{Media Armónica} \leq \text{Media Geométrica} \leq \text{Media Aritmética} \leq \text{Media Cuadrática} \leq \text{Máximo}\)
3.2.1.2. La Mediana
La Mediana (\(Me\)) de una distribución es el valor que, tras la ordenación de los datos (generalmente ascendente), deja la mitad de las observaciones a su izquierda (o por debajo) y la otra mitad a su derecha (por encima), es decir, es aquel valor que divide las observaciones de la distribución por su mitad, dejando un 50% de las mismas por debajo o iguales y un 50% por encima o iguales. Para obtener la mediana de un conjunto de datos. su cálculo difiere si estos son pares o impares. - Si hay un número impar de datos, la mediana es el valor que se encuentra en el centro, es decir, el valor que ocupa el lugar \(\left( \frac{n + 1}{2} \right)\). - Si el número de datsos es par, habría dos elementos centrales, y la mediana sería la media aritmética de ambos. Por ejemplo, si tenemos la edad de un grupo de alumnos, \(X\), que toma los valores \(17, 17, 18, 18, 18, 18, 19, 19, 20, 20, 21\), donde hay 11 observaciones, la mediana es \(Me=18\), que deja 5 valores a su izquierda y 5 valores a su derecha.
Una de las principales ventajas de la mediana, es que no se ve alterada por valores atípicos o extremos, dado los valores por si mismos, no alteran su resultado,puesto que es la posición de los datos la que importa. Por ejemplo, imaginemos que el alumno de mayor edad, en vez de tener 21 años, tiene 35. En ese caso, la mediana no se vería afectada, dado que no se necesita ese valor para su cálculo. Esto tiene que ver con la robustez. Sin embargo, si se calculara la media, ese cambio en la edad, como veremos más adelante, sí que alteraría su resultado.

Supongamos que tenemos un conjunto de datos sobre el peso de unos individuos cuyos datos son: 58, 86, 56, 47, 113, 65, 65, 84, 57, 85, 95. En este caso, si queremos calcular la mediana con R se emplea la función ‘median’(variable).
Code
x<-c(58, 86, 56, 47, 65, 113, 65, 84, 57, 85, 95)
Me<-median(x); Me[1] 65
En el caso de que tengamos un conjunto de datos agrupados por intervalos, para calcular la mediana hay que buscar el intervalo donde se encuentra el \(N/2\) o \(F_i=0.5\), es decir, buscar el intervalo mediano, y luego aplicar la siguiente formula:
\(Me=L_{i-1}+ \frac{\frac{N}{2}-N_{i-1}}{n_i}\times c_i\)
Donde:
\(L_{i-1}\) es el límite inferior de la clase que contiene la mediana.
\(N\) es el número total de observaciones.
\(N_{i-1}\) es la frecuencia acumulada de la clase anterior a la clase de la mediana.
\(n_1\) es la frecuencia de la clase de la mediana.
\(c_i\) es la amplitud de la clase.
Ejemplo
Tenemos la siguiente distribución de edades (en años):
| Clase (años) | \(c_i\) | \(n_i\) | \(N_i\) | \(f_i\) | \(F_i\) |
|---|---|---|---|---|---|
| [10,20] | 10 | 5 | 5 | 0.125 | 0.125 |
| (20,30] | 10 | 9 | 14 | 0.225 | 0.350 |
| (30,40] | 10 | 12 | 26 | 0.300 | 0.650 |
| (40,50] | 10 | 8 | 34 | 0.200 | 0.850 |
| (50,60] | 10 | 6 | 40 | 0.150 | 1.000 |
| Total | 40 | 1.000 |
En primer lugar localizamos el intervalo mediano o clase mediana. Para ello podemos hallar \(N/2\) \(N/2=40/2=20\).
y buscar el intervalo que lo contenga. La primera clase cuyo acumulado \(N_i\) es \(\ge N/2\). Como \(N_2=14<20\) y \(N_3=26\ge 20\), la clase mediana es [30,40).
Una forma más sencilla para localizar ese intervalo mediano es buscar aquel intervalo que contenga la \(F_i=0.5\).
Posteriormente, identificamos los parámetros para la fórmula en la clase mediana (índice \(i\)):
- \(L_{i-1}=30\) (límite inferior de la clase mediana [30,40))
- \(N_{i-1}=14\) (acumulado anterior a la clase mediana)
- \(n_i=12\) (frecuencia de la clase mediana)
- \(c_i=10\) (amplitud de clase)
Aplicando la fórmula:
\(Me=L_{i-1}+ \dfrac{\dfrac{N}{2}-N_{i-1}}{n_i}· c_i\)
y sustituyendo valores:
\(Me=30+\dfrac{20-14}{12} · 10\)
\(Me=30+\dfrac{6}{12}· 10\)
\(Me=30+0.5·10\)
\(Me=30+5=35\)
La mediana es \(Me=35\) años.
3.2.1.3. La Moda
La Moda (\(Mo\)) de una distribución es el valor que más veces se repite (el valor más frecuente). Por ejemplo, si tenemos las edades del grupo de alumns un grupo de alumnos, \(X\), que toma los valores \(17, 17, 18, 18, 18, 18, 19, 19, 20, 20, 21\), la moda es \(18\), dado que es el valor que más se repite. En el caso de una variable continua, se calcula el intervalo modal, y se estima la moda dentro de ese intervalo. La moda es un dato sencillo de encontrar visualmente si se visualiza un diagrama de barras o histograma. Todo esto lo veremos más adelante.
Si los datos se encuentran agrupados, y los intervalos no tienen la misma amplitud, es necesario calcular previamente la densidad de frecuencia de cada intervalo \(d_𝑖=\frac{n_i}{c_i}\), se busca el intervalo donde la densidad de frecuencia es mayor y se calcula la siguiente fórmula:
\(Mo=L_{i-1}+ \frac{d_{i+1}}{d_{i+1}+d_{i-1}}·c_i\)
Donde:
\(L_{i-1}\) es el límite inferior de la clase que contiene la mediana.
\(d_{i+1}\) es la densidad de frecuencia de la clase superior al intervalo modal.
\(d_{i-1}\) es la densidad de frecuencia de la clase inferior al intervalo modal.
\(c_i\) es la amplitud de la clase.
Generalmente existe una única moda, aunque es posible que en un conjunto de datos pueda existir más de una, siendo una distribución bimodal (con dos modas), trimodal (con 3), y multimodal (con más de tres).Generalmente los programas estadísticos no suelen agrupar los datos para su cálculo y toman simplemente el valor más frecuente, por lo que cuando los datos son contínuos su valor no suele aportar mucha información. Si que tiene interés cuando la naturaleza de los datos tiene una categoría inferior a la de continuo, como discretos, o valores de naturaleza cualitativa. Obsérvese, que al igual que ocurre con la media, su cálculo se realiza a partir de una frecuencia o una posición, y de ahí se obtiene su valor asociado, por lo que puede calcularse para cualquier tipo de datos.
3.2.1.4. ¿Qué medida de posición central emplear?
En general, siempre que puedan calcularse los estadísticos de tendencia central, es recomendable utilizarlos como valores representativos en el siguiente orden:
1. Media. La media utiliza más información que el resto ya que para calcularla se tiene en cuenta la magnitud de los datos.
2. Mediana. La mediana utiliza menos información que la media, pero más que la moda, ya que para calcularla se tiene en cuenta el orden de los datos.
3. Moda. La moda es la que menos información utiliza ya que para calcularla sólo se tienen en cuenta las frecuencias absolutas.
Cuando tenemos variables cuantitativas hay que tener cuidado con los datos atípicos, ya que la media es bastante sensible a ellos. En tal caso es mejor utilizar la mediana como valor más representativo.
3.2.2. Medidas de posición no central (Cuantiles)
Las medidas de posición no central son medidas que no buscan necesariamente el centro de la distribución, sino cualquier otra posición de los datos que sea de interés. Estas medidas se calculan de manera similar a la mediana. De hecho, la mediana es un caso particular de los cuantiles.
En concreto, los cuantiles son aquellos valores que dividen la distribución de los datos en k partes iguales. Hay numerosos cuantiles, pero los más utilizados son:
- Cuartiles (\(C_r\) o \(Q_r\)): Son los que dividen la distribución en 4 partes iguales. Por tanto, existen 3 cuartiles (\(C_1, C_2, C_3\))
- Deciles (\(D_r\)): Son los que dividen la distribución de los datos en 10 partes iguales. En este caso existen 9 cuartiles (\(D_1, D_2. \dots, D_9\)).
- Percentiles (\(P_r\)): Son los que dividen la distribución en 100 partes iguales. Hay 99 percentiles (\(P_1, P_2, \dots, P_{99}\)).
Su cálculo es muy sencillo en un conjunto de datos. Simplemente hay que encontrar la posición deseada en el mismo, y tomar su valor asociado. Por ejemplo, si queremos calcular el decil 2 (\(D_2\)), es decir, encontrar aquel valor que divide la distribución de tal manera que el 20% de las observaciones se sitúan por debajo y el 80% por encima, se busca en la tabla de frecuencias aquella posición que contenga en la frecuencia relativa acumulada el 0.2 (\(F_i=0.2\)) o de manera similar \(N·0.2\) y se toma su valor asociado.
En el caso de que los datos estén agrupados en una tabla y se quiera encontrar el cuantil correspondiente, la fórmula a emplear es muy similar a la de la mediana, con el único cambio que en vez de buscar la observación que deja del 50% de las observaciones por debajo y por encima de ella, hay que buscar la que deja el cuantil \(\frac{r}{k}\), donde \(k\) son el total de partes en las que se quieren dividir las observaciones (en las decilas serían 10 partes) y \(r\) es la parte concreta que se quiere obtener (en el caso de la tercera decila sería igual a 3).
\(Q_{\frac{r}{k}}=L_{i-1}+ \frac{N\frac{r}{k}-N_{i-1}}{n_i}· c_i\)
Ejemplo de calculadora
Tenemos la siguiente distribución de edades (en años):
| Clase (años) | \(c_i\) | \(n_i\) | \(N_i\) | \(f_i\) | \(F_i\) |
|---|---|---|---|---|---|
| [10,20] | 10 | 5 | 5 | 0.125 | 0.125 |
| (20,30] | 10 | 9 | 14 | 0.225 | 0.350 |
| (30,40] | 10 | 12 | 26 | 0.300 | 0.650 |
| (40,50] | 10 | 8 | 34 | 0.200 | 0.850 |
| (50,60] | 10 | 6 | 40 | 0.150 | 1.000 |
| Total | 40 | 1.000 |
Calcula el primer cuartil, el decil 2, le mediana y el percentil 63.
Para un cuantil de orden \(\tfrac{r}{k}\):
\[ Q_{\tfrac{r}{k}} = L_{i-1} + \frac{N \cdot \tfrac{r}{k} - N_{i-1}}{n_i} · c_i \]
donde:
- \(L_{i-1}\) = límite inferior de la clase,
- \(N \cdot \tfrac{r}{k}\) = posición acumulada buscada,
- \(N_{i-1}\) = frecuencia acumulada hasta la clase anterior,
- \(n_i\) = frecuencia absoluta de la clase,
- \(c_i\) = amplitud de clase.
Vamos a calcular cuartiles,
Para calcular el Cuartil 1 (\(Q_1\))
\(Q_1\) (25%) -> \(N \cdot 0.25 = 10\).
- Cae en [20,30) porque \(N_{i-1}=5\) y \(N_i=14\).
- Datos: \(L_{i-1}=20\), \(n_i=9\), \(N_{i-1}=5\), \(c_i=10\).
\(Q_1 = 20 + \frac{10 - 5}{9} · 10 = 20 + \tfrac{50}{9} = 25.56\)
Para el cálculo del segudno decil (\(D_2\))
\(D_2\) (20%) -> \(N · 0.20 = 8\).
- Cae en (20,30] porque \(N_{i-1}=5\) y \(N_i=14\).
- Datos: \(L_{i-1}=20\), \(N_{i-1}=5\), \(n_i=9\), \(c_i=10\).
\(D_2 = 20 + \dfrac{8 - 5}{9} · 10 = 20 + \tfrac{30}{9} = 23.33\)
Nota: darse cuenta que la mediana es igual al cuartil 2, al decil 5 y percentil 50.
\(Q_2\) (50%, mediana) -> \(N \cdot 0.50 = 20\).
- Cae en (30,40] porque \(N_{i-1}=14\) y \(N_i=26\).
- Datos: \(L_{i-1}=30\), \(N_{i-1}=14\), \(n_i=12\), \(c_i=10\).
\(Q_2 = 30 + \dfrac{20 - 14}{12} · 10 = 30 + 5 = 35.00\)
Por último, el percentil 63 (\(P_{63}\))
\(P_{63}\) (63%) -> \(N \cdot 0.63 = 25.2\).
- Cae en (30,40] porque \(N_{i-1}=14\) y \(N_i=26\).
- Datos: \(L_{i-1}=30\), \(N_{i-1}=14\), \(n_i=12\), \(c_i=10\).
\(P_{63} = 30 + \dfrac{25.2 - 14}{12} · 10 = 30 + \tfrac{112}{12} = 39.33\)
Por lo tanto, a modo de resumen
- \(Q_1 = 25.56\)
- \(D_2 = 23.33\)
- \(Q_2 = 35.00\)
- \(P_{63} = 39.33\)
Si queremos calcular cuantiles en R es muy sencillo.
Imaginemos que tenemos un conjunto de datos. Vamos a suponer que queremos calcular los cuartiles 1 (25%), 2 (50%), 3 (75%) y el percentil 85 (85%).
Code
X<- c(12, 15, 20, 22, 25, 28, 30, 35, 40, 45)
# Calcular cuartiles 1, 2 y 3
cuantiles <- quantile(X, c(0.25, 0.5, 0.75, 0.85))
cuantiles 25% 50% 75% 85%
20.50 26.50 33.75 38.25
3.2.3 Ejemplo completo de medidas de posición
Un profesor de estadística ha recogido las alturas de un grupo de estudiantes y las ha agrupado en intervalos para facilitar el análisis. Con base en la tabla siguiente, realiza los cálculos necesarios para obtener la media, mediana, moda, decil 1, cuartil 3 y percentil 78.
| Altura en cm | Marca de clase (\(x_i\)) | Frecuencia absoluta (\(n_i\)) | Frecuencia acumulada (\(N_i\)) | Frecuencia relativa (\(f_i\)) | Densidad (\(d_i\)) | \(x_i \cdot n_i\) |
|---|---|---|---|---|---|---|
| [150, 160] | 155 | 5 | 5 | 0.143 | 0.5 | 775 |
| (160, 170] | 165 | 8 | 13 | 0.229 | 0.8 | 1320 |
| (170, 180] | 175 | 10 | 23 | 0.286 | 1.0 | 1750 |
| (180, 190] | 185 | 7 | 30 | 0.200 | 0.7 | 1295 |
| (190, 200] | 195 | 5 | 35 | 0.143 | 0.5 | 975 |
| Totales | 35 | 1.000 | 6115 |
En primer lugar vamos a dibujar el histograma de la distribución:
La media se calcula utilizando la fórmula:
\(\bar{x} = \frac{\sum x_i \cdot n_i}{n}\)
en este caso será: \(\bar{x} = \frac{6115}{35}=174.71cm\)
Para el cálculo de la media, primero se identifica el intervalo mediano, que es aquel intervalo que deja el 50% de las observaciones por encima y el 50% por debajo. En este caso, ese intervalo es el 170-180. Posteriormente se emplea la formula de la mediana en dicho intervalo. La mediana se calcula como:
\(M_e = L_{i-1} + \left( \frac{\frac{N}{2} - N_{i-1}}{n_i} \right) \cdot c_i = 170 + \left( \frac{\frac{35}{2} - 13}{10} \right) \cdot 10 = 174.5cm\)
Para el cáclulo de la moda, en primer lugar se busca el intervalo modal, es decir, aquel con mayor densidad de frecuencia, para posteriormente calcular la moda con la fórmula correspondiente. En este caso, el intervalo modal es el 170-180 que tiene una densidad de 1.0 (la más alta). La fórmula y la moda serán:
\(\text{Moda} = L_{i-1} + \left( \frac{d_{i+1}}{d_{i+1} + d_{i-1}} \right) \cdot c_i=170 + \left( \frac{0.7}{0.7 + 0.8} \right) \cdot 10=174.67cm\)
Por último, para el cálculo de los cuartiles, deciles y percentiles, la fórmula general empleada es:
\(Q_{r/k} = L_{i-1} + \left( \frac{\frac{r}{k} \cdot N - N_{i-1}}{n_i} \right) \cdot c_i\)
que se aplicará en el intervalo donde se encuentre el cuartil correspondiente.
Para el cálculo del Decil 1 (\(D_1\)), se calcula en el intervalo 150-160 y es:
\(Q_{1/10}=D_1 = 150 + \left( \frac{\frac{1}{10} \cdot 35 - 0}{5} \right) \cdot 10=157cm\)
Para el cálculo del Cuartil 3 (\(C_3\)) está situado en el intervalo 180-190 y es:
\(Q_{3/4}=C_3 = 180 + \left( \frac{\frac{3}{4} \cdot 35 - 23}{7} \right) \cdot 10=184.64cm\)
Por último, para el cálculo del Percentil 78 (\(P_{78}\)) está situado en el intervalo 180-190 y es:
\(Q_{78/100}=P_{78} = 180 + \left( \frac{\frac{78}{100} \cdot 35 - 23}{7} \right) \cdot 10=186.14cm\)
3.3. MEDIDAS DE DISPERSIÓN
Cuando queremos analizar un conjunto de observaciones, no sólo es interesante conocer sus medidas de posición central como pueden ser la media o la mediana, sino que es muy importante conocer la dispersión de los datos. Es importante por el hecho de que la dispersión de los datos nos indica lo agrupados o dispersos que están los datos entre sí. Por ejemplo, imaginemos que tenemos las calificaciones de dos grupos de alumnos. En el primero de los grupos \(X\) conviven 6 alumnos muy aplicados y muy vagos y sus calificaciones son (0, 0, 0,10, 10, 10) y, en el segundo grupo \(Y\), hay 6 estudiantes con niveles parejos e intermedios cuyas calificaciones son (3, 5, 4, 6, 7, 5). En ambos casos las medias son exactamente iguales (\(\bar{X}=\bar{Y}=5\)), sin embargo es evidente que la media no es igual de ‘representativa’ para el grupo 1 que para el 2, siendo las calificaciones del grupo 2 mucho más similares o representativas que las del grupo 1.
Para analizar la dispersión o variabilidad de los datos existen numerosas medidas estadísticas pero se pueden resumir en dos grandes grupos. Las medidas de dispersión absolutas y las medidas de dispersión relativas.
3.3.1. Medidas de Dispersión Absolutas
Las medidas de dispersión absolutas son un conjunto de medidas estadísticas que analizan desde una óptica absulta, la dispersión de los datos, es decir, no tienen en consideración la unidad de medida y magnitud de las variables, por lo que la comparación de estas medidas entre varios conjuntos de datos no tiene validez a no ser que estén en la misma dimensión.
3.3.1.1. Recorrido
El recorrido se define como la diferencia entre el valor máximo y el mínimo de un conjunto de datos.
\(R=max(x)-min(x)\)
Aunque es una medida que tiene en consideración la dispersión de los datos dado que evalúa las diferencias de los mismos, solo tiene en consideración los dos extremos, y no las diferencias respecto de un valor central. Además, como toda media de dispersión absoluta tiene el problema de la unidad de medida y es extremadamente sensible a valores extremos.

Imaginemos que tenemos un conjunto de datos X que representa la altura de un grupo de personas (180, 175, 158, 159, 190, 178, 185). Para calcular el recorrido solo tendremos que calcular el máximo y el mínimo y hacer su diferencia.
Code
X <- c(180, 175, 158, 159, 190, 178, 185)
R <- max(X) - min(X); R[1] 32
3.3.1.2. Recorrido Intercuartílico
El recorrido intercuartílico (\(RI\)) está definido como la diferencia entre el tercer y el primer cuartil.
\(RI=Q_3-Q_1\)
Esta media es algo mejor que la anterior, dado que elimina los valores más extremos de la distribución centrándose en el 50% de las observaciones centrales. Esta medida de dispersión es adecuada cuando la medida de posición central empleada ha sido la mediana. Además, es muy útil para la construción de los diagramas de caja o ‘Boxplot’ que veremos más adelante.

Continuemos con los datos de la altura anteriores (180, 175, 158, 159, 190, 178, 185). En este caso, el cálculo del recorrido intercuartílico se hace mediante la función ‘IQR’. (recordad que la unidad de medida es la misma que la de la variable original, en este caso centímetros).
Code
X <- c(180, 175, 158, 159, 190, 178, 185)
iqr <- IQR(X); iqr[1] 15.5
3.3.3. Varianza, cuasivarianza y Desviación Típica
La varianza (\(S^2\)), junto con su raiz cuadrada positiva (la desviación típica, \(S\)) son las medidas de dispersión por excelencia. Son las dos medidas más importantes y más empleadas para analizar la dispersión de los datos, aunque también tienen ciertas carencias como la media arimtética.
3.3.3.1. Varianza
La Varianza es el promedio de las diferencias cuadráticas de las observaciones (\(x_i\)) respecto a su media (\(\bar{x}\)).
\(s^2 = \frac{{\sum_{i=1}^{n} (x_i - \bar{x})^2n_i}}{{N}}\)
La varianza lo que está midiendo es la distancia promedio de todas las observaciones respecto a su valor central al cuadrado. Si todas las observaciones tienen el mismo valor, el valor de la varianza es 0, mientras que si las diferencias entre las observaciones y la media son altas, el valor de la varianza es grande. Evidentemente, por su forma de cálculo, la unidad de medida o magnitud de la varianza está en la unidad de medida de la variable al cuadrado, es decir, si la variable \(X\) son \(kg\) la unidad de medida de la varianza serán \(Kg^2\). Si se calculara el promedio de las diferencias sin más, es decir, sin elevarlas al cuadrado, se tendría el problema que las diferencias positivas se compensarían con las negativas, por la propiedad de la media, dado que ésta es el centro de gravedad de los datos. Precisamente, por este motivo y también por su confusa interpretación, se calcula la desviación típica.
3.3.3.2. Cuasivarianza
La cuasivarianza (\(S^2_c\)) es una medida de dispersión similar a la varianza, pero con una diferencia importante en su fórmula: en lugar de dividir por \(n\) (el número total de observaciones), se divide por \(N−1\), donde \(n\) es el tamaño de la muestra. Matemáticamente, se expresa como:
\(S^2_c = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2n_i}{N-1}\)
¿Por qué se utiliza la cuasivarianza?
La cuasivarianza se emplea principalmente en estadísticas muestrales como una estimación insesgada de la varianza poblacional. Dividir por \(N−1\) en lugar de \(n\) corrige el sesgo introducido al usar la media muestral (\(\bar{x}\)) como estimación del verdadero valor central (media poblacional).
Al calcular la varianza en una muestra, la media muestral (\(\bar{x}\)) tiende a estar más cerca de los datos de la muestra que de la media poblacional. Esto subestima ligeramente la verdadera dispersión de la población.
Dividir por \(N−1\) ajusta este sesgo, garantizando que, en promedio, \(S^2_c\) sea igual a la varianza poblacional cuando se toman múltiples muestras.
3.3.3.3. Relación entre Varianza y Cuasivarianza
La relación entre la varianza (\(S^2\)) y la cuasivarianza (\(S^2_c\)) depende del tamaño de los datos (\(N\)). Las fórmulas para pasar de una a otra son:
De la cuasivarianza a la varianza:
\(S^2 = \frac{(N-1)}{N} \cdot S^2_c\)
Donde:
\(S^2\): Varianza (calculada dividiendo por \(N\)).
\(S^2_c\): Cuasivarianza (calculada dividiendo por \(N−1\)).
De la varianza a la cuasivarianza:
\(S^2_c = \frac{N}{N-1} \cdot S^2\)
3.3.3.4.Desviación típica o desviación estándar
La Desviación Típica es la raiz cuadrada positiva de la varianza, por lo que la unidad de medida es la misma que la de la variable original y su interpretación es mucho más sencilla.
\(S = \sqrt{\frac{{\sum_{i=1}^{n} (x_i - \bar{x})^2n_i}}{{N}}}\)
La desviación típica es facilmente interpretable, dado que, por ejemplo, si el valor de la desviación típica es igual a 5 significa que en media los datos están alejados 5 unidades de la media aritmética.
En términos generales, se dice que la media de un conjunto de datos es representativa si la media es como mínimo 2 veces la desviación típica ( \(\bar{x}\geq 2S\)). A pesar de esto, la mejor forma de interpretarlo es con el denominado Coeficiente de Variación que veremos más adelante.
IMPORTANTE: En el programa estadístico R, lo que estas notas denominan cuasivarianza se llama simplemente varianza. Por lo tanto, cuando R calcula la desviación típica, en realidad está proporcionando la cuasidesviación típica.
Es fundamental tener esto en cuenta, ya que todas las fórmulas presentadas en estas notas están referidas a la varianza y no a la cuasivarianza. Si se utiliza el resultado de “varianza” ofrecido por R, hay que recordar que este corresponde a la cuasivarianza. Para obtener la varianza verdadera según estas notas, es necesario aplicar la transformación adecuada.
Ejemplo en R

Imaginemos que disponemos de dos conjuntos de datos, uno de la altura de un conjunto de alumnos medida en metros, X=(1.80, 1.75, 1.58, 1.59, 1.90, 1.78, 1.85) y otro de su peso medido en kilogramos, Y=(82, 70, 63, 62, 94, 81, 85). Vamos a calcular su varianza y su desviación típica y observar que estas medidas dependen de la unidad de medida, es decir, valores de magnitud superior, tendrán desviaciones típicas superiores que las variables de magnitudes más pequeñas.
Code
#X=Altura en metros
X <- c(1.80, 1.75, 1.58, 1.59, 1.90, 1.78, 1.85)
#Y=Peso en Kg
Y <- c(82, 70, 63, 62, 94, 81, 85)
# Número de observaciones
n_X <- length(X)
n_Y <- length(Y)
# Altura
Vc_X <- var(X) # Cuasivarianza (calculada por R)
V_X <- (n_X - 1) / n_X * Vc_X # Transformación de cuasivarianza a varianza
SD_X <- sqrt(V_X) # Desviación típica basada en la varianza
# Peso
Vc_Y <- var(Y) # Cuasivarianza (calculada por R)
V_Y <- (n_Y - 1) / n_Y * Vc_Y # Transformación de cuasivarianza a varianza
SD_Y <- sqrt(V_Y) # Desviación típica basada en la varianza
# Resultados
Vc_X; V_X; SD_X[1] 0.01506667
[1] 0.01291429
[1] 0.113641
Code
Vc_Y; V_Y; SD_Y[1] 143.9048
[1] 123.3469
[1] 11.10617
Code
#Mostrados en una tabla
# Crear tabla de resultados
results <- data.frame(
Variable = c("X (Altura)", "Y (Peso)"),
`Cuasivarianza` = c(round(Vc_X, 4), round(Vc_Y, 4)),
`Varianza` = c(round(V_X, 4), round(V_Y, 4)),
`Desviación Típica` = c(round(SD_X, 4), round(SD_Y, 4))
)
# Mostrar la tabla
knitr::kable(
results,
caption = "Resultados de Cuasivarianza, Varianza y Desviación Típica para las variables X (Altura) e Y (Peso)",
col.names = c("Variable", "Cuasivarianza", "Varianza", "Desviación Típica"),
format = "html",
align = "c"
)| Variable | Cuasivarianza | Varianza | Desviación Típica |
|---|---|---|---|
| X (Altura) | 0.0151 | 0.0129 | 0.1136 |
| Y (Peso) | 143.9048 | 123.3469 | 11.1062 |
3.3.3.5. Propiedades de la Varianza (y de la desviación típica)
Al igual que la media (o cualquier medida estadística) la varianza y la desviación típica tienen un conjunto de propiedades. Las más importantes son:
- Sólo puede aplicarse a variables cuantitativas
- Siempre es mayor o igual que cero.
- Si el conjunto de datos son iguales, la varianza es igual a cero. O lo que es lo mismo, la varianza de una constate es cero.
- Cambio de escala: Si a todos los valores de una variable se les multiplica por una constante \(k_e\) (o \(b\)), la varianza resultante de esos datos es igual que la varianza anterior multiplicado por el cuadrado de la constante. \(S^2_e=k^2_eS^2\) (o \(S^2_e=b^2S^2\)). En el caso de la desviación típica es su raiz cuadrada (\(S_e=bS\)).
- Cambio de origen: La varianza (o desviación típica) es invariante ante cambios de origen, es decir, si se realiza un cambio de origen a los datos originales, la varianza resultante es la misma que la previa.
- La varianza es extremadamente sensible a valores extremos.
Ejemplo de Calculadora
Un profesor de estadística ha recogido las alturas de un grupo de estudiantes y las ha agrupado en intervalos para facilitar el análisis. Con base en la tabla siguiente, realiza los cálculos necesarios para obtener las diferentes medidas de dispersión absolutas.
| Altura en cm | Marca de clase (\(x_i\)) | Frecuencia absoluta (\(n_i\)) | Frecuencia acumulada (\(N_i\)) | Frecuencia relativa (\(f_i\)) | Densidad (\(d_i\)) | \(x_i \cdot n_i\) | \(x_i^2 \cdot n_i\) |
|---|---|---|---|---|---|---|---|
| (150,160] | 155 | 5 | 5 | 0.143 | 0.5 | 775 | 120125 |
| (160,170] | 165 | 8 | 13 | 0.229 | 0.8 | 1320 | 217800 |
| (170,180] | 175 | 10 | 23 | 0.286 | 1.0 | 1750 | 306250 |
| (180,190] | 185 | 7 | 30 | 0.200 | 0.7 | 1295 | 239575 |
| (190,200] | 195 | 5 | 35 | 0.143 | 0.5 | 975 | 190125 |
| Totales | 35 | 1.000 | 6115 | 1073875 |
Para el cáclulo del Recorrido (\(Re\)), usamos la siguiente fórmula:
\(R = x_{\max} - x_{\min} = 200 - 150 = 50cm\)
En el caso del Recorrido intercuartílico (RIQ)
Usamos cuantiles para datos agrupados:
\(Q_{\tfrac{r}{k}} = L_{i-1} + \dfrac{N \cdot \tfrac{r}{k} - N_{i-1}}{n_i} · c_i\)
Caclulamos el primer cuartil, \(Q_1\) (25%)
- Posición: \(N \cdot 0.25 = 35 \cdot 0.25 = 8.75\)
- Cae en \((160,170]\) porque \(N_{i-1}=5\) y \(N_i=13\)
- Datos: \(L_{i-1}=160,\; N_{i-1}=5,\; n_i=8,\; c_i=10\)
\(Q_1 = 160 + \dfrac{8.75 - 5}{8} · 10 = 160 + \dfrac{3.75}{8}·10 = 160 + 4.6875 = 164.69cm\)
Calculamos el tercer cuartil \(Q_3\) (75%)
- Posición: \(N \cdot 0.75 = 35 \cdot 0.75 = 26.25\)
- Cae en \((180,190]\) porque \(N_{i-1}=23\) y \(N_i=30\)
- Datos: \(L_{i-1}=180,\; N_{i-1}=23,\; n_i=7,\; c_i=10\)
\(Q_3 = 180 + \dfrac{26.25 - 23}{7} · 10 = 180 + \dfrac{3.25}{7}· 10 \approx 180 + 4.6429 = 184.64cm\)
Por lo que el RIQ: \(RIQ = Q_3 - Q_1 \approx 184.64 - 164.69 = 19.95cm\)
Ahora vamos a calcular la Varianza empleando los método de los momentos,
Fórmula por los momentos es:
\(S^2 = \frac{\sum x_i^2 n_i}{N} - \left(\frac{\sum x_i n_i}{N}\right)^2\), es decir, \(S^2=a_2-a^2_1\)
- \(\sum x_i^2 n_i = 1073875\)
- \(\sum x_i n_i = 6115\)
- \(N=35\)
Sustituimos:
\(\frac{1073875}{35} - \left(\frac{6115}{35}\right)^2 = 30682.15\;-\; (174.71)^2 = 30682.14\;-\;30525.08 = 157.06cm^2\)
\(S^2=157.06cm^2\)
Por lo que la desviación típica será
\(\displaystyle S = \sqrt{157.06}\; \approx \; 12.53cm\)
Por lo que, a modo de resumen
- Recorrido: \(R = 40cm\)
- Recorrido intercuartílico: \(RIQ = 19.95cm\)
- Varianza (método de los momentos): \(\sigma^2 = 157.06cm^2\)
- Desviación típica: \(S = 12.53cm\)
3.3.2. Medidas de Dispersión Relativas
Las medidas de dispersión relativas tienen la ventaja de que eliminan el problema de las unidades de medida al ser adimensionales y permite la comparación de conjuntos de datos diferentes.
3.3.2.1. Recorrido relativo
El recorrido relativo (\(R_r\)) se define como el cociente entre el recorrido y la media aritmética.
\(R_r=\frac{max(x)-min(x)}{\bar{x}}\)
Soluciona el problema de la unidad de medida, pero sigue siendo sensible a datos extremos.

Imaginemos que tenemos un conjunto de datos X que representa la altura de un grupo de personas (180, 175, 158, 159, 190, 178, 185). Para calcular el recorrido solo tendremos que calcular el máximo y el mínimo y hacer su diferencia.
Code
X <- c(180, 175, 158, 159, 190, 178, 185)
Re <- max(X) - min(X)
med<- mean(X)
Rr<-Re/med; Rr[1] 0.1828571
3.3.2.2. Recorrido Semi-Intercuartílico
El Recorrido Semi-Intercuartílico (\(R_S\)) se define como el cociente del Recorrido intercuartílico y la suma del primer y tercer cuartil.
\(R_S=\frac{Q_3-Q_1}{Q_1+Q_3}\)
Corrige el problema de la unidad de medida.

Imaginemos que tenemos un conjunto de datos X que representa la altura de un grupo de personas (180, 175, 158, 159, 190, 178, 185). Para calcular el recorrido solo tendremos que calcular el máximo y el mínimo y hacer su diferencia.
Code
X <- c(180, 175, 158, 159, 190, 178, 185)
cuantiles <- quantile(X, c(0.25, 0.75))
Q1<-cuantiles[1]; Q125%
167
Code
Q3<-cuantiles[2]; Q3 75%
182.5
Code
Rs<-as.numeric((Q3-Q1)/(Q3+Q1)); Rs[1] 0.04434907
3.3.2.3. Coeficiente de Variación
El Coeficiente de Variación de Pearson (\(CV\)) está definido como el cociente entre la desviacion típica y el valro absoluto de la media aritmética.
\(CV = \frac{S}{\left|\bar{x}\right|}\)
El coeficiente de variación, al ser adimensional, permite la comparación de diferentes conjuntos de datos. En general, esta medida sirve para dos cosas: en primer lugar sirve para comparar varias distribuciones analizando cuál de ellas es más homogénea, es decir, en cual es media es más representativa y, en segundo lugar, para ver analizar la representatividad de la media. El criterio más extendido es que si el \(CV\) es inferior a \(0,5\) (\(CV<0,5\)), la media se puede considerar representativa (equivalente a que la media sea mayor a dos desviaciones típicas). Evidentemente, cuanto más próximo a \(0\) más representativa será la media.

Retomemos el ejemplo de la altura y el peso del punto 2.3.1.3 donde X es la altura e Y el peso. Como se vio no se puede comparar la dispersión de los dos conjuntos de datos al tener unidades de medida diferentes. En este caso, el CV resuleve ese problema. Como se puede ver, el CV de \(X\) es inferior al CV de \(Y\) por lo que la media de la altura es más representativa que la media del peso.
Code
X<-c(1.80, 1.75, 1.58, 1.59, 1.90, 1.78, 1.85)
Y<-c(82, 70, 63, 62, 94, 81, 85)
# Altura
SD_X <- sd(X)
med_X<-mean(X)
# Peso
SD_Y <- sd(Y)
med_Y<-mean(Y)
CV_X=SD_X/med_X; CV_X[1] 0.07014077
Code
CV_Y=SD_Y/med_Y; CV_Y[1] 0.1563728
Ejemplo de Calculadora
Un profesor de estadística ha recogido las alturas de un grupo de estudiantes y las ha agrupado en intervalos para facilitar el análisis. Con base en la tabla siguiente, realiza los cálculos necesarios para obtener las diferentes medidas de dispersión RELATIVAS.
| Altura en cm | Marca de clase (\(x_i\)) | Frecuencia absoluta (\(n_i\)) | Frecuencia acumulada (\(N_i\)) | Frecuencia relativa (\(f_i\)) | Densidad (\(d_i\)) | \(x_i \cdot n_i\) | \(x_i^2 \cdot n_i\) |
|---|---|---|---|---|---|---|---|
| (150,160] | 155 | 5 | 5 | 0.143 | 0.5 | 775 | 120125 |
| (160,170] | 165 | 8 | 13 | 0.229 | 0.8 | 1320 | 217800 |
| (170,180] | 175 | 10 | 23 | 0.286 | 1.0 | 1750 | 306250 |
| (180,190] | 185 | 7 | 30 | 0.200 | 0.7 | 1295 | 239575 |
| (190,200] | 195 | 5 | 35 | 0.143 | 0.5 | 975 | 190125 |
| Totales | 35 | 1.000 | 6115 | 1073875 |
Recordando los cálculos que hemos hecho en ejemplos anteriores tenemos:
- \(N=35\)
- \(\bar x = \dfrac{6115}{35} = 174.7143\)
- \(S^2 = \dfrac{1073875}{35} - \left(\dfrac{6115}{35}\right)^2 = 157.0612\)
- \(S = \sqrt{157.0612} = 12.5336\)
- \(x_{\min} =150\)
- \(x_{\max} =200\)
- \(R = x_{\max}-x_{\min} = 200-150 = 50\)
- \(Q_1 = 164.6875\)
- \(Q_3 = 184.6429\)
- \(RI = Q_3 - Q_1 = 19.9554\)
COn estos datos, el Recorrido relativo \[ R_r = \frac{R}{\bar x} = \frac{200-150}{174.7143} = \frac{50}{174.7143} = \mathbf{0.2862}\ (\text{28.62%}) \]
El Recorrido Semi-intercuartílico será \[ R_{SI} = \frac{Q_3 - Q_1}{Q_3 + Q_1} = \frac{184.64 - 164.69}{184.64 + 164.69} = \frac{19.95}{349.33} = 0.0571 \;(5.71\%) \]
Y el Coeficiente de variación: \[ CV \;=\; \frac{\sigma}{\bar x} \;=\; \frac{12.5336}{174.7143} \;\approx\; \mathbf{0.0717}\;\;(\text{7.17\%}) \]
A modo de resumen
- \(R_r = \mathbf{0.2862}\) (28.62%)
- \(R_{SI} = \mathbf0.0571\) (5.71%)
- \(CV = \mathbf{0.0717}\ (\text{7.17%})\)
3.4. MEDIDAS DE FORMA
Otro de los aspectos relevantes a la hora de caracterizar una distribución a parte de las medidas de posición y dispersión son las medidas de forma. El análisis de estos tres elementos en una distribución nos permitirá conocer con mayor precisión los datos. De hecho, si se disponen de dos conjuntos de datos, cuanto más se parezcan estos tres elementos entre los dos conjuntos, más se parecerán las distribuciones. Este conjunto de medidas se pueden dividir en dos grandes grupos, las que analizan la asimetría y las que analizan el apuntamiento o curtosis.
3.4.1. Medidas de Asimetría
Se dice que un conjunto de valores son simétricos repecto de un valor (generalmente una medida de posición central como la media) cuando el conjunto de valores se distribuyen de manera equitativa a ambos lados, lo que resulta que la distribución se vea igual a ambos lados de ese valor central. Una distribución o variable se considera simétrica cuando, visualmente, podemos trazar un eje o línea vertical a través de su valor central (la media o mediana, según corresponda), y la representación gráfica en ambos lados de este eje es reflejada de manera idéntica. En el caso de una distribución simétrica la media, la mediana y la moda coinciden. Este fenómeno ayuda a que, entre otras cosas, se pueda analizar de manera rápida la asimetría de una distribución.
Como todos los indicadores estadísticos, las medidas de simetría son valores numéricos, y estos nos indican si la distribución es simétrica o no, y en este último caso, en qué sentido va la asimetría.
El análisis de la asimetría nos da tres posibles resultados:
- Distribución Simétrica. En este caso, el valor de la mayor parte de los indicadores que la miden resultarán ser cero.
- Distribución Asimétrica positiva o a derechas. Cuando la cola de la distribución ‘larga’ está a la derecha de los datos. En este caso, los distintos indicadores que lo miden serán positivos.
- Distribución Asimétrica negativa o a izquierdas. Cuando la cola de la distribución ‘larga’ está a la izquierda de los datos. En este caso los indicadores serán negativos.
3.4.1.1. Coeficiente de asimetría básico
Un primer indicador que mide la asimetría es el momento de orden 3 respecto de la media (\(m_3\)).
\(m_3=\frac{\sum_{i=1}^{n} (x_i - \bar{x})^3n_i}{N}\)
Este indicador examina las diferencias respecto a la media manteniendo el signo de las mismas, lo que nos da una aproximación de la simetría de los datos. Si este valor es 0, indica que las diferencias positivas son igual a las negativas, por lo que la distribuicón es simétrica. Sin embargo, si las diferencias son positivas, significa que hay más valores a la derecha de la distribución, y este indicador será positivo, mientras que si las diferencias son negativas, ocurre lo contrario, y el valor será negativo.
Code
library(e1071)
X <- c(180, 175, 158, 159, 190, 178, 185)
m_3 <- moment(X, order = 3, center = TRUE); m_3[1] -640.2857
3.4.1.2. Coeficiente de Asimetría de Fisher
El Coeficiente de Asimetría de Fisher (\(g_2\)) es el coeficiente de asimetría más empleado. Su cálculo es muy sencillo y es igual a:
\(g_2=\frac{m_3}{S^3}\)
donde \(m_3\) es el momento respecto de la media de orden 3 y \(S^3\) es la desviación típica al cubo. Como se ve, es un estadístico adimensional y su interpretación es igual que todos los coeficientes de asimetría. Valores iguales a 0 indican simetría, valores positivos asimetría positiva o a derechas y valores negativos indican asimetría negativa o a izquierdas.
Code
library(e1071)
X <- c(180, 175, 158, 159, 190, 178, 185)
m_3 <- moment(X, order = 3, center = TRUE)
g2<- m_3/(sd(X)^3);g2[1] -0.3462167
3.4.1.3. Coeficiente de Asimetría de Pearson
El Coeficiente de Asimetría de Pearson (\(A_p\)) es el coeficiente de asimetría más sencillo en su cálculo, al emplear los estadisticos básicos de cualquier distribución, como son la media, la moda o la mediana, junto con las desviación típica. Como sabemos, si una distribución es simétrica esos tres estadísticos de posición central son iguales ( \(\bar{x}=Mo=Me\)), mientras que si la distribución es asimétrica positiva, la media está por encima de la moda en el lado de la cola larga de la distribución, mientras que ocurre lo contrario con la asimetría negativa.
El cálculo de esta medida es:
\(A_p=\frac{\bar{x}-Mo}{S}\)
o una función equivalente en términos de la mediana
\(A_p=\frac{3(\bar{x}-Me)}{S}\)
Al igual que el resto de indicadores, su interpretación depende de su signo.
Code
X <- c(180, 175, 158, 159, 190, 178, 185)
med_X <- mean(X)
Me <- median(X)
SD_X <- sd(X)
Ap=(3*(med_X-Me)/SD_X); Ap[1] -0.7332194
3.4.1.4 Ejemplo completo de medidas de asimetría
Un profesor de estadística ha recogido las alturas de un grupo de estudiantes y las ha agrupado en intervalos para facilitar el análisis. Con base en la tabla siguiente, realiza los cálculos necesarios para obtener las medidas de forma. (Nota: se utilizan cálculos ya realizados en ejemplos)
| Altura en cm | \(x_i\) | Frecuencia absoluta (\(n_i\)) | Frecuencia acumulada (\(N_i\)) | Frecuencia relativa (\(f_i\)) | Densidad (\(d_i\)) | \((x_i - \bar{x})^3 \cdot n_i\) |
|---|---|---|---|---|---|---|
| (150,160] | 155 | 5 | 5 | 0.143 | 0.5 | -66025 |
| (160,170] | 165 | 8 | 13 | 0.229 | 0.8 | -8248 |
| (170,180] | 175 | 10 | 23 | 0.286 | 1.0 | 3 |
| (180,190] | 185 | 7 | 30 | 0.200 | 0.7 | 7532 |
| (190,200] | 195 | 5 | 35 | 0.143 | 0.5 | 21200 |
| Totales | 35 | 1.000 | 6541 |
Recordando los resultados previos necesarios en ejemplos anteriores:
- \(N=35\)
- \(\bar{x}=174.71\)
- \(\sum (x_i-\bar{x})^3 n_i = 6541\)
- \(S^2 = 157.0612 \Rightarrow \ S=12.5336\)
- \(\text{Mo}\approx 174.67\) (intervalo modal 170–180, por densidades)
En primer lugar vamos a dibujar el histograma de la distribución:
El Coeficiente de asimetría básico será: \[ m_3 \;=\; \frac{\sum (x_i-\bar{x})^3 n_i}{N} =\frac{6541}{35} = 186.89 \]
El Coeficiente de asimetría de Fisher se calcula: \[ g_1 = \frac{m_3}{\sigma^3} = \frac{186.89}{12.5336^3} = \frac{186.89}{1967.1} = 0.095 \]
Y el Coeficiente de asimetría de Pearson es: \[ A_p = \frac{\bar{x}-\text{Mo}}{\S} = \frac{174.71-174.67}{12.5336} = \frac{0.04}{12.5336} = 0.003 \]
De este modo, los datos y lo que visualizamos en el histograma nos dice: - \(m_3 = 186.89\) tiene signo positivo por lo que según este indicador existe una asimetría positiva o a derechas (notad que tiene unidad de medida, por lo que sólo nos importa el signo del indicador). - \(g_1 = 0.095\) y \(A_p = 0.003\) son valores muy pequeños y muy cercanos a 0, lo que indica una distribución una asimetría positiva muy ligera. - El histograma nos indica que esta distribución es casi simétrica, lo que es corroborado por los indicadores anteriores.
3.4.2. Medidas de Apuntamiento o Curtosis
Se dice que un conjunto de valores presenta un determinado apuntamiento cuando analizamos cómo se concentran dichos valores alrededor de una medida de posición central, generalmente la media. El apuntamiento nos indica si la distribución tiene una forma más afilada y agrupada en torno a la media (lo que implica colas más largas o pesadas), o si, por el contrario, se presenta de manera más aplanada, con valores más dispersos y colas más ligeras.
En una distribución con apuntamiento similar al de la Normal (mesocúrtica), la agrupación de los datos en torno a la media es equilibrada y sirve como referencia. Si la distribución es más apuntada (leptocúrtica), la mayoría de valores se agrupan muy cerca de la media, pero también aparecen valores extremos con mayor frecuencia. Si es más aplanada (platicúrtica), los datos están más dispersos en torno a la media y las colas son más ligeras.
El estudio del apuntamiento resulta útil porque complementa al análisis de la asimetría: mientras la asimetría describe la forma lateral de la distribución, el apuntamiento caracteriza la altura y agrupamiento de los valores en torno a la media.
Como todos los indicadores estadísticos, las medidas de apuntamiento son valores numéricos que nos permiten describir cómo se concentran los datos alrededor de la media y cómo son sus colas en comparación con una distribución Normal.
El análisis del apuntamiento nos da tres posibles resultados:
- Mesocúrtica: cuando el coeficiente de curtosis es aproximadamente 0, la distribución presenta un apuntamiento similar al de la Normal. Los datos se concentran de manera equilibrada alrededor de la media y las colas tienen un peso intermedio.
- Leptocúrtica: cuando el coeficiente de curtosis es mayor que 0, la distribución es más apuntada que la Normal. Los valores se concentran fuertemente alrededor de la media, pero también aparecen con mayor frecuencia valores extremos, lo que se refleja en colas más pesadas.
- Platicúrtica: cuando el coeficiente de curtosis es menor que 0, la distribución es más aplanada que la Normal. Los datos se reparten de forma más uniforme alrededor de la media y las colas son más ligeras, con menos valores extremos.
Aunque existen numerosas medidas, en estos apuntes nos centraremos exclusivamente en una, el Coeficiente de Curtosis.
3.4.2.1 Coeficiente de Curtosis
Para medir el fenómeno del apuntamiento se suele emplear el coeficiente de curtosis que está definido como:
\[ g_2 = \frac{m_4}{S^4} - 3 \]
donde:
- \(m_4 = \frac{1}{N} \sum (x_i - \bar{x})^4n_i\) es el momento centrado de orden 4,
- \(S\) es la desviación típica muestral (que aparece elevada a la cuarta),
Interpretación En la distribución normal se cumple que el momento centrado de orden 4 es igual a tres veces la cuarta potencia de la desviación típica:
\[ m_4 = 3·S^4 \]
De este modo, en la Normal el coeficiente de curtosis es igual a a cero.
\[ g_2 = \frac{m_4}{S^4} - 3 = 0 \]
Teniendo en consideración este aspecto, una distribución presenta los siguientes valores del coeficiente en curtosis:
- Mesocúrtica (\(g_2 = 0\)): la distribución presenta un apuntamiento similar al de la Normal.
- Leptocúrtica (\(g_2 > 0\)): la distribución es más apuntada que la Normal, con valores más concentrados alrededor de la media y colas más pesadas.
- Platicúrtica (\(g_2 < 0\)): la distribución es más aplanada que la Normal, con valores menos concentrados en torno a la media y colas más ligeras.
Un profesor de estadística ha recogido las alturas de un grupo de estudiantes y las ha agrupado en intervalos para facilitar el análisis. Con base en la tabla siguiente, realiza los cálculos necesarios para obtener las medidas de forma. (Nota: se utilizan cálculos ya realizados en ejemplos)
| Altura (cm) | \(x_i\) | \(n_i\) | \(N_i\) | \(f_i\) | \(d_i\) | \(x_i \cdot n_i\) | \((x_i - \bar{x})^4 \cdot n_i\) |
|---|---|---|---|---|---|---|---|
| (150,160] | 155 | 5 | 5 | 0.143 | 0.5 | 775 | 755256 |
| (160,170] | 165 | 8 | 13 | 0.229 | 0.8 | 1320 | 71242 |
| (170,180] | 175 | 10 | 23 | 0.286 | 1.0 | 1750 | 0 |
| (180,190] | 185 | 7 | 30 | 0.200 | 0.7 | 1295 | 78349 |
| (190,200] | 195 | 5 | 35 | 0.143 | 0.5 | 975 | 846703 |
| Totales | 35 | 1.000 | 6115 | 1751550 |
Recordando los resultados previos necesarios en ejemplos anteriores:
- \(N=35\)
- \(\bar{x}=174.71\)
- \(S^2 = 157.0612 \;\Rightarrow\; S=12.5336\)
- \(S^4 = (12.5336)^4 = 24677.62\)
A partir de la tabla (con \(\bar{x}=174.71\)) tenemos: \[ \sum (x_i-\bar{x})^4 n_i \;=\; 1751550, \qquad N=35. \] De este modo, el momento respecto de la media de orden 4: \[ m_4 \;=\; \frac{\sum (x_i-\bar{x})^4 n_i}{N} \;=\; \frac{1751550}{35} \;=\; 50044.29. \]
Por lo que el Coeficiente de curtosis se: \[ g_2 \;=\; \frac{m_4}{s^4} - 3 \;=\; \frac{50\,044.29}{24\,677.62} - 3 = -0.972. \] De este modo, como omo \(g_2<0\), la distribución es platicúrtica: más aplanada que la Normal, con menor agrupación de valores en el centro y colas más ligeras.
3.5 MEDIDAS DE DESIGUALDAD
Cuando analizamos fenómenos económicos como salarios, ingresos o riqueza, no basta con conocer la media o la desviación típica.
Podemos tener dos poblaciones con la misma media salarial, pero con una distribución del dinero muy distinta: en una todos cobran más o menos lo mismo, mientras que en otra unos pocos concentran gran parte de los ingresos y el resto apenas recibe.
Las medidas de desigualdad permiten responder precisamente a esta pregunta:
¿cómo de repartidos están los recursos dentro de la población?
- Si todos los individuos tienen exactamente el mismo valor, hablamos de igualdad perfecta.
- Si unos pocos concentran casi todo y la mayoría apenas recibe, hablamos de desigualdad alta.
- En la realidad, los países, sectores o empresas se encuentran en situaciones intermedias, y por eso necesitamos indicadores que lo midan.
Veamos un ejemplo:
Para estudiar la desigualdad se utilizan dos enfoques complementarios:
La curva de Lorenz (representación gráfica):
Nos permite visualizar cómo se reparte el total de los recursos entre la población. Muestra, por ejemplo, qué porcentaje de la renta acumula el 20% más pobre, el 50% intermedio o el 10% más rico.El índice de Gini (medida numérica):
Resume esa desigualdad en un único número entre 0 y 1, lo que facilita la comparación entre distintas poblaciones o países.
3.5.1. Curva de Lorenz
La curva de Lorenz es una herramienta gráfica que representa la desigualdad en una distribución.
- En el eje horizontal (abscisas) se sitúa la proporción acumulada de individuos, ordenados de menor a mayor valor de la variable (por ejemplo, renta).
- En el eje vertical (ordenadas) se representa la proporción acumulada del total de la variable que les corresponde a esos individuos.
¿Cómo se construye?
En primer lugar se deden ordenar los datos de menor a mayor valor de la variable (por ejemplo, ingresos).
A continuación se Calcula la proporción acumulada de la población en el eje X (de 0 a 1).
Posteriormente se calcula la proporción acumulada de los recursos en el eje Y (de 0 a 1).
Finalmente, se representan esos puntos acumulados y se unen mediante una curva.
De este modo se pueden tener varias situaciones:
Si todos los individuos tuvieran el mismo valor (renta perfectamente igualitaria), la curva de Lorenz coincidiría con la diagonal de 45º, llamada línea de equidistribución.
Cuanto más se aleje la curva de Lorenz de la diagonal, mayor será la desigualdad: una parte de la población acumula un porcentaje reducido de los recursos y otra parte concentra la mayoría.
El caso extremo de desigualdad se daría si un solo individuo acumulara todos los recursos, en cuyo caso la curva de Lorenz coincidiría con los ejes y luego subiría bruscamente al final.
Explicación de las tres situaciones
Igualdad perfecta, equidistribución (verde): Cada porcentaje de población recibe exactamente la misma proporción de recursos. Ejemplo: si el 30% de la población recibe el 30% de los ingresos.
Máxima desigualdad (rojo): Toda la renta se concentra en un único individuo. Hasta llegar al 100% de la población, la curva permanece en 0, y solo en el último punto alcanza el 100% de los recursos.
Situación intermedia (azul): Refleja una desigualdad realista. Una parte de la población recibe menos proporción de recursos de la que le correspondería en igualdad perfecta, mientras que otra concentra más. Cuanto más convexa sea la curva, mayor desigualdad.
3.5.2. Índice de Gini
El índice de Gini es la medida numérica asociada a la curva de Lorenz.
Definición: El índice de Gini se define como la relación entre:
- El área comprendida entre la diagonal de igualdad perfecta y la curva de Lorenz (A)
- El área total bajo la diagonal (B).
De forma equivalente, mide cuánto se aleja la distribución real de la igualdad perfecta.
\[ G = \frac{A}{B} \]
donde: - \(A\) es el área entre la diagonal y la curva de Lorenz.
- \(B\) es el área bajo la diagonal.
A efectos prácticos:
Se define como el área comprendida entre la diagonal de equidistribución y la curva de Lorenz, dividida por el área total bajo la diagonal:
\[ G = \frac{\sum_{i=1}^{n-1} (p_i-q_i)}{\sum_{i=1}^{n-1} p_i} \]
donde \(p_i\) son las proporciones acumuladas de población y \(q_i\) las proporciones acumuladas de la variable (rentas, salarios, etc.).
De este modo:
- \(G = 0\): igualdad perfecta (cada individuo recibe la misma cantidad).
- \(G = 1\): máxima concentración (un solo individuo concentra todo).
- En la práctica, los valores oscilan entre 0.2 y 0.7: valores cercanos a 0 indican menor desigualdad y valores altos, mayor desigualdad.
Como interpretación práctica:
- Valores bajos de \(G\) indican sociedades más igualitarias.
- Valores altos de \(G\) indican que una parte importante de los recursos está concentrada en pocos individuos.
Una de las principales ventajas del índice de Gini es que resume numéricamente la curva de Lorenz, lo que permite comparar distintas poblaciones (países, regiones, empresas) de manera sencilla, manteniendo la misma intuición que aporta la representación gráfica.
Ejemplo de calculadora
Se tienen los siguientes datos de salarios percibidos por los trabajadores de dos empresas (A y B).
| Salario (€) | Nº trabajadores empresa A | Nº trabajadores empresa B |
|---|---|---|
| 80 | 10 | 5 |
| 60 | 5 | 15 |
| 20 | 5 | 15 |
| 15 | 5 | 10 |
| 10 | 25 | 5 |
Vamos a calcular el índice de Gini para la empresa A.
Construimos la tabla
| \(x_i\) (Salario) | \(n_i\) (Nº trab.) | \(N_i\) (Acum.) | \(x_i \cdot n_i\) | \(S_i\) (Salarios acum.) | \(p_i\) (pob. %) | \(q_i\) (salarios %) | \(p_i - q_i\) |
|---|---|---|---|---|---|---|---|
| 10 | 25 | 25 | 250 | 250 | 50.00 | 16.39 | 33.61 |
| 15 | 5 | 30 | 75 | 325 | 60.00 | 21.31 | 38.69 |
| 20 | 5 | 35 | 100 | 425 | 70.00 | 27.87 | 42.13 |
| 60 | 5 | 40 | 300 | 725 | 80.00 | 47.54 | 32.46 |
| 80 | 10 | 50 | 800 | 1525 | 100.00 | 100.00 | 0.00 |
| Totales | 50 | — | 1525 | — | 260.00 | 113.11 | 146.89 |
| Totales n-1 | — | — | — | — | 260.00 - 100 = 160.00 | 113.11 - 100 = 13.11 | 146.89 |
La expresión usada es para el cálculo del índice de Gini;
\[ G = \frac{\sum_{i=1}^{n-1} (p_i - q_i)}{\sum_{i=1}^{n-1} p_i} \]
¿Cómo se calcula?
Numerador: \[ \sum_{i=1}^{n-1} (p_i - q_i) = 33.61 + 38.69 + 42.13 + 32.46 = 146.89 \]
Denominador: \[ \sum_{i=1}^{n-1} p_i = 50 + 60 + 70 + 80 = 260 \]
Índice de Gini: \[ G = \frac{146.89}{260} = 0.565 \]
La interpretación
El valor \(G = 0.565\) muestra una desigualdad salarial considerable en la empresa A:
- Los trabajadores con salarios más bajos acumulan un porcentaje muy pequeño del total de salarios.
- Gran parte de los salarios está concentrada en un grupo reducido de trabajadores con ingresos altos.
3.5.3. Otras medidas de concentración
Además del índice de Gini, existen otros indicadores que también miden desigualdad o concentración:
Índice de Herfindahl-Hirschman (HHI): utilizado para medir la concentración en mercados (por ejemplo, cuotas de mercado de empresas). Se calcula como la suma de los cuadrados de las cuotas de mercado de cada agente. Valores altos indican elevada concentración (poca competencia).
Índice de Theil: basado en la teoría de la información y la entropía. Permite descomponer la desigualdad total en desigualdad intra-grupos y entre-grupos, lo que lo convierte en una herramienta útil para análisis más desagregados.