1 Introducción

Las variables aleatorias cuantitativas se pueden resumir con cuatro tipos de medidas, que permiten determinar el comportamiento de las mismas en la muestra o población observada:

Tendencia central
Localización
Variabilidad
Forma

Dado que en general no se acostumbra a medir toda la población (censo), generalmente las mediciones se hacen sobre una muestra, por lo que las medidas que se presentan a continuación son denominadas “muestrales”.

2 Objetivos

Comprender las diferentes medidas de tendencia central, sus propiedades y cuál de ellas es la más apropiada de acuerdo a una situación particular.
Comprender en qué consisten las medidas de localización y sus propiedades.

3 Competencias

En esta sección el estudiante comprenderá:

Cuál es la mejor medida de tendencia central para el problema abordado.
El concepto de percentil y su aplicabilidad.

4 Problema de investigación

El rector de universidad quiere saber qué tan buenos hábitos alimencios y de estilo de vida tienen sus estudiantes, para lo cuál seleccionó una muestra de los mismos y les midió el peso y la talla, entre otras cosas.

Pregunta de investigación: ¿Cuál es el valor promedio del IMC en los estudiantes de la muestra?, ¿la media es un buen indicador del centro del IMC de los estudiantes?

5 Medidas de tendencia central

Existen diferentes medidas de tendencia central, entre ellas, las más utilizadas son la media aritmética (promdedio), la mediana y la moda.
Como su nombre lo indica, el propósito consiste en dar un valor que describa adecuadamente el “centro” de los datos.
La interpretación de estas medidas debe tener en cuenta tanto la distribución de los datos como las medidas de variabilidad, ya que la calidad de las medidas de tendencia central está asociada intrínsecamente con la “concentración” de la información.

5.1 Media aritmética $M(x)$

Asumiendo que la variable de interés es $X$ y que los valores observados en la muestra son $x_1$,$x_2$,,$x_n$, la media aritmética es el valor que se ubica justo en el “centro de gravedad” de los datos, el cual se define como: \[M(x)=\bar{x}=\frac{1}{n}\sum_{i=1}^{n}x_i\]

5.1.1 Características

Otorga a todas las observaciones la misma importancia relativa.
Corresponde al centro de gravedad de los datos, es decir, $\sum_{i=1}^n (x_i - M(x)) = 0$.
Es sensible a datos extremos.
No es una buena representación del conjunto de datos cuando estos se concentran bien sea en valores muy altos o muy bajos de la variable (distribución asimétrica).

5.1.2 Propiedades

$\min\{x_i\}\leq M(x)\leq \max\{x_i\}$.
Si $k$ es una constante y $x_1=k,x_2=k,\ldots,x_n=k$, entonces $M(x)=k$.
Si $k$ es una constante, entonces $M(x+k)=M(x)+k$.
Si $k$ es una constante, entonces $M(kx)=kM(x)$.
Si $k_1$ y $k_2$ son constantes, entonces $M(k_1 + k_1x)=k_1 + k_1M(x)$.
Si el conjunto de datos define una partición compuesta por $m$ grupos, donde el subconjunto $j$ tiene $n_j$ individuos y media $M_j(x)$, entonces la media de la variable para todos los individuos está dada por: \[M_T(x)=\sum_{j=1}^{m} \frac{n_j}{n} M_j(x)\]

5.1.2.1 Ejemplo

Los siguientes datos correponden al IMC (kg/m$^2$) de 20 estudiantes:

21.1, 22.5, 20.1, 23.4, 21.8, 20.3, 24.7, 20.9, 18.9, 22.0, 22.2, 20.8, 17.9, 19.0, 20.3, 16.9, 22.4, 21.2, 21.2, 21.5

Calcular el IMC promedio para estos 20 estudiantes.

En este caso se tiene que $n=20$ y \[ M(x) = \frac{1}{20}(21.1 + 22.5 + \ldots + 21.5) = 20.955\,. \]

# Datos (IMC)
x <- c(21.1, 22.5, 20.1, 23.4, 21.8, 20.3, 24.7, 20.9, 18.9, 22.0, 
       22.2, 20.8, 17.9, 19.0, 20.3, 16.9, 22.4, 21.2, 21.2, 21.5)
# tamaño de la muestra
length(x)

## [1] 20

# media
mean(x)

## [1] 20.955

# otra manera
sum(x)/length(x)

## [1] 20.955

5.1.2.2 Ejemplo

De 500 estudiantes cuya estatura promedio es 1.57 metros, 150 son mujeres. Si la estatura promedio de las mujeres es 1.52 metros, ¿cuál es la estatura promedio de los hombres?

En este caso $n=500$ (total de individuos en la muestra), $n_1=150$ (total de mujeres), y $n_2=500-150=350$ (total de hombres). Además, el promedio “global” es $\bar{x} = 1.57$ y el promedio de las mujeres es $\bar{x}_1 = 1.52$. Si $\bar{x}_2$ denota el promedio de los hombres, entonces: \[ \bar{x} = \frac{n_1\bar{x}_1 + n_2\bar{x}_2}{n} \quad\Rightarrow\quad \bar{x}_2 = \frac{(1.57)(500) - (150)(1.52)}{350}=1.591\,. \] Así, el promedio de los hombres es 1.591 metros.

# promedio de los hombres
(1.57*500 - 150*1.52)/350

## [1] 1.591429

5.1.3 Datos agrupados por valores

En algunas ocasiones no se dispone de los datos de cada individuo, sino de una tabla de resumen con los conteos obtenidos para cada valor de la variable, así:

Valor	F. Absoluta	F. Relativa
$y_1$	$n_1$	$h_1$
$y_2$	$n_2$	$h_2$
$\vdots$	$\vdots$	$\vdots$
$y_m$	$n_m$	$h_m$
Total	$n$	$1$

Así, el promedio de la variable $y$ está dado por: \[M(y)=\bar{y}=\frac{1}{n}\sum_{j=1}^{m}\sum_{i=1}^{n_j}y_{ij}=\frac{1}{n}\sum_{j=1}^{m}n_jy_{j}=\sum_{j=1}^{m}h_jy_j\]

5.1.3.1 Ejemplo:

Suponga que a un grupo de $200$ estudiantes se le indagó sobre el número de hermanos ($y$). Los resultados fueron los siguientes:

$y_j$	$n_j$	$h_j$
0	38
1	67
2	44
3	32
4	11
5	8
Total	200

El número promedio de hermanos para estos $n=200$ estudiantes es de $1.675$, ya que \[M(y)=\frac{1}{200}(0*38+1*67+2*44+3*32+4*11+5*8)=\frac{335}{200}=1.675\]

Note que el valor del promedio no es necesariamente un valor plausible de la variable, ya que no es posible tener $1.675$ hermanos.

# número de hermanos
y <- c(0, 1, 2, 3, 4, 5)
# frecuencia absoluta
nj <- c(38, 67, 44, 32, 11, 8)
# tamaño de la muestra
sum(nj)

## [1] 200

# frecuencia relativa
hj <- nj/sum(nj)
print(hj)

## [1] 0.190 0.335 0.220 0.160 0.055 0.040

# promedio
sum(nj*y)/sum(nj)

## [1] 1.675

# otra manera
sum(hj*y)

## [1] 1.675

5.1.4 Datos agrupados por intervalos

Para las variables continuas, es posible que la información disponible se encuentre en una tabka con datos agrupados por intervalos:

Intervalo	Marca de clase	F. Absoluta	F. Relativa
$y'_{0}-y'_{1}$	$y_1$	$n_1$	$h_1$
$y'_{1}-y'_{2}$	$y_2$	$n_2$	$h_2$
$\vdots$	$\vdots$	$\vdots$	$\vdots$
$y'_{m-1}-y'_{m}$	$y_m$	$n_m$	$h_m$

Donde $y_j=\frac{y'_{j-1}+y'_{j}}{2}$ es la marca de clase del intervalo $j$ y el promedio se calcula como:

\[M(y)=\bar{y}\approx \frac{1}{n}\sum_{j=1}^{m}n_jy_{j}=\sum_{j=1}^{m}h_jy_j\] ¿En la fórmula anterior, por qué se utiliza $\approx$ en lugar de $=$?

5.1.5 Ejercicio: problema de investigación

Una vez se observó la muestra, se obtuvieron los siguientes resultados:

$(y'_{j-1}-y'_{j}]$	$y_j$	$n_j$
$15-16$	$15.5$	$2$
$16-17$	$16.5$	$5$
$17-18$	$17.5$	$29$
$18-19$	$18.5$	$76$
$19-20$	$19.5$	$118$
$20-21$	$20.5$	$96$
$21-22$	$21.5$	$83$
$22-23$	$22.5$	$37$
$23-24$	$23.5$	$4$

Calcular la media asociada con este conjunto de datos agrupados.

El número de intervalos es $m=9$ y el tamaño de la muestra es $n=\sum_{j=1}^{m} n_j = 450$. De este modo, la media del IMC asociada con este conjunto de datos agrupados está dada por: \[M(y)\approx\frac{1}{n}\sum_{j=1}^{n}n_j\,y_{j}=\frac{1}{450}\left( (2)(15.5) + (5)(16.5) + \ldots + (4)(23.5) \right)=20.015\,.\] Por lo tanto, la media del IMC de este grupo de 450 personas es 20.015.

# limite inferior de los intervalos
li <- 15:23
# limite superior de los intervalos
ls <- 16:24
# marca de clase
yj <- (li+ls)/2
print(yj)

## [1] 15.5 16.5 17.5 18.5 19.5 20.5 21.5 22.5 23.5

# numero de intervalos
length(yj)

## [1] 9

# frecuencia absoluta
nj <- c(2, 5, 29, 76, 118, 96, 83, 37, 4)
# tamaÃ±o de la muestra
sum(nj)

## [1] 450

# frecuencia relativa
hj <- nj/sum(nj) 
print(hj)

## [1] 0.004444444 0.011111111 0.064444444 0.168888889 0.262222222 0.213333333
## [7] 0.184444444 0.082222222 0.008888889

# media
sum(nj*yj)/sum(nj)

## [1] 20.01556

# otra manera
sum(hj*yj)

## [1] 20.01556

5.2 Media aritmética ponderada

La media aritmética otorga igual “importancia” (ponderación o peso) a cada observación: $1/n$. Sin embargo, en algunas ocasiones la importancia relativa de los datos no es la misma, por lo que los datos son ponderados de tal forma que esta importancia se ve reflejada en las medidas estadísticas correspondientes.

La media aritmética ponderada es un promedio que tiene en cuenta la importancia relativa de cada uno de los datos y se calcula como: \[ M(x)=\frac{\sum_{i} w_i x_i}{\sum_{i} w_i} \] donde $w_i$ es la ponderación y $x_i$ es el dato, la clase o la marca de clase correspondiente. El límite superior de las sumatorias de la fórmula anterior depende de si se dispone de datos agrupados o no agrupados.

5.2.1 Ejemplo

Las calificaciones de un estudiante están conformadas de acuerdo con la información que se presenta en la siguiente tabla. Calcular la calificación promedio del estudiante.

Actividad	Calificación	Valor
Examen	4.5	40%
Trabajo	1.0	10%
Investigación	3.5	50%

Observe que las actividades académicas no tienen el mismo peso en la evaluación. Por lo tanto, siguiendo la fórmula del promedio ponderado se obtiene que el promedio del estudiante es: \[ M(x) = \frac{\sum_{i} w_i x_i}{\sum_{i} w_i} = \frac{(4.5)(0.4) + (1.0)(0.10) + (3.5)(0.50) }{0.40 + 0.10 + 0.5} =3.65. \] Luego, el promedio del estudiante en esta asignatura es 3.65.

# calificacion
x <- c(4.5, 1.0, 3.5)
# valor
w <- c(40, 10, 50)/100
print(w)

## [1] 0.4 0.1 0.5

# promedio
sum(w*x)/sum(w)

## [1] 3.65

5.3 Mediana $P_{50}$

La mediana o percentil 50 del conjunto de datos $x_1,x_2,\ldots, x_n$ corresponde al dato cuyo valor acumula el $50\%$ de los datos, y se calcula como:

\[ P_{50}= \begin{cases} x_{\left(\frac{n+1}{2}\right)} & \text{si $n$ es impar}\\ \frac{x_{\left(\frac{n}{2}\right)}+x_{\left(\frac{n}{2}+1\right)}}{2} & \text{si $n$ es par} \end{cases} \] donde $x_{(i)}$ es la observación que ocupa la $i$-ésima posición del conjunto de datos ordenado ascendentemente.

5.3.1 Características

Se calcula para variables medidas en al menos una escala ordinal.
No se basa en la magnitud de los datos.
No se ve afectada por datos atípicos, es decir, es “robusta” frente a observaciones atípicas.
Se recomienda su uso cuando la distribución de los datos es sesgada.
La media y la mediana coinciden cuando la distribución de los datos es simétrica.
No tiene propiedades aritméticas directas y sencillas de aplicar como la media aritmética.

5.3.2 Ejemplo

Calcular e interpretar la mediana del IMC de los 20 estudiantes.

Dado que el tamaño de la muestra es un número par, $n=20$, se tiene que la mediana corresponde al promedio de las posiciones $\frac{n}{2}=10$ y $\frac{n}{2}+1=11$ del conjunto de datos ordenados ascendentemente,esto es:

\[P_{50} = \frac{x_{(10)}+x_{(11)}}{2} =\frac{21.1+21.2}{2}=21.15\,.\]

Por lo tanto, el 50% de los IMCs son menores (mayores) o iguales que 7.7.

Además, observe que en este caso la mediana (21.15) es ligeramente mayor que la media (20.955), lo cual sugiere que la distribución de los IMCs presenta un leve sesgo negativo (a la izquierda).

# Datos (IMC)
x <- c(21.1, 22.5, 20.1, 23.4, 21.8, 20.3, 24.7, 20.9, 18.9, 22.0, 22.2, 20.8, 17.9, 19.0, 20.3, 16.9, 22.4, 21.2, 21.2, 21.5)
# tamaño de la muestra
n<-length(x)
n

## [1] 20

#posiciones
pos1<-n/2
pos2<-n/2+1
# ordenar datos ascendentemente
x <- sort(x, decreasing = FALSE)
# mediana, dato en la posicion (n+1)/2
(x[pos1]+x[pos2])/2

## [1] 21.15

# otra manera
median(x)

## [1] 21.15

# otra manera
quantile(x, probs = 0.5)

##   50% 
## 21.15

5.3.3 Ejemplo

Los datos de la siguiente tabla corresponden al número de hijos de una muestra de empleados de una empresa. Calcular e interpretar la mediana.

Número de hijos	0	1	2	3	4	Total
F. Absoluta	12	12	6	4	6	40

El tamaño de la muestra es $n=40$. Ahora, debido a que el total de datos es par y que los datos de la tabla están organizados ascendentemente, se tiene que la mediana es el valor ubicado entre las observaciones de las posiciones $\frac{n}{2} = 20$ y $\frac{n}{2} + 1 = 21$. Por lo tanto, la mediana es $P_{50} = \frac{1+1}{2} = 1$. Este valor indica que la mitad de los empleados no tienen hijos o tienen uno solo.

# numero de hijos
y <- 0:4
# frecuencia absoluta
nj <- c(12, 12, 6, 4, 6)
# tamaño de la muestra
n <- sum(nj)
print(n)

## [1] 40

# posiciones centrales
n/2

## [1] 20

n/2 + 1

## [1] 21

# frecuencias acumuladas
cumsum(nj)

## [1] 12 24 30 34 40

# mediana, promedio de los datos en las posiciones n/2 y n/2 + 1
(y[2] + y[2])/2

## [1] 1

# en este caso no se debe utilizar las funciones median y quantile dado que los
# datos estan agrupados en una tabla

5.3.4 Datos agrupados por intervalos

Cuando los datos están agrupados en una tabla de frecuencia por intervalos: \[P_{50}\approx y'_{k-1}+a_k\left(\frac{0.5n-N_{k-1}}{n_k}\right)\] donde:

$y'_{k-1}$ es el límite inferior del intervalo que acumula el $50\%$,
$a_k$ es la amplitud del intervalo que acumula el $50\%$,
$N_{k-1}$ es la frecuencia absoluta acumulada correspondiente al intervalo anterior, y
$n_k$ es la frecuencia absoluta del intervalo que acumula el $50\%$.

5.3.4.1 Ejercicio: Problema de investigación

El intervalo que acumula el $50\%$ es $(19,20]$, por lo tanto la mediana del IMC de los $450$ estudiantes es:

\[P_{50}=19+\left(\frac{0.5*450-112}{118}\right)=19.96\] Es decir que el $50\%$ de los $450$ estudiantes tuvieron un IMC de $19.96$ o menos.

# limite inferior de los intervalos
li <- 15:23
# limite superior de los intervalos
ls <- 16:24
# marca de clase
yj <- (li+ls)/2
print(yj)

## [1] 15.5 16.5 17.5 18.5 19.5 20.5 21.5 22.5 23.5

# numero de intervalos
length(yj)

## [1] 9

# frecuencia absoluta
nj <- c(2, 5, 29, 76, 118, 96, 83, 37, 4)
# tamaÃ±o de la muestra
n <- sum(nj)
print(n)

## [1] 450

# frecuencia relativa
hj <- nj/sum(nj) 
print(hj)

## [1] 0.004444444 0.011111111 0.064444444 0.168888889 0.262222222 0.213333333
## [7] 0.184444444 0.082222222 0.008888889

# frecuencia relativa aucumulada
Hj <- cumsum(hj)
print(Hj)

## [1] 0.004444444 0.015555556 0.080000000 0.248888889 0.511111111 0.724444444
## [7] 0.908888889 0.991111111 1.000000000

# frecuencia absoluta acumulada
Nj <- cumsum(nj)
print(Nj)

## [1]   2   7  36 112 230 326 409 446 450

# indice primer intervalo tal que Hj > 0.5
k <- 5
# mediana
li[k] + (ls[k]-li[k])*((0.5*n - Nj[k-1])/nj[k])

## [1] 19.95763

# en este caso no se debe utilizar las funciones median y quantile dado que los
# datos estan agrupados en una tabla

Nota: La media y la mediana coinciden cuando la distribución de los datos es simétrica.

5.4 Moda $M_d(x)$

La moda de un conjunto de datos agrupados por intervalos, denotada con $M_d(x)$ o $\breve{x}$, corresponde al(a los) valor(res) que maximiza(n) la distribución de frecuencias, para datos agrupados en forma continua:

\[M_d(x)=y'_{k-1}+a_k\left(\frac{n_k-n_{k-1}}{2n_k-n_{k-1}-n_{k+1}}\right)\] donde:

$y'_{k-1}$ es el límite inferior del intervalo con mayor frecuencia,
$a_k$ es la amplitud del intervalo con mayor frecuencia, y
$n_k$ es la frecuencia absoluta del intervalo con mayor frecuencia.

5.4.1 Ejercicio: Problema de investigación

Calcule la moda del IMC en el grupo de los $450$ estudiantes.

6 Medidas de localización $P_t$

Las medidas de localización o percetiles son valores que delimitan superiormente un determinado porcentaje de los datos observados.

El percentil $t$ de un conjunto de datos, denotado con $P_t$, se define como un valor tal que $t\%$ de los datos es menor o igual que dicho valor.

Como casos particulares se tienen los cuartiles (percentiles 25, 50 y 75; la mediana es el percentil 50 o cuartil 2).

\[P_t=\left\lbrace\ x\mid H_x=t/100\right\rbrace\]

6.1 Ejemplo

Calcular e interpretar los cuartiles del conjunto de datos no agruapdos del IMC.

# Datos (IMC)
x <- c(21.1, 22.5, 20.1, 23.4, 21.8, 20.3, 24.7, 20.9, 18.9, 22.0, 22.2, 20.8, 17.9, 19.0, 20.3, 16.9, 22.4, 21.2, 21.2, 21.5)
# percentiles 25 y 75
quantile(x, probs = c(0.25, 0.75))

##   25%   75% 
## 20.25 22.05

6.2 Datos agrupados

Para datos agrupados por intervalo:

\[P_{t}=y'_{k-1}+c_k\left(\frac{nt/100-N_{k-1}}{n_k}\right)\] donde:

$y'_{k-1}$ es el límite inferior del intervalo que acumula el $t\%$,
$c_k$ es la amplitud del intervalo que acumula el $t\%$,
$N_{k-1}$ es la frecuencia absoluta acumulada hasta el intervalo anterior, y
$n_k$ es la frecuencia absoluta del intervalo que acumula el $t\%$.

6.3 Ejercicio: Problema de investigación

Calcule los percentiles $25$ y $75$ del IMC del grupo de $450$ pacientes.

Valor	F. Absoluta	F. Relativa
\(y_1\)	\(n_1\)	\(h_1\)
\(y_2\)	\(n_2\)	\(h_2\)
\(\vdots\)	\(\vdots\)	\(\vdots\)
\(y_m\)	\(n_m\)	\(h_m\)
Total	\(n\)	\(1\)

Intervalo	Marca de clase	F. Absoluta	F. Relativa
\(y'_{0}-y'_{1}\)	\(y_1\)	\(n_1\)	\(h_1\)
\(y'_{1}-y'_{2}\)	\(y_2\)	\(n_2\)	\(h_2\)
\(\vdots\)	\(\vdots\)	\(\vdots\)	\(\vdots\)
\(y'_{m-1}-y'_{m}\)	\(y_m\)	\(n_m\)	\(h_m\)

\((y'_{j-1}-y'_{j}]\)	\(y_j\)	\(n_j\)
\(15-16\)	\(15.5\)	\(2\)
\(16-17\)	\(16.5\)	\(5\)
\(17-18\)	\(17.5\)	\(29\)
\(18-19\)	\(18.5\)	\(76\)
\(19-20\)	\(19.5\)	\(118\)
\(20-21\)	\(20.5\)	\(96\)
\(21-22\)	\(21.5\)	\(83\)
\(22-23\)	\(22.5\)	\(37\)
\(23-24\)	\(23.5\)	\(4\)

Medidas de tendencia central y de localización

Lina Buitrago, labuitragor@unal.edu.co

Juan Sosa, jcsosam@unal.edu.co

2020