1 Introducción

Las variables aleatorias cuantitativas pueden resumirse con tipos cuatro tipos de medidas, que permiten determinar el comportamiento de las mismas en la población o muestra observada:

Tendencia central
Variabilidad
Localización
Forma

Dado que en general es imposible medir toda la población (censo), generalmente las mediciones se hacen sobre una muestra, por lo que las medidas que veremos son comúnmente llamadas “muestrales”.

2 Objetivos

Comprender las diferentes medidas de tendencia central, sus propiedades y cuál de ellas es la más apropiada de acuerdo con la situación.
Comprender en qué consisten las medidas de localización y sus propiedades.

3 Competencias

En esta sección el estudiante comprenderá:

Cuál es la mejor medida de tendencia central de acuerdo con el problema abordado.
El concepto de percentil y su aplicabilidad.

4 Problema de investigación

El rector de universidad quiere saber qué tan buenos hábitos alimenticios y de estilo de vida tienen sus estudiantes, para lo cual seleccionó una muestra de los mismos, a quienes midió el peso y la talla, entre otras cosas.

Pregunta de investigación: ¿Cómo es el estado nutricional de los estudiantes seleccionados, medido a partir del IMC?

Para reflexionar:
- ¿La media es un buen indicador del centro del IMC de los estudiantes?
- ¿Cuál sería una buena medida de variabilidad para el IMC de los estudiantes que participaron en el estudio?

5 Medidas de tendencia central

Existen diferentes medidas de tendencia central, algunas de ellas son la media, la moda, la mediana y la media geométrica. Como su nombre lo indica, pretenden dar un valor que describa apropiadamente el centro de los datos. La interpretación de estas medidas debe tener en cuenta tanto la distribución de los datos como las medidas de variabilidad, ya que la calidad de las medidas de tendencia central está asociada intrínsecamente con la “concentración” de la información.

Las más utilizadas son:

Media aritmética (promedio).
Mediana.
Moda.

5.1 Media aritmética $\bar{X}=M(x)$

Asumiendo que la variable de interés es $X$ y que los valores observados en la muestra son $x_1$,$x_2$,…,$x_n$; la media aritmética es el valor que se ubica justo en el centro de gravedad de los datos, se define como:

\[M(x)=\bar{x}=\frac{1}{n}\sum_{i=1}^{n}x_i\]

5.1.1 Características

Otorga a todas las observaciones la misma importancia relativa.
Corresponde al centro de gravedad de los datos, es decir, $\sum_{i=1}^n (x_i - M(x)) = 0$.
Es sensible a datos extremos.
No es una buena representación cuando los datos se concentran bien sea en valores muy altos o muy bajos de la variable (distribución asimétrica).

5.1.2 Propiedades

$\min{x_i}\leq M(x)\leq \max{x_i}$
Si $k$ es una constante y $x_1=k,x_2=k,\ldots,x_n=k$, entonces $M(x)=k$.
Si $k$ es una constante, $M(x+k)=\frac{1}{n}\sum_{i=1}^{n}(x_i+k)=M(x)+k$
Si $k$ es una constante, $M(kx)=\frac{1}{n}\sum_{i=1}^{n}(kx_i)=kM(x)$
Si $k_1$ y $k_2$ son constantes, $M(k_1\pm k_2x)=k_1\pm k_2M(x)$
(Opcional) Si la población o la muestra es una partición compuesta por $m$ subconjuntos, donde el subconjunto $j$ tiene $n_j$ individuos y media $M_j(x)$, luego de la media de la variable en todos los individuos está dada por:

\[M_T(x)=\sum_{j=1}^{m} M_j(x)\frac{n_j}{n}\]

5.1.2.1 Ejemplo

Los siguientes datos corresponden al IMC ($kg/m^2$) de 20 estudiantes:

21.1, 22.5, 20.1, 23.4, 21.8, 20.3, 24.7, 20.9, 18.9, 22.0, 22.2, 20.8, 17.9, 19.0, 20.3, 16.9, 22.4, 21.2, 21.2, 21.5

Calcular el IMC promedio para estos 20 estudiantes: $n=20$

\[ M(x) = \frac{1}{20}(21.1 + 22.5 + \ldots + 21.5) = 20.955\,. \]

# Datos (IMC)
x <- c(21.1, 22.5, 20.1, 23.4, 21.8, 20.3, 24.7, 20.9, 18.9, 22.0, 22.2, 20.8, 17.9, 19.0, 20.3, 16.9, 22.4, 21.2, 21.2, 21.5)
# tamaño de la muestra
length(x)

## [1] 20

# media
mean(x)

## [1] 20.955

# otra manera
sum(x)/length(x)

## [1] 20.955

¿La media es una buena medida de tendencia central en este caso?

5.1.2.2 Ejemplo 2-Pregunta de investigación

El archivo “IMC.txt” contiene el IMC de los 250 estudiantes que participaron el estudio. El archivo tiene dos columnas, la primera corresponde a un identificador y la segunda al IMC.

Calcular el IMC promedio, ¿cuántos estudiantes están bajos de peso (<18.5), tienen un IMC normal ($18.5\leq IMC<25$), con sobrepeso ($25\leq IMC<30$)?

Cálculo del promedio.

# Cambio de la dirección de trabajo
setwd("G:\\Mi unidad\\UN 2024\\UN 2024-I\\Bioestadistica\\Material\\4")
# Lectura del archivo de texto, con encabezado y separado por ";"
datos<-read.table("IMC.txt",h=T,sep=";")
# Datos de los primeros 6 estudiantes
head(datos)

##   Estudiante  IMC
## 1          1 25.3
## 2          2 19.8
## 3          3 20.1
## 4          4 22.5
## 5          5 25.6
## 6          6 21.1

# Tamaño de muestra
n<-dim(datos)[1]
n

## [1] 250

## Otra forma
length(datos$IMC)

## [1] 250

# promedio de IMC
mean(datos$IMC)

## [1] 21.9672

Por ahora, ¿qué podríamos concluir del IMC de estos 250 estudiantes?.

¿cuántos estudiantes están bajos de peso (<18.5), tienen un IMC normal ($18.5\leq IMC<25$), con sobrepeso ($25\leq IMC<30$)?

# creación del objeto de tipo "character" en el que vamos a guardar el IMC categorizado
IMC_c<-character(n)
# IMC categorizado
IMC_c[datos$IMC<18.5]<-"1. Bajo peso"
IMC_c[18.5<=datos$IMC & datos$IMC<25]<-"2. Normal"
IMC_c[25<=datos$IMC & datos$IMC<30]<- "3. Sobrepeso"
IMC_c[datos$IMC>=30]<- "4. Obesidad"

# Distribución de frecuencias del IMC categorizado

# frecuencias absolutas
nj <- table(IMC_c)
# frecuencias relativas
hj <- nj/n
# frecuencias acumuladas
Nj <- cumsum(nj)
Hj <- cumsum(hj)
# tabla
tab <- cbind(nj, hj = 100*hj, Nj, Hj = 100*Hj)
tab <- round(tab, digits = 2)
colnames(tab) <- c("F. Absoluta", "F. Relativa (%)", "F. Abs. Acumulada", "F. Rel. Acumulada (%)")
# librerias para mostrar la tabla
library(knitr)
library(kableExtra)

## Warning in !is.null(rmarkdown::metadata$output) && rmarkdown::metadata$output
## %in% : 'length(x) = 3 > 1' in coercion to 'logical(1)'

# mostrar tabla
kable_styling(kable_input = kable(x = tab,  digits = 2, align = "l"), full_width = FALSE)

	F. Absoluta	F. Relativa (%)	F. Abs. Acumulada	F. Rel. Acumulada (%)
Bajo peso	10	4.0	10	4.0
Normal	222	88.8	232	92.8
Sobrepeso	18	7.2	250	100.0

5.2 Media aritmética ponderada

La media aritmética otorga igual “importancia” (ponderación o peso) a cada observación: $1/n$. Sin embargo, en algunas ocasiones la importancia relativa de los datos no es la misma, por lo que los datos son ponderados de tal forma que esta importancia se ve reflejada en las medidas estadísticas correspondientes.

La media aritmética ponderada es un promedio que tiene en cuenta la importancia relativa de cada uno de los datos y se calcula como: \[ M(x)=\frac{\sum_{i} w_i x_i}{\sum_{i} w_i} \] donde $w_i$ es la ponderación y $x_i$ es el dato, la clase o la marca de clase correspondiente. El límite superior de las sumatorias de la formula anterior depende de si se dispone de datos agrupados o no agrupados.

5.2.1 Ejemplo

Las calificaciones de un estudiante están conformadas de acuerdo con la información que se presenta en la siguiente tabla. Calcular la calificación promedio del estudiante.

Actividad	Calificación	Valor
Examen	4.5	40%
Trabajo	1.0	10%
Investigación	3.5	50%

Observe que las actividades académicas no tienen el mismo peso en la evaluación. Por lo tanto, siguiendo la fórmula del promedio ponderado se obtiene que el promedio del estudiante es: \[ M(x) = \frac{\sum_{i} w_i x_i}{\sum_{i} w_i} = \frac{(4.5)(0.4) + (1.0)(0.10) + (3.5)(0.50) }{0.40 + 0.10 + 0.5} =3.65. \] Luego, el promedio del estudiante en esta asignatura es 3.65.

# calificacion
x <- c(4.5, 1.0, 3.5)
# valor
w <- c(40, 10, 50)/100
print(w)

## [1] 0.4 0.1 0.5

# promedio
sum(w*x)/sum(w)

## [1] 3.65

5.3 Mediana $P_{50}$

La mediana o percentil 50 del conjunto de datos $x_1,x_2,\ldots, x_n$, corresponde al dato cuyo valor acumula el $50\%$ de los datos,se calcula como:

\[ P_{50}= \begin{cases} x_{\left(\frac{n+1}{2}\right)} & \text{si $n$ es impar}\\ \\ \frac{x_{\left(\frac{n}{2}\right)}+x_{\left(\frac{n}{2}+1\right)}}{2} & \text{si $n$ es par} \end{cases} \] donde $x_{(i)}$ es la observación que ocupa la $i$-ésima posición del conjunto de datos ordenado ascendentemente.

5.3.1 Características

Se calcula para variables medidas en al menos una escala ordinal.
No se basa en la magnitud de los datos.
No se ve afectada por datos atípicos, es decir, es una medida “robusta” frente a observaciones extremas.
Es una medida de tendencia central apropiada cuando la distribución de los datos es sesgada.
La media y la mediana coinciden cuando la distribución de los datos es simétrica.
No tiene propiedades aritméticas directas y sencillas de aplicar como la media aritmética.

5.3.2 Ejemplo

Calcular e interpretar la mediana del IMC de los 20 estudiantes.

Dado que el tamaño de la muestra es un número par, $n=20$, se tiene que la mediana corresponde al promedio de las posiciones $\frac{n}{2}=10$ y $\frac{n}{2}+1=11$del conjunto de datos ordenados ascendentemente, esto es:

\[P_{50} = \frac{x_{(10)}+x_{(11)}}{2} =\frac{21.1+21.2}{2}=21.15 \]

Por lo tanto, el 50% de los IMCs son menores (mayores) o igual a 21.15.

Además, observe que en este caso la mediana (21.15) es ligeramente mayor que la media (20.955), lo cual sugiere que la distribución de presenta un leve sesgo negativo (a la izquierda).

# Datos (IMC)
x <- c(21.1, 22.5, 20.1, 23.4, 21.8, 20.3, 24.7, 20.9, 18.9, 22.0, 22.2, 20.8, 17.9, 19.0, 20.3, 16.9, 22.4, 21.2, 21.2, 21.5)
# tamaño de la muestra
n<-length(x)
n

## [1] 20

#posiciones
pos1<-n/2
pos2<-n/2+1
# ordenar datos ascendentemente
x <- sort(x, decreasing = FALSE)
# mediana, dato en la posicion (n+1)/2
(x[pos1]+x[pos2])/2

## [1] 21.15

# otra manera
median(x)

## [1] 21.15

# otra manera
quantile(x, probs = 0.5)

##   50% 
## 21.15

5.3.3 Ejemplo-Problema de investigación

Calcular e interpretar la mediana del IMC de los 250 estudiantes que participaron en el estudio.

# Recuerde que leímos la base de datos en la sección anterior y que nos quedó guardada en el objeto "datos".
median(datos$IMC)

## [1] 22.1

¿Qué tan diferente es de la media?

5.3.4 Ejemplo

Los datos de la siguiente tabla corresponden al número de hijos de una muestra de empleados en una empresa. Calcular e interpretar la mediana.

Número de hijos	0	1	2	3	4	Total
F. Absoluta	12	12	6	4	6	40

El tamaño de la muestra es $n=40$. Ahora, debido a que el total de datos es par y que los datos de la tabla están organizados ascendentemente, se tiene que la mediana es el valor ubicado entre las observaciones de las posiciones $\frac{n}{2} = 20$ y $\frac{n}{2} + 1 = 21$. Por lo tanto, la mediana es $P_{50} = \frac{1+1}{2} = 1$. Este valor indica que la mitad de los empleados no tienen hijos o tienen uno solo.

# numero de hijos
y <- 0:4
# frecuencia absoluta
nj <- c(12, 12, 6, 4, 6)
# tamaño de la muestra
n <- sum(nj)
print(n)

## [1] 40

# posiciones centrales
n/2

## [1] 20

n/2 + 1

## [1] 21

# frecuencias acumuladas
cumsum(nj)

## [1] 12 24 30 34 40

# mediana, promedio de los datos en las posiciones n/2 y n/2 + 1
(y[2] + y[2])/2

## [1] 1

# en este caso no se debe utilizar las funciones median y quantile dado que los
# datos estan agrupados en una tabla

Ejercicio: Calcular e interpretar la mediana del número de días en el que los adolescentes se mantienen activos físicamente durante 60 minutos diarios, teniendo en cuenta la tabla 2 del artículo de Poveda y Poveda, 2021.

Nota: La media y la mediana coinciden cuando la distribución de los datos es simétrica.

5.4 Moda $M_d(x)$

La moda de un conjunto de datos agrupados por intervalos, denotada con $M_d(x)$ o $\breve{x}$, corresponde al(a los) valor(res) que maximiza(n) la distribución de frecuencias. Para datos agrupados en forma continua:

\[M_d(x)=y´_{k-1}+c_k\left(\frac{n_k-n_{k-1}}{2n_k-n_{k-1}-n_{k+1}}\right)\] Donde:

$y´_{k-1}$ es el límite inferior del intervalo con mayor frecuencia
$c_k$ es la amplitud del intervalo con mayor frecuencia
$n_k$ es la frecuencia absoluta del intervalo con mayor frecuencia

6 Medidas de localización $P_t$

Las medidas de localización o percentiles son valores observados de la variable (percentiles, $P_t$) que delimitan superiormente un determinado porcentaje de los datos observados.
El percentil $t$ de un conjunto de datos, denotado con $P_t$, se define como un valor tal que $t\%$ de los datos es menor o igual que dicho valor. Como casos particulares se tienen los cuartiles (percentiles 25, 50 y 75; la mediana es el percentil 50 o cuartil 2). El percentil $t$ de un conjunto de datos se define como:

\[P_t=\left\lbrace\ x | H_x=t/100\right\rbrace\]

6.1 Ejemplo

Calcular e interpretar los cuartiles del conjunto de datos.

# Datos (IMC)
x <- c(21.1, 22.5, 20.1, 23.4, 21.8, 20.3, 24.7, 20.9, 18.9, 22.0, 22.2, 20.8, 17.9, 19.0, 20.3, 16.9, 22.4, 21.2, 21.2, 21.5)
# percentiles 25 y 75
quantile(x, probs = c(0.25, 0.75))

##   25%   75% 
## 20.25 22.05

6.2 Ejemplo - Problema de investigación

Calcular e interpretar los cuartiles del IMC de los 350 estudiantes participantes del estudio.

# Recuerde que leímos la base de datos en la sección anterior y que nos quedó guardada en el objeto "datos".
quantile(datos$IMC, probs = c(0.25, 0.75))

##  25%  75% 
## 20.6 23.3

Medidas de tendencia central y de localización

Lina Buitrago, labuitragor@unal.edu.co

Juan Sosa, jcsosam@unal.edu.co

2020