1 Introducción

Las variables aleatorias cuantitativas pueden resumirse con tipos cuatro tipos de medidas, que permiten determinar el comportamiento de las mismas en la población o muestra observada:

Tendencia central
Variabilidad
Localización
Forma

Dado que en general es imposible medir toda la población (censo), generalmente las mediciones se hacen sobre una muestra, por lo que las medidas que veremos son comúnmente llamadas “muestrales”.

2 Objetivos

Comprender las diferentes medidas de tendencia central, sus propiedades y cuál de ellas es la más apropiada de acuerdo a la situación.
Comprender en qué consisten las medidas de localización y sus propiedades.

3 Competencias

En esta sección el estudiante comprenderá:

Cuál es la mejor medida de tendencia central de acuerdo al problema abordado.
El concepto de percentil y su aplicabilidad.

4 Problema de investigación

El rector de universidad quiere saber qué tan buenos hábitos alimencios y de estilo de vida tienen sus estudiantes, para lo cuál seleccionó una muestra de los mismos y les midió el peso y la talla, entre otras cosas.

Pregunta de investigación: ¿Cuál es el valor promedio del IMC en los estudiantes de la muestra?, ¿la media es un buen indicador del centro del IMC de los estudiantes?

5 Medidas de tendencia central

Existen diferentes medidas de tendencia central, entre ellas las más utilizadas está la media, la moda, la mediana y la media geométrica.
Como su nombre lo indica pretenden dar un valor que describa apropiadamente el centro de los datos.
El uso apropiado de ellas depende la distribución de la variable.

5.1 Media aritmética \(\bar{X}=M(X)\)

Asumiendo que la variable de interés es \(X\) y que los valores observados en la muestra son \(x_1\),\(x_2\),…,\(x_n\), la media aritmética es el valor que se ubica justo en el centro de gravedad de los datos, se define como:

\[M(x)=\bar{x}=\frac{1}{n}\sum_{i=1}^{n}x_i\]

5.1.1 Características

Es sensible a datos extremos.
No es una buena representación cuando los datos se concentran bien sea en valores muy altos o muy bajos de la variable (distribución asimétrica).

5.1.2 Propiedades

\(\min{x_i}\leq M(x)\leq \max{x_i}\)
\(M(x-\bar{x})=0\)
Si \(k\) es una constante, \(M(k)=k\)
Si \(k\) es una constante, \(M(x+k)=\frac{1}{n}\sum_{i=1}^{n}(x_i+k)=m(x)+k\)
Si \(k\) es una constante, \(M(kx)=\frac{1}{n}\sum_{i=1}^{n}(kx_i)=km(x)\)
Si \(k_1\) y \(k_2\) son constantes, \(M(k_1\pm k_1x)=k_1\pm k_1M(x)\)
Si \(X_1\),…, \(X_m\) son variables medidas sobre el mismo grupo de individuos,\(M\left(\sum_{j=1}^{m}x_m\right)=\sum_{j=1}^{m}M(x_m)\)
Si la población o la muestra es una partición compuesta por \(m\) subconjuntos, donde el subconjunto \(j\) tiene \(n_j\) individuos y media \(M_j(x)\), luego de la media de la variable en todos los individuos está dada por:

\[M_T(x)=\sum_{j=1}^{m} M_j(x)\frac{n_j}{n}\]

5.1.3 Datos agrupados

Cuando no tenemos la información puntual sobre cada individuo, sino una tabla de resumen con los conteos obtenidos para cada valor de la variable, así

\(y_j\)	\(n_j\)	\(h_j\)
\(y_1\)	\(n_1\)	\(h_1\)
\(y_2\)	\(n_2\)	\(h_2\)
\(\vdots\)	\(\vdots\)	\(\vdots\)
\(y_m\)	\(n_m\)	\(h_m\)
——–	——–	——
Total	\(n\)	\(1\)

Así el promedio de la variable \(y\) está dado por: \[M(y)=\bar{y}=\frac{1}{n}\sum_{j=1}^{m}\sum_{i=1}^{n_j}y_{ij}=\frac{1}{n}\sum_{j=1}^{m}n_jy_{j}=\sum_{j=1}^{m}h_jy_j\]

5.1.3.1 Ejemplo:

Suponga que a un grupo de \(200\) estudiantes se le indagó sobre el número de hermanos (\(y\)). Los resultados fueron los siguientes:

\(y_j\)	\(n_j\)	\(h_j\)
0	38
1	67
2	44
3	32
4	11
5	8
——–	——–	——
Total	200

Así, el número promedio de hermanos en los 200 estudiantes está dado por: \[\bar{y}=\frac{1}{200}(0*38+1*67+2*44+3*32+4*11+5*8)=\frac{335}{200}=1.675\] Luego, el número promedio de hermanos en estos 200 estudiantes fue de \(1.675\).

Note que el valor del promedio no es necesariamente un valor plausible de la variable, ya que no es posible tener \(1.675\) hermanos.

###Datos agrupados por intervalos

Para las variables continuas, es posible que la información disponible se encuentre en una tabla con datos agrupados por intervalos:

\(y'_{j-1}-y'_{j}\)	\(y_j\)	\(n_j\)
\(y'_{0}-y'_{1}\)	\(y_1\)	\(n_1\)
\(y'_{1}-y'_{2}\)	\(y_2\)	\(n_2\)
\(\vdots\)	\(\vdots\)	\(\vdots\)
\(y'_{m-1}-y'_{m}\)	\(y_m\)	\(n_m\)

Donde \(y_j=\frac{y'_{j-1}+y'_{j}}{2}\) es la marca de clase del intervalo \(j\) y el promedio se calcula como:

\[M(y)=\bar{y}=\frac{1}{n}\sum_{j=1}^{m}n_jy_{j}=\sum_{j=1}^{m}h_jy_j\]

5.1.4 Ejercicio: Problema de investigación

Una vez se observó la muestra, se obtuvieron los siguientes resultados:

\((y'_{j-1}-y'_{j}]\)	\(y_j\)	\(n_j\)
\(15-16\)	\(15.5\)	\(2\)
\(16-17\)	\(16.5\)	\(5\)
\(17-18\)	\(17.5\)	\(29\)
\(18-19\)	\(18.5\)	\(76\)
\(19-20\)	\(19.5\)	\(118\)
\(20-21\)	\(20.5\)	\(96\)
\(21-22\)	\(21.5\)	\(83\)
\(22-23\)	\(22.5\)	\(37\)
\(23-24\)	\(23.5\)	\(4\)

\[\bar{y}=\frac{1}{450}\sum_{j=1}^{9}n_jy_{j}=20.016\]

5.2 Mediana \(P_{50}\)

La mediana corresponde al dato cuyo valor acumula el \(50\%\) de los datos:

\[P_{50}=\left\lbrace\ x| H_x=0.5\right\rbrace\] Cuando los datos están agrupados en intervalos: \[P_{50}=y´_{k-1}+c_k\left(\frac{0.5n-N_{k-1}}{n_k}\right)\] Donde: \(y´_{k-1}\) es el límite inferior del intervalo que acumula el \(50\%\), \(c_k\) es la amplitud del intervalo que acumula el \(50\%\), \(N_{k-1}\) es la frecuencia absoluta acumulada hasta el intervalo anterior y \(n_k\) es la frecuencia absoluta del intervalo que acumula el \(50\%\).

5.2.1 Ejercicio: Problema de investigación

El intervalo que acumula el \(50\%\) es \((19,20]\), por lo tanto la mediana del IMC de los \(450\) estudiantes es:

\[P_{50}=19+\left(\frac{0.5*450-112}{118}\right)=19.96\] Es decir que el \(50\%\) de los \(450\) estudiantes tuvieron un IMC de \(19.96\) o menos.

Nota: La media y la mediana coinciden cuando la distribución de los datos es simétrica.

5.3 Moda \(M_d(x)\)

La moda corresponde al dato observado más frecuente, para datos agrupados en forma continua:

\[M_d(x)=y´_{k-1}+c_k\left(\frac{n_k-n_{k-1}}{2n_k-n_{k-1}-n_{k+1}}\right)\] Donde: \(y´_{k-1}\) es el límite inferior del intervalo con mayor frecuencia \(c_k\) es la amplitud del intervalo con mayor frecuencia \(n_k\) es la frecuencia absoluta del intervalo con mayor frecuencia

5.3.1 Ejercicio: Problema de investigación

El intervalo que acumula el \(50\%\) es \((19,20]\), por lo tanto la mediana del IMC de los \(450\) estudiantes es:

\[P_{50}=19+\left(\frac{0.5*450-112}{118}\right)=19.96\] - Calcule la moda del IMC en el grupo de los \(450\) estudiantes.

6 Medidas de localización \(P_t\)

Las medidas de localización son valores observados de la variable (percentiles, \(P_t\)) que delimitan superiormente un determinado porcentaje de los datos observados.

\[P_t=\left\lbrace\ x| H_x=t/100\right\rbrace\] \[P_{t}=y´_{k-1}+c_k\left(\frac{nt/100-N_{k-1}}{n_k}\right)\] Donde: \(y´_{k-1}\) es el límite inferior del intervalo que acumula el \(t\%\), \(c_k\) es la amplitud del intervalo que acumula el \(t\%\), \(N_{k-1}\) es la frecuencia absoluta acumulada hasta el intervalo anterior y \(n_k\) es la frecuencia absoluta del intervalo que acumula el \(t\%\).

6.1 Ejercicio: Problema de investigación

Calcule los percentiles \(25\) y \(75\) del IMC del grupo de \(450\) pacientes

7 Análisis gráfico

El análisis gráfico de este tipo de variables se hace a partir de histogramas o diagramas de caja.

Histograma: En el eje \(x\) se encuentran los valores de la variable a analizar y en el eje \(y\) la frecuencia de cada uno de los intervalos.

Boxplot: -La parte central de los datos se ubica en una caja.

-El límite inferior de la caja es el \(P_{25}\).

-La línea central el \(P_{50}\).

-La línea superior el \(P_{75}\).

-Los bigotes generalmente están dados por: \(P_{25}-1.5RI\) y \(P_{75}+1.5RI\), con \(RI=P_{75}-P_{25}\).

-A los datos que se ubican por fuera de los bigotes se les llaman “datos atípicos”.

8 Para reflexionar

¿Cuál de las medidas de tendencia central en las más apropiada en los siguientes conjuntos de datos?

9 Práctica en R

#La siguiente base de datos contiene la información de un grupo de 31 pacientes que pertenecen a un programa de pacientes de enfermedades crónicas. Durante una prueba de esfuerzo, se midieron sus pulsaciones (antes, durante y después), edad, tiempo de la prueba, peso y oxigenación.

# No olviden direccionar a la carpeta en donde se encuentra grabado el archivo, en mi caso:
#setwd("C:\\Users\\lange\\Google Drive\\Sabana 2019\\II-2019\\Electiva")

# Los datos vienen un archivo tipo csv, separado por ";", para leerlos:
c_aerobica<-read.table("capacidad_aerobica.csv",h=T, sep=";")
names(c_aerobica)

## [1] "edad"           "peso"           "Oxig"           "Tiempo"        
## [5] "Pulso_reposo"   "Pulso_corriend" "Pulso_maximo"

#Estadísticas descriptivas del peso
summary(c_aerobica$peso)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   59.08   73.20   77.45   77.44   82.33   91.63

#Percentil 25 y 75. ¿Cómo se interpretan?
quantile(c_aerobica$peso, c(0.25,0.75))

##    25%    75% 
## 73.200 82.325

#percentil 75. ¿Cómo se interpreta?


#El siguiente parámetro gráfico permite dividir la ventana gráfica en una fila por dos columnas
par(mfrow=c(1,2))
#Histograma
hist(c_aerobica$peso, xlab="Peso (kg)", ylab="Frecuencia", main="")
#Boxplot
boxplot(c_aerobica$peso, ylab="Peso (kg)", main="")

9.1 Ejercicio:

Haga el análisis descriptivo visto hasta el momento para las varibles que aplique en la base de datos de capacidad aeróbica.

Medidas de tendencia central y de localización

Lina Angélica Buitrago Reyes - lina.buitrago2@unisabana.edu.co

Agosto 23, 2019