Las variables aleatorias cuantitativas pueden resumirse con tipos cuatro tipos de medidas, que permiten determinar el comportamiento de las mismas en la población o muestra observada:
Dado que en general es imposible medir toda la población (censo), generalmente las mediciones se hacen sobre una muestra, por lo que las medidas que veremos son comúnmente llamadas “muestrales”.
Comprender las diferentes medidas de tendencia central, sus propiedades y cuál de ellas es la más apropiada de acuerdo a la situación.
Comprender en qué consisten las medidas de localización y sus propiedades.
En esta sección el estudiante comprenderá:
El rector de universidad quiere saber qué tan buenos hábitos alimencios y de estilo de vida tienen sus estudiantes, para lo cuál seleccionó una muestra de los mismos y les midió el peso y la talla, entre otras cosas.
Pregunta de investigación: ¿Cuál es el valor promedio del IMC en los estudiantes de la muestra?, ¿la media es un buen indicador del centro del IMC de los estudiantes?
Asumiendo que la variable de interés es \(X\) y que los valores observados en la muestra son \(x_1\),\(x_2\),…,\(x_n\), la media aritmética es el valor que se ubica justo en el centro de gravedad de los datos, se define como:
\[M(x)=\bar{x}=\frac{1}{n}\sum_{i=1}^{n}x_i\]
\[M_T(x)=\sum_{j=1}^{m} M_j(x)\frac{n_j}{n}\]
Cuando no tenemos la información puntual sobre cada individuo, sino una tabla de resumen con los conteos obtenidos para cada valor de la variable, así
\(y_j\) | \(n_j\) | \(h_j\) |
---|---|---|
\(y_1\) | \(n_1\) | \(h_1\) |
\(y_2\) | \(n_2\) | \(h_2\) |
\(\vdots\) | \(\vdots\) | \(\vdots\) |
\(y_m\) | \(n_m\) | \(h_m\) |
——– | ——– | —— |
Total | \(n\) | \(1\) |
Así el promedio de la variable \(y\) está dado por: \[M(y)=\bar{y}=\frac{1}{n}\sum_{j=1}^{m}\sum_{i=1}^{n_j}y_{ij}=\frac{1}{n}\sum_{j=1}^{m}n_jy_{j}=\sum_{j=1}^{m}h_jy_j\]
Suponga que a un grupo de \(200\) estudiantes se le indagó sobre el número de hermanos (\(y\)). Los resultados fueron los siguientes:
\(y_j\) | \(n_j\) | \(h_j\) |
---|---|---|
0 | 38 | |
1 | 67 | |
2 | 44 | |
3 | 32 | |
4 | 11 | |
5 | 8 | |
——– | ——– | —— |
Total | 200 |
Así, el número promedio de hermanos en los 200 estudiantes está dado por: \[\bar{y}=\frac{1}{200}(0*38+1*67+2*44+3*32+4*11+5*8)=\frac{335}{200}=1.675\] Luego, el número promedio de hermanos en estos 200 estudiantes fue de \(1.675\).
Note que el valor del promedio no es necesariamente un valor plausible de la variable, ya que no es posible tener \(1.675\) hermanos.
###Datos agrupados por intervalos
Para las variables continuas, es posible que la información disponible se encuentre en una tabla con datos agrupados por intervalos:
\(y'_{j-1}-y'_{j}\) | \(y_j\) | \(n_j\) |
---|---|---|
\(y'_{0}-y'_{1}\) | \(y_1\) | \(n_1\) |
\(y'_{1}-y'_{2}\) | \(y_2\) | \(n_2\) |
\(\vdots\) | \(\vdots\) | \(\vdots\) |
\(y'_{m-1}-y'_{m}\) | \(y_m\) | \(n_m\) |
Donde \(y_j=\frac{y'_{j-1}+y'_{j}}{2}\) es la marca de clase del intervalo \(j\) y el promedio se calcula como:
\[M(y)=\bar{y}=\frac{1}{n}\sum_{j=1}^{m}n_jy_{j}=\sum_{j=1}^{m}h_jy_j\]
Una vez se observó la muestra, se obtuvieron los siguientes resultados:
\((y'_{j-1}-y'_{j}]\) | \(y_j\) | \(n_j\) |
---|---|---|
\(15-16\) | \(15.5\) | \(2\) |
\(16-17\) | \(16.5\) | \(5\) |
\(17-18\) | \(17.5\) | \(29\) |
\(18-19\) | \(18.5\) | \(76\) |
\(19-20\) | \(19.5\) | \(118\) |
\(20-21\) | \(20.5\) | \(96\) |
\(21-22\) | \(21.5\) | \(83\) |
\(22-23\) | \(22.5\) | \(37\) |
\(23-24\) | \(23.5\) | \(4\) |
\[\bar{y}=\frac{1}{450}\sum_{j=1}^{9}n_jy_{j}=20.016\]
La mediana corresponde al dato cuyo valor acumula el \(50\%\) de los datos:
\[P_{50}=\left\lbrace\ x| H_x=0.5\right\rbrace\] Cuando los datos están agrupados en intervalos: \[P_{50}=y´_{k-1}+c_k\left(\frac{0.5n-N_{k-1}}{n_k}\right)\] Donde: \(y´_{k-1}\) es el límite inferior del intervalo que acumula el \(50\%\), \(c_k\) es la amplitud del intervalo que acumula el \(50\%\), \(N_{k-1}\) es la frecuencia absoluta acumulada hasta el intervalo anterior y \(n_k\) es la frecuencia absoluta del intervalo que acumula el \(50\%\).
El intervalo que acumula el \(50\%\) es \((19,20]\), por lo tanto la mediana del IMC de los \(450\) estudiantes es:
\[P_{50}=19+\left(\frac{0.5*450-112}{118}\right)=19.96\] Es decir que el \(50\%\) de los \(450\) estudiantes tuvieron un IMC de \(19.96\) o menos.
Nota: La media y la mediana coinciden cuando la distribución de los datos es simétrica.
La moda corresponde al dato observado más frecuente, para datos agrupados en forma continua:
\[M_d(x)=y´_{k-1}+c_k\left(\frac{n_k-n_{k-1}}{2n_k-n_{k-1}-n_{k+1}}\right)\] Donde: \(y´_{k-1}\) es el límite inferior del intervalo con mayor frecuencia \(c_k\) es la amplitud del intervalo con mayor frecuencia \(n_k\) es la frecuencia absoluta del intervalo con mayor frecuencia
El intervalo que acumula el \(50\%\) es \((19,20]\), por lo tanto la mediana del IMC de los \(450\) estudiantes es:
\[P_{50}=19+\left(\frac{0.5*450-112}{118}\right)=19.96\] - Calcule la moda del IMC en el grupo de los \(450\) estudiantes.
Las medidas de localización son valores observados de la variable (percentiles, \(P_t\)) que delimitan superiormente un determinado porcentaje de los datos observados.
\[P_t=\left\lbrace\ x| H_x=t/100\right\rbrace\] \[P_{t}=y´_{k-1}+c_k\left(\frac{nt/100-N_{k-1}}{n_k}\right)\] Donde: \(y´_{k-1}\) es el límite inferior del intervalo que acumula el \(t\%\), \(c_k\) es la amplitud del intervalo que acumula el \(t\%\), \(N_{k-1}\) es la frecuencia absoluta acumulada hasta el intervalo anterior y \(n_k\) es la frecuencia absoluta del intervalo que acumula el \(t\%\).
Calcule los percentiles \(25\) y \(75\) del IMC del grupo de \(450\) pacientes
El análisis gráfico de este tipo de variables se hace a partir de histogramas o diagramas de caja.
Histograma: En el eje \(x\) se encuentran los valores de la variable a analizar y en el eje \(y\) la frecuencia de cada uno de los intervalos.
Boxplot: -La parte central de los datos se ubica en una caja.
-El límite inferior de la caja es el \(P_{25}\).
-La línea central el \(P_{50}\).
-La línea superior el \(P_{75}\).
-Los bigotes generalmente están dados por: \(P_{25}-1.5RI\) y \(P_{75}+1.5RI\), con \(RI=P_{75}-P_{25}\).
-A los datos que se ubican por fuera de los bigotes se les llaman “datos atípicos”.
¿Cuál de las medidas de tendencia central en las más apropiada en los siguientes conjuntos de datos?
#La siguiente base de datos contiene la información de un grupo de 31 pacientes que pertenecen a un programa de pacientes de enfermedades crónicas. Durante una prueba de esfuerzo, se midieron sus pulsaciones (antes, durante y después), edad, tiempo de la prueba, peso y oxigenación.
# No olviden direccionar a la carpeta en donde se encuentra grabado el archivo, en mi caso:
#setwd("C:\\Users\\lange\\Google Drive\\Sabana 2019\\II-2019\\Electiva")
# Los datos vienen un archivo tipo csv, separado por ";", para leerlos:
c_aerobica<-read.table("capacidad_aerobica.csv",h=T, sep=";")
names(c_aerobica)
## [1] "edad" "peso" "Oxig" "Tiempo"
## [5] "Pulso_reposo" "Pulso_corriend" "Pulso_maximo"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 59.08 73.20 77.45 77.44 82.33 91.63
## 25% 75%
## 73.200 82.325
#percentil 75. ¿Cómo se interpreta?
#El siguiente parámetro gráfico permite dividir la ventana gráfica en una fila por dos columnas
par(mfrow=c(1,2))
#Histograma
hist(c_aerobica$peso, xlab="Peso (kg)", ylab="Frecuencia", main="")
#Boxplot
boxplot(c_aerobica$peso, ylab="Peso (kg)", main="")
Haga el análisis descriptivo visto hasta el momento para las varibles que aplique en la base de datos de capacidad aeróbica.