Las variables aleatorias cuantitativas se pueden resumir con cuatro tipos de medidas, que permiten determinar el comportamiento de las mismas en la muestra o población observada:
Dado que en general no se acostumbra a medir toda la población (censo), generalmente las mediciones se hacen sobre una muestra, por lo que las medidas que se presentan a continuación son denominadas “muestrales”.
En esta sección el estudiante comprenderá:
Asumiendo que la variable de interés es \(X\) y que los valores observados en la muestra son \(x_1\),\(x_2\),,\(x_n\), la media aritmética es el valor que se ubica justo en el “centro de gravedad” de los datos, el cual se define como: \[M(x)=\bar{x}=\frac{1}{n}\sum_{i=1}^{n}x_i\]
Los siguientes datos corresponden a la resistencia a la flexión (en megapascales, MPa = \(10^6\) Pa, con Pa = Newton/m\(^2\)) de un determinado tipo de concreto de alto desempeño obtenido con el uso de superplastificantes y ciertos aglomerantes (ver Magazine of Concrete Research, 1997, p. 81-98, para más detalles):
5.9, 7.2, 7.3, 6.3, 8.1, 6.8, 7.0, 7.6, 6.8, 6.5, 7.0, 6.3, 7.9, 9.0, 8.2, 8.7, 7.8, 9.7, 7.4, 7.7, 9.7, 7.8, 7.7, 11.6, 11.3, 11.8, 10.7.
Calcular la resistencia a la flexión promedio.
El tamaño de la muestra es \(n=27\), y además, el promedio de resistencia a la flexión correspondiente está dado por: \[ M(x) = \frac{1}{27}(5.9 + 7.2 + \ldots + 10.7) = 8.141\,. \]
# resistencias
x <- c(5.9, 7.2, 7.3, 6.3, 8.1, 6.8, 7.0, 7.6, 6.8, 6.5, 7.0, 6.3, 7.9, 9.0,
8.2, 8.7, 7.8, 9.7, 7.4, 7.7, 9.7, 7.8, 7.7, 11.6, 11.3, 11.8, 10.7)
# tamaño de la muestra
length(x)## [1] 27
## [1] 8.140741
## [1] 8.140741
De 500 estudiantes cuya estatura promedio es 1.57 metros, 150 son mujeres. Si la estatura promedio de las mujeres es 1.52 metros, ¿cuál es la estatura promedio de los hombres?
En este caso \(n=500\) (total de individuos en la muestra), \(n_1=150\) (total de mujeres), y \(n_2=500-150=350\) (total de hombres). Además, el promedio “global” es \(\bar{x} = 1.57\) y el promedio de las mujeres es \(\bar{x}_1 = 1.52\). Si \(\bar{x}_2\) denota el promedio de los hombres, entonces: \[ \bar{x} = \frac{n_1\bar{x}_1 + n_2\bar{x}_2}{n} \quad\Rightarrow\quad \bar{x}_2 = \frac{(1.57)(500) - (150)(1.52)}{350}=1.591\,. \] Así, el promedio de los hombres es 1.591 metros.
## [1] 1.591429
En algunas ocasiones no se dispone de los datos de cada individuo, sino de una tabla de resumen con los conteos obtenidos para cada valor de la variable, así:
| Valor | F. Absoluta | F. Relativa |
|---|---|---|
| \(y_1\) | \(n_1\) | \(h_1\) |
| \(y_2\) | \(n_2\) | \(h_2\) |
| \(\vdots\) | \(\vdots\) | \(\vdots\) |
| \(y_m\) | \(n_m\) | \(h_m\) |
| Total | \(n\) | \(1\) |
Así, el promedio de la variable \(y\) está dado por: \[M(y)=\bar{y}=\frac{1}{n}\sum_{j=1}^{m}\sum_{i=1}^{n_j}y_{ij}=\frac{1}{n}\sum_{j=1}^{m}n_jy_{j}=\sum_{j=1}^{m}h_jy_j\]
Suponga que a un grupo de \(200\) estudiantes se le indagó sobre el número de hermanos (\(y\)). Los resultados fueron los siguientes:
| \(y_j\) | \(n_j\) | \(h_j\) |
|---|---|---|
| 0 | 38 | |
| 1 | 67 | |
| 2 | 44 | |
| 3 | 32 | |
| 4 | 11 | |
| 5 | 8 | |
| Total | 200 |
El número promedio de hermanos para estos \(n=200\) estudiantes es de \(1.675\), ya que \[M(y)=\frac{1}{200}(0*38+1*67+2*44+3*32+4*11+5*8)=\frac{335}{200}=1.675\]
Note que el valor del promedio no es necesariamente un valor plausible de la variable, ya que no es posible tener \(1.675\) hermanos.
# número de hermanos
y <- c(0, 1, 2, 3, 4, 5)
# frecuencia absoluta
nj <- c(38, 67, 44, 32, 11, 8)
# tamaño de la muestra
sum(nj)## [1] 200
## [1] 0.190 0.335 0.220 0.160 0.055 0.040
## [1] 1.675
## [1] 1.675
Para las variables continuas, es posible que la información disponible se encuentre en una tabka con datos agrupados por intervalos:
| Intervalo | Marca de clase | F. Absoluta | F. Relativa |
|---|---|---|---|
| \(y'_{0}-y'_{1}\) | \(y_1\) | \(n_1\) | \(h_1\) |
| \(y'_{1}-y'_{2}\) | \(y_2\) | \(n_2\) | \(h_2\) |
| \(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) |
| \(y'_{m-1}-y'_{m}\) | \(y_m\) | \(n_m\) | \(h_m\) |
Donde \(y_j=\frac{y'_{j-1}+y'_{j}}{2}\) es la marca de clase del intervalo \(j\) y el promedio se calcula como:
\[M(y)=\bar{y}\approx \frac{1}{n}\sum_{j=1}^{m}n_jy_{j}=\sum_{j=1}^{m}h_jy_j\] ¿En la fórmula anterior, por qué se utiliza \(\approx\) en lugar de \(=\)?
La siguiente tabla resume con intervalos el peso (en kg) de una muestra de materiales:
| \((y'_{j-1}-y'_{j}]\) | \(y_j\) | \(n_j\) |
|---|---|---|
| \(15-16\) | \(15.5\) | \(2\) |
| \(16-17\) | \(16.5\) | \(5\) |
| \(17-18\) | \(17.5\) | \(29\) |
| \(18-19\) | \(18.5\) | \(76\) |
| \(19-20\) | \(19.5\) | \(118\) |
| \(20-21\) | \(20.5\) | \(96\) |
| \(21-22\) | \(21.5\) | \(83\) |
| \(22-23\) | \(22.5\) | \(37\) |
| \(23-24\) | \(23.5\) | \(4\) |
Calcular la media asociada con este conjunto de datos agrupados.
El número de intervalos es \(m=9\) y el tamaño de la muestra es \(n=\sum_{j=1}^{m} n_j = 450\). De este modo, la media asociada con este conjunto de datos agrupados está dada por: \[M(y)\approx\frac{1}{n}\sum_{j=1}^{n}n_j\,y_{j}=\frac{1}{450}\left( (2)(15.5) + (5)(16.5) + \ldots + (4)(23.5) \right)=20.015\,.\] Por lo tanto, el peso promedio de este grupo de materiales es 20.015 kg.
# limite inferior de los intervalos
li <- 15:23
# limite superior de los intervalos
ls <- 16:24
# marca de clase
yj <- (li+ls)/2
print(yj)## [1] 15.5 16.5 17.5 18.5 19.5 20.5 21.5 22.5 23.5
## [1] 9
## [1] 450
## [1] 0.004444444 0.011111111 0.064444444 0.168888889 0.262222222 0.213333333
## [7] 0.184444444 0.082222222 0.008888889
## [1] 20.01556
## [1] 20.01556
La media aritmética otorga igual “importancia” (ponderación o peso) a cada observación: \(1/n\). Sin embargo, en algunas ocasiones la importancia relativa de los datos no es la misma, por lo que los datos son ponderados de tal forma que esta importancia se ve reflejada en las medidas estadísticas correspondientes.
La media aritmética ponderada es un promedio que tiene en cuenta la importancia relativa de cada uno de los datos y se calcula como: \[ M(x)=\frac{\sum_{i} w_i x_i}{\sum_{i} w_i} \] donde \(w_i\) es la ponderación y \(x_i\) es el dato, la clase o la marca de clase correspondiente. El límite superior de las sumatorias de la fórmula anterior depende de si se dispone de datos agrupados o no agrupados.
Las calificaciones de un estudiante están conformadas de acuerdo con la información que se presenta en la siguiente tabla. Calcular la calificación promedio del estudiante.
| Actividad | Calificación | Valor |
|---|---|---|
| Examen | 4.5 | 40% |
| Trabajo | 1.0 | 10% |
| Investigación | 3.5 | 50% |
Observe que las actividades académicas no tienen el mismo peso en la evaluación. Por lo tanto, siguiendo la fórmula del promedio ponderado se obtiene que el promedio del estudiante es: \[ M(x) = \frac{\sum_{i} w_i x_i}{\sum_{i} w_i} = \frac{(4.5)(0.4) + (1.0)(0.10) + (3.5)(0.50) }{0.40 + 0.10 + 0.5} =3.65. \] Luego, el promedio del estudiante en esta asignatura es 3.65.
## [1] 0.4 0.1 0.5
## [1] 3.65
La mediana o percentil 50 del conjunto de datos \(x_1,x_2,\ldots, x_n\) corresponde al dato cuyo valor acumula el \(50\%\) de los datos, y se calcula como:
\[ P_{50}= \begin{cases} x_{\left(\frac{n+1}{2}\right)} & \text{si $n$ es impar}\\ \frac{x_{\left(\frac{n}{2}\right)}+x_{\left(\frac{n}{2}+1\right)}}{2} & \text{si $n$ es par} \end{cases} \] donde \(x_{(i)}\) es la observación que ocupa la \(i\)-ésima posición del conjunto de datos ordenado ascendentemente.
Calcular e interpretar la mediana del conjunto de datos asociados con el concreto de alto desempeño.
Dado que el tamaño de la muestra es un número impar, \(n=27\), se tiene que la mediana corresponde a la observación ubicada en la posición \(\frac{n+1}{2}=14\) del conjunto de datos ordenados ascendentemente, esto es, \(P_{50} = x_{(14)} = 7.7\). Por lo tanto, el 50% de las resistencias a la flexión es menor (mayor) o igual a 7.7. Además, observe que en este caso la mediana (7.7) es ligeramente inferior que la media (8.141), lo cual sugiere que la distribución de las resistencias presenta un leve sesgo positivo (a la derecha).
# resistencias
x <- c(5.9, 7.2, 7.3, 6.3, 8.1, 6.8, 7.0, 7.6, 6.8, 6.5, 7.0, 6.3, 7.9, 9.0,
8.2, 8.7, 7.8, 9.7, 7.4, 7.7, 9.7, 7.8, 7.7, 11.6, 11.3, 11.8, 10.7)
# tamaño de la muestra
n <- length(x)
print(n)## [1] 27
## [1] 14
# ordenar datos ascendentemente
x <- sort(x, decreasing = FALSE)
# mediana, dato en la posicion (n+1)/2
x[pos]## [1] 7.7
## [1] 7.7
## 50%
## 7.7
Los datos de la siguiente tabla corresponden al número de hijos de una muestra de empleados de una empresa. Calcular e interpretar la mediana.
| Número de hijos | 0 | 1 | 2 | 3 | 4 | Total |
|---|---|---|---|---|---|---|
| F. Absoluta | 12 | 12 | 6 | 4 | 6 | 40 |
El tamaño de la muestra es \(n=40\). Ahora, debido a que el total de datos es par y que los datos de la tabla están organizados ascendentemente, se tiene que la mediana es el valor ubicado entre las observaciones de las posiciones \(\frac{n}{2} = 20\) y \(\frac{n}{2} + 1 = 21\). Por lo tanto, la mediana es \(P_{50} = \frac{1+1}{2} = 1\). Este valor indica que la mitad de los empleados no tienen hijos o tienen uno solo.
# numero de hijos
y <- 0:4
# frecuencia absoluta
nj <- c(12, 12, 6, 4, 6)
# tamaño de la muestra
n <- sum(nj)
print(n)## [1] 40
## [1] 20
## [1] 21
## [1] 12 24 30 34 40
## [1] 1
Cuando los datos están agrupados en una tabla de frecuencias por intervalos, el cálculo de la mediana es como sigue: \[P_{50}\approx y'_{k-1}+a_k\left(\frac{0.5\,n-N_{k-1}}{n_k}\right)\] donde: \[\begin{align*} &k && \text{índice del primer intervalo cuya frecuencia relativa acumulada es mayor o igual a $50\%$.} \\ &y'_{k-1} && \text{límite inferior del intervalo.} \\ &a_k && \text{amplitud del intervalo.} \\ &n_k && \text{frecuencia absoluta del intervalo.} \\ &N_{k-1} && \text{frecuencia absoluta acumulada del intervalo anterior.} \end{align*}\]
Calcular la mediana del peso de la muestra de materiales.
El índice del intervalo que acumula el \(50\%\) de los datos es \(k = 5\), y por lo tanto el intervalo de referencia es \((19,20]\). Así, la mediana correspondiente es: \[P_{50} \approx 19+ (1)\left(\frac{(0.5)(450)-112}{118}\right)=19.958\,.\] Es decir que el \(50\%\) de los materias presentan un peso menor o igual que \(19.958\) kg.
# limite inferior de los intervalos
li <- 15:23
# limite superior de los intervalos
ls <- 16:24
# marca de clase
yj <- (li+ls)/2
print(yj)## [1] 15.5 16.5 17.5 18.5 19.5 20.5 21.5 22.5 23.5
## [1] 9
# frecuencia absoluta
nj <- c(2, 5, 29, 76, 118, 96, 83, 37, 4)
# tamaño de la muestra
n <- sum(nj)
print(n)## [1] 450
## [1] 0.004444444 0.011111111 0.064444444 0.168888889 0.262222222 0.213333333
## [7] 0.184444444 0.082222222 0.008888889
## [1] 0.004444444 0.015555556 0.080000000 0.248888889 0.511111111 0.724444444
## [7] 0.908888889 0.991111111 1.000000000
## [1] 2 7 36 112 230 326 409 446 450
# indice primer intervalo tal que Hj > 0.5
k <- 5
# mediana
li[k] + (ls[k]-li[k])*((0.5*n - Nj[k-1])/nj[k])## [1] 19.95763
# en este caso no se debe utilizar las funciones median y quantile dado que los
# datos estan agrupados en una tablaNota: La media y la mediana coinciden cuando la distribución de los datos es simétrica.
La moda de un conjunto de datos agrupados por intervalos, denotada con \(M_d(x)\) o \(\breve{x}\), corresponde al(a los) valor(res) que maximiza(n) la distribución de frecuencias, para datos agrupados en forma continua:
\[M_d(x)=y'_{k-1}+a_k\left(\frac{n_k-n_{k-1}}{2n_k-n_{k-1}-n_{k+1}}\right)\] donde: \[\begin{align*} &k && \text{índice del(de los) interlo(s) con mayor frecuencia.} \\ &y'_{k-1} && \text{límite inferior del(de los) intervalo(s).} \\ &a_k && \text{amplitud del(de los) intervalo(s).} \\ &n_k && \text{frecuencia absoluta del(de los) intervalo(s).} \\ \end{align*}\]
Calcular la moda del peso de la muestra de materiales.
Las medidas de localización o percetiles son valores que delimitan superiormente un determinado porcentaje de los datos observados.
El percentil \(t\) de un conjunto de datos, denotado con \(P_t\), se define como un valor tal que \(t\%\) de los datos es menor o igual que dicho valor.
Como casos particulares se tienen los cuartiles (percentiles 25, 50 y 75; la mediana es el percentil 50 o cuartil 2).
\[P_t=\left\lbrace\ x\mid H_x=t/100\right\rbrace\]
Calcular e interpretar los cuartiles del conjunto de datos de asociados con el concreto de alto desempeño.
El percentil 25 o cuartil 1 es \(P_{25}=Q_1 = 7.00\), mientras que el percentil 75 o cuartil 3 es \(P_{75} = Q_3 = 7.85\). La mediana está calculada en el Ejemplo 6. Así, por ejemplo, el 25% de la resistencias es menor o igual que 7.00.
# resistencias
x <- c(5.9, 7.2, 7.3, 6.3, 8.1, 6.8, 7.0, 7.6, 6.8, 6.5, 7.0, 6.3, 7.9, 9.0,
8.2, 8.7, 7.8, 9.7, 7.4, 7.7, 9.7, 7.8, 7.7, 11.6, 11.3, 11.8, 10.7)
# percentiles 25 y 75
quantile(x, probs = c(0.25, 0.75))## 25% 75%
## 7.00 8.85
Cuando los datos están agrupados en una tabla de frecuencias por intervalos, el cálculo del percentil \(t\) es como sigue: \[P_{t}=y'_{k-1}+a_k\left(\frac{(n)(t/100) - N_{k-1}}{n_k}\right)\] donde: \[\begin{align*} &k && \text{índice del primer intervalo cuya frecuencia relativa acumulada es mayor o igual a $t\%$.} \\ &y'_{k-1} && \text{límite inferior del intervalo.} \\ &a_k && \text{amplitud del intervalo.} \\ &n_k && \text{frecuencia absoluta del intervalo.} \\ &N_{k-1} && \text{frecuencia absoluta acumulada del intervalo anterior.} \end{align*}\]
Calcular los percentiles \(25\) y \(75\) del peso de la muestra de materiales.