La mitad de las observaciones de una muestra es menor o igual que la media.
FALSO. Considere el conjunto de datos \(x_1=0,x_2=30,x_3=30,x_4=30\). En este caso la media es \(\bar{x}=22.5\), pero tan solo una observación es menor o igual que 22.5.
# datos
x <- c(0, 30, 30, 30)
# promedio
mean(x)
## [1] 22.5
La media de un conjunto de datos es el valor que ocurre con más frecuencia.
FALSO. Considere el conjunto de datos \(x_1 = 0,x_2=3,x_3=3\). En ester caso la media es \(\bar{x}=2\), pero el valor que ocurre con más frecuencia es 3.
# datos
x <- c(0, 3, 3)
# promedio
mean(x)
## [1] 2
La media de una muestra es igual a una de las observaciones de la muestra.
FALSO. Considere el conjunto de datos \(x_1 = 0,x_2=1\). En ester caso la media es \(\bar{x}=0.5\), pero el valor de la media no coincide con ninguna de las observaciones.
Es preferible utilizar un instrumento de medición que genere observaciones con una desviación estándar grande.
FALSO. Si un instrumento de medición genera observaciones con una desviación estándar grande, entonces tales observaciones tienen un alto grado de heterogeneidad respecto al promedio, y en consecuencia las observaciones son poco precisas.
Por lo general, la media y la mediana de un conjunto de datos son valores muy similares.
FALSO. La media y la mediana de un conjunto de datos son valores muy similares, siempre que la distribución de los datos sea aproximadamente simétrica. Si la distribución de los datos es sesgada positivamente(negativamente), entonces la media es mayor(menor) que la mediana.
EP.txt
. En esta base
de datos, “emisión” es la variable emisión de partículas (en unidades de
gr/gal) y “altitud” es la variable altitud a la que se conduce el
vehículo (0 = baja; 1 = alta). A grandes altitudes, la presión
barométrica es más baja, así la razón de eficiencia aire/combustible
también es más baja. Por esta razón se pensó que la emisión de
partículas podría ser mayor a grandes a altitudes.Altitud | \(n\) | Mín. | Cuar. 1 | Cuar. 2 | Cuar. 3 | Máx. | Media | DE | CV |
---|---|---|---|---|---|---|---|---|---|
Baja | 138 | 0.250 | 1.472 | 3.180 | 5.265 | 11.230 | 3.715 | 2.558 | 0.689 |
Alta | 62 | 1.110 | 3.487 | 5.750 | 7.755 | 23.380 | 6.596 | 4.519 | 0.685 |
DE: Desviación Estándar. CV: Coeficiente de Variación.
# importar base de datos en el objeto llamado base_de_datos
base_de_datos <- read.table(file = "C:/Users/Juan Camilo/Dropbox/UN/probabilidad_estadistica/EP.txt", header = TRUE)
# extraer los valores de emision con altitud baja en el objeto llamado baja
baja <- base_de_datos$emision[base_de_datos$altitud == 0]
# extraer los valores de emision con altitud alta en el objeto llamado alta
alta <- base_de_datos$emision[base_de_datos$altitud == 1]
# tamaños de la muestra
n_baja <- length(baja)
n_baja
## [1] 138
n_alta <- length(alta)
n_alta
## [1] 62
# medida de tendencia
summary(baja)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.250 1.472 3.180 3.715 5.265 11.230
summary(alta)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.110 3.487 5.750 6.596 7.755 23.380
# medidas de dispersión
sd(baja)
## [1] 2.55804
sd(alta)
## [1] 4.518998
sd(baja)/mean(baja)
## [1] 0.6886513
sd(alta)/mean(alta)
## [1] 0.685065
Las medidas de tendencia y localización indican que la emisión de partículas podría ser mayor a grandes a altitudes, dado que en grandes alturas estas medidas son claramente superiores. Sin embargo, ambos conjuntos de datos tienen una alta dispersión respecto al promedio, dado que el CV es aproximadamente 68% en ambos casos. Por lo tanto, se recomienda un análisis más profundo usando métodos gráficos e inductivos.
Población (en miles) | Marcas de clase | No. de condados | F. Relativa (%) | F. A. Acumulada | F. R. Acumulada (%) |
---|---|---|---|---|---|
0.064 – 5.405 | 2.735 | 305 | 9.94 | 305 | 9.94 |
5.405 – 8.780 | 7.092 | 294 | 9.58 | 599 | 19.52 |
8.780 – 12.417 | 10.598 | 331 | 10.79 | 930 | 30.31 |
12.417 – 16.384 | 14.401 | 286 | 9.32 | 1216 | 39.63 |
16.384 – 21.619 | 19.002 | 306 | 9.97 | 1522 | 49.61 |
21.619 – 28.526 | 25.072 | 273 | 8.90 | 1795 | 58.51 |
28.526 – 40.342 | 34.434 | 334 | 10.89 | 2129 | 69.39 |
40.342 – 65.536 | 52.939 | 326 | 10.63 | 2455 | 80.02 |
65.536 – 131.072 | 98.304 | 290 | 9.45 | 2745 | 89.47 |
131.072 – 8388.608 | 4259.840 | 323 | 10.53 | 3068 | 100 |
Total | N.A. | 3068 | 100 | N.A. | N.A. |
# limite inferior
li <- c(0.064,5.405,8.780,12.417,16.384,21.619,28.526,40.342,65.536,131.072)
# limite superior
ls <- c(5.405,8.780,12.417,16.384,21.619,28.526,40.342,65.536,131.072,8388.608)
# marcas de clase
yj <- (li + ls)/2
yj
## [1] 2.7345 7.0925 10.5985 14.4005 19.0015 25.0725 34.4340
## [8] 52.9390 98.3040 4259.8400
# frecuencias absolutas
nj <- c(305,294,331,286,306,273,334,326,290,323)
# tamaño de la muestra
n <- sum(nj)
n
## [1] 3068
# frecuencias relativas
hj <- nj/n
100*hj
## [1] 9.941330 9.582790 10.788787 9.322034 9.973924 8.898305 10.886571
## [8] 10.625815 9.452412 10.528031
# frecuencias absolutas acumuladas
Nj <- cumsum(nj)
Nj
## [1] 305 599 930 1216 1522 1795 2129 2455 2745 3068
# frecuencias relativas acumuladas
Hj <- Nj/n
100*Hj
## [1] 9.94133 19.52412 30.31291 39.63494 49.60887 58.50717 69.39374
## [8] 80.01956 89.47197 100.00000
Medida | Valor |
---|---|
Media | 474.70 |
Mediana | 21.92 |
Moda | 38.97 |
CV | 273.61% |
Las fórmulas para calcular estas medidas son:
Media: \[\textsf{Media}(y)\approx\frac{1}{n}\sum_{j=1}^{m}n_jy_{j}=\sum_{j=1}^{m}h_jy_j\]
# media
media <- sum(nj*yj)/n
media
## [1] 474.7069
# otra manera
sum(hj*yj)
## [1] 474.7069
Mediana: \[ \textsf{Mediana}(y) \approx y'_{k-1}+a_k\left(\frac{0.5\,n-N_{k-1}}{n_k}\right) \] donde \(k\) es el índice del primer intervalo cuya frecuencia relativa acumulada es mayor o igual a \(50\%\). En este caso \(k=6\).
# indice primer intervalo tal que Hj > 0.5
k <- 6
# mediana
mediana <- li[k] + (ls[k]-li[k])*((0.5*n - Nj[k-1])/nj[k])
mediana
## [1] 21.9226
Moda: \[ \textsf{Moda}(y)=y'_{k-1}+a_k\left(\frac{n_k-n_{k-1}}{2n_k-n_{k-1}-n_{k+1}}\right) \] donde \(k\) es el índice del(de los) interlo(s) con mayor frecuencia. En este caso \(k = 7\).
# indice intervalo con mayor frecuencia
k <- 7
# moda
moda <- li[k] + (ls[k]-li[k])*((nj[k] - nj[k-1])/(2*nj[k] - nj[k-1] - nj[k+1]))
moda
## [1] 38.97203
Varianza: \[ \textsf{Varianza}(y) = \frac{1}{n-1}\sum_{j=1}^mn_j\,(y_i-\bar{y})^2 \] donde \(y_j\) y \(n_j\) son las marcas de clase y las frecuencias absolutas, respectivamente. Así, se tiene que el coeficiente de variación correspondiente es: \[ \textsf{CV}(y) = \left|\frac{\sqrt{\textsf{Varianza}(y)}}{\textsf{Media}(y)}\right|*100\%\,. \]
# varianza
varianza <- sum(nj*(yj - media)^2)/(n-1)
abs(sqrt(varianza)/media)*100
## [1] 273.6193
Dados los valores de las medidas estadísticas, se observa que la distribución de la población tiene un sesgo positivo. Este sesgo se puede ver algo enmascarado por los valores de las frecuencias relativas porque estas parecen tomar valores más o menos uniformes, pero se debe notar que las amplitudes de los intervalos no son iguales. Por eso se recomienda calcular la densidad de cada intervalo \(d_j = h_j/a_j\) y hacer el gráfico correspondiente (denominado histograma) como sigue:
# amplitudes
aj <- ls - li
aj
## [1] 5.341 3.375 3.637 3.967 5.235 6.907 11.816 25.194
## [9] 65.536 8257.536
# densidades
dj <- hj/aj
dj
## [1] 0.0186132370 0.0283934521 0.0296639744 0.0234989511 0.0190523866
## [6] 0.0128830246 0.0092134149 0.0042175974 0.0014423236 0.0000127496
# histograma
barplot(height = dj, border = "gray20", col = "gray95", ylab = "Densidad", xlab = "Población (miles)")
La amplitud de los intervalos de este gráfico no están a escala y se
representan con un valor constante para facilitar la visualización, dado
que las últimas categorías tienen una amplitud muy grande.
De otra parte, se observa que la dispersión de la distribución de la población es muy alta dado que el CV >> 15%, lo cual se puede explicar por el sesgo que presenta la distribución.
Sea \(X\) = “la temperatura de la reacción en grados centigrados” y \(Y\) = “la temperatura de la reacción en grados Fahrenheit”. En este caso se tiene que \(Y = \tfrac95 X + 32\), y por lo tanto, \(\bar{Y} = \tfrac95\bar{X} + 32\). Así, se tiene que el promedio de la reacción química en grados Fahrenheit es \(\bar{y} = \tfrac95\,(87.3) + 32 = 189.14\), con una desviación estándar de \(s_y = \sqrt{\left(\tfrac95\right)^2\,(1.04^2)} = 1.872\).
# promedio en grados Fahrenheit
(9/5)*(87.3) + 32
## [1] 189.14
# desviación en grados Fahrenheit
sqrt((9/5)^2*1.04^2)
## [1] 1.872
Tendiendo en cuanta que el promedio de una variable \(X\) para datos sin agrupar se puede calcular con la fórmula \[ \bar{x} = \frac{1}{n}\sum_{i=1}^n x_i \] y que además, la varianza (muestral) correspondiente se puede calcular con la fórmula \[ s^2 = \frac{1}{n-1} \sum_{i=1}^{n}(x_i-\bar{x})^2 = \frac{1}{n-1}\left( \sum_{i=1}^{n} x_i^2 - n\bar{x}^2 \right) \] se tiene que: \[ \bar{x} = 11\qquad\text{y}\qquad s_x^2=216.222 \] y \[ \bar{y} = 6 \qquad\text{y}\qquad s_y^2=86.444 \] Por lo tanto, los coeficientes de variación correspondientes son: \[ CV_x = 133.67\%\qquad\text{y}\qquad CV_y = 154.95\%\,. \] Así, ambos conjuntos de datos tienen un alto grado de heterogeneidad respecto al promedio. Sin embargo, la variabilidad de la variable \(Y\) es un poco más alta que la de \(X\).
# tamaño de muestra
n <- 10
# suma de valores
suma_x <- 110
suma_y <- 60
# suma de valores al cuadrado
suma_x2 <- 3156
suma_y2 <- 1138
# promedios
xb <- suma_x/n
xb
## [1] 11
yb <- suma_y/n
yb
## [1] 6
# varianzas
vx <- (suma_x2 - n*xb^2)/(n-1)
vx
## [1] 216.2222
vy <- (suma_y2 - n*yb^2)/(n-1)
vy
## [1] 86.44444
# coeficientes de variacion
sqrt(vx)/xb*100
## [1] 133.6772
sqrt(vy)/yb*100
## [1] 154.9592
En este caso se tienen dos variables, a saber \(X\) = “extensión de los predios” (en hectáreas) y \(Y\) = “canon de arrendamiento” (en pesos). De acuerdon la información, el promedio y la desviación estándar correspondientes son: \[ \bar{x} = 35.4\qquad\text{y}\qquad s_x=19.33 \] y \[ \bar{y} = 245750 \qquad\text{y}\qquad s_y=7470 \] Por lo tanto, los coeficientes de variación correspondientes son: \[ CV_x = 54.60\%\qquad\text{y}\qquad CV_y = 3.03\%\,. \] Así, la variabilidad relativa respecto al promedio de la variable \(Y\) es considerablemente menor, en comparación con la variabilidad de la varaible \(X\).
# CV de x
19.33/35.4*100
## [1] 54.60452
# CV de y
7470/245750*100
## [1] 3.039674