1. Determinar y justificar si las siguientes afirmaciones son Falsas o Verdaderas.
# datos
x <- c(0, 30, 30, 30)
# promedio
mean(x)
## [1] 22.5
# datos
x <- c(0, 3, 3)
# promedio
mean(x)
## [1] 2

  1. Yanowitz, en In-use Emissions From Heavy-Duty Diesel Vehicles, investigó los factores que afectan las emisiones de un vehículo diesel, y obtuvo datos acerca de la emisión de partículas para una muestra de 138 vehículos conducidos en bajas altitudes (cerca del nivel del mar) y para una muestra de 62 vehículos conducidos a grandes altitudes (aproximadamente a una milla del nivel del mar). Todos los vehículos se fabricaron entre 1991 y 1996. Las muestras contenían proporciones parecidas de vehículos de bajo y alto kilometraje. Los datos, en unidades de gramos de partículas por galón de combustible consumido, se presentan en el archivo EP.txt. En esta base de datos, “emisión” es la variable emisión de partículas (en unidades de gr/gal) y “altitud” es la variable altitud a la que se conduce el vehículo (0 = baja; 1 = alta). A grandes altitudes, la presión barométrica es más baja, así la razón de eficiencia aire/combustible también es más baja. Por esta razón se pensó que la emisión de partículas podría ser mayor a grandes a altitudes.
Altitud \(n\) Mín. Cuar. 1 Cuar. 2 Cuar. 3 Máx. Media DE CV
Baja 138 0.250 1.472 3.180 5.265 11.230 3.715 2.558 0.689
Alta 62 1.110 3.487 5.750 7.755 23.380 6.596 4.519 0.685

DE: Desviación Estándar. CV: Coeficiente de Variación.

# importar base de datos en el objeto llamado base_de_datos
base_de_datos <- read.table(file = "C:/Users/Juan Camilo/Dropbox/UN/probabilidad_estadistica/EP.txt", header = TRUE)

# extraer los valores de emision con altitud baja en el objeto llamado baja
baja <- base_de_datos$emision[base_de_datos$altitud == 0]

# extraer los valores de emision con altitud alta en el objeto llamado alta
alta <- base_de_datos$emision[base_de_datos$altitud == 1]

# tamaños de la muestra
n_baja <- length(baja)
n_baja
## [1] 138
n_alta <- length(alta)
n_alta
## [1] 62
# medida de tendencia
summary(baja)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.250   1.472   3.180   3.715   5.265  11.230
summary(alta)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.110   3.487   5.750   6.596   7.755  23.380
# medidas de dispersión
sd(baja)
## [1] 2.55804
sd(alta)
## [1] 4.518998
sd(baja)/mean(baja)
## [1] 0.6886513
sd(alta)/mean(alta)
## [1] 0.685065

Las medidas de tendencia y localización indican que la emisión de partículas podría ser mayor a grandes a altitudes, dado que en grandes alturas estas medidas son claramente superiores. Sin embargo, ambos conjuntos de datos tienen una alta dispersión respecto al promedio, dado que el CV es aproximadamente 68% en ambos casos. Por lo tanto, se recomienda un análisis más profundo usando métodos gráficos e inductivos.

  1. El artículo Computing and Using Rural versus Urban Measures in Statistical Applications (C. Goodall, K. Kafadar y J. Tukey, The American Statistician, 1998:101-111) analiza los métodos para medir el grado a los cuales los condados de los Estados Unidos son urbanos más que rurales. La siguiente tabla de frecuencias presenta las frecuencias de población de los condados de los Estados Unidos.
Población (en miles) Marcas de clase No. de condados F. Relativa (%) F. A. Acumulada F. R. Acumulada (%)
0.064 – 5.405 2.735 305 9.94 305 9.94
5.405 – 8.780 7.092 294 9.58 599 19.52
8.780 – 12.417 10.598 331 10.79 930 30.31
12.417 – 16.384 14.401 286 9.32 1216 39.63
16.384 – 21.619 19.002 306 9.97 1522 49.61
21.619 – 28.526 25.072 273 8.90 1795 58.51
28.526 – 40.342 34.434 334 10.89 2129 69.39
40.342 – 65.536 52.939 326 10.63 2455 80.02
65.536 – 131.072 98.304 290 9.45 2745 89.47
131.072 – 8388.608 4259.840 323 10.53 3068 100
Total N.A. 3068 100 N.A. N.A.
# limite inferior
li <- c(0.064,5.405,8.780,12.417,16.384,21.619,28.526,40.342,65.536,131.072)
# limite superior
ls <- c(5.405,8.780,12.417,16.384,21.619,28.526,40.342,65.536,131.072,8388.608)
# marcas de clase
yj <- (li + ls)/2
yj
##  [1]    2.7345    7.0925   10.5985   14.4005   19.0015   25.0725   34.4340
##  [8]   52.9390   98.3040 4259.8400
# frecuencias absolutas
nj <- c(305,294,331,286,306,273,334,326,290,323)
# tamaño de la muestra
n <- sum(nj)
n
## [1] 3068
# frecuencias relativas
hj <- nj/n
100*hj
##  [1]  9.941330  9.582790 10.788787  9.322034  9.973924  8.898305 10.886571
##  [8] 10.625815  9.452412 10.528031
# frecuencias absolutas acumuladas
Nj <- cumsum(nj)
Nj
##  [1]  305  599  930 1216 1522 1795 2129 2455 2745 3068
# frecuencias relativas acumuladas
Hj <- Nj/n
100*Hj
##  [1]   9.94133  19.52412  30.31291  39.63494  49.60887  58.50717  69.39374
##  [8]  80.01956  89.47197 100.00000
Medida Valor
Media 474.70
Mediana 21.92
Moda 38.97
CV 273.61%

Las fórmulas para calcular estas medidas son:

Media: \[\textsf{Media}(y)\approx\frac{1}{n}\sum_{j=1}^{m}n_jy_{j}=\sum_{j=1}^{m}h_jy_j\]

# media
media <- sum(nj*yj)/n
media
## [1] 474.7069
# otra manera
sum(hj*yj)
## [1] 474.7069

Mediana: \[ \textsf{Mediana}(y) \approx y'_{k-1}+a_k\left(\frac{0.5\,n-N_{k-1}}{n_k}\right) \] donde \(k\) es el índice del primer intervalo cuya frecuencia relativa acumulada es mayor o igual a \(50\%\). En este caso \(k=6\).

# indice primer intervalo tal que Hj > 0.5
k <- 6
# mediana
mediana <- li[k] + (ls[k]-li[k])*((0.5*n - Nj[k-1])/nj[k])
mediana
## [1] 21.9226

Moda: \[ \textsf{Moda}(y)=y'_{k-1}+a_k\left(\frac{n_k-n_{k-1}}{2n_k-n_{k-1}-n_{k+1}}\right) \] donde \(k\) es el índice del(de los) interlo(s) con mayor frecuencia. En este caso \(k = 7\).

# indice intervalo con mayor frecuencia
k <- 7
# moda
moda <- li[k] + (ls[k]-li[k])*((nj[k] - nj[k-1])/(2*nj[k] - nj[k-1] - nj[k+1]))
moda
## [1] 38.97203

Varianza: \[ \textsf{Varianza}(y) = \frac{1}{n-1}\sum_{j=1}^mn_j\,(y_i-\bar{y})^2 \] donde \(y_j\) y \(n_j\) son las marcas de clase y las frecuencias absolutas, respectivamente. Así, se tiene que el coeficiente de variación correspondiente es: \[ \textsf{CV}(y) = \left|\frac{\sqrt{\textsf{Varianza}(y)}}{\textsf{Media}(y)}\right|*100\%\,. \]

# varianza
varianza <- sum(nj*(yj - media)^2)/(n-1)
abs(sqrt(varianza)/media)*100
## [1] 273.6193

Dados los valores de las medidas estadísticas, se observa que la distribución de la población tiene un sesgo positivo. Este sesgo se puede ver algo enmascarado por los valores de las frecuencias relativas porque estas parecen tomar valores más o menos uniformes, pero se debe notar que las amplitudes de los intervalos no son iguales. Por eso se recomienda calcular la densidad de cada intervalo \(d_j = h_j/a_j\) y hacer el gráfico correspondiente (denominado histograma) como sigue:

# amplitudes
aj <- ls - li
aj
##  [1]    5.341    3.375    3.637    3.967    5.235    6.907   11.816   25.194
##  [9]   65.536 8257.536
# densidades
dj <- hj/aj
dj
##  [1] 0.0186132370 0.0283934521 0.0296639744 0.0234989511 0.0190523866
##  [6] 0.0128830246 0.0092134149 0.0042175974 0.0014423236 0.0000127496
# histograma
barplot(height = dj, border = "gray20", col = "gray95", ylab = "Densidad", xlab = "Población (miles)")

La amplitud de los intervalos de este gráfico no están a escala y se representan con un valor constante para facilitar la visualización, dado que las últimas categorías tienen una amplitud muy grande.

De otra parte, se observa que la dispersión de la distribución de la población es muy alta dado que el CV >> 15%, lo cual se puede explicar por el sesgo que presenta la distribución.

  1. Una muestra de temperaturas para iniciar una cierta reacción química dio un promedio muestral (C) de 87.3 y una desviación estándar muestral de (C) 1.04. ¿Cuáles son el promedio muestral y la desviación estándar medidos en F?

Sea \(X\) = “la temperatura de la reacción en grados centigrados” y \(Y\) = “la temperatura de la reacción en grados Fahrenheit”. En este caso se tiene que \(Y = \tfrac95 X + 32\), y por lo tanto, \(\bar{Y} = \tfrac95\bar{X} + 32\). Así, se tiene que el promedio de la reacción química en grados Fahrenheit es \(\bar{y} = \tfrac95\,(87.3) + 32 = 189.14\), con una desviación estándar de \(s_y = \sqrt{\left(\tfrac95\right)^2\,(1.04^2)} = 1.872\).

# promedio en grados Fahrenheit
(9/5)*(87.3) + 32 
## [1] 189.14
# desviación en grados Fahrenheit
sqrt((9/5)^2*1.04^2)
## [1] 1.872
  1. Sean \(X\) y \(Y\) dos variables tales que: \[ \sum_{i=1}^{10} x_i = 110, \quad \sum_{i=1}^{10} y_i = 60, \quad \sum_{i=1}^{10} x_i^2 = 3156 \quad \text{y}\quad \sum_{i=1}^{10} y_i^2 = 1138. \] Para cada variable calcular el coeficiente de variación. Interpretar y comparar los resultados obtenidos.

Tendiendo en cuanta que el promedio de una variable \(X\) para datos sin agrupar se puede calcular con la fórmula \[ \bar{x} = \frac{1}{n}\sum_{i=1}^n x_i \] y que además, la varianza (muestral) correspondiente se puede calcular con la fórmula \[ s^2 = \frac{1}{n-1} \sum_{i=1}^{n}(x_i-\bar{x})^2 = \frac{1}{n-1}\left( \sum_{i=1}^{n} x_i^2 - n\bar{x}^2 \right) \] se tiene que: \[ \bar{x} = 11\qquad\text{y}\qquad s_x^2=216.222 \] y \[ \bar{y} = 6 \qquad\text{y}\qquad s_y^2=86.444 \] Por lo tanto, los coeficientes de variación correspondientes son: \[ CV_x = 133.67\%\qquad\text{y}\qquad CV_y = 154.95\%\,. \] Así, ambos conjuntos de datos tienen un alto grado de heterogeneidad respecto al promedio. Sin embargo, la variabilidad de la variable \(Y\) es un poco más alta que la de \(X\).

# tamaño de muestra
n <- 10
# suma de valores
suma_x <- 110
suma_y <- 60
# suma de valores al cuadrado
suma_x2 <- 3156
suma_y2 <- 1138
# promedios
xb <- suma_x/n
xb
## [1] 11
yb <- suma_y/n
yb
## [1] 6
# varianzas
vx <- (suma_x2 - n*xb^2)/(n-1)
vx
## [1] 216.2222
vy <- (suma_y2 - n*yb^2)/(n-1)
vy
## [1] 86.44444
# coeficientes de variacion
sqrt(vx)/xb*100
## [1] 133.6772
sqrt(vy)/yb*100
## [1] 154.9592
  1. En cierta región la distribución de predios por extensión tiene una media de 35.4 hectáreas y una desviación típica de 19.33 hectáreas, mientras que la distribución por canon de arrendamiento tiene una media de $245,750 y una desviación de $7,470. ¿Cual de las dos distribuciones tiene mayor variabilidad? ¿Por qué?

En este caso se tienen dos variables, a saber \(X\) = “extensión de los predios” (en hectáreas) y \(Y\) = “canon de arrendamiento” (en pesos). De acuerdon la información, el promedio y la desviación estándar correspondientes son: \[ \bar{x} = 35.4\qquad\text{y}\qquad s_x=19.33 \] y \[ \bar{y} = 245750 \qquad\text{y}\qquad s_y=7470 \] Por lo tanto, los coeficientes de variación correspondientes son: \[ CV_x = 54.60\%\qquad\text{y}\qquad CV_y = 3.03\%\,. \] Así, la variabilidad relativa respecto al promedio de la variable \(Y\) es considerablemente menor, en comparación con la variabilidad de la varaible \(X\).

# CV de x
19.33/35.4*100
## [1] 54.60452
# CV de y
7470/245750*100
## [1] 3.039674