1. Determinar y justificar si las siguientes afirmaciones son Falsas o Verdaderas.
  1. Yanowitz, en In-use Emissions From Heavy-Duty Diesel Vehicles, investigó los factores que afectan las emisiones de un vehículo diesel, y obtuvo datos acerca de la emisión de partículas para una muestra de 138 vehículos conducidos en bajas altitudes (cerca del nivel del mar) y para una muestra de 62 vehículos conducidos a grandes altitudes (aproximadamente a una milla del nivel del mar). Todos los vehículos se fabricaron entre 1991 y 1996. Las muestras contenían proporciones parecidas de vehículos de bajo y alto kilometraje. Los datos, en unidades de gramos de partículas por galón de combustible consumido, se presentan en el archivo EP.txt. En esta base de datos, “emision” es la variable emisión de partículas (en unidades de gr/gal) y “altitud” es la varaible altitud a la que se conduce el vehículo (0 = baja; 1 = alta). A grandes altitudes, la presión barométrica es más baja, así la razón de eficiencia aire/combustible también es más baja. Por esta razón se pensó que la emisión de partículas podría ser mayor a grandes a altitudes.
Altitud \(n\) Mín. Cuar. 1 Cuar. 2 Cuar. 3 Máx. Media DE CV
Baja 138
Ala 62

DE: Desviación Estándar. CV: Coeficiente de Variación.

A continuación se presenta el procedimiento importar este conjunto de datos en R.

# importar base de datos en el objeto llamado base_de_datos
base_de_datos <- read.table(file = "C:/Users/Juan Camilo/Dropbox/UN/probabilidad_y_estadistica_2022_1/EP.txt", header = TRUE)

# extraer los valores de emision con altitud baja en el objeto llamado baja
baja <- base_de_datos$emision[base_de_datos$altitud == 0]

# extraer los valores de emision con altitud alta en el objeto llamado alta
alta <- base_de_datos$emision[base_de_datos$altitud == 1]

# tamaños de la muestra
n_baja <- length(baja)
n_alta <- length(alta)

Observe que para importar la base de datos exitosamente en R por medio de la rutina read.table, hay que proporcionar la ruta de acceso estableciendo el directorio de trabajo con setwd. ¡No olvide actualizar esta ruta!

Sugerencia: utilice las fórmulas de las medidas estadísticas para datos sin agrupar.

  1. El artículo Computing and Using Rural versus Urban Measures in Statistical Applications (C. Goodall, K. Kafadar y J. Tukey, The American Statistician, 1998:101-111) analiza los métodos para medir el grado a los cuales los condados de los Estados Unidos son urbanos más que rurales. La siguiente tabla de frecuencias presenta las frecuencias de población de los condados de los Estados Unidos.
Población (en miles) No. de condados
0.064 – 5.405 305
5.405 – 8.780 294
8.780 – 12.417 331
12.417 – 16.384 286
16.384 – 21.619 306
21.619 – 28.526 273
28.526 – 40.342 334
40.342 – 65.536 326
65.536 – 131.072 290
131.072 – 8388.608 323

Sugerencia: utilice las fórmulas de las medidas estadísticas para datos agrupados.

  1. Una muestra de temperaturas para iniciar una cierta reacción química dio un promedio muestral (C) de 87.3 y una desviación estándar muestral de (C) 1.04. ¿Cuáles son el promedio muestral y la desviación estándar medidos en F?

Sugerencia: recuerde que F = \(\tfrac95\)C + 32 y utilice las propiedades de la media y de la varianza.

  1. Sean \(X\) y \(Y\) dos variables tales que: \[ \sum_{i=1}^{10} x_i = 110, \quad \sum_{i=1}^{10} y_i = 60, \quad \sum_{i=1}^{10} x_i^2 = 3156 \quad \text{y}\quad \sum_{i=1}^{10} y_i^2 = 1138. \] Para cada variable calcular el coeficiente de variación. Interpretar y comparar los resultados obtenidos.

Sugerencia: recuerde que \(\displaystyle\sum_{i=1}^n(x_i-\bar{x})^2 = \sum_{i=1}^n x_i^2 - n\bar{x}^2\).

  1. En cierta región la distribución de predios por extensión tiene una media de 35.4 hectáreas y una desviación típica de 19.33 hectáreas, mientras que la distribución por canon de arrendamiento tiene una media de $245,750 y una desviación de $7,470. ¿Cual de las dos distribuciones tiene mayor variabilidad? ¿Por qué?