- Determinar y justificar si las siguientes afirmaciones son Falsas o Verdaderas.
- La mitad de las observaciones de una muestra es menor o igual que la media.
- La media de un conjunto de datos es el valor que ocurre con más frecuencia.
- La media de una muestra es igual a una de las observaciones de la muestra.
- Es preferible utilizar un instrumento de medición que genere observaciones con una desviación estándar grande.
- Por lo general, la media y la mediana de un conjunto de datos son valores muy similares.
- El archivo
capacidad_aerobica.csv contiene los datos de un grupo de 31 pacientes que pertenecen a un programa de pacientes de enfermedades crónicas. Durante una prueba de esfuerzo, se midieron sus pulsaciones (antes, durante y después), edad, tiempo de la prueba, peso y oxigenación. Considere la oxigenación (porcentaje de saturación arterial de oxigeno) de los pacientes con menos de 50 años, y la oxigenación de los pacientes con 50 años o más.
- Completar la siguiente tabla:
| Menos de 50 años |
19 |
|
|
|
|
|
|
|
|
| 50 años o más |
12 |
|
|
|
|
|
|
|
|
DE: Desviación Estándar. CV: Coeficiente de Variación.
- Comparar los resultados para determinar si los datos indican que la oxigenación es superior para los pacientes con menos de 50 años.
A continuación se presenta el procedimiento importar este conjunto de datos en R.
# establecer el directorio de trabajo
setwd(dir = "C:/Users/Juan Camilo/Dropbox/UN/Talleres/")
# Los datos vienen un archivo tipo csv, separado por ";", para leerlos:
c_aerobica<-read.table("capacidad_aerobica.csv",h=T, sep=";")
# datos grupo 1: menos de 45 años
x_1 <- c_aerobica$Oxig[c_aerobica$edad < 50]
# datos grupo 2: 45 años o más
x_2 <- c_aerobica$Oxig[c_aerobica$edad >= 50]
# tamaños de muestra
n_1 <- length(x_1)
n_2 <- length(x_2)
Observe que para importar la base de datos exitosamente en R por medio de la rutina read.table, hay que proporcionar la ruta de acceso estableciendo el directorio de trabajo con setwd. ¡No olvide actualizar esta ruta!
Sugerencia: utilice las fórmulas de las medidas estadísticas para datos sin agrupar.
- El artículo Computing and Using Rural versus Urban Measures in Statistical Applications (C. Goodall, K. Kafadar y J. Tukey, The American Statistician, 1998:101-111) analiza los métodos para medir el grado a los cuales los condados de los Estados Unidos son urbanos más que rurales. La siguiente tabla de frecuencias presenta las frecuencias de población de los condados de los Estados Unidos.
| 0.064 – 5.405 |
305 |
| 5.405 – 8.780 |
294 |
| 8.780 – 12.417 |
331 |
| 12.417 – 16.384 |
286 |
| 16.384 – 21.619 |
306 |
| 21.619 – 28.526 |
273 |
| 28.526 – 40.342 |
334 |
| 40.342 – 65.536 |
326 |
| 65.536 – 131.072 |
290 |
| 131.072 – 8388.608 |
323 |
- Completar la distribución de frecuencias (frecuencia relativa y frecuencias acumuladas).
- Calcular la media, la mediana, la moda, y el coeficiente de variación.
- Comentar los resultados del numeral anterior.
Sugerencia: utilice las fórmulas de las medidas estadísticas para datos agruados.
- Una muestra de temperaturas para iniciar una cierta reacción química dio un promedio muestral (C) de 87.3 y una desviación estándar muestral de (C) 1.04. ¿Cuáles son el promedio muestral y la desviación estándar medidos en F?
Sugerencia: recuerde que F = \(\tfrac95\)C + 32 y utilice las propiedades de la media y de la varianza.
- Sean \(X\) y \(Y\) dos variables tales que: \[
\sum_{i=1}^{10} x_i = 110, \quad
\sum_{i=1}^{10} y_i = 60, \quad
\sum_{i=1}^{10} x_i^2 = 3156 \quad \text{y}\quad
\sum_{i=1}^{10} y_i^2 = 1138.
\] Para cada variable calcular el coeficiente de variación. Interpretar y comparar los resultados obtenidos.
Sugerencia: recuerde que \(\sum_{i=1}^n(x_i-\bar{x})^2 = \sum_{i=1}^n x_i^2 - n\bar{x}^2\).
- En cierta población la distribución del peso de tiene una media de 95.41 kg y una desviación típica de 2.33 kg, mientras que la distribución del índice de masa corporal tiene una media de 22.1 kg/m\(^2\) y una desviación de 2.33 kg/m\(^2\). ¿Cual de las dos distribuciones tiene mayor variabilidad? ¿Por qué?