1. Carga y Limpieza de Datos Carga nuevamente el
archivo Auto.csv en un objeto llamado datos.
Asegúrese de especificar que los signos de interrogación
(?) deben ser tratados como valores faltantes
(NA). Una vez cargado, utilice la función
na.omit() para eliminar las filas con datos faltantes y
utilice la función dim() para reportar cuántas
observaciones y variables quedaron en el conjunto de datos limpio.
datos<-read.table("Auto.data.txt", header =TRUE, na.strings ="?")
datos<-na.omit(datos)
dim(datos)
## [1] 392 9
2. Indexación y Subconjuntos Basándote en los datos
limpios del ejercicio anterior, crea una nueva matriz u objeto que
contenga solamente las columnas correspondientes a
mpg, horsepower y weight. De este
nuevo objeto, selecciona y guarda únicamente las primeras 20 filas.
Imprime el resultado en pantalla.
subconjunto <- datos[1:20 , -c(2,3,6,7,8,9)]
subconjunto
## mpg horsepower weight
## 1 18 130 3504
## 2 15 165 3693
## 3 18 150 3436
## 4 16 150 3433
## 5 17 140 3449
## 6 15 198 4341
## 7 14 220 4354
## 8 14 215 4312
## 9 14 225 4425
## 10 15 190 3850
## 11 15 170 3563
## 12 14 160 3609
## 13 15 150 3761
## 14 14 225 3086
## 15 24 95 2372
## 16 22 95 2833
## 17 18 97 2774
## 18 21 85 2587
## 19 27 88 2130
## 20 26 46 1835
3. Estadística Descriptiva Utilizando el conjunto de
datos completo y limpio: a) Calcula la media (mean) de la
variable weight. b) Calcula la desviación estándar
(sd) de la variable mpg. c) Calcula la
varianza (var) de ambas variables para observar las
diferencias en magnitud y dispersión.
mean (datos$weight)
## [1] 2977.584
sd (datos$mpg)
## [1] 7.805007
var (datos$weight)
## [1] 721484.7
var (datos$mpg)
## [1] 60.91814
4. Gráficos Personalizados Genera un gráfico de
dispersión (plot) para visualizar la relación entre la
potencia (horsepower) en el eje X y el rendimiento
(mpg) en el eje Y. El gráfico debe incluir:
Un título principal (main) que diga: “Relación
Potencia vs Consumo”.
Etiqueta del eje X (xlab): “Caballos de
Fuerza”.
Etiqueta del eje Y (ylab): “Millas por
Galón”.
x <- datos$horsepower
y <- datos$mpg
plot(x, y, xlab = "Caballos de Fuerza", ylab = "Millas por Galón",
main="Relación Potencia vs Consumo")
5. Correlación y Simulación Primero, calcula la
correlación real entre horsepower y mpg
utilizando la función cor(). Segundo, realiza una
simulación para comparar:
Fija la semilla en 50 usando set.seed(50).
Genera un vector de variables normales aleatorias
(rnorm) del mismo tamaño que su conjunto de datos limpio
(recuerda usar dim() o nrow() para saber el
tamaño).
Calcula la correlación entre este vector de ruido aleatorio y la
variable mpg.
Pregunta: ¿Esperabas que esta correlación fuera alta o baja? ¿Por qué?
cor(x, y)
## [1] -0.7784268
set.seed(50)
a<-rnorm(392)
# 392 se calcula en el punto 1 el codigo correspondiente en la línea 27
cor(y, a)
## [1] -0.05537666
¿Esperabas que esta correlación fuera alta o baja? ¿Por qué?
Esperaba que fuera baja porque la semilla genera números aleatorios que no tienen ninguna relación con la base de datos de autos.