Tarea Datos Masivos

library(readxl)
library(MASS)
library(stats)
library(psych)
library(dplyr)

## 
## Attaching package: 'dplyr'

## The following object is masked from 'package:MASS':
## 
##     select

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

library(openxlsx)
library(ggplot2)

## 
## Attaching package: 'ggplot2'

## The following objects are masked from 'package:psych':
## 
##     %+%, alpha

La siguiente tarea busca reforzar tu aprendiza de los temas cubiertos en clase, así como poner en práctica tus habilidades en el manejo de datos masivos.

Resuelve cada uno de los puntos para la base de datos trucks.xlsx No olvides cargar la libreria ´dplyr´antes de iniciar con tu programa

Pregunta 1

Almacena la información del archivo trucks.xlsx en una variable llamada mis_datos y revisa su estructura con la función head()

mis_datos = read_xlsx("trucks.xlsx")
head(mis_datos)

## # A tibble: 6 × 15
##   Make  Model         Type  Origin DriveTrain  MSRP Invoice EngineSize Cylinders
##   <chr> <chr>         <chr> <chr>  <chr>      <dbl>   <dbl>      <dbl>     <dbl>
## 1 Acura MDX           SUV   Asia   All        36945   33337        3.5         6
## 2 Acura RSX Type S 2… Sedan Asia   Front      23820   21761        2           4
## 3 Acura TSX 4dr       Sedan Asia   Front      26990   24647        2.4         4
## 4 Acura TL 4dr        Sedan Asia   Front      33195   30299        3.2         6
## 5 Acura 3.5 RL 4dr    Sedan Asia   Front      43755   39014        3.5         6
## 6 Acura 3.5 RL w/Nav… Sedan Asia   Front      46100   41100        3.5         6
## # ℹ 6 more variables: Horsepower <dbl>, MPG_City <dbl>, MPG_Highway <dbl>,
## #   Weight <dbl>, Wheelbase <dbl>, Length <dbl>

Como puedes ver, la base de datos cuenta con 428 observaciones y 15 variables. Las variables incluidas son: - Make = La marca del fabricante del automóvil - Model = El modelo del automóvil - Type = El tipo de automóvil - Origin = En dónde fue fabricado - DriveTrain = Indica el tipo de transmición - MSRP = Es el precio de venta en dólares sugerido por el fabricate - Invoice = Es el valor de la factura del automóvil - EngineSize = Es el tamaño del motor - Cylinders = Indica con cuántos cilindros cuenta - Horsepower = La potencia del automóvil en caballos de fuerza - MPG_City = Millas por galón de combustible en la ciudad - MPG_Highway = Millas por galón de combustible en carretera - Weight = Peso del automóvil en libras - Wheelbase = La distancia que hay entre el eje delantero y el eje trasero en pulgadas - Length = La longitud del automóvil en pulgadas

Pregunta 2

Crea una gráfica de barras de la variable Make.

mis_datos$Make <- factor(mis_datos$Make)
barplot(table(mis_datos$Make))

Pregunta 3

Utilizando algoritmos con la variable mis_datos, responde las siguientes preguntas:

¿Qué marca produce más vehículos y qué marca produce menos?

conteo_Make <- mis_datos %>%
  count(Make) %>%
  arrange(desc(n))
marca_mas_vehiculos <- conteo_Make[1, ]
marca_menos_vehiculos = conteo_Make[nrow(conteo_Make),]
print(paste("La marca que produce más vehículos es:", marca_mas_vehiculos$Make, "con", marca_mas_vehiculos$n, "vehículos."))

## [1] "La marca que produce más vehículos es: Toyota con 28 vehículos."

print(paste("La marca que produce menos vehículos es:", marca_menos_vehiculos$Make, "con", marca_menos_vehiculos$n, "vehículos."))

## [1] "La marca que produce menos vehículos es: Hummer con 1 vehículos."

¿Cuántos autos se producen por región de origen?

conteo_origen = table(mis_datos$Origin)
print(conteo_origen)

## 
##   Asia Europe    USA 
##    158    123    147

Pregunta 4

Encuentra cuál es el precio sugerido más caro, cuál es el precio sugerido más barato, las millas por galón promedio para ciudad y el Horsepower promedio, utiliza el comando “table” y/o “summarise” para mostrar la información

precios <- summarise(mis_datos,
                     Precio_Max = max(MSRP),
                     Precio_Min = min(MSRP),
                     MPG_City_Promedio = mean(MPG_City, na.rm = TRUE),
                     HP_Promedio = mean(Horsepower, na.rm = TRUE))

precios

## # A tibble: 1 × 4
##   Precio_Max Precio_Min MPG_City_Promedio HP_Promedio
##        <dbl>      <dbl>             <dbl>       <dbl>
## 1     192465      10280              20.1        216.

Pregunta 5

Selecciona solo las variables Make, Model, Type, Origin, Cylinders, MSRP, Weight, Wheelbase y Lenght. Conserva solo las observaciones cuyo DriveTrain sea Front y almacena esta información en una variable llamada datos_nuevos.

Imprime las primeras observaciones de la variable datos_nuevos

datos_nuevos <- mis_datos %>%
  select(Make, Model, Type, Origin, Cylinders, MSRP, Weight, Wheelbase, Length, DriveTrain) %>%
  filter(DriveTrain == "Front")


head(datos_nuevos)

## # A tibble: 6 × 10
##   Make  Model    Type  Origin Cylinders  MSRP Weight Wheelbase Length DriveTrain
##   <fct> <chr>    <chr> <chr>      <dbl> <dbl>  <dbl>     <dbl>  <dbl> <chr>     
## 1 Acura RSX Typ… Sedan Asia           4 23820   2778       101    172 Front     
## 2 Acura TSX 4dr  Sedan Asia           4 26990   3230       105    183 Front     
## 3 Acura TL 4dr   Sedan Asia           6 33195   4000       108    186 Front     
## 4 Acura 3.5 RL … Sedan Asia           6 43755   3880       115    197 Front     
## 5 Acura 3.5 RL … Sedan Asia           6 46100   3893       115    197 Front     
## 6 Audi  A4 1.8T… Sedan Europe         4 25940   3252       104    179 Front

Pregunta 6

Con la información de la variable datos_nuevos, necesitamos crear 3 nuevas variables, la primera llamada Weight_kl que indique cuál es el peso del automóvil en kilos, la segunda llamada Wheelbase_cm que muestre el valor de la variable Wheelbase en centímetros, y una última variable llamada Length_cm que indique la longitud del vehículo en centímetros. Almacena toda esta información dentro de la variable mis_nuevos_datos

datos_nuevos$Weight_kg <- datos_nuevos$Weight * 0.453592
datos_nuevos$Wheelbase_cm <- datos_nuevos$Wheelbase * 2.54
datos_nuevos$Length_cm <- datos_nuevos$Length * 2.54
mis_nuevos_datos <- datos_nuevos
print(head(mis_nuevos_datos))

## # A tibble: 6 × 13
##   Make  Model    Type  Origin Cylinders  MSRP Weight Wheelbase Length DriveTrain
##   <fct> <chr>    <chr> <chr>      <dbl> <dbl>  <dbl>     <dbl>  <dbl> <chr>     
## 1 Acura RSX Typ… Sedan Asia           4 23820   2778       101    172 Front     
## 2 Acura TSX 4dr  Sedan Asia           4 26990   3230       105    183 Front     
## 3 Acura TL 4dr   Sedan Asia           6 33195   4000       108    186 Front     
## 4 Acura 3.5 RL … Sedan Asia           6 43755   3880       115    197 Front     
## 5 Acura 3.5 RL … Sedan Asia           6 46100   3893       115    197 Front     
## 6 Audi  A4 1.8T… Sedan Europe         4 25940   3252       104    179 Front     
## # ℹ 3 more variables: Weight_kg <dbl>, Wheelbase_cm <dbl>, Length_cm <dbl>

Pregunta 7

Con la información de la variable mis_nuevos_datos, crea una nueva variable llamada opinion que esté en función del precio sugerido para la venta. Si el precio es mayor a 62,000 el valor de la variable opinion debe ser “Expensive”, si el precio está entre 62,000 y 26,000, la variable opinion debe decir “Normal”. Y si el precio es menor a 26,000 la variable opinion debe sugerir “Cheap”. Almacena la información en la variable mis_nuevos_datos

mis_nuevos_datos$opinion <- ifelse(mis_nuevos_datos$MSRP > 62000, "Expensive",
                                   ifelse(mis_nuevos_datos$MSRP >= 26000, "Normal", "Cheap"))
print(head(mis_nuevos_datos))

## # A tibble: 6 × 14
##   Make  Model    Type  Origin Cylinders  MSRP Weight Wheelbase Length DriveTrain
##   <fct> <chr>    <chr> <chr>      <dbl> <dbl>  <dbl>     <dbl>  <dbl> <chr>     
## 1 Acura RSX Typ… Sedan Asia           4 23820   2778       101    172 Front     
## 2 Acura TSX 4dr  Sedan Asia           4 26990   3230       105    183 Front     
## 3 Acura TL 4dr   Sedan Asia           6 33195   4000       108    186 Front     
## 4 Acura 3.5 RL … Sedan Asia           6 43755   3880       115    197 Front     
## 5 Acura 3.5 RL … Sedan Asia           6 46100   3893       115    197 Front     
## 6 Audi  A4 1.8T… Sedan Europe         4 25940   3252       104    179 Front     
## # ℹ 4 more variables: Weight_kg <dbl>, Wheelbase_cm <dbl>, Length_cm <dbl>,
## #   opinion <chr>

Pregunta 8

¿En qué etapa o etapas de los ciclos de la ciencia de datos aplicamos todo esto? (Contesta aquí abajo)

Más que nada se utiliza para filtrar, y limpiar los datos, cuando nos entregan un archivo grande y con bastante información. Se puede jugar y sacar muchas variables de respuestas con los datos, dependiendo de los códigos que arrojemos, con tal de conseguir respuestas exactas sin necesidad de perder el tiempo buscando por el archivo. Estos códigos son los básicos para poder leer, interpretar y manipular las bases de datos que se nos otorgaron, y que probablemente se nos presenten en la vida cotidiana, entonces con esto ya sabremos la manera de encontrar los datos clave que nos solicitan, o que quisieramos encontrar.