Introducción al manejo y visualización de datos

El objetivo de este ejercicio es que el alumno se familiarice con el uso, manejo y visualización de datos

Para esto se utilizará la biblioteca “tidyverse” y el conjunto de datos “mpg”

Tidyverse es un paquete para manejo de datos mpg es un conjunto de datos ordenados en un marco (data frame) de millas por galón para varios modelos de automóviles

Biblioteca tidyverse

El tidyverse es una colección de paquetes R de código abierto introducidos por Hadley Wickham y su equipo que “comparten una filosofía de diseño, gramática y estructuras de datos subyacentes” de los datos ordenados.

  • Importación del paquete tidyverse
library(tidyverse)
## -- Attaching packages --------------------- tidyverse 1.3.0 --
## v ggplot2 3.3.2     v purrr   0.3.4
## v tibble  3.0.1     v dplyr   1.0.0
## v tidyr   1.1.0     v stringr 1.4.0
## v readr   1.3.1     v forcats 0.5.0
## -- Conflicts ------------------------ tidyverse_conflicts() --
## x dplyr::filter() masks stats::filter()
## x dplyr::lag()    masks stats::lag()

Nota: al instalar este paquete también se instala dentro de él, el paquete ggplot2 que sirve para elaborar gráficas

  • Los datos a usar serán, datos de “mpg”

Visualización con ggplot2

Se realizará una gráfica que relaciona en ella los datos del cilindraje en litros del motor (displ) contra la eficiencia de uso de combustible en millas por galón en carretera (hwy)

ggplot(data = mpg) +
  geom_point(mapping = aes(x=displ, y=hwy)) +
  ggtitle("Eficiencia de uso de combustible en carretera")

  • Esta gráfica nos muestra de manera visual a través de punto ubicados en un plano la relación que existe inversamente proporcional del cilindraje del motor con respecto de la eficiencia de uso de combustible