Data Explorer

Teoría

La librería Data Explorer es la más conocida para el análisis exploratorio. Es muy simple de usar y muy poderosa, pues ofrece como salada un indorme con mucha información.

La función para creasr el informe es create_report, y para ver cada gráfica de forma individual, las funciones son:

  • introduce()
  • plot_intro()
  • plot_boxplot()
  • plot_missing()
  • plot_histogram()
  • plot_bar()
  • plot_correlation()

Contexto

El paquete nycflights13 contiene información sobre todos los vuelos que partieron desde Nueva York (EWR, JFK y LGA) a destinos en los Estaos Unidos en 2013. Fueron 336,776 vuelos en total.

Las tablas de este paquete y sus relaciones son las siguientes:

Librerías

library(DataExplorer)
library(nycflights13)

Obtención de datos

flights = flights
weather = weather
planes = planes
airports = airports
airlines = airlines

df = merge(flights, airlines, by = "carrier")
df = merge(df, planes, by = "tailnum")

Crear reporte

#create_report(df)
introduce(df)
##     rows columns discrete_columns continuous_columns all_missing_columns
## 1 284170      28               10                 18                   0
##   total_missing_values complete_rows total_observations memory_usage
## 1               311768           920            7956760     50225296
plot_intro(df)

plot_boxplot(df, by = "carrier")

plot_missing(df)

plot_histogram(df)

plot_bar(df)

plot_correlation(df)