La librerÃa DataExplorer es la más conocida para el análisis exploratorio. Es muy simple de usar y muy podersoa, pues ofrece como salida un informe con mucha información.
La función para crear el informe es create_report, y para ver cada gráfica de forma individual, las funciones son:
library(DataExplorer)
library(nycflights13)
El paquete nycflights13 contiene información sobre todos los vuelos que partieron desde Nueva York (EWR, JFK y LGA) a destinos en los Estaos Unidos en 2013. Fueron 336,776 vuelos en total.
Las tablas de este paquete y sus relaciones son las siguientes:
flights <- flights
weather <- weather
planes <- planes
airports <- airports
airlines <- airlines
df <- merge(flights, airlines, by="carrier")
df <- merge(flights, planes, by="tailnum")
#create_report(df)
introduce(df)
## rows columns discrete_columns continuous_columns all_missing_columns
## 1 284170 27 9 18 0
## total_missing_values complete_rows total_observations memory_usage
## 1 311768 920 7672590 47950536
plot_intro(df)
plot_boxplot(df, by="air_time")
## Warning: Removed 18102 rows containing non-finite outside the scale range
## (`stat_boxplot()`).
## Warning: Removed 288513 rows containing non-finite outside the scale range
## (`stat_boxplot()`).
plot_missing(df)
plot_histogram(df)
plot_bar(df)
## 4 columns ignored with more than 50 categories.
## tailnum: 3322 categories
## dest: 104 categories
## time_hour: 6934 categories
## model: 127 categories
plot_correlation(df)
## 5 features with more than 20 categories ignored!
## tailnum: 3322 categories
## dest: 104 categories
## time_hour: 6934 categories
## manufacturer: 35 categories
## model: 127 categories
## Warning in cor(x = structure(list(year.x = c(2013L, 2013L, 2013L, 2013L, : the
## standard deviation is zero