Teoria

La libreria data explorer es la mas conocida para el analiss ecploratorio. Es muy simple de usar y muy poderosa, pues ofrece como salida un informe con mucha información.

La funcion para crear el informe es create_report(). Y para ver cada grafica de forma individual las funciones son:

  • introduce()
  • plot_intro()
  • plot_boxplot()
  • plot_missing()
  • plot_histogram()
  • plot_bar()
  • plot_correlation()

Instalar paquetes y llamar librerias

#install.packages("DataExplorer")
library("DataExplorer")

#install.packages("nycflights13")
library("nycflights13")

Contexto

El paquete nycflights13 contiene información sobre todos los vuelos que partieron desde Nueva York (EWR, JFK, LGA) a destinos en los EE.UU. en el 2013. Fueron 336,776 vuelos en total.
Las tablas de este paquete y sus relaciones son las siguientes:

Crear base de datos

flights <- flights
weather <- weather
planes <- planes
airports <- airports
airlines <- airlines

df <- merge(flights, airlines, by = "carrier") 
df <- merge(df, planes, by = "tailnum")

Crear reporte y visualizar graficas

#create_report(df)
introduce(df)
##     rows columns discrete_columns continuous_columns all_missing_columns
## 1 284170      28               10                 18                   0
##   total_missing_values complete_rows total_observations memory_usage
## 1               311768           920            7956760     50225296
plot_intro(df)

plot_boxplot(df, by = "carrier")
## Warning: Removed 23255 rows containing non-finite values (`stat_boxplot()`).

## Warning: Removed 288513 rows containing non-finite values (`stat_boxplot()`).

plot_missing(df)

plot_histogram(df)

plot_bar(df)
## 4 columns ignored with more than 50 categories.
## tailnum: 3322 categories
## dest: 104 categories
## time_hour: 6934 categories
## model: 127 categories

plot_correlation(df)
## 5 features with more than 20 categories ignored!
## tailnum: 3322 categories
## dest: 104 categories
## time_hour: 6934 categories
## manufacturer: 35 categories
## model: 127 categories
## Warning in cor(x = structure(list(year.x = c(2013L, 2013L, 2013L, 2013L, : the
## standard deviation is zero