Teoría

La librería Data Explorer es la más conocida para el análisis exploratorio. Es muy simple de usar y muy poderosa, pues ofrece como salida un informe con mucha información.

La función para crear el informe es create_report, y para ver cada gráfica de forma individual, las funciones son:

  • introduce()
  • plot_intro()
  • plot_boxplot()
  • plot_histogram()
  • plot_bar()
  • plot_correlation()

Instalar paquetes y llamar librerías

#install.packages("DataExplorer")
library(DataExplorer)

#install.packages("nycflights13")
library(nycflights13)

Contexto

El paquete nycflights13 contiene información sobre todos los vuelos que partieron desde Nueva Tork (EWR, JFK, LGA) a destinos en los Estados Unidos en 2013. Fueron 336.776 vuelos en total.

Las tablas de este paquete y sus relaciones son las siguientes:

Crear base de datos

flights <- flights
weather <- weather
planes <- planes
airports <- airports
airlines <- airlines

df <- merge(flights, airlines, by= "carrier")
df <- merge(df, planes, by = "tailnum")

Crear reporte y visualizar gráficas

#create_report(df)
introduce(df)
##     rows columns discrete_columns continuous_columns all_missing_columns
## 1 284170      28               10                 18                   0
##   total_missing_values complete_rows total_observations memory_usage
## 1               311768           920            7956760     50225296
plot_intro(df)

plot_boxplot(df, by= "carrier")
## Warning: Removed 23255 rows containing non-finite values (`stat_boxplot()`).

## Warning: Removed 288513 rows containing non-finite values (`stat_boxplot()`).

plot_histogram(df)

plot_bar(df)
## 4 columns ignored with more than 50 categories.
## tailnum: 3322 categories
## dest: 104 categories
## time_hour: 6934 categories
## model: 127 categories

plot_correlation(df)
## 5 features with more than 20 categories ignored!
## tailnum: 3322 categories
## dest: 104 categories
## time_hour: 6934 categories
## manufacturer: 35 categories
## model: 127 categories
## Warning in cor(x = structure(list(year.x = c(2013L, 2013L, 2013L, 2013L, : the
## standard deviation is zero

LS0tDQp0aXRsZTogIkRhdGEgRXhwbG9yZXIiDQphdXRob3I6ICJMdWlzIEFuZ2VsIEVsaXpvbmRvIEdhbGxlZ29zIEEwMTE5ODE4NiINCmRhdGU6ICIyMDI0LTAyLTI3Ig0Kb3V0cHV0Og0KICBodG1sX2RvY3VtZW50Og0KICAgIHRvYzogeWVzDQogICAgdG9jX2Zsb2F0OiB5ZXMNCiAgICBjb2RlX2Rvd25sb2FkOiB5ZXMNCiAgICB0aGVtZTogam91cm5hbA0KICAgIGhpZ2hsaWdodDogcHlnbWVudHMNCi0tLQ0KDQohW10oQzpcVXNlcnNcbHVpc2FcRG93bmxvYWRzXGYuZ2lmKQ0KDQoNCmBgYHtyIHNldHVwLCBpbmNsdWRlPUZBTFNFfQ0Ka25pdHI6Om9wdHNfY2h1bmskc2V0KGVjaG8gPSBUUlVFKQ0KYGBgDQoNCiMgPHNwYW4gc3R5bGU9ICJjb2xvcjogQmx1ZTsiPlRlb3LDrWEgPC9zcGFuPg0KDQpMYSBsaWJyZXLDrWEgKkRhdGEgRXhwbG9yZXIqIGVzIGxhIG3DoXMgY29ub2NpZGEgcGFyYSBlbCBhbsOhbGlzaXMgZXhwbG9yYXRvcmlvLiBFcyBtdXkgc2ltcGxlIGRlIHVzYXIgeSBtdXkgcG9kZXJvc2EsIHB1ZXMgb2ZyZWNlIGNvbW8gc2FsaWRhIHVuIGluZm9ybWUgY29uIG11Y2hhIGluZm9ybWFjacOzbi4gIA0KDQpMYSBmdW5jacOzbiBwYXJhIGNyZWFyIGVsIGluZm9ybWUgZXMgKmNyZWF0ZV9yZXBvcnQqLCB5IHBhcmEgdmVyIGNhZGEgZ3LDoWZpY2EgZGUgZm9ybWEgaW5kaXZpZHVhbCwgbGFzIGZ1bmNpb25lcyBzb246ICAgDQoNCiogKmludHJvZHVjZSgpKg0KKiAqcGxvdF9pbnRybygpKg0KKiAqcGxvdF9ib3hwbG90KCkqDQoqICpwbG90X2hpc3RvZ3JhbSgpKg0KKiAqcGxvdF9iYXIoKSoNCiogKnBsb3RfY29ycmVsYXRpb24oKSoNCg0KIyA8c3BhbiBzdHlsZT0gImNvbG9yOiBCbHVlOyI+SW5zdGFsYXIgcGFxdWV0ZXMgeSBsbGFtYXIgbGlicmVyw61hczwvc3Bhbj4NCg0KYGBge3J9DQojaW5zdGFsbC5wYWNrYWdlcygiRGF0YUV4cGxvcmVyIikNCmxpYnJhcnkoRGF0YUV4cGxvcmVyKQ0KDQojaW5zdGFsbC5wYWNrYWdlcygibnljZmxpZ2h0czEzIikNCmxpYnJhcnkobnljZmxpZ2h0czEzKQ0KYGBgDQoNCiMgPHNwYW4gc3R5bGU9ICJjb2xvcjogQmx1ZTsiPkNvbnRleHRvPC9zcGFuPg0KRWwgcGFxdWV0ZSAqbnljZmxpZ2h0czEzKiBjb250aWVuZSBpbmZvcm1hY2nDs24gc29icmUgdG9kb3MgbG9zIHZ1ZWxvcyBxdWUgcGFydGllcm9uIGRlc2RlIE51ZXZhIFRvcmsgKEVXUiwgSkZLLCBMR0EpIGEgZGVzdGlub3MgZW4gbG9zIEVzdGFkb3MgVW5pZG9zIGVuIDIwMTMuIEZ1ZXJvbiAzMzYuNzc2IHZ1ZWxvcyBlbiB0b3RhbC4gIA0KDQpMYXMgdGFibGFzIGRlIGVzdGUgcGFxdWV0ZSB5IHN1cyByZWxhY2lvbmVzIHNvbiBsYXMgc2lndWllbnRlczoNCg0KIVtdKEM6XFVzZXJzXGx1aXNhXERvd25sb2Fkc1xyZWxhdGlvbmFsLW55Y2ZsaWdodHMuUE5HKQ0KDQoNCiMgPHNwYW4gc3R5bGU9ICJjb2xvcjogQmx1ZTsiPkNyZWFyIGJhc2UgZGUgZGF0b3M8L3NwYW4+DQpgYGB7cn0NCmZsaWdodHMgPC0gZmxpZ2h0cw0Kd2VhdGhlciA8LSB3ZWF0aGVyDQpwbGFuZXMgPC0gcGxhbmVzDQphaXJwb3J0cyA8LSBhaXJwb3J0cw0KYWlybGluZXMgPC0gYWlybGluZXMNCg0KZGYgPC0gbWVyZ2UoZmxpZ2h0cywgYWlybGluZXMsIGJ5PSAiY2FycmllciIpDQpkZiA8LSBtZXJnZShkZiwgcGxhbmVzLCBieSA9ICJ0YWlsbnVtIikNCg0KDQpgYGANCg0KDQojIDxzcGFuIHN0eWxlPSAiY29sb3I6IEJsdWU7Ij5DcmVhciByZXBvcnRlIHkgdmlzdWFsaXphciBncsOhZmljYXM8L3NwYW4+DQpgYGB7cn0NCiNjcmVhdGVfcmVwb3J0KGRmKQ0KaW50cm9kdWNlKGRmKQ0KcGxvdF9pbnRybyhkZikNCnBsb3RfYm94cGxvdChkZiwgYnk9ICJjYXJyaWVyIikNCnBsb3RfaGlzdG9ncmFtKGRmKQ0KcGxvdF9iYXIoZGYpDQpwbG90X2NvcnJlbGF0aW9uKGRmKQ0KDQpgYGANCg0KDQo=