Teoría

La librería Data Explorer es la más conocida para el análisis exploratorio. Es my simple de usar y muy poderosa, pues ofrece como salida un informe con mucha información.

La función para crear el informe es create_report, y para ver cada gráfica de forma individual, las funciones son:

  • introduce()
  • plot_intro()
  • plotboxplot()
  • plot_missing()
  • plot_histogram()
  • plot_bar()
  • plot_correlation()

Instalar paquetes y llamar librerías

#install.packages("DataExplorer")
library(DataExplorer)
#install.packages("nycflights13")
library(nycflights13)

Contexto

El paquete nycflights13 contiene información sobre todos los vuelos que partieron desde Nueva York (EWR, JFK y LGA) a destinos en los Estados Unidos en 2013. Fueron 336,776 vuelos en total.

Las tablas de este paquete y sus relaciones son las siguientes:

Crear base de datos/span>

flights <- flights
weather <- weather
planes <- planes
airports <- airports
airlines <- airlines
df <- merge(flights, airlines, by = "carrier")
df <- merge(df, planes, by = "tailnum")

Crear reporte y visualizar las gráficas/span>

# create_report(df)
introduce(df)
##     rows columns discrete_columns continuous_columns all_missing_columns
## 1 284170      28               10                 18                   0
##   total_missing_values complete_rows total_observations memory_usage
## 1               311768           920            7956760     50225296
plot_intro(df)

plot_boxplot(df, by="carrier")
## Warning: Removed 23255 rows containing non-finite outside the scale range
## (`stat_boxplot()`).

## Warning: Removed 288513 rows containing non-finite outside the scale range
## (`stat_boxplot()`).

plot_missing(df)

plot_histogram(df)

plot_bar(df)
## 4 columns ignored with more than 50 categories.
## tailnum: 3322 categories
## dest: 104 categories
## time_hour: 6934 categories
## model: 127 categories

plot_correlation(df)
## 5 features with more than 20 categories ignored!
## tailnum: 3322 categories
## dest: 104 categories
## time_hour: 6934 categories
## manufacturer: 35 categories
## model: 127 categories
## Warning in cor(x = structure(list(year.x = c(2013L, 2013L, 2013L, 2013L, : the
## standard deviation is zero

LS0tCnRpdGxlOiAiRGF0YSBFeHBsb3JlciIKYXV0aG9yOiAiSMOpY3RvciBHdWFkYWx1cGUgZGUgbGEgR2FyemEgVHJldmnDsW8gLSBBMDExNzc5NjAiCmRhdGU6ICIyMDI0LTAyLTI3IgpvdXRwdXQ6IAogIGh0bWxfZG9jdW1lbnQ6CiAgICB0b2M6IFRSVUUKICAgIHRvY19mbG9hdDogVFJVRQogICAgY29kZV9kb3dubG9hZDogVFJVRQogICAgdGhlbWU6IGNlcnVsZWFuCi0tLQoKCiFbXSgvVXNlcnMvaGVjdG9yZGVsYWdhcnphdHJldmluby9MaWJyYXJ5L0Nsb3VkU3RvcmFnZS9Hb29nbGVEcml2ZS1hMDExNzc5NjBAdGVjLm14L01pIHVuaWRhZC9MSVQvU2V4dG8gc2VtZXN0cmUvSW50ZWxpZ2VuY2lhIEFydGlmaWNpYWwgY29uIEltcGFjdG8gRW1wcmVzYXJpYWwvTW9kdWxvIDIvU2VzaW9uIDcvZjIwNGRmMzg4ZWYyOGIwZTgyMmUxNDBlZDE1ZTFkM2QuZ2lmKQoKIyA8c3BhbiBzdHlsZT0iY29sb3I6IGJsdWU7Ij5UZW9yw61hPC9zcGFuPgpMYSBsaWJyZXLDrWEgKipEYXRhIEV4cGxvcmVyKiogZXMgbGEgbcOhcyBjb25vY2lkYSBwYXJhIGVsIGFuw6FsaXNpcyBleHBsb3JhdG9yaW8uIEVzIG15IHNpbXBsZSBkZSB1c2FyIHkgbXV5IHBvZGVyb3NhLCBwdWVzIG9mcmVjZSBjb21vIHNhbGlkYSB1biBpbmZvcm1lIGNvbiBtdWNoYSBpbmZvcm1hY2nDs24uICAKCkxhIGZ1bmNpw7NuIHBhcmEgY3JlYXIgZWwgaW5mb3JtZSBlcyAqKmNyZWF0ZV9yZXBvcnQqKiwgeSBwYXJhIHZlciBjYWRhIGdyw6FmaWNhIGRlIGZvcm1hIGluZGl2aWR1YWwsIGxhcyBmdW5jaW9uZXMgc29uOiAgCgoqICoqaW50cm9kdWNlKCkqKgoqICoqcGxvdF9pbnRybygpKioKKiAqKnBsb3Rib3hwbG90KCkqKgoqICoqcGxvdF9taXNzaW5nKCkqKgoqICoqcGxvdF9oaXN0b2dyYW0oKSoqCiogKipwbG90X2JhcigpKioKKiAqKnBsb3RfY29ycmVsYXRpb24oKSoqCgojIDxzcGFuIHN0eWxlPSJjb2xvcjogYmx1ZTsiPkluc3RhbGFyIHBhcXVldGVzIHkgbGxhbWFyIGxpYnJlcsOtYXM8L3NwYW4+CmBgYHtyfQojaW5zdGFsbC5wYWNrYWdlcygiRGF0YUV4cGxvcmVyIikKbGlicmFyeShEYXRhRXhwbG9yZXIpCiNpbnN0YWxsLnBhY2thZ2VzKCJueWNmbGlnaHRzMTMiKQpsaWJyYXJ5KG55Y2ZsaWdodHMxMykKYGBgCgoKIyA8c3BhbiBzdHlsZT0iY29sb3I6IGJsdWU7Ij5Db250ZXh0bzwvc3Bhbj4KRWwgcGFxdWV0ZSAqKm55Y2ZsaWdodHMxMyoqIGNvbnRpZW5lIGluZm9ybWFjacOzbiBzb2JyZSB0b2RvcyBsb3MgdnVlbG9zIHF1ZSBwYXJ0aWVyb24gZGVzZGUgTnVldmEgWW9yayAoRVdSLCBKRksgeSBMR0EpIGEgZGVzdGlub3MgZW4gbG9zIEVzdGFkb3MgVW5pZG9zIGVuIDIwMTMuIEZ1ZXJvbiAzMzYsNzc2IHZ1ZWxvcyBlbiB0b3RhbC4gIAoKTGFzIHRhYmxhcyBkZSBlc3RlIHBhcXVldGUgeSBzdXMgcmVsYWNpb25lcyBzb24gbGFzIHNpZ3VpZW50ZXM6ICAKCiFbXSgvVXNlcnMvaGVjdG9yZGVsYWdhcnphdHJldmluby9MaWJyYXJ5L0Nsb3VkU3RvcmFnZS9Hb29nbGVEcml2ZS1hMDExNzc5NjBAdGVjLm14L01pIHVuaWRhZC9MSVQvU2V4dG8gc2VtZXN0cmUvSW50ZWxpZ2VuY2lhIEFydGlmaWNpYWwgY29uIEltcGFjdG8gRW1wcmVzYXJpYWwvTW9kdWxvIDIvU2VzaW9uIDcvcmVsYXRpb25hbC1ueWNmbGlnaHRzLnBuZykKCiMgPHNwYW4gc3R5bGU9ImNvbG9yOiBibHVlOyI+Q3JlYXIgYmFzZSBkZSBkYXRvcy9zcGFuPgpgYGB7cn0KZmxpZ2h0cyA8LSBmbGlnaHRzCndlYXRoZXIgPC0gd2VhdGhlcgpwbGFuZXMgPC0gcGxhbmVzCmFpcnBvcnRzIDwtIGFpcnBvcnRzCmFpcmxpbmVzIDwtIGFpcmxpbmVzCmRmIDwtIG1lcmdlKGZsaWdodHMsIGFpcmxpbmVzLCBieSA9ICJjYXJyaWVyIikKZGYgPC0gbWVyZ2UoZGYsIHBsYW5lcywgYnkgPSAidGFpbG51bSIpCmBgYAoKCiMgPHNwYW4gc3R5bGU9ImNvbG9yOiBibHVlOyI+Q3JlYXIgcmVwb3J0ZSB5IHZpc3VhbGl6YXIgbGFzIGdyw6FmaWNhcy9zcGFuPgpgYGB7cn0KIyBjcmVhdGVfcmVwb3J0KGRmKQppbnRyb2R1Y2UoZGYpCnBsb3RfaW50cm8oZGYpCnBsb3RfYm94cGxvdChkZiwgYnk9ImNhcnJpZXIiKQpwbG90X21pc3NpbmcoZGYpCnBsb3RfaGlzdG9ncmFtKGRmKQpwbG90X2JhcihkZikKcGxvdF9jb3JyZWxhdGlvbihkZikKYGBgCgo=