Explore seu primeiro conjunto de dados

Olá, sou o Prof. Davi Rocha. Gostaria de mostrar para você como é fácil verificar a estrutura e explorar dados no R. Vamos lá!

Explorando um conjunto de dados no R

Vamos primeiro carregar todos os pacotes necessários para nossa breve exploração.

library(dplyr)
library(nycflights13)

Vamos analisar os dados sobre voos contidos no pacote nycflights13 (Wickham 2018). Especificamente, este pacote contém cinco conjuntos de dados salvos como “data frame” com informações sobre todos os voos domésticos partindo da cidade de Nova York em 2013, de Newark Liberty International (EWR), John F. Kennedy International (JFK) ou LaGuardia (LGA):

flights: informação sobre todos os 336.776 voos
airlines: tradução de dois códigos e nomes de operadoras IATA (16 no total)
planes: informações de construção sobre cada um dos 3.322 aviões usados
weather: dados meteorológicos de hora em hora (cerca de 8705 observações) para cada um dos três aeroportos de Nova York
airports: nomes e localizações de aeroportos

Vamos explorar os dados contidos no dataframe flights

flights data frame

Basta digitar o comando abaixo e será exibido parte desse dataframe.

flights

## # A tibble: 336,776 x 19
##     year month   day dep_time sched_dep_time dep_delay arr_time
##    <int> <int> <int>    <int>          <int>     <dbl>    <int>
##  1  2013     1     1      517            515         2      830
##  2  2013     1     1      533            529         4      850
##  3  2013     1     1      542            540         2      923
##  4  2013     1     1      544            545        -1     1004
##  5  2013     1     1      554            600        -6      812
##  6  2013     1     1      554            558        -4      740
##  7  2013     1     1      555            600        -5      913
##  8  2013     1     1      557            600        -3      709
##  9  2013     1     1      557            600        -3      838
## 10  2013     1     1      558            600        -2      753
## # ... with 336,766 more rows, and 12 more variables: sched_arr_time <int>,
## #   arr_delay <dbl>, carrier <chr>, flight <int>, tailnum <chr>,
## #   origin <chr>, dest <chr>, air_time <dbl>, distance <dbl>, hour <dbl>,
## #   minute <dbl>, time_hour <dttm>

A saída desse comando informa várias coisas, como:

Esse dataframe tem 336.776 linhas
Há 19 colunas correspondentes a 19 variáveis descrevendo cada observação year, day, dep_time, sched_dep_time, dep_delay, arr_time são colunas diferentes, em outras palavras variáveis, desse conjunto de dados. Temos então as primeiras 10 linhas de observações correspondentes a 10 vôos.
Há ainda mais 12 variáveis que não cabem nessa tela

Explorando mais um pouco

Entre as muitas maneiras de se ter uma ideia dos dados contidos em um dataframe, como flights, apresentamos uma função e um operador que podem ajudar a explorar os dados:

função glimpse( ) carregada via pacote dplyr que tem como argumento um dataframe.
função head ( ) que exibe as 5 primeiras linhas do dataframe.
operador $ para visualizar uma única variável do dataframe.

Vamos verificar como algumas dessas funções trabalha:

glimpse:

glimpse(flights)

## Observations: 336,776
## Variables: 19
## $ year           <int> 2013, 2013, 2013, 2013, 2013, 2013, 2013, 2013,...
## $ month          <int> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,...
## $ day            <int> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,...
## $ dep_time       <int> 517, 533, 542, 544, 554, 554, 555, 557, 557, 55...
## $ sched_dep_time <int> 515, 529, 540, 545, 600, 558, 600, 600, 600, 60...
## $ dep_delay      <dbl> 2, 4, 2, -1, -6, -4, -5, -3, -3, -2, -2, -2, -2...
## $ arr_time       <int> 830, 850, 923, 1004, 812, 740, 913, 709, 838, 7...
## $ sched_arr_time <int> 819, 830, 850, 1022, 837, 728, 854, 723, 846, 7...
## $ arr_delay      <dbl> 11, 20, 33, -18, -25, 12, 19, -14, -8, 8, -2, -...
## $ carrier        <chr> "UA", "UA", "AA", "B6", "DL", "UA", "B6", "EV",...
## $ flight         <int> 1545, 1714, 1141, 725, 461, 1696, 507, 5708, 79...
## $ tailnum        <chr> "N14228", "N24211", "N619AA", "N804JB", "N668DN...
## $ origin         <chr> "EWR", "LGA", "JFK", "JFK", "LGA", "EWR", "EWR"...
## $ dest           <chr> "IAH", "IAH", "MIA", "BQN", "ATL", "ORD", "FLL"...
## $ air_time       <dbl> 227, 227, 160, 183, 116, 150, 158, 53, 140, 138...
## $ distance       <dbl> 1400, 1416, 1089, 1576, 762, 719, 1065, 229, 94...
## $ hour           <dbl> 5, 5, 5, 5, 6, 5, 6, 6, 6, 6, 6, 6, 6, 6, 6, 5,...
## $ minute         <dbl> 15, 29, 40, 45, 0, 58, 0, 0, 0, 0, 0, 0, 0, 0, ...
## $ time_hour      <dttm> 2013-01-01 05:00:00, 2013-01-01 05:00:00, 2013...

A tabela acima gerou varias informações sobre os nossos dados. Por exemplo, mostra que as váriaveis year, month e day são números inteiros e que a variável carrier é uma variável caracter ou string

$: Usando essa a função podemos acessar as colunas do dataframe como vetores. Vamos combinar ela com a função head() para acessar só os 5 primeiros valores da variavel origin:

head(flights$origin)

## [1] "EWR" "LGA" "JFK" "JFK" "LGA" "EWR"

Acho que ficou claro que mesmo com pouco código é possivel acessar e tirar importantes informações de um dataframe no R.

** Keep calm and analysing data! **

Explore seu primeiro conjunto de dados

prof.DaviRocha

30 de outubro de 2018

Explorando um conjunto de dados no R

flights data frame

Explorando mais um pouco

Vamos verificar como algumas dessas funções trabalha: