Considerações iniciais

Esse é um documento feito para ensinar e para reforçar conteúdos de importação e diagnósticos iniciais de dados. Qualquer comentário, erro ou sugestão, é só falar comigo entrando em contato através de qualquer uma das opções listadas em Contato.

O script em R está disponível aqui: https://github.com/GabrielReisR/R/blob/master/estrutura%20de%20dados/import-e-diagn.R

Foram utilizados 10000 casos do dataset DASS42, retirado desse desafio do Kaggle: https://www.kaggle.com/lucasgreenwell/depression-anxiety-stress-scales-responses?select=data.csv


Importando dados

A primeira tarefa quando se trata de manipular um banco de dados consiste na importação correta dos dados ao software de programação.

Vamos aprender a importar 3 tipos comuns de dados utilizando o R:

  • .sav: dados do SPSS; vamos utilizar o pacote haven.
  • .xls/.xlsx: tabelas do excel; vamos utilizar o pacote readxl.
  • .csv: “comma-separated values”; pode ser importado com o pacote readr e com o pacote base do R.

Importando .sav

Para importar um arquivo do SPSS (Statistical Package for the Social Sciences) vamos utilizar o pacote haven. Isso facilita a importação já que não precisaríamos fazer a conversão do arquivo .sav para um arquivo .csv, por exemplo.

Para começar, basta instalar haven.

install.packages("haven", dependencies = T) # tenho como prática baixar pacotes associados sempre, por isso "dependencies = TRUE"

Para utilizar haven, basta ler o pacote e executar read_sav("dataset") para criar um objeto com o banco de dados.

Utilizarei um exemplo com um banco que pode ser encontrado aqui: https://github.com/GabrielReisR/R/blob/master/estrutura%20de%20dados/dados/dass42.sav

Você pode baixar o arquivo no link acima e tentar também :)

library(haven) # leitura do haven
dass_sav <- read_sav("dass42.sav") # importando um .sav
dass_sav[1:10, ] # vamos ver os 10 primeiros casos

Importando .xls/xlsx

Para importar um arquivo em Excel vamos utilizar o pacote readxl, que faz essa manipulação muito tranquilamente.

Para começar, basta instalar e ler o pacote readxl.

install.packages("readxl", dependencies = T) # tenho como prática baixar pacotes associados sempre, por isso "dependencies = TRUE"

Para utilizar readxl, basta ler o pacote e executar read_excel("dataset") para criar um objeto com o banco de dados.

Utilizarei um exemplo com um banco que pode ser encontrado aqui: https://github.com/GabrielReisR/R/blob/master/estrutura%20de%20dados/dados/dass42.xlsx

Você pode baixar o arquivo no link acima e tentar também :)

library(readxl) # leitura do readxl
dass_excel <- read_excel("dass42.xlsx") # importando um .xlsx
dass_excel[1:10, ] # vamos ver os 10 primeiros casos

Importando .csv

Uma situação um pouco mais comum. O R já permite que façamos isso com a função read.csv. O pacote readr facilita o uso dessa função implementar outros argumentos adicionais que facilitariam na conversão do .csv para o R, então vamos apresentá-lo. Durante o restante, vamos utilizar apenas o de base (read.csv).

Para começar, basta instalar e ler o pacote readr. Ah, esse pacote é útil também para ler outros tipos de dados “retangulares” (como .tsv e .fwf).

install.packages("readr", dependencies = T) # tenho como prática baixar pacotes associados sempre, por isso "dependencies = TRUE"

Feito a leitura do pacote, basta criar um objeto com o banco de dados, realizando a leitura com o código read_csv("dataset"). Não precisa de mais nenhum argumento. Para fazer isso, o arquivo precisa estar delimitado por vírgulas!

library(readr) # lendo o pacote readr no R
dass_readr <- read_csv("https://raw.githubusercontent.com/GabrielReisR/R/master/estrutura%20de%20dados/dados/dass42.csv")
dass_readr[1:10, ] # vamos ver os 10 primeiros casos

Para ler o .csv com a função base do R (que é muito simples de usar), vamos utilizar o mesmo banco de dados como exemplo: https://github.com/GabrielReisR/R/blob/master/estrutura%20de%20dados/dados/dass42.csv

dass_base <- read.csv("https://raw.githubusercontent.com/GabrielReisR/R/master/estrutura%20de%20dados/dados/dass42.csv", sep = ",")
dass_base[1:10, ] # vamos ver os 10 primeiros casos

O argumento sep = "," informa à função read.csv que o arquivo está separado por vírgula. Para entender a separação do arquivo, basta visualizá-lo.

Esse argumento não precisa ser especificado, então se você for apenas importar um banco já delimitado por vírgulas, basta digitar read.csv("dataset").

Explorando o banco de dados

Assim que carregado, um banco de dados precisa ser entendido e visualizado. Suas limitações acessadas e modificações feitas de acordo com o objetivo da análise. Nesse momento, vamos apenas visualizar as respostas do banco de dados e acessar os missings dele.

Vamos utilizar o banco DASS42 que:

  • Consiste em 42 respostas à Depression-Anxiety-Stress Scale.
  • Contém 39775 casos.
  • Junto às respostas da DASS42, possui ao total 172 variáveis.

Vamos começar carregando nosso banco de dados. Uma vez como um objeto nomeado de dass.

dass <- read.csv("https://raw.githubusercontent.com/GabrielReisR/R/master/estrutura%20de%20dados/dados/dass42.csv", sep = ",")

Funções úteis

Para entender o banco, podemos utilizar:

  • View(): abre uma janela para visualização dos dados.
  • names(): apresenta os nomes de todas as colunas do dataset.
  • str(): apresenta a estrutura do dataset.
  • head(): primeiros casos do banco de dados.
  • tail(): últimos casos do banco de dados.
  • glimpse(): uma visualização limitada de algumas variáveis e alguns casos.
  • skim(): análises descritivas iniciais (incluindo mini-histogramas) de variáveis númericas.

Vamos ver o que cada uma das outras funções faz.

View() abre uma janela dentro do próprio RStudio para visualização dos dados do banco.

View(dass) # útil para explorar todos casos e/ou todas variáveis

Fazendo isso, abre-se uma janela no RStudio como essa:

names() retorna o nome das colunas do banco.

names(dass) # útil para uma lida rápida nas variáveis contempladas pelo banco
##   [1] "X"                     "Q1A"                   "Q1I"                  
##   [4] "Q1E"                   "Q2A"                   "Q2I"                  
##   [7] "Q2E"                   "Q3A"                   "Q3I"                  
##  [10] "Q3E"                   "Q4A"                   "Q4I"                  
##  [13] "Q4E"                   "Q5A"                   "Q5I"                  
##  [16] "Q5E"                   "Q6A"                   "Q6I"                  
##  [19] "Q6E"                   "Q7A"                   "Q7I"                  
##  [22] "Q7E"                   "Q8A"                   "Q8I"                  
##  [25] "Q8E"                   "Q9A"                   "Q9I"                  
##  [28] "Q9E"                   "Q10A"                  "Q10I"                 
##  [31] "Q10E"                  "Q11A"                  "Q11I"                 
##  [34] "Q11E"                  "Q12A"                  "Q12I"                 
##  [37] "Q12E"                  "Q13A"                  "Q13I"                 
##  [40] "Q13E"                  "Q14A"                  "Q14I"                 
##  [43] "Q14E"                  "Q15A"                  "Q15I"                 
##  [46] "Q15E"                  "Q16A"                  "Q16I"                 
##  [49] "Q16E"                  "Q17A"                  "Q17I"                 
##  [52] "Q17E"                  "Q18A"                  "Q18I"                 
##  [55] "Q18E"                  "Q19A"                  "Q19I"                 
##  [58] "Q19E"                  "Q20A"                  "Q20I"                 
##  [61] "Q20E"                  "Q21A"                  "Q21I"                 
##  [64] "Q21E"                  "Q22A"                  "Q22I"                 
##  [67] "Q22E"                  "Q23A"                  "Q23I"                 
##  [70] "Q23E"                  "Q24A"                  "Q24I"                 
##  [73] "Q24E"                  "Q25A"                  "Q25I"                 
##  [76] "Q25E"                  "Q26A"                  "Q26I"                 
##  [79] "Q26E"                  "Q27A"                  "Q27I"                 
##  [82] "Q27E"                  "Q28A"                  "Q28I"                 
##  [85] "Q28E"                  "Q29A"                  "Q29I"                 
##  [88] "Q29E"                  "Q30A"                  "Q30I"                 
##  [91] "Q30E"                  "Q31A"                  "Q31I"                 
##  [94] "Q31E"                  "Q32A"                  "Q32I"                 
##  [97] "Q32E"                  "Q33A"                  "Q33I"                 
## [100] "Q33E"                  "Q34A"                  "Q34I"                 
## [103] "Q34E"                  "Q35A"                  "Q35I"                 
## [106] "Q35E"                  "Q36A"                  "Q36I"                 
## [109] "Q36E"                  "Q37A"                  "Q37I"                 
## [112] "Q37E"                  "Q38A"                  "Q38I"                 
## [115] "Q38E"                  "Q39A"                  "Q39I"                 
## [118] "Q39E"                  "Q40A"                  "Q40I"                 
## [121] "Q40E"                  "Q41A"                  "Q41I"                 
## [124] "Q41E"                  "Q42A"                  "Q42I"                 
## [127] "Q42E"                  "country"               "source"               
## [130] "introelapse"           "testelapse"            "surveyelapse"         
## [133] "TIPI1"                 "TIPI2"                 "TIPI3"                
## [136] "TIPI4"                 "TIPI5"                 "TIPI6"                
## [139] "TIPI7"                 "TIPI8"                 "TIPI9"                
## [142] "TIPI10"                "VCL1"                  "VCL2"                 
## [145] "VCL3"                  "VCL4"                  "VCL5"                 
## [148] "VCL6"                  "VCL7"                  "VCL8"                 
## [151] "VCL9"                  "VCL10"                 "VCL11"                
## [154] "VCL12"                 "VCL13"                 "VCL14"                
## [157] "VCL15"                 "VCL16"                 "education"            
## [160] "urban"                 "gender"                "engnat"               
## [163] "age"                   "screensize"            "uniquenetworklocation"
## [166] "hand"                  "religion"              "orientation"          
## [169] "race"                  "voted"                 "married"              
## [172] "familysize"            "major"

str() fornece uma lida rápida das variáveis e dos valores delas.

str(dass) # entender a estrutura do nosso objeto
## 'data.frame':    39775 obs. of  173 variables:
##  $ X                    : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ Q1A                  : int  4 4 3 2 2 1 1 1 4 3 ...
##  $ Q1I                  : int  28 2 7 23 36 18 20 34 4 38 ...
##  $ Q1E                  : int  3890 8118 5784 5081 3215 6116 4325 4796 3470 5187 ...
##  $ Q2A                  : int  4 1 1 3 2 1 1 1 4 2 ...
##  $ Q2I                  : int  25 36 33 11 13 28 34 9 14 28 ...
##  $ Q2E                  : int  2122 2890 4373 6837 7731 3193 4009 2618 2139 2600 ...
##  $ Q3A                  : int  2 2 4 2 3 2 2 1 3 4 ...
##  $ Q3I                  : int  16 35 41 37 5 2 38 39 1 9 ...
##  $ Q3E                  : int  1944 4777 3242 5521 4156 12542 3604 5823 11043 2015 ...
##  $ Q4A                  : int  4 3 1 1 4 1 3 1 4 1 ...
##  $ Q4I                  : int  8 28 13 27 10 8 40 12 20 7 ...
##  $ Q4E                  : int  2044 3090 6470 4556 2802 6150 4826 6596 1829 3111 ...
##  $ Q5A                  : int  4 4 4 3 4 3 4 3 3 4 ...
##  $ Q5I                  : int  34 10 11 28 2 40 22 4 3 41 ...
##  $ Q5E                  : int  2153 5078 3927 3269 5628 6428 2842 7635 5847 1712 ...
##  $ Q6A                  : int  4 4 3 3 2 1 1 2 4 4 ...
##  $ Q6I                  : int  33 40 9 26 9 4 42 31 7 22 ...
##  $ Q6E                  : int  2416 2790 3704 3231 6522 17001 2342 7384 3529 1719 ...
##  $ Q7A                  : int  4 3 1 4 4 1 3 2 4 3 ...
##  $ Q7I                  : int  10 18 17 2 34 33 6 24 17 21 ...
##  $ Q7E                  : int  2818 3408 4550 7138 2374 2944 9018 11570 1855 2049 ...
##  $ Q8A                  : int  4 4 3 2 4 3 3 1 4 4 ...
##  $ Q8I                  : int  13 1 5 19 11 7 31 33 29 11 ...
##  $ Q8E                  : int  2259 8342 3021 3079 3054 8626 3717 2958 3000 2623 ...
##  $ Q9A                  : int  2 3 2 3 4 3 3 1 4 4 ...
##  $ Q9I                  : int  21 37 32 31 7 14 39 15 31 26 ...
##  $ Q9E                  : int  5541 916 5864 9650 2975 9639 7023 12300 6066 3853 ...
##  $ Q10A                 : int  1 2 4 3 3 2 4 1 3 4 ...
##  $ Q10I                 : int  38 32 21 17 14 20 35 5 21 12 ...
##  $ Q10E                 : int  4441 1537 3722 4179 3524 6175 3312 3605 2539 1888 ...
##  $ Q11A                 : int  4 2 2 2 2 1 1 2 4 4 ...
##  $ Q11I                 : int  31 21 10 5 33 34 28 10 16 4 ...
##  $ Q11E                 : int  2451 3926 3424 5928 3033 6008 3930 5338 3079 2511 ...
##  $ Q12A                 : int  4 2 1 1 4 2 2 1 4 4 ...
##  $ Q12I                 : int  24 25 36 21 23 21 41 40 11 35 ...
##  $ Q12E                 : int  3325 3691 3236 2838 2132 9267 4558 4842 4134 2610 ...
##  $ Q13A                 : int  4 4 4 1 4 1 2 1 4 4 ...
##  $ Q13I                 : int  14 26 23 20 17 41 5 27 35 33 ...
##  $ Q13E                 : int  1416 2004 2489 2560 1314 5290 2883 1422 1233 1298 ...
##  $ Q14A                 : int  4 4 1 4 4 3 2 2 3 4 ...
##  $ Q14I                 : int  37 4 34 29 16 1 19 11 30 13 ...
##  $ Q14E                 : int  5021 8888 7290 5139 3181 25694 8984 10166 5252 4647 ...
##  $ Q15A                 : int  4 3 4 2 4 2 3 2 4 2 ...
##  $ Q15I                 : int  27 27 12 22 26 9 13 30 32 31 ...
##  $ Q15E                 : int  2342 4109 6587 3597 2249 7634 41618 4058 3588 2800 ...
##  $ Q16A                 : int  4 3 4 2 3 4 4 1 4 4 ...
##  $ Q16I                 : int  39 19 22 35 19 37 10 7 6 32 ...
##  $ Q16E                 : int  2480 4058 3627 3336 2623 8513 17311 7770 2784 1864 ...
##  $ Q17A                 : int  3 4 4 3 4 2 2 1 3 4 ...
##  $ Q17I                 : int  6 12 38 10 35 25 37 42 2 3 ...
##  $ Q17E                 : int  2476 3692 2905 4506 3093 9078 4514 1513 8302 2924 ...
##  $ Q18A                 : int  4 2 2 1 4 1 2 2 4 1 ...
##  $ Q18I                 : int  35 6 18 14 38 15 2 38 25 40 ...
##  $ Q18E                 : int  1627 3373 2998 2695 7098 4381 43266690 3281 4083 3335 ...
##  $ Q19A                 : int  3 1 2 1 4 1 1 1 4 4 ...
##  $ Q19I                 : int  17 23 8 25 37 23 3 8 28 16 ...
##  $ Q19E                 : int  9050 6015 10233 8128 1938 6647 22234 9377 4179 4071 ...
##  $ Q20A                 : int  3 1 1 2 4 2 3 2 4 4 ...
##  $ Q20I                 : int  30 16 16 15 15 36 7 1 42 1 ...
##  $ Q20E                 : int  7001 3023 4258 3125 3502 6250 5111 10548 3284 6371 ...
##  $ Q21A                 : int  1 2 4 1 3 1 4 1 3 4 ...
##  $ Q21I                 : int  11 22 28 6 32 39 15 26 13 30 ...
##  $ Q21E                 : int  4719 2670 2888 4061 4776 3842 2831 1798 5699 1741 ...
##  $ Q22A                 : int  4 3 3 1 3 1 1 1 4 3 ...
##  $ Q22I                 : int  20 3 4 40 18 16 30 36 39 17 ...
##  $ Q22E                 : int  2984 5727 59592 4272 4463 7876 103530 4086 3267 3161 ...
##  $ Q23A                 : int  4 1 2 1 4 1 3 1 4 1 ...
##  $ Q23I                 : int  36 39 3 12 4 27 14 25 19 5 ...
##  $ Q23E                 : int  1313 3641 11732 4029 2436 3124 3398 2053 1704 2232 ...
##  $ Q24A                 : int  4 2 4 1 2 2 3 1 3 4 ...
##  $ Q24I                 : int  42 33 2 9 40 12 29 19 36 14 ...
##  $ Q24E                 : int  2444 2670 8834 5630 4047 6836 4551 6303 5733 2681 ...
##  $ Q25A                 : int  4 2 2 1 4 1 2 2 2 3 ...
##  $ Q25I                 : int  1 7 29 18 31 31 17 14 12 2 ...
##  $ Q25E                 : int  9880 7649 7358 30631 3787 12063 7096 7299 9601 7140 ...
##  $ Q26A                 : int  4 3 1 2 4 1 2 2 4 4 ...
##  $ Q26I                 : int  2 11 30 24 42 3 27 41 15 10 ...
##  $ Q26E                 : int  4695 2537 4928 9870 2102 9264 2908 3395 9435 2633 ...
##  $ Q27A                 : int  4 3 2 4 2 1 1 2 2 4 ...
##  $ Q27I                 : int  5 5 15 4 1 35 8 20 22 8 ...
##  $ Q27E                 : int  1677 2907 3036 2411 12351 3957 3189 2520 10214 1670 ...
##  $ Q28A                 : int  3 4 1 1 4 1 2 1 4 4 ...
##  $ Q28I                 : int  4 9 19 16 3 42 36 35 37 36 ...
##  $ Q28E                 : int  6723 1685 4127 9478 2410 2537 2409 5961 1806 1387 ...
##  $ Q29A                 : int  4 3 2 3 2 3 2 1 4 4 ...
##  $ Q29I                 : int  3 41 37 1 22 17 1 28 8 42 ...
##  $ Q29E                 : int  5953 4726 3934 7618 5056 10880 1672595 3379 2983 1810 ...
##  $ Q30A                 : int  2 3 2 3 4 2 3 1 3 3 ...
##  $ Q30I                 : int  26 17 26 32 39 5 4 13 24 37 ...
##  $ Q30E                 : int  8062 6063 10782 12639 3343 8462 9032 10533 10286 3126 ...
##  $ Q31A                 : int  4 2 4 3 3 2 4 1 4 4 ...
##  $ Q31I                 : int  12 20 1 34 27 32 32 22 40 19 ...
##  $ Q31E                 : int  5560 3307 8273 5378 3012 5615 5133 5667 3801 2094 ...
##  $ Q32A                 : int  4 3 3 1 4 1 2 1 2 2 ...
##  $ Q32I                 : int  7 14 39 41 20 30 16 37 9 6 ...
##  $ Q32E                 : int  3032 4995 3501 8923 3520 11412 5469 6062 9552 5727 ...
##  $ Q33A                 : int  2 3 1 2 4 4 4 1 4 4 ...
##  $ Q33I                 : int  29 38 27 38 8 6 23 21 38 25 ...
##   [list output truncated]

head() resulta nos valores dos primeiros casos. Podemos especificar quantos casos queremos com n =.

head(dass, n = 5) # útil para entender o tipo de resposta de cada variável em alguns casos

tail() resulta nos valores dos últimos casos. Podemos especificar quantos casos queremos com n =.

tail(dass, n = 5) # útil para entender o tipo de resposta de cada variável em alguns casos

Vimos que head() e tail() proporcionam a leitura dos casos considerando todas as colunas do dataframe. Isso dificulta muito a compreensão do banco, pois precisamos ir de variável em variável para ter um resumo dos casos.

glimpse() e skim()

Assim como em str(), vamos resumir os casos com mais duas funções. Para isso, vamos instalar dois pacotes que vão nos auxiliar: o pacote dplyr e o pacote skimr.

install.packages("dplyr", dependencies = T) # manipulação de banco de dados

Agora, vamos ver a função glimpse() do dplyr em ação.

library(dplyr) # leitura do pacote dplyr
glimpse(dass)
## Rows: 39,775
## Columns: 173
## $ X                     <int> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14...
## $ Q1A                   <int> 4, 4, 3, 2, 2, 1, 1, 1, 4, 3, 3, 3, 1, 1, 1, ...
## $ Q1I                   <int> 28, 2, 7, 23, 36, 18, 20, 34, 4, 38, 38, 37, ...
## $ Q1E                   <int> 3890, 8118, 5784, 5081, 3215, 6116, 4325, 479...
## $ Q2A                   <int> 4, 1, 1, 3, 2, 1, 1, 1, 4, 2, 1, 3, 1, 4, 1, ...
## $ Q2I                   <int> 25, 36, 33, 11, 13, 28, 34, 9, 14, 28, 16, 35...
## $ Q2E                   <int> 2122, 2890, 4373, 6837, 7731, 3193, 4009, 261...
## $ Q3A                   <int> 2, 2, 4, 2, 3, 2, 2, 1, 3, 4, 2, 2, 1, 1, 1, ...
## $ Q3I                   <int> 16, 35, 41, 37, 5, 2, 38, 39, 1, 9, 28, 18, 3...
## $ Q3E                   <int> 1944, 4777, 3242, 5521, 4156, 12542, 3604, 58...
## $ Q4A                   <int> 4, 3, 1, 1, 4, 1, 3, 1, 4, 1, 1, 2, 1, 2, 1, ...
## $ Q4I                   <int> 8, 28, 13, 27, 10, 8, 40, 12, 20, 7, 34, 10, ...
## $ Q4E                   <int> 2044, 3090, 6470, 4556, 2802, 6150, 4826, 659...
## $ Q5A                   <int> 4, 4, 4, 3, 4, 3, 4, 3, 3, 4, 3, 4, 1, 3, 1, ...
## $ Q5I                   <int> 34, 10, 11, 28, 2, 40, 22, 4, 3, 41, 41, 23, ...
## $ Q5E                   <int> 2153, 5078, 3927, 3269, 5628, 6428, 2842, 763...
## $ Q6A                   <int> 4, 4, 3, 3, 2, 1, 1, 2, 4, 4, 3, 3, 2, 1, 1, ...
## $ Q6I                   <int> 33, 40, 9, 26, 9, 4, 42, 31, 7, 22, 23, 20, 6...
## $ Q6E                   <int> 2416, 2790, 3704, 3231, 6522, 17001, 2342, 73...
## $ Q7A                   <int> 4, 3, 1, 4, 4, 1, 3, 2, 4, 3, 1, 1, 1, 1, 1, ...
## $ Q7I                   <int> 10, 18, 17, 2, 34, 33, 6, 24, 17, 21, 29, 30,...
## $ Q7E                   <int> 2818, 3408, 4550, 7138, 2374, 2944, 9018, 115...
## $ Q8A                   <int> 4, 4, 3, 2, 4, 3, 3, 1, 4, 4, 3, 3, 3, 3, 1, ...
## $ Q8I                   <int> 13, 1, 5, 19, 11, 7, 31, 33, 29, 11, 12, 5, 1...
## $ Q8E                   <int> 2259, 8342, 3021, 3079, 3054, 8626, 3717, 295...
## $ Q9A                   <int> 2, 3, 2, 3, 4, 3, 3, 1, 4, 4, 1, 4, 1, 2, 1, ...
## $ Q9I                   <int> 21, 37, 32, 31, 7, 14, 39, 15, 31, 26, 31, 6,...
## $ Q9E                   <int> 5541, 916, 5864, 9650, 2975, 9639, 7023, 1230...
## $ Q10A                  <int> 1, 2, 4, 3, 3, 2, 4, 1, 3, 4, 1, 3, 3, 1, 1, ...
## $ Q10I                  <int> 38, 32, 21, 17, 14, 20, 35, 5, 21, 12, 5, 24,...
## $ Q10E                  <int> 4441, 1537, 3722, 4179, 3524, 6175, 3312, 360...
## $ Q11A                  <int> 4, 2, 2, 2, 2, 1, 1, 2, 4, 4, 3, 3, 3, 2, 1, ...
## $ Q11I                  <int> 31, 21, 10, 5, 33, 34, 28, 10, 16, 4, 11, 21,...
## $ Q11E                  <int> 2451, 3926, 3424, 5928, 3033, 6008, 3930, 533...
## $ Q12A                  <int> 4, 2, 1, 1, 4, 2, 2, 1, 4, 4, 2, 3, 2, 1, 1, ...
## $ Q12I                  <int> 24, 25, 36, 21, 23, 21, 41, 40, 11, 35, 2, 28...
## $ Q12E                  <int> 3325, 3691, 3236, 2838, 2132, 9267, 4558, 484...
## $ Q13A                  <int> 4, 4, 4, 1, 4, 1, 2, 1, 4, 4, 2, 3, 3, 4, 1, ...
## $ Q13I                  <int> 14, 26, 23, 20, 17, 41, 5, 27, 35, 33, 37, 17...
## $ Q13E                  <int> 1416, 2004, 2489, 2560, 1314, 5290, 2883, 142...
## $ Q14A                  <int> 4, 4, 1, 4, 4, 3, 2, 2, 3, 4, 4, 3, 4, 1, 1, ...
## $ Q14I                  <int> 37, 4, 34, 29, 16, 1, 19, 11, 30, 13, 10, 29,...
## $ Q14E                  <int> 5021, 8888, 7290, 5139, 3181, 25694, 8984, 10...
## $ Q15A                  <int> 4, 3, 4, 2, 4, 2, 3, 2, 4, 2, 2, 1, 1, 1, 1, ...
## $ Q15I                  <int> 27, 27, 12, 22, 26, 9, 13, 30, 32, 31, 6, 14,...
## $ Q15E                  <int> 2342, 4109, 6587, 3597, 2249, 7634, 41618, 40...
## $ Q16A                  <int> 4, 3, 4, 2, 3, 4, 4, 1, 4, 4, 3, 1, 3, 3, 1, ...
## $ Q16I                  <int> 39, 19, 22, 35, 19, 37, 10, 7, 6, 32, 27, 11,...
## $ Q16E                  <int> 2480, 4058, 3627, 3336, 2623, 8513, 17311, 77...
## $ Q17A                  <int> 3, 4, 4, 3, 4, 2, 2, 1, 3, 4, 2, 3, 3, 4, 1, ...
## $ Q17I                  <int> 6, 12, 38, 10, 35, 25, 37, 42, 2, 3, 17, 4, 2...
## $ Q17E                  <int> 2476, 3692, 2905, 4506, 3093, 9078, 4514, 151...
## $ Q18A                  <int> 4, 2, 2, 1, 4, 1, 2, 2, 4, 1, 3, 2, 2, 3, 1, ...
## $ Q18I                  <int> 35, 6, 18, 14, 38, 15, 2, 38, 25, 40, 8, 7, 4...
## $ Q18E                  <int> 1627, 3373, 2998, 2695, 7098, 4381, 43266690,...
## $ Q19A                  <int> 3, 1, 2, 1, 4, 1, 1, 1, 4, 4, 1, 4, 4, 1, 1, ...
## $ Q19I                  <int> 17, 23, 8, 25, 37, 23, 3, 8, 28, 16, 30, 8, 4...
## $ Q19E                  <int> 9050, 6015, 10233, 8128, 1938, 6647, 22234, 9...
## $ Q20A                  <int> 3, 1, 1, 2, 4, 2, 3, 2, 4, 4, 1, 3, 2, 1, 1, ...
## $ Q20I                  <int> 30, 16, 16, 15, 15, 36, 7, 1, 42, 1, 39, 13, ...
## $ Q20E                  <int> 7001, 3023, 4258, 3125, 3502, 6250, 5111, 105...
## $ Q21A                  <int> 1, 2, 4, 1, 3, 1, 4, 1, 3, 4, 1, 2, 3, 1, 1, ...
## $ Q21I                  <int> 11, 22, 28, 6, 32, 39, 15, 26, 13, 30, 24, 33...
## $ Q21E                  <int> 4719, 2670, 2888, 4061, 4776, 3842, 2831, 179...
## $ Q22A                  <int> 4, 3, 3, 1, 3, 1, 1, 1, 4, 3, 1, 4, 2, 3, 1, ...
## $ Q22I                  <int> 20, 3, 4, 40, 18, 16, 30, 36, 39, 17, 18, 22,...
## $ Q22E                  <int> 2984, 5727, 59592, 4272, 4463, 7876, 103530, ...
## $ Q23A                  <int> 4, 1, 2, 1, 4, 1, 3, 1, 4, 1, 1, 1, 1, 2, 1, ...
## $ Q23I                  <int> 36, 39, 3, 12, 4, 27, 14, 25, 19, 5, 14, 15, ...
## $ Q23E                  <int> 1313, 3641, 11732, 4029, 2436, 3124, 3398, 20...
## $ Q24A                  <int> 4, 2, 4, 1, 2, 2, 3, 1, 3, 4, 3, 2, 2, 3, 1, ...
## $ Q24I                  <int> 42, 33, 2, 9, 40, 12, 29, 19, 36, 14, 13, 41,...
## $ Q24E                  <int> 2444, 2670, 8834, 5630, 4047, 6836, 4551, 630...
## $ Q25A                  <int> 4, 2, 2, 1, 4, 1, 2, 2, 2, 3, 1, 3, 1, 1, 1, ...
## $ Q25I                  <int> 1, 7, 29, 18, 31, 31, 17, 14, 12, 2, 25, 9, 1...
## $ Q25E                  <int> 9880, 7649, 7358, 30631, 3787, 12063, 7096, 7...
## $ Q26A                  <int> 4, 3, 1, 2, 4, 1, 2, 2, 4, 4, 1, 3, 3, 1, 1, ...
## $ Q26I                  <int> 2, 11, 30, 24, 42, 3, 27, 41, 15, 10, 40, 2, ...
## $ Q26E                  <int> 4695, 2537, 4928, 9870, 2102, 9264, 2908, 339...
## $ Q27A                  <int> 4, 3, 2, 4, 2, 1, 1, 2, 2, 4, 3, 2, 3, 2, 1, ...
## $ Q27I                  <int> 5, 5, 15, 4, 1, 35, 8, 20, 22, 8, 26, 42, 34,...
## $ Q27E                  <int> 1677, 2907, 3036, 2411, 12351, 3957, 3189, 25...
## $ Q28A                  <int> 3, 4, 1, 1, 4, 1, 2, 1, 4, 4, 1, 2, 1, 3, 1, ...
## $ Q28I                  <int> 4, 9, 19, 16, 3, 42, 36, 35, 37, 36, 42, 16, ...
## $ Q28E                  <int> 6723, 1685, 4127, 9478, 2410, 2537, 2409, 596...
## $ Q29A                  <int> 4, 3, 2, 3, 2, 3, 2, 1, 4, 4, 3, 3, 3, 3, 1, ...
## $ Q29I                  <int> 3, 41, 37, 1, 22, 17, 1, 28, 8, 42, 20, 38, 2...
## $ Q29E                  <int> 5953, 4726, 3934, 7618, 5056, 10880, 1672595,...
## $ Q30A                  <int> 2, 3, 2, 3, 4, 2, 3, 1, 3, 3, 2, 3, 3, 3, 1, ...
## $ Q30I                  <int> 26, 17, 26, 32, 39, 5, 4, 13, 24, 37, 32, 36,...
## $ Q30E                  <int> 8062, 6063, 10782, 12639, 3343, 8462, 9032, 1...
## $ Q31A                  <int> 4, 2, 4, 3, 3, 2, 4, 1, 4, 4, 3, 2, 1, 2, 1, ...
## $ Q31I                  <int> 12, 20, 1, 34, 27, 32, 32, 22, 40, 19, 7, 39,...
## $ Q31E                  <int> 5560, 3307, 8273, 5378, 3012, 5615, 5133, 566...
## $ Q32A                  <int> 4, 3, 3, 1, 4, 1, 2, 1, 2, 2, 3, 2, 1, 2, 1, ...
## $ Q32I                  <int> 7, 14, 39, 41, 20, 30, 16, 37, 9, 6, 35, 12, ...
## $ Q32E                  <int> 3032, 4995, 3501, 8923, 3520, 11412, 5469, 60...
## $ Q33A                  <int> 2, 3, 1, 2, 4, 4, 4, 1, 4, 4, 1, 4, 1, 2, 1, ...
## $ Q33I                  <int> 29, 38, 27, 38, 8, 6, 23, 21, 38, 25, 22, 40,...
## $ Q33E                  <int> 3316, 2505, 3824, 2977, 1868, 5112, 2690, 189...
## $ Q34A                  <int> 3, 2, 4, 4, 4, 1, 3, 1, 4, 4, 2, 3, 2, 1, 1, ...
## $ Q34I                  <int> 40, 34, 25, 3, 25, 29, 9, 32, 27, 15, 33, 31,...
## $ Q34E                  <int> 3563, 2540, 2141, 5620, 2536, 3070, 7122, 140...
## $ Q35A                  <int> 4, 2, 3, 1, 3, 3, 2, 1, 2, 3, 3, 2, 1, 1, 1, ...
## $ Q35I                  <int> 23, 31, 6, 7, 24, 10, 18, 29, 23, 29, 36, 26,...
## $ Q35E                  <int> 5594, 4359, 17461, 16760, 3725, 13377, 8044, ...
## $ Q36A                  <int> 4, 3, 4, 1, 4, 2, 2, 1, 4, 4, 1, 3, 2, 4, 1, ...
## $ Q36I                  <int> 41, 15, 24, 8, 30, 38, 21, 23, 10, 39, 4, 3, ...
## $ Q36E                  <int> 1477, 3925, 1557, 6427, 2130, 4506, 2242, 367...
## $ Q37A                  <int> 1, 4, 4, 2, 3, 2, 4, 1, 4, 4, 1, 1, 4, 1, 1, ...
## $ Q37I                  <int> 18, 13, 40, 39, 29, 24, 11, 16, 26, 23, 15, 3...
## $ Q37E                  <int> 3885, 4609, 4446, 3760, 3952, 17227, 3951, 54...
## $ Q38A                  <int> 2, 2, 4, 1, 3, 2, 4, 1, 3, 4, 2, 2, 2, 1, 1, ...
## $ Q38I                  <int> 9, 30, 42, 13, 21, 13, 24, 3, 5, 24, 3, 19, 1...
## $ Q38E                  <int> 5265, 3755, 1883, 4112, 10694, 7844, 2272, 28...
## $ Q39A                  <int> 4, 2, 2, 3, 3, 1, 4, 2, 2, 4, 3, 4, 4, 2, 1, ...
## $ Q39I                  <int> 19, 42, 35, 42, 41, 26, 33, 6, 33, 27, 21, 1,...
## $ Q39E                  <int> 1892, 2323, 5790, 2769, 3231, 20253, 3398, 27...
## $ Q40A                  <int> 3, 1, 2, 4, 4, 1, 2, 1, 4, 4, 1, 3, 2, 4, 1, ...
## $ Q40I                  <int> 22, 24, 14, 33, 12, 22, 12, 2, 41, 18, 9, 34,...
## $ Q40E                  <int> 4228, 5713, 4432, 4432, 3604, 8528, 5101, 925...
## $ Q41A                  <int> 4, 2, 1, 4, 4, 1, 2, 1, 4, 3, 1, 1, 3, 2, 1, ...
## $ Q41I                  <int> 32, 8, 20, 30, 28, 11, 25, 17, 34, 20, 19, 25...
## $ Q41E                  <int> 1574, 1334, 2203, 3643, 1950, 4370, 93656, 29...
## $ Q42A                  <int> 4, 2, 4, 2, 3, 2, 3, 2, 4, 4, 2, 2, 2, 3, 1, ...
## $ Q42I                  <int> 15, 29, 31, 36, 6, 19, 26, 18, 18, 34, 1, 27,...
## $ Q42E                  <int> 2969, 5562, 5768, 3698, 6265, 10310, 84607, 8...
## $ country               <chr> "IN", "US", "PL", "US", "MY", "US", "MX", "GB...
## $ source                <int> 2, 2, 2, 2, 2, 2, 2, 2, 0, 2, 2, 2, 0, 2, 2, ...
## $ introelapse           <int> 19, 1, 5, 3, 1766, 4, 1143, 234, 17, 2, 3, 51...
## $ testelapse            <int> 167, 193, 271, 261, 164, 349, 45459, 232, 195...
## $ surveyelapse          <int> 166, 186, 122, 336, 157, 213, 170, 152, 242, ...
## $ TIPI1                 <int> 1, 6, 2, 1, 2, 2, 2, 7, 1, 1, 5, 6, 5, 5, 3, ...
## $ TIPI2                 <int> 5, 5, 5, 1, 5, 1, 5, 6, 4, 7, 3, 5, 1, 2, 5, ...
## $ TIPI3                 <int> 7, 4, 2, 7, 3, 6, 6, 4, 5, 5, 6, 6, 4, 5, 6, ...
## $ TIPI4                 <int> 7, 7, 2, 4, 6, 1, 5, 5, 7, 7, 6, 6, 6, 5, 1, ...
## $ TIPI5                 <int> 7, 5, 5, 6, 5, 7, 3, 3, 5, 5, 3, 6, 5, 2, 6, ...
## $ TIPI6                 <int> 7, 4, 6, 4, 5, 7, 2, 2, 7, 7, 4, 2, 5, 6, 5, ...
## $ TIPI7                 <int> 7, 7, 5, 6, 5, 7, 6, 6, 6, 1, 4, 5, 7, 7, 3, ...
## $ TIPI8                 <int> 5, 7, 5, 1, 6, 2, 3, 3, 7, 2, 7, 3, 6, 6, 2, ...
## $ TIPI9                 <int> 1, 1, 3, 6, 3, 6, 5, 5, 1, 1, 5, 3, 2, 6, 7, ...
## $ TIPI10                <int> 1, 5, 2, 1, 3, 7, 5, 2, 4, 7, 7, 3, 1, 2, 2, ...
## $ VCL1                  <int> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...
## $ VCL2                  <int> 0, 1, 0, 0, 1, 1, 1, 1, 1, 0, 0, 1, 1, 1, 1, ...
## $ VCL3                  <int> 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, ...
## $ VCL4                  <int> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, ...
## $ VCL5                  <int> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...
## $ VCL6                  <int> 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, ...
## $ VCL7                  <int> 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, ...
## $ VCL8                  <int> 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 1, 1, 1, ...
## $ VCL9                  <int> 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...
## $ VCL10                 <int> 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, ...
## $ VCL11                 <int> 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, ...
## $ VCL12                 <int> 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, ...
## $ VCL13                 <int> 0, 0, 0, 0, 1, 0, 1, 1, 1, 0, 1, 0, 1, 1, 1, ...
## $ VCL14                 <int> 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...
## $ VCL15                 <int> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, ...
## $ VCL16                 <int> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, ...
## $ education             <int> 2, 2, 2, 1, 3, 2, 2, 4, 2, 1, 1, 2, 3, 4, 3, ...
## $ urban                 <int> 3, 3, 3, 3, 2, 3, 3, 2, 3, 1, 2, 1, 0, 2, 2, ...
## $ gender                <int> 2, 2, 2, 2, 2, 2, 2, 2, 1, 2, 1, 2, 2, 1, 1, ...
## $ engnat                <int> 2, 1, 2, 1, 2, 2, 2, 2, 2, 2, 1, 1, 1, 2, 1, ...
## $ age                   <int> 16, 16, 17, 13, 19, 20, 17, 29, 16, 18, 15, 1...
## $ screensize            <int> 1, 2, 2, 2, 2, 2, 2, 2, 1, 2, 1, 1, 1, 2, 2, ...
## $ uniquenetworklocation <int> 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...
## $ hand                  <int> 1, 2, 1, 2, 3, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...
## $ religion              <int> 12, 7, 4, 4, 10, 4, 7, 2, 12, 2, 6, 6, 1, 12,...
## $ orientation           <int> 1, 0, 3, 5, 1, 1, 2, 2, 2, 2, 1, 1, 1, 1, 1, ...
## $ race                  <int> 10, 70, 60, 70, 10, 70, 60, 60, 70, 60, 60, 6...
## $ voted                 <int> 2, 2, 1, 2, 2, 2, 2, 1, 2, 2, 2, 2, 2, 2, 1, ...
## $ married               <int> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 3, ...
## $ familysize            <int> 2, 4, 3, 5, 4, 4, 4, 2, 4, 3, 1, 2, 2, 5, 2, ...
## $ major                 <chr> "", "", "", "biology", "Psychology", "", "Mec...

Uma visão bem mais completa das variáveis, sem dúvida. É bastante semelhante à função str() e produz um resultado mais organizado. Conseguimos entender tanto os primeiros casos quando o tipo de dados contido em cada coluna e seus respectivos nomes.

Agora vamos ver como funciona com a função skim().

install.packages("skimr", dependencies = T) # compreensão rápida de banco de dados

Depois de instalar o pacote, basta lê-lo e executar skim()

library(skimr)
skim(dass)
Data summary
Name dass
Number of rows 39775
Number of columns 173
_______________________
Column type frequency:
character 2
numeric 171
________________________
Group variables None

Variable type: character

skim_variable n_missing complete_rate min max empty n_unique whitespace
country 2 1 2 4 0 145 0
major 6 1 0 47 11306 5312 4

Variable type: numeric

skim_variable n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist
X 0 1 19888.00 11482.20 1 9944.5 19888 29831.5 39775 ▇▇▇▇▇
Q1A 0 1 2.62 1.03 1 2.0 3 4.0 4 ▃▇▁▆▆
Q1I 0 1 21.56 12.13 1 11.0 22 32.0 42 ▇▇▇▇▇
Q1E 0 1 6970.59 86705.13 180 2664.0 3609 5358.0 12102282 ▇▁▁▁▁
Q2A 0 1 2.17 1.11 1 1.0 2 3.0 4 ▇▆▁▃▅
Q2I 0 1 21.25 12.13 1 11.0 21 32.0 42 ▇▇▇▇▇
Q2E 0 1 5332.38 26513.61 176 2477.0 3511 5216.0 2161057 ▇▁▁▁▁
Q3A 0 1 2.23 1.04 1 1.0 2 3.0 4 ▆▇▁▅▃
Q3I 0 1 21.58 12.12 1 11.0 22 32.0 42 ▇▇▇▇▇
Q3E 0 1 7426.45 158702.35 -10814 2857.0 3898 5766.0 28582689 ▇▁▁▁▁
Q4A 0 1 1.95 1.04 1 1.0 2 3.0 4 ▇▅▁▃▂
Q4I 0 1 21.50 12.15 1 11.0 21 32.0 42 ▇▇▇▇▇
Q4E 0 1 7128.73 75984.86 176 2949.0 4258 6285.0 9488330 ▇▁▁▁▁
Q5A 0 1 2.52 1.07 1 2.0 2 3.0 4 ▅▇▁▆▆
Q5I 0 1 21.49 12.15 1 11.0 21 32.0 42 ▇▇▇▇▇
Q5E 0 1 5919.31 64282.07 178 2327.0 3237 4849.0 9467497 ▇▁▁▁▁
Q6A 0 1 2.54 1.05 1 2.0 2 3.0 4 ▅▇▁▆▆
Q6I 0 1 21.56 12.10 1 11.0 22 32.0 42 ▇▇▇▇▇
Q6E 0 1 5724.10 50195.83 178 2369.0 3248 4788.0 5426858 ▇▁▁▁▁
Q7A 0 1 1.92 1.03 1 1.0 2 3.0 4 ▇▅▁▂▂
Q7I 0 1 21.53 12.14 1 11.0 22 32.0 42 ▇▇▇▇▇
Q7E 0 1 9776.97 442758.76 178 2641.5 3702 5362.0 74124488 ▇▁▁▁▁
Q8A 0 1 2.48 1.05 1 2.0 2 3.0 4 ▅▇▁▆▅
Q8I 0 1 21.57 12.09 1 11.0 22 32.0 42 ▇▇▇▇▇
Q8E 0 1 4444.63 22916.18 179 2104.5 2871 4239.5 2103626 ▇▁▁▁▁
Q9A 0 1 2.67 1.07 1 2.0 3 4.0 4 ▅▇▁▆▇
Q9I 0 1 21.58 12.13 1 11.0 22 32.0 42 ▇▇▇▇▇
Q9E 0 1 18330.83 1409724.44 177 4218.0 6139 9245.0 279772213 ▇▁▁▁▁
Q10A 0 1 2.45 1.14 1 1.0 2 4.0 4 ▇▇▁▆▇
Q10I 0 1 21.42 12.11 1 11.0 21 32.0 42 ▇▇▇▇▇
Q10E 0 1 9157.49 418635.47 -19695 2427.0 3375 5027.0 74471124 ▇▁▁▁▁
Q11A 0 1 2.80 1.05 1 2.0 3 4.0 4 ▃▆▁▆▇
Q11I 0 1 21.43 12.14 1 11.0 21 32.0 42 ▇▇▇▇▇
Q11E 0 1 5490.15 54386.16 180 2364.0 3215 4694.0 6201142 ▇▁▁▁▁
Q12A 0 1 2.43 1.07 1 2.0 2 3.0 4 ▆▇▁▆▆
Q12I 0 1 21.49 12.09 1 11.0 22 32.0 42 ▇▇▇▇▇
Q12E 0 1 6570.47 146832.81 177 2772.5 3767 5353.0 28535639 ▇▁▁▁▁
Q13A 0 1 2.78 1.07 1 2.0 3 4.0 4 ▃▆▁▅▇
Q13I 0 1 21.50 12.08 1 11.0 21 32.0 42 ▇▇▇▇▇
Q13E 0 1 3931.87 28273.89 177 1710.0 2381 3704.0 4095293 ▇▁▁▁▁
Q14A 0 1 2.58 1.08 1 2.0 2 4.0 4 ▅▇▁▆▇
Q14I 0 1 21.57 12.12 1 11.0 22 32.0 42 ▇▇▇▇▇
Q14E 0 1 10348.75 381949.24 180 4091.5 5687 8106.5 75366349 ▇▁▁▁▁
Q15A 0 1 1.83 0.99 1 1.0 2 2.0 4 ▇▅▁▂▂
Q15I 0 1 21.50 12.12 1 11.0 21 32.0 42 ▇▇▇▇▇
Q15E 0 1 5243.59 40041.61 -8195 2155.0 2900 4314.5 6211384 ▇▁▁▁▁
Q16A 0 1 2.52 1.11 1 2.0 2 4.0 4 ▆▇▁▆▇
Q16I 0 1 21.46 12.13 1 11.0 21 32.0 42 ▇▇▇▇▇
Q16E 0 1 6446.74 101679.31 -493 2664.0 3669 5376.0 18593374 ▇▁▁▁▁
Q17A 0 1 2.66 1.16 1 2.0 3 4.0 4 ▅▆▁▅▇
Q17I 0 1 21.50 12.13 1 11.0 21 32.0 42 ▇▇▇▇▇
Q17E 0 1 5197.92 48798.56 177 2241.0 3139 4680.0 8804235 ▇▁▁▁▁
Q18A 0 1 2.48 1.07 1 2.0 2 3.0 4 ▆▇▁▆▆
Q18I 0 1 21.53 12.07 1 11.0 22 32.0 42 ▇▇▇▇▇
Q18E 0 1 7293.52 222170.60 179 2524.0 3499 5215.0 43266690 ▇▁▁▁▁
Q19A 0 1 1.95 1.07 1 1.0 2 3.0 4 ▇▅▁▂▂
Q19I 0 1 21.55 12.13 1 11.0 22 32.0 42 ▇▇▇▇▇
Q19E 0 1 11244.46 337352.20 180 3689.0 5351 7956.0 53230195 ▇▁▁▁▁
Q20A 0 1 2.32 1.12 1 1.0 2 3.0 4 ▇▇▁▅▆
Q20I 0 1 21.52 12.17 1 11.0 21 32.0 42 ▇▇▇▇▇
Q20E 0 1 4965.48 32686.87 177 2389.0 3291 4804.0 4950647 ▇▁▁▁▁
Q21A 0 1 2.35 1.17 1 1.0 2 3.0 4 ▇▆▁▅▆
Q21I 0 1 21.57 12.11 1 11.0 22 32.0 42 ▇▇▇▇▇
Q21E 0 1 5596.29 153392.50 -5125 2078.0 2904 4373.0 29328385 ▇▁▁▁▁
Q22A 0 1 2.34 1.03 1 2.0 2 3.0 4 ▅▇▁▅▃
Q22I 0 1 21.52 12.10 1 11.0 21 32.0 42 ▇▇▇▇▇
Q22E 0 1 6865.09 38291.88 178 2329.0 3228 4969.0 3464030 ▇▁▁▁▁
Q23A 0 1 1.56 0.86 1 1.0 1 2.0 4 ▇▃▁▁▁
Q23I 0 1 21.48 12.11 1 11.0 21 32.0 42 ▇▇▇▇▇
Q23E 0 1 4603.33 16441.56 177 2100.0 2792 4173.0 1609274 ▇▁▁▁▁
Q24A 0 1 2.44 1.05 1 2.0 2 3.0 4 ▅▇▁▅▅
Q24I 0 1 21.53 12.08 1 11.0 22 32.0 42 ▇▇▇▇▇
Q24E 0 1 8142.97 251854.22 176 2968.0 4184 6202.0 49175189 ▇▁▁▁▁
Q25A 0 1 2.18 1.08 1 1.0 2 3.0 4 ▇▇▁▅▃
Q25I 0 1 21.56 12.11 1 11.0 22 32.0 42 ▇▇▇▇▇
Q25E 0 1 14082.90 378025.93 180 4617.0 6705 9753.0 65356830 ▇▁▁▁▁
Q26A 0 1 2.66 1.07 1 2.0 3 4.0 4 ▅▇▁▆▇
Q26I 0 1 21.45 12.11 1 11.0 21 32.0 42 ▇▇▇▇▇
Q26E 0 1 5336.94 57593.56 179 2083.5 2883 4334.0 10010729 ▇▁▁▁▁
Q27A 0 1 2.61 1.05 1 2.0 3 4.0 4 ▅▇▁▆▆
Q27I 0 1 21.53 12.14 1 11.0 22 32.0 42 ▇▇▇▇▇
Q27E 0 1 8448.04 332784.60 176 2193.0 3029 4637.0 60807360 ▇▁▁▁▁
Q28A 0 1 2.22 1.07 1 1.0 2 3.0 4 ▇▇▁▅▅
Q28I 0 1 21.50 12.11 1 11.0 22 32.0 42 ▇▇▇▇▇
Q28E 0 1 8183.67 759274.95 177 2053.0 2824 4148.0 151281923 ▇▁▁▁▁
Q29A 0 1 2.65 1.06 1 2.0 3 4.0 4 ▅▇▁▆▇
Q29I 0 1 21.46 12.17 1 11.0 21 32.0 42 ▇▇▇▇▇
Q29E 0 1 8493.56 267420.56 178 2943.0 4011 5694.5 47570142 ▇▁▁▁▁
Q30A 0 1 2.39 1.08 1 1.0 2 3.0 4 ▆▇▁▆▆
Q30I 0 1 21.45 12.15 1 11.0 21 32.0 42 ▇▇▇▇▇
Q30E 0 1 9719.10 179240.48 -4328 3785.0 5327 7879.5 34265188 ▇▁▁▁▁
Q31A 0 1 2.38 1.04 1 2.0 2 3.0 4 ▅▇▁▅▅
Q31I 0 1 21.48 12.11 1 11.0 21 32.0 42 ▇▇▇▇▇
Q31E 0 1 7069.76 54198.00 177 2686.0 3752 5841.0 9711339 ▇▁▁▁▁
Q32A 0 1 2.45 1.02 1 2.0 2 3.0 4 ▅▇▁▆▅
Q32I 0 1 21.39 12.12 1 11.0 21 32.0 42 ▇▇▇▇▇
Q32E 0 1 12722.00 371040.07 180 3456.0 5041 7702.5 39791945 ▇▁▁▁▁
Q33A 0 1 2.41 1.05 1 2.0 2 3.0 4 ▆▇▁▆▅
Q33I 0 1 21.45 12.13 1 11.0 21 32.0 42 ▇▇▇▇▇
Q33E 0 1 5272.24 51466.99 179 2162.0 2993 4608.0 8658903 ▇▁▁▁▁
Q34A 0 1 2.63 1.15 1 2.0 3 4.0 4 ▅▆▁▅▇
Q34I 0 1 21.50 12.12 1 11.0 22 32.0 42 ▇▇▇▇▇
Q34E 0 1 4871.68 108623.40 -1615 1922.0 2653 4003.5 21328973 ▇▁▁▁▁
Q35A 0 1 2.30 1.00 1 2.0 2 3.0 4 ▅▇▁▅▃
Q35I 0 1 21.57 12.13 1 11.0 22 32.0 42 ▇▇▇▇▇
Q35E 0 1 14105.87 376000.38 183 4317.5 6499 10388.0 72970668 ▇▁▁▁▁
Q36A 0 1 2.27 1.11 1 1.0 2 3.0 4 ▇▇▁▅▅
Q36I 0 1 21.40 12.09 1 11.0 21 32.0 42 ▇▇▇▇▇
Q36E 0 1 4335.75 30703.42 178 1681.0 2254 3484.0 4133123 ▇▁▁▁▁
Q37A 0 1 2.37 1.14 1 1.0 2 3.0 4 ▇▇▁▅▆
Q37I 0 1 21.56 12.10 1 11.0 22 32.0 42 ▇▇▇▇▇
Q37E 0 1 6811.02 76601.33 -165 2883.0 4054 5924.0 12710289 ▇▁▁▁▁
Q38A 0 1 2.39 1.19 1 1.0 2 4.0 4 ▇▆▁▅▇
Q38I 0 1 21.53 12.15 1 11.0 22 32.0 42 ▇▇▇▇▇
Q38E 0 1 5838.11 301126.02 -8921 1897.0 2602 3934.5 59401008 ▇▁▁▁▁
Q39A 0 1 2.45 1.02 1 2.0 2 3.0 4 ▅▇▁▆▅
Q39I 0 1 21.54 12.12 1 11.0 22 32.0 42 ▇▇▇▇▇
Q39E 0 1 8472.12 168614.12 -144 2130.5 2930 4940.0 31773217 ▇▁▁▁▁
Q40A 0 1 2.65 1.11 1 2.0 3 4.0 4 ▅▇▁▆▇
Q40I 0 1 21.51 12.12 1 11.0 21 32.0 42 ▇▇▇▇▇
Q40E 0 1 10274.10 320856.86 178 3393.5 4629 6733.0 56297555 ▇▁▁▁▁
Q41A 0 1 1.97 1.05 1 1.0 2 3.0 4 ▇▆▁▂▂
Q41I 0 1 21.48 12.11 1 11.0 21 32.0 42 ▇▇▇▇▇
Q41E 0 1 5540.70 59782.87 -159 2237.0 3052 4518.0 8021110 ▇▁▁▁▁
Q42A 0 1 2.68 1.03 1 2.0 3 4.0 4 ▃▇▁▆▇
Q42I 0 1 21.46 12.14 1 11.0 21 32.0 42 ▇▇▇▇▇
Q42E 0 1 8300.70 77650.78 178 3070.0 4373 6681.0 7750098 ▇▁▁▁▁
source 0 1 0.91 0.80 0 0.0 1 2.0 2 ▇▁▇▁▆
introelapse 0 1 2432.59 138313.79 0 3.0 7 20.0 20829735 ▇▁▁▁▁
testelapse 0 1 2684.84 148241.82 12 165.0 213 296.0 20829721 ▇▁▁▁▁
surveyelapse 0 1 4673.67 184217.90 1 145.0 186 248.0 20828454 ▇▁▁▁▁
TIPI1 0 1 3.79 1.90 0 2.0 4 5.0 7 ▅▅▇▆▆
TIPI2 0 1 4.19 1.82 0 3.0 5 6.0 7 ▃▃▇▇▇
TIPI3 0 1 4.74 1.80 0 4.0 5 6.0 7 ▂▂▅▅▇
TIPI4 0 1 5.17 1.83 0 4.0 6 7.0 7 ▁▁▂▃▇
TIPI5 0 1 4.93 1.72 0 4.0 5 6.0 7 ▁▁▃▅▇
TIPI6 0 1 4.85 1.90 0 4.0 5 6.0 7 ▂▁▃▃▇
TIPI7 0 1 5.27 1.63 0 5.0 6 7.0 7 ▁▁▂▃▇
TIPI8 0 1 4.28 1.97 0 3.0 5 6.0 7 ▃▃▆▆▇
TIPI9 0 1 3.65 1.83 0 2.0 4 5.0 7 ▃▃▇▃▅
TIPI10 0 1 3.73 1.86 0 2.0 4 5.0 7 ▃▃▇▃▅
VCL1 0 1 0.81 0.39 0 1.0 1 1.0 1 ▂▁▁▁▇
VCL2 0 1 0.58 0.49 0 0.0 1 1.0 1 ▆▁▁▁▇
VCL3 0 1 0.15 0.36 0 0.0 0 0.0 1 ▇▁▁▁▂
VCL4 0 1 0.87 0.34 0 1.0 1 1.0 1 ▁▁▁▁▇
VCL5 0 1 0.68 0.46 0 0.0 1 1.0 1 ▃▁▁▁▇
VCL6 0 1 0.04 0.20 0 0.0 0 0.0 1 ▇▁▁▁▁
VCL7 0 1 0.08 0.28 0 0.0 0 0.0 1 ▇▁▁▁▁
VCL8 0 1 0.17 0.38 0 0.0 0 0.0 1 ▇▁▁▁▂
VCL9 0 1 0.04 0.20 0 0.0 0 0.0 1 ▇▁▁▁▁
VCL10 0 1 0.87 0.34 0 1.0 1 1.0 1 ▁▁▁▁▇
VCL11 0 1 0.07 0.26 0 0.0 0 0.0 1 ▇▁▁▁▁
VCL12 0 1 0.08 0.28 0 0.0 0 0.0 1 ▇▁▁▁▁
VCL13 0 1 0.29 0.45 0 0.0 0 1.0 1 ▇▁▁▁▃
VCL14 0 1 0.57 0.50 0 0.0 1 1.0 1 ▆▁▁▁▇
VCL15 0 1 0.85 0.36 0 1.0 1 1.0 1 ▂▁▁▁▇
VCL16 0 1 0.93 0.25 0 1.0 1 1.0 1 ▁▁▁▁▇
education 0 1 2.50 0.89 0 2.0 3 3.0 4 ▁▂▇▇▂
urban 0 1 2.22 0.80 0 2.0 2 3.0 3 ▁▃▁▆▇
gender 0 1 1.79 0.44 0 2.0 2 2.0 3 ▁▂▁▇▁
engnat 0 1 1.64 0.48 0 1.0 2 2.0 2 ▁▁▅▁▇
age 0 1 23.61 21.58 13 18.0 21 25.0 1998 ▇▁▁▁▁
screensize 0 1 1.27 0.45 1 1.0 1 2.0 2 ▇▁▁▁▃
uniquenetworklocation 0 1 1.20 0.40 1 1.0 1 1.0 2 ▇▁▁▁▂
hand 0 1 1.14 0.40 0 1.0 1 1.0 3 ▁▇▁▁▁
religion 0 1 7.56 3.55 0 4.0 10 10.0 12 ▂▁▁▁▇
orientation 0 1 1.64 1.35 0 1.0 1 2.0 5 ▇▂▁▁▁
race 0 1 31.31 25.87 10 10.0 10 60.0 70 ▇▁▁▁▅
voted 0 1 1.71 0.47 0 1.0 2 2.0 2 ▁▁▃▁▇
married 0 1 1.16 0.45 0 1.0 1 1.0 3 ▁▇▁▁▁
familysize 0 1 3.51 2.14 0 2.0 3 4.0 133 ▇▁▁▁▁

skim() vai um passo além e fornece análises descritivas iniciais, junto com mini-histogramas, para todas as variáveis numéricas. Certamente ajuda na detecção de missing values.

Visualizando missings com Amelia

Falando em missing values, o pacote Amelia auxilia na compreensão de onde os missing values da amostra estão com a função missmap().

install.packages("Amelia", dependencies = T) # diagnóstico e manipulação de missings

Para visualização dos missings com Amelia, basta rodar missmap(dataset).

library(Amelia) # leitura do pacote Amelia
missmap(dass)

Podemos perceber que não há nenhum missing computado nesse banco! Que maravilha :)

Por enquanto é isso! :)


Mais informações

Introdução ao R: https://rpubs.com/reisrgabriel/introaor

Manipulando com dplyr - Parte 1: select() e mutate(): https://rpubs.com/reisrgabriel/dplyrPt1

Manipulando com dplyr - Parte 2: bind() e join(): https://rpubs.com/reisrgabriel/dplyrPt2

Organizando com tidyr - Parte 1: dados wide e long: https://rpubs.com/reisrgabriel/tidyrPt1

Organizando com tidyr - Parte 2: valores missing: https://rpubs.com/reisrgabriel/tidyrPt2