Banco de Dados

Eduardo Peixoto
25-01-2021

start

Banco de Dados - Conceitos

Segundo TOREY et al (2007):

  • Dado: é o componente básico de um arquivo, é um elemento com um significado no mundo real, que compõe um sistema de arquivos. Como exemplo, podemos citar nome, sobrenome, cidade, bairro e outros.
  • Informação: após a interpretação dos dados, é possível associar um significado aos dados ou processa-los. Normalmente a informação vem de convenções utilizadas por pessoas por meio de associações aos dados.
  • Conhecimento: todo discernimento, obtido por meio de critérios, e apreciação aos dados e informações

Banco de Dados - Definições

-Um Banco de Dados é um conjunto de arquivos relacionados entre si” (Chu, 1983)

-“Um Banco de Dados é uma coleção de dados operacionais armazenados, sendo usados pelos sistemas de aplicação de uma determinada organização” (C. J. Date, 1985)

-“Um Banco de Dados é uma coleção de dados relacionais” (Elmasri e Navathe, 2005).

-“Um Banco de Dados é um objeto mais complexo, é uma coleção de dados armazenados e inter-relacionados, que atende às necessidades de vários usuários dentro de uma ou mais organizações, ou seja, coleções inter-relacionadas de muitos tipos diferentes de tabelas.” (TOREY et al,p.2,2007)”

Banco de Dados Características

  • Coleção de dados relacionados que tem informação sobre algo do mundo real, por exemplo, lojas, escritórios, bibliotecas ou banco;
  • Possui coerência lógica entre de dados e significado;
  • Um Banco de Dados sempre estará associado a aplicações onde existem usuários com interesse aos dados relacionados

Banco de Dados - Exemplo

htmlTable::htmlTable(iris)
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1 5.1 3.5 1.4 0.2 setosa
2 4.9 3 1.4 0.2 setosa
3 4.7 3.2 1.3 0.2 setosa
4 4.6 3.1 1.5 0.2 setosa
5 5 3.6 1.4 0.2 setosa
6 5.4 3.9 1.7 0.4 setosa
7 4.6 3.4 1.4 0.3 setosa
8 5 3.4 1.5 0.2 setosa
9 4.4 2.9 1.4 0.2 setosa
10 4.9 3.1 1.5 0.1 setosa
11 5.4 3.7 1.5 0.2 setosa
12 4.8 3.4 1.6 0.2 setosa
13 4.8 3 1.4 0.1 setosa
14 4.3 3 1.1 0.1 setosa
15 5.8 4 1.2 0.2 setosa
16 5.7 4.4 1.5 0.4 setosa
17 5.4 3.9 1.3 0.4 setosa
18 5.1 3.5 1.4 0.3 setosa
19 5.7 3.8 1.7 0.3 setosa
20 5.1 3.8 1.5 0.3 setosa
21 5.4 3.4 1.7 0.2 setosa
22 5.1 3.7 1.5 0.4 setosa
23 4.6 3.6 1 0.2 setosa
24 5.1 3.3 1.7 0.5 setosa
25 4.8 3.4 1.9 0.2 setosa
26 5 3 1.6 0.2 setosa
27 5 3.4 1.6 0.4 setosa
28 5.2 3.5 1.5 0.2 setosa
29 5.2 3.4 1.4 0.2 setosa
30 4.7 3.2 1.6 0.2 setosa
31 4.8 3.1 1.6 0.2 setosa
32 5.4 3.4 1.5 0.4 setosa
33 5.2 4.1 1.5 0.1 setosa
34 5.5 4.2 1.4 0.2 setosa
35 4.9 3.1 1.5 0.2 setosa
36 5 3.2 1.2 0.2 setosa
37 5.5 3.5 1.3 0.2 setosa
38 4.9 3.6 1.4 0.1 setosa
39 4.4 3 1.3 0.2 setosa
40 5.1 3.4 1.5 0.2 setosa
41 5 3.5 1.3 0.3 setosa
42 4.5 2.3 1.3 0.3 setosa
43 4.4 3.2 1.3 0.2 setosa
44 5 3.5 1.6 0.6 setosa
45 5.1 3.8 1.9 0.4 setosa
46 4.8 3 1.4 0.3 setosa
47 5.1 3.8 1.6 0.2 setosa
48 4.6 3.2 1.4 0.2 setosa
49 5.3 3.7 1.5 0.2 setosa
50 5 3.3 1.4 0.2 setosa
51 7 3.2 4.7 1.4 versicolor
52 6.4 3.2 4.5 1.5 versicolor
53 6.9 3.1 4.9 1.5 versicolor
54 5.5 2.3 4 1.3 versicolor
55 6.5 2.8 4.6 1.5 versicolor
56 5.7 2.8 4.5 1.3 versicolor
57 6.3 3.3 4.7 1.6 versicolor
58 4.9 2.4 3.3 1 versicolor
59 6.6 2.9 4.6 1.3 versicolor
60 5.2 2.7 3.9 1.4 versicolor
61 5 2 3.5 1 versicolor
62 5.9 3 4.2 1.5 versicolor
63 6 2.2 4 1 versicolor
64 6.1 2.9 4.7 1.4 versicolor
65 5.6 2.9 3.6 1.3 versicolor
66 6.7 3.1 4.4 1.4 versicolor
67 5.6 3 4.5 1.5 versicolor
68 5.8 2.7 4.1 1 versicolor
69 6.2 2.2 4.5 1.5 versicolor
70 5.6 2.5 3.9 1.1 versicolor
71 5.9 3.2 4.8 1.8 versicolor
72 6.1 2.8 4 1.3 versicolor
73 6.3 2.5 4.9 1.5 versicolor
74 6.1 2.8 4.7 1.2 versicolor
75 6.4 2.9 4.3 1.3 versicolor
76 6.6 3 4.4 1.4 versicolor
77 6.8 2.8 4.8 1.4 versicolor
78 6.7 3 5 1.7 versicolor
79 6 2.9 4.5 1.5 versicolor
80 5.7 2.6 3.5 1 versicolor
81 5.5 2.4 3.8 1.1 versicolor
82 5.5 2.4 3.7 1 versicolor
83 5.8 2.7 3.9 1.2 versicolor
84 6 2.7 5.1 1.6 versicolor
85 5.4 3 4.5 1.5 versicolor
86 6 3.4 4.5 1.6 versicolor
87 6.7 3.1 4.7 1.5 versicolor
88 6.3 2.3 4.4 1.3 versicolor
89 5.6 3 4.1 1.3 versicolor
90 5.5 2.5 4 1.3 versicolor
91 5.5 2.6 4.4 1.2 versicolor
92 6.1 3 4.6 1.4 versicolor
93 5.8 2.6 4 1.2 versicolor
94 5 2.3 3.3 1 versicolor
95 5.6 2.7 4.2 1.3 versicolor
96 5.7 3 4.2 1.2 versicolor
97 5.7 2.9 4.2 1.3 versicolor
98 6.2 2.9 4.3 1.3 versicolor
99 5.1 2.5 3 1.1 versicolor
100 5.7 2.8 4.1 1.3 versicolor
101 6.3 3.3 6 2.5 virginica
102 5.8 2.7 5.1 1.9 virginica
103 7.1 3 5.9 2.1 virginica
104 6.3 2.9 5.6 1.8 virginica
105 6.5 3 5.8 2.2 virginica
106 7.6 3 6.6 2.1 virginica
107 4.9 2.5 4.5 1.7 virginica
108 7.3 2.9 6.3 1.8 virginica
109 6.7 2.5 5.8 1.8 virginica
110 7.2 3.6 6.1 2.5 virginica
111 6.5 3.2 5.1 2 virginica
112 6.4 2.7 5.3 1.9 virginica
113 6.8 3 5.5 2.1 virginica
114 5.7 2.5 5 2 virginica
115 5.8 2.8 5.1 2.4 virginica
116 6.4 3.2 5.3 2.3 virginica
117 6.5 3 5.5 1.8 virginica
118 7.7 3.8 6.7 2.2 virginica
119 7.7 2.6 6.9 2.3 virginica
120 6 2.2 5 1.5 virginica
121 6.9 3.2 5.7 2.3 virginica
122 5.6 2.8 4.9 2 virginica
123 7.7 2.8 6.7 2 virginica
124 6.3 2.7 4.9 1.8 virginica
125 6.7 3.3 5.7 2.1 virginica
126 7.2 3.2 6 1.8 virginica
127 6.2 2.8 4.8 1.8 virginica
128 6.1 3 4.9 1.8 virginica
129 6.4 2.8 5.6 2.1 virginica
130 7.2 3 5.8 1.6 virginica
131 7.4 2.8 6.1 1.9 virginica
132 7.9 3.8 6.4 2 virginica
133 6.4 2.8 5.6 2.2 virginica
134 6.3 2.8 5.1 1.5 virginica
135 6.1 2.6 5.6 1.4 virginica
136 7.7 3 6.1 2.3 virginica
137 6.3 3.4 5.6 2.4 virginica
138 6.4 3.1 5.5 1.8 virginica
139 6 3 4.8 1.8 virginica
140 6.9 3.1 5.4 2.1 virginica
141 6.7 3.1 5.6 2.4 virginica
142 6.9 3.1 5.1 2.3 virginica
143 5.8 2.7 5.1 1.9 virginica
144 6.8 3.2 5.9 2.3 virginica
145 6.7 3.3 5.7 2.5 virginica
146 6.7 3 5.2 2.3 virginica
147 6.3 2.5 5 1.9 virginica
148 6.5 3 5.2 2 virginica
149 6.2 3.4 5.4 2.3 virginica
150 5.9 3 5.1 1.8 virginica

Banco de Dados - Unidade de Observação e Tipos de estudo

  • Individualizada
  • Pareada
  • Agregada

Banco de Dados - Formatos

  • Excel - readxl::read_xlsx()
  • csv - read.csv()
  • outros (shp, spss, txt, db, etc.)

Estrutura do Banco de Dados Padrão

  • Linhas (observações)
  • Colunas (variáveis)
  • padronização
  • recategorização de variável

Vantagens dos bancos de dados

  • Controle centralizado de dados: os dados ficam localizados em um único local e isso facilita o controle e acesso.
  • Controle da redundância: como os dados estão centralizados existe otimização e redução do espaço de armazenamento e controle de redundância
  • Compartilhamento de dados: com a utilização de um Banco de Dados sem redundância, o espaço de armazenamento é otimizado é facilita o compartilhamento de dados.
  • Facilidade de acesso aos dados: estabelecimento de padrões devido a centralização dos dados e inter-relação de todos os registros;
  • Independência de dados: os dados são independentes para cada registro dentro do Banco de Dados.

Importando bancos de dados no R

artigos <- read.csv("~/cv2/artigos com duplicatas.csv")
dados.gerais <- read.csv("~/cv2/dados gerais.csv")
htmlTable::htmlTable(head(artigos))
X .id natureza titulo.do.artigo ano.do.artigo pais.de.publicacao idioma meio.de.divulgacao home.page.do.trabalho flag.relevancia doi titulo.do.artigo.ingles flag.divulgacao.cientifica titulo.do.periodico.ou.revista issn volume fasciculo serie pagina.inicial pagina.final local.de.publicacao autores autores.citacoes autores.id id
1 1 2 COMPLETO Ações de Enfermagem no Planejamento Reprodutivo 2010 Português IMPRESSO NAO NAO Programa de Atualização 18097782 v.4 49 105 Elaine Franco Ribeiro; Adriana Lemos; Cristiane de Sousa Silva FONSECA, E. F. R./ LEMOS, A./ SILVA, C. S. No.id; No.id; 0863587418417244 curriculo(10)
2 2 2 COMPLETO Ações de Enfermagem na Punção Venosa: minimizando a dor do recém-nascido 2010 Português MEIO_DIGITAL NAO Ações de Enfermagem na Punção Venosa: minimizando a dor do recém-nascido NAO Revista de Pesquisa: Cuidado é Fundamental (Online) 21755361 02 02 947 957 Elaine Franco Ribeiro; Paula de Araújo Nicolini Rosa; Marialda Moreira Christoffel FONSECA, E. F. R./ ROSA, P. A. N./ CHRISTOFFEL, M. M. No.id; 3913870493668690; 0082487176176434 curriculo(10)
3 3 2 COMPLETO Fac-símile na pesquisa em história da enfermagem obstétrica: inauguração da capela da Pró-Matre 2010 Português MEIO_DIGITAL [http://www.seer.unirio.br/index.php/cuidadofundamental/article/viewFile/1315/pdf_236] NAO NAO Revista de Pesquisa: Cuidado é Fundamental 18096107 02 04 1495 1505 Fernando Porto; Elaine Franco Ribeiro PORTO, F./ FONSECA, E. F. R. No.id; No.id curriculo(10)
4 4 2 COMPLETO Enfermeiras-Parteiras e uniforme: indícios e representações objetais na construção da identidade profissional 2011 Português VARIOS NAO NAO Revista Enfermagem UERJ 01043552 19 03 432 437 Elaine Franco Ribeiro; Fernando Porto FONSECA, E. F. R./ PORTO, F. No.id; No.id curriculo(10)
5 5 2 COMPLETO PERDA DE UMA VIDA: PERCEPÇÕES DA MULHER PÓS-ABORTAMENTO 2009 Português MEIO_DIGITAL [http://www.ufpe.br/revistaenfermagem/index.php/enfermagem/article/view/323/329] SIM LOSS OF A LIFE: WOMEN?S PERCEPTIONS POST-ABORTION NAO Revista de Enfermagem UFPE On Line 19818963 03 02 95 100 Elaine Franco Ribeiro; Inês Maria Meneses dos Santos FONSECA, E. F. R./ SANTOS, I. M. M. No.id; 0622001848223954 curriculo(10)
6 6 3 COMPLETO CARE AND ASSISTANCE IN THE TITLES OF DISSERTATIONS IN NURSING (1984-2011) 2012 Português MEIO_DIGITAL [http://www.seer.unirio.br/index.php/cuidadofundamental/article/view/1426] NAO NAO Revista de Pesquisa: Cuidado é Fundamental (Online) 21755361 4 3 2529 2539 Denise Rocha Salazar de Oliveira de Barros; Wellington Mendonça de Amorim; Flávia Ramos Fernandes Guimarães; Luciane Velasque OLIVEIRA, D. R. S./ AMORIM, W. M./ GUIMARÃES, F. R..F./ VELASQUE, L. No.id; 6475604009682162; No.id; No.id curriculo(100)
htmlTable::htmlTable(head(dados.gerais))
X .id nome.completo nome.em.citacoes.bibliograficas nacionalidade pais.de.nascimento uf.nascimento cidade.nascimento permissao.de.divulgacao data.falecimento sigla.pais.nacionalidade pais.de.nacionalidade id data.atualizacao orcid.id outras.informacoes.relevantes
1 1 1 Juliana Siqueira Lima LIMA, J. S. B Brasil RJ Rio de Janeiro NAO BRA Brasil curriculo(1) 14042016
2 2 2 Elaine Franco Ribeiro FONSECA, E. F. R.;RIBEIRO, E.F. B Brasil RJ Rio de Janeiro NAO BRA Brasil curriculo(10) 14012019
3 3 3 Denise Rocha Salazar de Oliveira de Barros OLIVEIRA, D. R. S.;BARROS, D.R.S.O B Brasil RJ Rio de Janeiro NAO BRA Brasil curriculo(100) 17082020
4 4 4 Lana Mara Alves Barbosa BARBOSA, L. M. A. B Brasil RJ Nova Iguaçu NAO BRA Brasil curriculo(101) 6082019
5 5 5 Fabiane Estevao Barros BARROS, F. E. B Brasil RJ Rio de Janeiro NAO BRA Brasil curriculo(102) 1082019
6 6 6 Walquiria Baihense de Araujo Couto COUTO, W. B. A. B Brasil MG Cataguases NAO BRA Brasil curriculo(103) 29042020

Formatando banco e variáveis

artigos<-as.data.frame(artigos)
artigos$ano.do.artigo<-as.numeric(artigos$ano.do.artigo)
artigos$titulo.do.artigo<-as.factor(artigos$titulo.do.artigo)

Removendo NA

dim(artigos)
[1] 815  25
artigos<-na.omit(artigos)
dim(artigos)
[1] 13 25

criando variáveis

iris$petallengmaior2<-0
iris$petallengmaior2[iris$Petal.Length > 2]<-1
iris$petallengmaior2<-iris$petallengmaior2
table(iris$petallengmaior2)

  0   1 
 50 100 

Removendo duplicatas

require(dplyr)
dim(artigos)
[1] 13 25
artigos<- distinct(artigos, artigos$titulo.do.artigo,.keep_all=T)
dim(artigos)
[1] 12 26

Exportando banco de dados

write.csv(artigos, "artigos.csv")
xlsx::write.xlsx(artigos, "artigos.xlsx")

Unindo banco de dados

#adicionar nome completo do autor
a<-left_join(artigos, dados.gerais,.keep_all=T, by=".id")
dim(a)
[1] 12 41
#descobrir quantos não publicaram artigos
b<-right_join(artigos, dados.gerais,.keep_all=T, by=".id")
dim(b)
[1] 212  41
795-739
[1] 56

Unindo banco de dados

#colocar um banco em cima do outro todo
c<-full_join(artigos, dados.gerais,.keep_all=T, by=".id")
dim(c)
[1] 212  41
#apenas intersecção
d<-inner_join(artigos, dados.gerais,.keep_all=T, by=".id")
dim(d)
[1] 12 41

Subset de dados

iris2<-subset(iris, select=c("Sepal.Length", "Sepal.Width" ))

iris3<-subset(iris, iris$Species=="virginica")
htmlTable::htmlTable(head(iris3))
Sepal.Length Sepal.Width Petal.Length Petal.Width Species petallengmaior2
101 6.3 3.3 6 2.5 virginica 1
102 5.8 2.7 5.1 1.9 virginica 1
103 7.1 3 5.9 2.1 virginica 1
104 6.3 2.9 5.6 1.8 virginica 1
105 6.5 3 5.8 2.2 virginica 1
106 7.6 3 6.6 2.1 virginica 1

Resumindo bancos de dados

summary(iris)
  Sepal.Length    Sepal.Width     Petal.Length    Petal.Width   
 Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100  
 1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300  
 Median :5.800   Median :3.000   Median :4.350   Median :1.300  
 Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199  
 3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800  
 Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500  
       Species   petallengmaior2 
 setosa    :50   Min.   :0.0000  
 versicolor:50   1st Qu.:0.0000  
 virginica :50   Median :1.0000  
                 Mean   :0.6667  
                 3rd Qu.:1.0000  
                 Max.   :1.0000  

Resumindo bancos de dados

gtsummary::tbl_summary(iris, by='Species')

<!–html_preserve–>

Characteristic setosa, N = 501 versicolor, N = 501 virginica, N = 501
Sepal.Length 5.00 (4.80, 5.20) 5.90 (5.60, 6.30) 6.50 (6.23, 6.90)
Sepal.Width 3.40 (3.20, 3.68) 2.80 (2.52, 3.00) 3.00 (2.80, 3.18)
Petal.Length 1.50 (1.40, 1.58) 4.35 (4.00, 4.60) 5.55 (5.10, 5.88)
Petal.Width 0.20 (0.20, 0.30) 1.30 (1.20, 1.50) 2.00 (1.80, 2.30)
petallengmaior2 0 (0%) 50 (100%) 50 (100%)

1

      Median (IQR); n (%)
      <br />
    </p>
  </td>
</tr>

<!–/html_preserve–>

Análise Bidemensional desfecho categórico

htmlTable::htmlTable(epiDisplay::tableStack(c(Sepal.Length, Sepal.Width, Petal.Length, Petal.Width), by=Species, dataFrame=iris, percent="row"))
setosa versicolor virginica Test stat. P value
Total 50 50 50
Sepal.Length Kruskal-Wallis test < 0.001
median(IQR) 5 (4.8,5.2) 5.9 (5.6,6.3) 6.5 (6.2,6.9)
Sepal.Width ANOVA F-test (2, 147 df) = 49.16 < 0.001
mean(SD) 3.4 (0.4) 2.8 (0.3) 3 (0.3)
Petal.Length Kruskal-Wallis test < 0.001
median(IQR) 1.5 (1.4,1.6) 4.3 (4,4.6) 5.6 (5.1,5.9)
Petal.Width Kruskal-Wallis test < 0.001
median(IQR) 0.2 (0.2,0.3) 1.3 (1.2,1.5) 2 (1.8,2.3)

Tabela dinâmica

Referências