Load tables to dataframe

This is a method to load distinct datasets and obtains your values to dataframes: Each load displays the first values and the dimension of dataframe

df1 = read.table("classificacoes_publicadas_medicina_i_2017_1496941695476.xls", header = TRUE)
head(df1)
##       ISSN                                                  Título Estrato
## 1 01019163                                      A HORA VETERINÁRIA      B5
## 2 15578100                        A JOURNAL OF INTEGRATIVE BIOLOGY      C 
## 3 23760605                              AACE CLINICAL CASE REPORTS      B5
## 4 12321966 AAEM. ANNALS OF AGRICULTURAL AND ENVIRONMENTAL MEDICINE      B3
## 5 15309932                                       AAPS PHARMSCITECH      B2
## 6 07470088                                             ABA JOURNAL      C
dim(df1)
## [1] 5181    3
df2 = read.table("classificacoes_publicadas_medicina_ii_2017_1496941695569.xls", header = TRUE)
head(df2)
##       ISSN                                                  Título Estrato
## 1 01019163                                      A HORA VETERINÁRIA      B5
## 2 00239135                              A LAVOURA (RIO DE JANEIRO)      B5
## 3 12321966 AAEM. ANNALS OF AGRICULTURAL AND ENVIRONMENTAL MEDICINE      B3
## 4 15309932                                       AAPS PHARMSCITECH      B1
## 5 23188219                              ABC: IMAGEM CARDIOVASCULAR      C 
## 6 01026720       ABCD : ARQUIVOS BRASILEIROS DE CIRURGIA DIGESTIVA      B3
dim(df2)
## [1] 5110    3
df3 = read.table("classificacoes_publicadas_medicina_iii_2017_1496941695680.xls", header = TRUE)
head(df3)
##       ISSN                                            Título Estrato
## 1 01026720 ABCD : ARQUIVOS BRASILEIROS DE CIRURGIA DIGESTIVA      B3
## 2 01026720  ABCD. ARQUIVOS BRASILEIROS DE CIRURGIA DIGESTIVA      B3
## 3 23660058                      ABDOMINAL RADIOLOGY (ONLINE)      B4
## 4 23157712           ACADEMIA JOURNAL OF SCIENTIFIC RESEARCH      C 
## 5 10402446                                 ACADEMIC MEDICINE      A1
## 6 10429670                               ACADEMIC PSYCHIATRY      B2
dim(df3)
## [1] 1971    3
df4 = read.table("classificacoes_publicadas_biotecnologia_2017_1496941692806.xls", header = TRUE)
head(df4)
##       ISSN                                                  Título Estrato
## 1 23280662                                          # ISOJ JOURNAL      C 
## 2 01019163                                      A HORA VETERINÁRIA      C 
## 3 12321966 AAEM. ANNALS OF AGRICULTURAL AND ENVIRONMENTAL MEDICINE      B3
## 4 15309932                                       AAPS PHARMSCITECH      B1
## 5 01026720       ABCD : ARQUIVOS BRASILEIROS DE CIRURGIA DIGESTIVA      B3
## 6 01026720        ABCD. ARQUIVOS BRASILEIROS DE CIRURGIA DIGESTIVA      B3
dim(df4)
## [1] 4376    3
df5 = read.table("classificacoes_publicadas_ciencias_biologicas_i_2017_1496941693320.xls", header = TRUE)
head(df5)
##       ISSN                                           Título Estrato
## 1 15309932                                AAPS PHARMSCITECH      B2
## 2 01026720 ABCD. ARQUIVOS BRASILEIROS DE CIRURGIA DIGESTIVA      B5
## 3 16310691 ACADEMIE DES SCIENCES. COMPTES RENDUS. BIOLOGIES      B4
## 4 00014842                    ACCOUNTS OF CHEMICAL RESEARCH      A1
## 5 19448244       ACS APPLIED MATERIALS & INTERFACES (PRINT)      A1
## 6 23739878           ACS BIOMATERIALS SCIENCE & ENGINNERING      C
dim(df5)
## [1] 3870    3
df6 = read.table("classificacoes_publicadas_enfermagem_2017_1496941694042.xls", header = TRUE)
head(df6)
##       ISSN                                               Título Estrato
## 1 21767475 A HISTÓRIA DA ENFERMAGEM : REVISTA ELETRÔNICA (HERE)      B4
## 2 15597776                          AACN ADVANCED CRITICAL CARE      A1
## 3 15309932                                    AAPS PHARMSCITECH      B1
## 4 01026720     ABCD. ARQUIVOS BRASILEIROS DE CIRURGIA DIGESTIVA      B2
## 5 23578114                                 ABCS HEALTH SCIENCES      B3
## 6 23184965                                 ABCS HEALTH SCIENCES      B3
dim(df6)
## [1] 1944    3
df7 = read.table("classificacoes_publicadas_farmacia_2017_1496941694770.xls", header = TRUE)
head(df7)
##       ISSN                                            Título Estrato
## 1 15309932                                 AAPS PHARMSCITECH      B1
## 2 01026720 ABCD : ARQUIVOS BRASILEIROS DE CIRURGIA DIGESTIVA      B3
## 3 01026720  ABCD. ARQUIVOS BRASILEIROS DE CIRURGIA DIGESTIVA      B3
## 4 23578114                              ABCS HEALTH SCIENCES      C 
## 5 16310691  ACADEMIE DES SCIENCES. COMPTES RENDUS. BIOLOGIES      B2
## 6 00014575                  ACCIDENT ANALYSIS AND PREVENTION      B1
dim(df7)
## [1] 3274    3

Merge

Make a join of data frames to obtain a unique data set

dffinal <- rbind(df1, df2, df3, df4, df5, df6, df7)
dim(dffinal)
## [1] 25726     3

Test

Make a test to verify a validation of duplicates

teste <- duplicated(dffinal)
head(teste, 150)
##   [1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
##  [12] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
##  [23] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
##  [34] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
##  [45] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
##  [56] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
##  [67] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
##  [78] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
##  [89] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## [100] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## [111]  TRUE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## [122] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## [133] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## [144] FALSE FALSE FALSE FALSE FALSE FALSE FALSE

Finaly

Run the code to apply a function to remove duplicates and creates a new data set:

final <- dffinal[!duplicated(dffinal), ]
dim(final)
## [1] 15357     3

Now test the result comparing the “final” data set with other data sets at origin:

head(df1, 10)
##        ISSN                                                  Título
## 1  01019163                                      A HORA VETERINÁRIA
## 2  15578100                        A JOURNAL OF INTEGRATIVE BIOLOGY
## 3  23760605                              AACE CLINICAL CASE REPORTS
## 4  12321966 AAEM. ANNALS OF AGRICULTURAL AND ENVIRONMENTAL MEDICINE
## 5  15309932                                       AAPS PHARMSCITECH
## 6  07470088                                             ABA JOURNAL
## 7  23169451                                                  ABAKÓS
## 8  23188219                              ABC: IMAGEM CARDIOVASCULAR
## 9  01026720       ABCD : ARQUIVOS BRASILEIROS DE CIRURGIA DIGESTIVA
## 10 01026720        ABCD. ARQUIVOS BRASILEIROS DE CIRURGIA DIGESTIVA
##    Estrato
## 1       B5
## 2       C 
## 3       B5
## 4       B3
## 5       B2
## 6       C 
## 7       C 
## 8       C 
## 9       B3
## 10      B3
head(final, 10)
##        ISSN                                                  Título
## 1  01019163                                      A HORA VETERINÁRIA
## 2  15578100                        A JOURNAL OF INTEGRATIVE BIOLOGY
## 3  23760605                              AACE CLINICAL CASE REPORTS
## 4  12321966 AAEM. ANNALS OF AGRICULTURAL AND ENVIRONMENTAL MEDICINE
## 5  15309932                                       AAPS PHARMSCITECH
## 6  07470088                                             ABA JOURNAL
## 7  23169451                                                  ABAKÓS
## 8  23188219                              ABC: IMAGEM CARDIOVASCULAR
## 9  01026720       ABCD : ARQUIVOS BRASILEIROS DE CIRURGIA DIGESTIVA
## 10 01026720        ABCD. ARQUIVOS BRASILEIROS DE CIRURGIA DIGESTIVA
##    Estrato
## 1       B5
## 2       C 
## 3       B5
## 4       B3
## 5       B2
## 6       C 
## 7       C 
## 8       C 
## 9       B3
## 10      B3
head(df2, 10)
##        ISSN                                                  Título
## 1  01019163                                      A HORA VETERINÁRIA
## 2  00239135                              A LAVOURA (RIO DE JANEIRO)
## 3  12321966 AAEM. ANNALS OF AGRICULTURAL AND ENVIRONMENTAL MEDICINE
## 4  15309932                                       AAPS PHARMSCITECH
## 5  23188219                              ABC: IMAGEM CARDIOVASCULAR
## 6  01026720       ABCD : ARQUIVOS BRASILEIROS DE CIRURGIA DIGESTIVA
## 7  01026720        ABCD. ARQUIVOS BRASILEIROS DE CIRURGIA DIGESTIVA
## 8  23578114                                    ABCS HEALTH SCIENCES
## 9  23184965                                    ABCS HEALTH SCIENCES
## 10 09428925                                       ABDOMINAL IMAGING
##    Estrato
## 1       B5
## 2       B5
## 3       B3
## 4       B1
## 5       C 
## 6       B3
## 7       B3
## 8       C 
## 9       C 
## 10      B1
head(df3, 10)
##        ISSN                                            Título Estrato
## 1  01026720 ABCD : ARQUIVOS BRASILEIROS DE CIRURGIA DIGESTIVA      B3
## 2  01026720  ABCD. ARQUIVOS BRASILEIROS DE CIRURGIA DIGESTIVA      B3
## 3  23660058                      ABDOMINAL RADIOLOGY (ONLINE)      B4
## 4  23157712           ACADEMIA JOURNAL OF SCIENTIFIC RESEARCH      C 
## 5  10402446                                 ACADEMIC MEDICINE      A1
## 6  10429670                               ACADEMIC PSYCHIATRY      B2
## 7  10766332                                ACADEMIC RADIOLOGY      B1
## 8  23739878            ACS BIOMATERIALS SCIENCE & ENGINNERING      B4
## 9  00015172               ACTA ANAESTHESIOLOGICA SCANDINAVICA      B1
## 10 17427061                                ACTA BIOMATERIALIA      A1