This is a method to load distinct datasets and obtains your values to dataframes: Each load displays the first values and the dimension of dataframe
df1 = read.table("classificacoes_publicadas_medicina_i_2017_1496941695476.xls", header = TRUE)
head(df1)
## ISSN Título Estrato
## 1 01019163 A HORA VETERINÁRIA B5
## 2 15578100 A JOURNAL OF INTEGRATIVE BIOLOGY C
## 3 23760605 AACE CLINICAL CASE REPORTS B5
## 4 12321966 AAEM. ANNALS OF AGRICULTURAL AND ENVIRONMENTAL MEDICINE B3
## 5 15309932 AAPS PHARMSCITECH B2
## 6 07470088 ABA JOURNAL C
dim(df1)
## [1] 5181 3
df2 = read.table("classificacoes_publicadas_medicina_ii_2017_1496941695569.xls", header = TRUE)
head(df2)
## ISSN Título Estrato
## 1 01019163 A HORA VETERINÁRIA B5
## 2 00239135 A LAVOURA (RIO DE JANEIRO) B5
## 3 12321966 AAEM. ANNALS OF AGRICULTURAL AND ENVIRONMENTAL MEDICINE B3
## 4 15309932 AAPS PHARMSCITECH B1
## 5 23188219 ABC: IMAGEM CARDIOVASCULAR C
## 6 01026720 ABCD : ARQUIVOS BRASILEIROS DE CIRURGIA DIGESTIVA B3
dim(df2)
## [1] 5110 3
df3 = read.table("classificacoes_publicadas_medicina_iii_2017_1496941695680.xls", header = TRUE)
head(df3)
## ISSN Título Estrato
## 1 01026720 ABCD : ARQUIVOS BRASILEIROS DE CIRURGIA DIGESTIVA B3
## 2 01026720 ABCD. ARQUIVOS BRASILEIROS DE CIRURGIA DIGESTIVA B3
## 3 23660058 ABDOMINAL RADIOLOGY (ONLINE) B4
## 4 23157712 ACADEMIA JOURNAL OF SCIENTIFIC RESEARCH C
## 5 10402446 ACADEMIC MEDICINE A1
## 6 10429670 ACADEMIC PSYCHIATRY B2
dim(df3)
## [1] 1971 3
df4 = read.table("classificacoes_publicadas_biotecnologia_2017_1496941692806.xls", header = TRUE)
head(df4)
## ISSN Título Estrato
## 1 23280662 # ISOJ JOURNAL C
## 2 01019163 A HORA VETERINÁRIA C
## 3 12321966 AAEM. ANNALS OF AGRICULTURAL AND ENVIRONMENTAL MEDICINE B3
## 4 15309932 AAPS PHARMSCITECH B1
## 5 01026720 ABCD : ARQUIVOS BRASILEIROS DE CIRURGIA DIGESTIVA B3
## 6 01026720 ABCD. ARQUIVOS BRASILEIROS DE CIRURGIA DIGESTIVA B3
dim(df4)
## [1] 4376 3
df5 = read.table("classificacoes_publicadas_ciencias_biologicas_i_2017_1496941693320.xls", header = TRUE)
head(df5)
## ISSN Título Estrato
## 1 15309932 AAPS PHARMSCITECH B2
## 2 01026720 ABCD. ARQUIVOS BRASILEIROS DE CIRURGIA DIGESTIVA B5
## 3 16310691 ACADEMIE DES SCIENCES. COMPTES RENDUS. BIOLOGIES B4
## 4 00014842 ACCOUNTS OF CHEMICAL RESEARCH A1
## 5 19448244 ACS APPLIED MATERIALS & INTERFACES (PRINT) A1
## 6 23739878 ACS BIOMATERIALS SCIENCE & ENGINNERING C
dim(df5)
## [1] 3870 3
df6 = read.table("classificacoes_publicadas_enfermagem_2017_1496941694042.xls", header = TRUE)
head(df6)
## ISSN Título Estrato
## 1 21767475 A HISTÓRIA DA ENFERMAGEM : REVISTA ELETRÔNICA (HERE) B4
## 2 15597776 AACN ADVANCED CRITICAL CARE A1
## 3 15309932 AAPS PHARMSCITECH B1
## 4 01026720 ABCD. ARQUIVOS BRASILEIROS DE CIRURGIA DIGESTIVA B2
## 5 23578114 ABCS HEALTH SCIENCES B3
## 6 23184965 ABCS HEALTH SCIENCES B3
dim(df6)
## [1] 1944 3
df7 = read.table("classificacoes_publicadas_farmacia_2017_1496941694770.xls", header = TRUE)
head(df7)
## ISSN Título Estrato
## 1 15309932 AAPS PHARMSCITECH B1
## 2 01026720 ABCD : ARQUIVOS BRASILEIROS DE CIRURGIA DIGESTIVA B3
## 3 01026720 ABCD. ARQUIVOS BRASILEIROS DE CIRURGIA DIGESTIVA B3
## 4 23578114 ABCS HEALTH SCIENCES C
## 5 16310691 ACADEMIE DES SCIENCES. COMPTES RENDUS. BIOLOGIES B2
## 6 00014575 ACCIDENT ANALYSIS AND PREVENTION B1
dim(df7)
## [1] 3274 3
Make a join of data frames to obtain a unique data set
dffinal <- rbind(df1, df2, df3, df4, df5, df6, df7)
dim(dffinal)
## [1] 25726 3
Make a test to verify a validation of duplicates
teste <- duplicated(dffinal)
head(teste, 150)
## [1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## [12] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## [23] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## [34] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## [45] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## [56] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## [67] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## [78] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## [89] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## [100] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## [111] TRUE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## [122] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## [133] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## [144] FALSE FALSE FALSE FALSE FALSE FALSE FALSE
Run the code to apply a function to remove duplicates and creates a new data set:
final <- dffinal[!duplicated(dffinal), ]
dim(final)
## [1] 15357 3
Now test the result comparing the “final” data set with other data sets at origin:
head(df1, 10)
## ISSN Título
## 1 01019163 A HORA VETERINÁRIA
## 2 15578100 A JOURNAL OF INTEGRATIVE BIOLOGY
## 3 23760605 AACE CLINICAL CASE REPORTS
## 4 12321966 AAEM. ANNALS OF AGRICULTURAL AND ENVIRONMENTAL MEDICINE
## 5 15309932 AAPS PHARMSCITECH
## 6 07470088 ABA JOURNAL
## 7 23169451 ABAKÓS
## 8 23188219 ABC: IMAGEM CARDIOVASCULAR
## 9 01026720 ABCD : ARQUIVOS BRASILEIROS DE CIRURGIA DIGESTIVA
## 10 01026720 ABCD. ARQUIVOS BRASILEIROS DE CIRURGIA DIGESTIVA
## Estrato
## 1 B5
## 2 C
## 3 B5
## 4 B3
## 5 B2
## 6 C
## 7 C
## 8 C
## 9 B3
## 10 B3
head(final, 10)
## ISSN Título
## 1 01019163 A HORA VETERINÁRIA
## 2 15578100 A JOURNAL OF INTEGRATIVE BIOLOGY
## 3 23760605 AACE CLINICAL CASE REPORTS
## 4 12321966 AAEM. ANNALS OF AGRICULTURAL AND ENVIRONMENTAL MEDICINE
## 5 15309932 AAPS PHARMSCITECH
## 6 07470088 ABA JOURNAL
## 7 23169451 ABAKÓS
## 8 23188219 ABC: IMAGEM CARDIOVASCULAR
## 9 01026720 ABCD : ARQUIVOS BRASILEIROS DE CIRURGIA DIGESTIVA
## 10 01026720 ABCD. ARQUIVOS BRASILEIROS DE CIRURGIA DIGESTIVA
## Estrato
## 1 B5
## 2 C
## 3 B5
## 4 B3
## 5 B2
## 6 C
## 7 C
## 8 C
## 9 B3
## 10 B3
head(df2, 10)
## ISSN Título
## 1 01019163 A HORA VETERINÁRIA
## 2 00239135 A LAVOURA (RIO DE JANEIRO)
## 3 12321966 AAEM. ANNALS OF AGRICULTURAL AND ENVIRONMENTAL MEDICINE
## 4 15309932 AAPS PHARMSCITECH
## 5 23188219 ABC: IMAGEM CARDIOVASCULAR
## 6 01026720 ABCD : ARQUIVOS BRASILEIROS DE CIRURGIA DIGESTIVA
## 7 01026720 ABCD. ARQUIVOS BRASILEIROS DE CIRURGIA DIGESTIVA
## 8 23578114 ABCS HEALTH SCIENCES
## 9 23184965 ABCS HEALTH SCIENCES
## 10 09428925 ABDOMINAL IMAGING
## Estrato
## 1 B5
## 2 B5
## 3 B3
## 4 B1
## 5 C
## 6 B3
## 7 B3
## 8 C
## 9 C
## 10 B1
head(df3, 10)
## ISSN Título Estrato
## 1 01026720 ABCD : ARQUIVOS BRASILEIROS DE CIRURGIA DIGESTIVA B3
## 2 01026720 ABCD. ARQUIVOS BRASILEIROS DE CIRURGIA DIGESTIVA B3
## 3 23660058 ABDOMINAL RADIOLOGY (ONLINE) B4
## 4 23157712 ACADEMIA JOURNAL OF SCIENTIFIC RESEARCH C
## 5 10402446 ACADEMIC MEDICINE A1
## 6 10429670 ACADEMIC PSYCHIATRY B2
## 7 10766332 ACADEMIC RADIOLOGY B1
## 8 23739878 ACS BIOMATERIALS SCIENCE & ENGINNERING B4
## 9 00015172 ACTA ANAESTHESIOLOGICA SCANDINAVICA B1
## 10 17427061 ACTA BIOMATERIALIA A1