Vamos utilizar o pacote “bibliometrix” do R para fazer a análise bibliométrica. Essa aula está baseada na aplicaçao que pode ser encontrada em “https://www.bibliometrix.org/vignettes/Introduction_to_bibliometrix.html”.
O pacote bibliometrix fornece um conjunto de ferramentas para pesquisa quantitativa em bibliometria e cienciometria.
A bibliometria volta a principal ferramenta da ciência, a análise quantitativa, sobre si mesma. Essencialmente, a bibliometria é a aplicação de análises quantitativas e estatísticas a publicações, como artigos de periódicos e suas respectivas contagens de citações. A avaliação quantitativa de dados de publicação e citação é agora usada em quase todos os campos científicos para avaliar o crescimento, a maturidade, os principais autores, os mapas conceituais e intelectuais, as tendências de uma comunidade científica.
A bibliometria também é usada na avaliação do desempenho da pesquisa, especialmente em laboratórios universitários e governamentais, e também por formuladores de políticas, diretores e administradores de pesquisa, especialistas em informação e bibliotecários e os próprios acadêmicos.
o pacote ‘bibliometrix’ apoia os estudiosos em três fases principais de análise:
Importação e conversão de dados para o formato R;
Análise bibliométrica de um conjunto de dados de publicação;
Construindo matrizes para cocitação, acoplamento, colaboração e análise de copalavras. As matrizes são os dados de entrada para realizar análise de rede, análise de correspondência múltipla e quaisquer outras técnicas de redução de dados;
O pacote ‘bibliometrix’ trabalha com dados extraídos das quatro principais bases de dados bibliográficas: SCOPUS, Clarivate Analytics Web of Science, Cochrane Database of Systematic Reviews (CDSR) e RISmed PubMed/MedLine.
SCOPUS (https://www.scopus.com), fundado em 2004, oferece grande flexibilidade para o usuário bibliométrico. Permite consultar diferentes campos, como títulos, resumos, palavras-chave, referências e assim por diante. O SCOPUS permite o download de consultas de dados relativamente fáceis, embora haja alguns limites em conjuntos de resultados muito grandes com mais de 2.000 itens.
Clarivate Analytics Web of Science (WoS) (https://www.webofknowledge.com), propriedade da Clarivate Analytics, foi fundada por Eugene Garfield, um dos pioneiros da bibliometria. Esta plataforma inclui muitas coleções diferentes.
Cochrane Database of Systematic Reviews (https://www.cochranelibrary.com/cdsr/about-cdsr) é o principal recurso para revisões sistemáticas na área da saúde. O CDSR inclui Revisões Cochrane (as revisões sistemáticas) e protocolos para Revisões Cochrane, bem como editoriais. O CDSR também possui suplementos pontuais. O CDSR é atualizado regularmente à medida que as Revisões Cochrane são publicadas “quando prontas” e formam edições mensais; ver cronograma de publicação.
PubMed compreende mais de 28 milhões de citações de literatura biomédica da MEDLINE, revistas de ciências da vida e livros online. As citações podem incluir links para conteúdo de texto completo do PubMed Central e sites de editores.
Os dados bibliográficos podem ser obtidos consultando o banco de dados SCOPUS ou Clarivate Analytics Web of Science (WoS) por diversos campos, como tópico, autor, periódico, intervalo de tempo e assim por diante.
install.packages(“bibliometrix”, dependencies=TRUE)
Depois de instalado, devemos carregar o pacote bibliometrix no R.
library(bibliometrix)
O arquivo com a base bibliométrica pode ser lido e convertido para o R usando a função convert2df:
convert2df(arquivo, dbsource, formato)
O arquivo de argumento é um vetor de caracteres contendo o nome dos arquivos bibliométricos baixados do site SCOPUS, Clarivate Analytics WOS, Digital Science Dimensions, PubMed ou Cochrane CDSR. O arquivo também pode conter o nome de um download json/xlm usando Digital Science Dimenions ou PubMed APIs (através dos pacotes DimensionR e PubmedR).
# Exemplo do Pacote
file <- "https://www.bibliometrix.org/datasets/savedrecs.bib"
M <- convert2df(file = file, dbsource = "isi", format = "bibtex")
# Caso voce tenha mais de um arquivo de bibliometria
# Carregue os arquivos
# file1 <- "C:/Users/danie/OneDrive/0 - ROTINAS R/1 - Bibliometria/1_500.txt"
# file2 <- "C:/Users/danie/OneDrive/0 - ROTINAS R/1 - Bibliometria/501_1000.txt"
# file3 <- "C:/Users/danie/OneDrive/0 - ROTINAS R/1 - Bibliometria/1001_1468.txt"
# Junte eles
#es.file <- c(file1, file2, file3)
# E converta a base:
#M <- convert2df(file = es.file, dbsource = "wos", format = "plaintext")
convert2df cria um quadro de dados bibliométricos com casos correspondentes a manuscritos e variáveis para o Field Tag no arquivo original.
O convert2df aceita dois argumentos adicionais: dbsource e format.
O argumento dbsource indica de qual banco de dados a coleção foi baixada.
Pode ser:
“isi” ou “wos” (para o banco de dados Clarivate Analytics Web of Science),
“scopus” (para banco de dados SCOPUS),
“dimensions” (para o banco de dados DS Dimensions)
“pubmed” (para o banco de dados PubMed/Medline),
“cochrane” (para o banco de dados de revisões sistemáticas da Biblioteca Cochrane).
O argumento format indica o formato do arquivo da coleção importada. Pode ser “plaintext” ou “bibtex” para coleta WOS e obrigatoriamente “bibtext” para coleta SCOPUS. O argumento é ignorado se a coleção vier do Pubmed ou Cochrane.
Cada manuscrito contém vários elementos, como nomes dos autores, título, palavras-chave e outras informações. Todos esses elementos constituem os atributos bibliográficos de um documento, também chamados de metadados.
As colunas do quadro de dados são nomeadas usando a codificação padrão da tag de campo WoS do Clarivate Analytics.
As principais tags de campo são:
O primeiro passo é realizar uma análise descritiva dos dados bibliogrmétricos.
A função biblioAnalysis calcula as principais medidas bibliométricas usando esta sintaxe:
results <- biblioAnalysis(M, sep = ";")
A função biblioAnalysis retorna um objeto da classe “bibliometrix”.
Um objeto da classe “bibliometrix” é uma lista contendo os seguintes componentes:
Para resumir os principais resultados da análise bibliométrica, use a função genérica sumário (summary). Ele exibe as principais informações sobre o quadro de dados bibliométricos e várias tabelas, como produção científica anual, principais manuscritos por número de citações, autores mais produtivos, países mais produtivos, citação total por país, fontes mais relevantes (periódicos) e palavras-chave mais relevantes.
A tabela de informações principais descreve o tamanho da coleção em termos de número de documentos, número de autores, número de fontes, número de palavras-chave, intervalo de tempo e número médio de citações.
Além disso, muitos índices de coautoria diferentes são mostrados. Em particular, o índice de “Autores por Artigo” é calculado como a razão entre o número total de autores e o número total de artigos. O “índice de coautores por artigo” é calculado como a média do número de coautores por artigo. Nesse caso, o índice leva em consideração as aparições dos autores, enquanto para os “autores por artigo” um autor, mesmo que tenha publicado mais de um artigo, é contabilizado apenas uma vez. Por isso, índice de autores por artigo ≤ Índice de coautores por artigo.
O Índice de Colaboração (CI) é calculado como “Total de Autores de Artigos Multiautoria/Total de Artigos Multiautoria” (Elango e Rajendran, 2012; Koseoglu, 2016). Em outras palavras, o índice de colaboração é um índice de co-autores por artigo calculado apenas usando o conjunto de artigos de autoria múltipla.
summary aceita dois argumentos adicionais. k é um valor de formatação que indica o número de linhas de cada tabela. pause é um valor lógico (VERDADEIRO ou FALSO) usado para permitir (ou não) pausa na rolagem da tela. Escolhendo k=10 você decide ver os 10 primeiros autores, as 10 primeiras fontes, etc.
options(width=100)
S <- summary(object = results, k = 10, pause = FALSE)
Alguns gráficos básicos podem ser desenhados usando a função genérica:
plot(x = results, k = 10, pause = FALSE)
A função citações gera a tabela de frequência das referências mais citadas ou dos primeiros autores (de referências) mais citados.
Para cada manuscrito, as referências citadas estão em uma única string armazenada na coluna “CR” do quadro de dados.
Para uma extração correta, é necessário identificar o campo separador entre as diferentes referências, utilizadas pela base de dados ISI ou SCOPUS. Normalmente, o separador padrão é “;” ou “.” (um ponto com espaço duplo).
M$CR[1]
A figura mostra a string de referência do primeiro manuscrito. Repare que. nesse caso, o campo separador é separador é “;”.
Agora, para obter os 10 manuscritos mais citados:
CR <- citations(M, field = "article", sep = ";")
cbind(CR$Cited[1:10])
Para obter os primeiros autores citados com mais frequência:
CR <- citations(M, field = "author", sep = ";")
cbind(CR$Cited[1:10])
A função localCitations gera a tabela de frequência dos autores mais citados localmente. As citações locais medem quantas vezes um autor (ou um documento) incluído nesta coleção foi citado por outros autores também na coleção.
Para obter os autores locais citados com mais frequência:
CR <- localCitations(M, sep = ";")
CR$Authors[1:10,]
CR$Papers[1:10,]
O Fator de Dominância (DF) calcula o ranking de dominância dos autores conforme proposto por Kumar & Kumar, 2008.
Os argumentos da função são: results (objeto da classe bibliometrix) obtidos pela biblioAnalysis; e k (o número de autores a serem considerados na análise).
DF <- dominance(results, k = 10)
DF
O Fator de Dominância é uma proporção que indica a fração de artigos multiautoria em que um estudioso aparece como primeiro autor.
Neste exemplo, Kostoff e Holden dominam sua equipe de pesquisa porque aparecem como os primeiros autores em todos os seus artigos (8 para Kostoff e 3 para Holden).
O H-index é uma métrica em nível de autor que tenta medir a produtividade e o impacto das citações das publicações de um cientista ou acadêmico. O índice é baseado no conjunto dos artigos mais citados do cientista e no número de citações que eles receberam em outras publicações. A função Hindex calcula o índice H dos autores ou o índice H das fontes e suas variantes (g-index e m-index) em uma coleção bibliométrica.
Os argumentos da função são: M um quadro de dados bibliométricos; field é o elemento de caráter que define a unidade de análise em termos de autores (field = “autor”) ou fontes (field = “fonte”); elements é um vetor de caracteres contendo os nomes dos autores (ou nomes das fontes) para os quais você deseja calcular o índice H. O argumento tem a forma c(“SURNAME1 N”,“SURNAME2 N”,…). Ou seja, para cada autor: sobrenome e iniciais são separados por um espaço em branco. Ou seja, para os autores ARIA MASSIMO e CUCCURULLO CORRADO, o argumento dos elementos é elements = c(“ARIA M”, “CUCCURULLO C”).
Para calcular o índice h de Lutz Bornmann nesta coleção:
indices <- Hindex(M, field = "author", elements="BORNMANN L", sep = ";", years = 10)
# Bornmann's impact indices:
indices$H
# Bornmann's citations
indices$CitationList
Para calcular o índice h dos primeiros 10 autores mais produtivos (nesta coleção):
authors=gsub(","," ",names(results$Authors)[1:10])
indices <- Hindex(M, field = "author", elements=authors, sep = ";", years = 50)
indices$H
A função AuthorProdOverTime calcula e plota a produção dos autores (em termos de número de publicações e total de citações por ano) ao longo do tempo. Os argumentos da função são: M dados bibliométricos; k é o número de k Autores Principais; graph é um argumento lógico. Se graph=TRUE, a função traça o gráfico da produção do autor ao longo do tempo.
topAU <- authorProdOverTime(M, k = 10, graph = TRUE)
## Table: Author's productivity per year
head(topAU$dfAU)
## Table: Auhtor's documents list
head(topAU$dfPapersAU)
A função lotka estima os coeficientes da lei de Lotka para a produtividade científica (Lotka A.J., 1926). A lei de Lotka descreve a frequência de publicação por autores em qualquer campo como uma lei do inverso da base, onde o número de autores que publicam um certo número de artigos é uma razão fixa para o número de autores que publicam um único artigo. Essa suposição implica que o coeficiente beta teórico da lei de Lotka é igual a 2. Utilizando a função lotka é possível estimar o coeficiente Beta de nosso acervo bibliométrico e avaliar, por meio de um teste estatístico, a similaridade desta distribuição empírica com a teórica.
L <- lotka(results)
# Author Productivity. Empirical Distribution
L$AuthorProd
# Beta coefficient estimate
L$Beta
# Constant
L$C
# Goodness of fit
L$R2
# P-value of K-S two sample test
L$p.value
A tabela L$AuthorProd mostra a distribuição observada da produtividade científica em nosso exemplo. O coeficiente Beta estimado é de 3,05 com uma qualidade de ajuste igual a 0,94. O teste de duas amostras de Kolmogorov-Smirnoff fornece um valor-p de 0,09, o que significa que não há uma diferença significativa entre as distribuições Lotka observada e teórica.
Você também pode comparar as duas distribuições usando a função plot:
# Observed distribution
Observed=L$AuthorProd[,3]
# Theoretical distribution with Beta = 2
Theoretical=10^(log10(L$C)-2*log10(L$AuthorProd[,1]))
plot(L$AuthorProd[,1],Theoretical,type="l",col="red",ylim=c(0, 1), xlab="Articles",ylab="Freq. of Authors",main="Scientific Productivity")
lines(L$AuthorProd[,1],Observed,col="blue")
legend(x="topright",c("Theoretical (B=2)","Observed"),col=c("red","blue"),lty = c(1,1,1),cex=0.6,bty="n")
Os atributos do manuscrito estão conectados entre si através do próprio manuscrito: autor(es) para revista, palavras-chave para data de publicação, etc. Essas conexões de diferentes atributos geram redes bipartidas que podem ser representadas como matrizes retangulares (Manuscritos x Atributos).
Além disso, as publicações científicas contêm regularmente referências a outros trabalhos científicos. Isso gera uma rede adicional, a saber, rede de cocitação ou acoplamento.
Essas redes são analisadas para capturar propriedades significativas do sistema de pesquisa subjacente e, em particular, para determinar a influência de unidades bibliométricas, como estudiosos e periódicos.
cocMatrix é uma função geral para calcular uma rede bipartida selecionando um dos atributos de metadados.
Por exemplo, para criar uma rede Manuscrito x Fonte da Publicação você deve usar a tag de Field “SO”:
A <- cocMatrix(M, Field = "SO", sep = ";")
Onde A é uma matriz binária retangular, representando uma rede bipartida onde linhas e colunas são manuscritos e fontes, respectivamente.
O elemento genérico aij é 1 se o manuscrito i foi publicado na fonte j, 0 caso contrário. A j-ésima coluna soma aj é o número de manuscritos publicados na fonte j. Classificando, em ordem decrescente, as somas das colunas de A, você pode ver as fontes de publicação mais relevantes:
sort(Matrix::colSums(A), decreasing = TRUE)[1:5]
Seguindo essa abordagem, você pode calcular várias redes bipartidas:
A <- cocMatrix(M, Field = "CR", sep = ". ")
A <- cocMatrix(M, Field = "AU", sep = ";")
Os países dos autores não são um atributo padrão do quadro de dados bibliogmétricos. Você precisa extrair essas informações do atributo de afiliação usando a função metaTagExtraction.
M <- metaTagExtraction(M, Field = "AU_CO", sep = ";")
A <- cocMatrix(M, Field = "AU_CO", sep = ";")
metaTagExtraction permite extrair as seguintes field tags adicionais: Países dos autores (Field = “AU_CO”); Países do primeiro autor (Field = “AU_CO”); Primeiro autor de cada referência citada (Field = “CR_AU”); Fonte de publicação de cada referência citada (Field = “CR_SO”); e afiliações dos autores (Field = “AU_UN”).
A <- cocMatrix(M, Field = "DE", sep = ";")
A <- cocMatrix(M, Field = "ID", sep = ";")
Dois artigos são considerados bibliometricamente acoplados se pelo menos uma fonte citada aparecer nas bibliografias ou listas de referências de ambos os artigos (Kessler, 1963).
Uma rede de acoplamento pode ser obtida usando a formulação geral:
B=A×AT
onde A é uma rede bipartida. O elemento bij indica quantos acoplamentos bibliometricos existem entre manuscritos i e j. Em outras palavras, bij dá o número de caminhos de comprimento 2, através dos quais se move de i ao longo da seta e depois para j na direcção oposta.
B é uma matriz simétrica B=BT. A força do acoplamento de dois artigos, i e j é definido simplesmente pelo número de referências que os artigos têm em comum, dado pelo elemento bij da matriz B.
A função biblioNetwork calcula, a partir de um quadro de dados bibliométricos, as redes de acoplamento mais utilizadas: Autores, Fontes e Países. A biblioNetwork usa dois argumentos para definir a rede a ser computada:
O argumento da análise pode ser “cocitação”, “acoplamento”, “colaboração” ou “coocorrências”.
O argumento de rede pode ser “autores”, “referências”, “fontes”, “países”, “universidades”, “palavras-chave”, “autor_palavras-chave”, “títulos” e “resumos”.
O código a seguir calcula uma rede clássica de acoplamento de artigos:
NetMatrix <- biblioNetwork(M, analysis = "coupling", network = "references", sep = ". ")
Artigos com poucas referências, portanto, tenderiam a ter um acoplamento bibliométrico mais fraco, se a força do acoplamento fosse medida simplesmente de acordo com o número de referências que os artigos contêm em comum.
Isso sugere que pode ser mais prático mudar para uma medida relativa de acoplamento bibliométrico.
A função normalizeSimilarity calcula a força da associação, inclusão, semelhança de Jaccard ou Salton entre os vértices de uma rede. O normalizeSimilarity pode ser recuperado diretamente da função networkPlot() usando o argumento normalize.
NetMatrix <- biblioNetwork(M, analysis = "coupling", network = "authors", sep = ";")
net=networkPlot(NetMatrix, normalize = "salton", weighted=NULL, n = 100, Title = "Authors' Coupling", type = "fruchterman", size=5,size.cex=T,remove.multiple=TRUE,labelsize=0.8,label.n=10,label.cex=F)
Falamos de cocitação de dois artigos quando ambos são citados em um terceiro artigo. Assim, a cocitação pode ser vista como a contrapartida do acoplamento bibliométrico. Uma rede de cocitação pode ser obtida usando a formulação geral:
C=AT×A
Onde A é uma rede bipartida. Como a matriz B, matriz C também é simétrica. A diagonal principal de C contém o número de casos em que uma referência é citada em nosso quadro de dados.
Em outras palavras, o elemento diagonal ci é o número de citações locais da referência i.
Usando a função biblioNetwork, você pode calcular uma rede clássica de cocitação de referência:
NetMatrix <- biblioNetwork(M, analysis = "co-citation", network ="references", sep = ". ")
Rede de colaboração científica é uma rede onde os nós são autores e os links são coautorias, sendo esta última uma das formas mais bem documentadas de colaboração científica (Glanzel, 2004).
Uma rede de colaboração do autor pode ser obtida usando a formulação geral:
AC=AT×A
Onde A é uma rede bipartida Manuscritos x Autores.O elemento diagonal aci é o número de manuscritos de autoria ou coautoria do pesquisador i.
Usando a função biblioNetwork, você pode calcular a rede de colaboração de um autor:
NetMatrix <- biblioNetwork(M, analysis = "collaboration", network = "authors", sep = ";")
ou uma rede de colaboração do país
NetMatrix <- biblioNetwork(M, analysis = "collaboration", network = "countries", sep = ";")
A função networkStat calcula várias estatísticas resumidas. Em particular, a partir de uma matriz bibliográfica (ou de um objeto igráfico), são calculados dois grupos de medidas descritivas:
As estatísticas resumidas da rede; Os principais índices de centralidade e prestígio dos vértices.
# An example of a classical keyword co-occurrences network
NetMatrix <- biblioNetwork(M, analysis = "co-occurrences", network = "keywords", sep = ";")
netstat <- networkStat(NetMatrix)
Este grupo de estatísticas permite descrever as propriedades estruturais de uma rede:
Tamanho é o número de vértices que compõem a rede;
Densidade é a proporção de arestas presentes de todas as arestas possíveis na rede;
Transitividade é a proporção de triângulos para triplos conectados;
Diâmetro é a maior distância geodésica (comprimento do caminho mais curto entre dois nós) na rede;
A distribuição de grau é a distribuição cumulativa de graus de vértice;
Centralização de grau é o grau normalizado da rede geral;
Centralização de proximidade é o inverso normalizado da distância geodésica média dos vértices a outros na rede;
A centralização do autovetor é o primeiro autovetor da matriz do grafo;
Centralização de intermediação é o número normalizado de geodésicas que passam pelo vértice;
O comprimento médio do caminho é a média da menor distância entre cada par de vértices na rede.
names(netstat$network)
Essas medidas ajudam a identificar os vértices mais importantes em uma rede e a propensão de dois vértices que estão conectados a estarem conectados a um terceiro vértice. As estatísticas, no nível do vértice, retornadas por networkStat são:
Centralidade de grau
A centralidade de proximidade mede quantos passos são necessários para acessar todos os outros vértices de um determinado vértice;
A centralidade do autovetor é uma medida de estar bem conectado ao bem conectado;
A centralidade de intermediação mede o potencial de intermediação ou de gatekeeping. É (aproximadamente) o número de caminhos mais curtos entre vértices que passam por um determinado vértice;
A pontuação do PageRank aproxima a probabilidade de que qualquer mensagem chegue a um determinado vértice. Esse algoritmo foi desenvolvido pelos fundadores do Google e originalmente aplicado a links de sites;
Hub Score estima o valor dos links que saem do vértice. Foi inicialmente aplicado às páginas da web;
O Authority Score é outra medida de centralidade inicialmente aplicada à Web. Um vértice tem alta autoridade quando está ligado por muitos outros vértices que estão ligando muitos outros vértices;
O Vertex Ranking é um ranking geral de vértices obtido como uma combinação ponderada linear das medidas de centralidade e vértice de prestígio. Os pesos são proporcionais às cargas do primeiro componente da Análise de Componentes Principais.
names(netstat$vertex)
Para resumir os principais resultados da função networkStat, use o resumo da função genérica. Apresenta as principais informações sobre a rede e a descrição dos vértices através de diversas tabelas.
sumário aceita um argumento adicional. k é um valor de formatação que indica o número de linhas de cada tabela. Escolhendo k=10, você decide ver os primeiros 10 vértices.
summary(netstat, k=10)
Todas as redes bibliométricas podem ser visualizadas ou modeladas graficamente.
Aqui, mostramos como visualizar redes usando a função networkPlot e o software VOSviewer de Nees Jan van Eck e Ludo Waltman (https://www.vosviewer.com).
Usando a função networkPlot, você pode plotar uma rede criada pelo biblioNetwork usando rotinas R ou usando o VOSviewer.
O principal argumento de networkPlot é type. Indica o layout do mapa da rede: circle, kamada-kawai, mds, etc. Escolhendo type=“vosviewer”, a função automaticamente: (i) salva a rede em um arquivo de rede pajek, denominado “vosnetwork.net”; (ii) inicia uma instância do VOSviewer que irá mapear o arquivo “vosnetwork.net”. Você precisa declarar, usando o argumento vos.path, o caminho completo da pasta onde o software VOSviewer está localizado (por exemplo, vos.path=‘c:/software/VOSviewer’).
# Create a country collaboration network
M <- metaTagExtraction(M, Field = "AU_CO", sep = ";")
NetMatrix <- biblioNetwork(M, analysis = "collaboration", network = "countries", sep = ";")
# Plot the network
net=networkPlot(NetMatrix, n = dim(NetMatrix)[1], Title = "Country Collaboration", type = "circle", size=TRUE, remove.multiple=FALSE,labelsize=0.7,cluster="none")
# Create a co-citation network
NetMatrix <- biblioNetwork(M, analysis = "co-citation", network = "references", sep = ";")
# Plot the network
net=networkPlot(NetMatrix, n = 30, Title = "Co-Citation Network", type = "fruchterman", size=T, remove.multiple=FALSE, labelsize=0.7,edgesize = 5)
# Create keyword co-occurrences network
NetMatrix <- biblioNetwork(M, analysis = "co-occurrences", network = "keywords", sep = ";")
# Plot the network
net=networkPlot(NetMatrix, normalize="association", weighted=T, n = 30, Title = "Keyword Co-occurrences", type = "fruchterman", size=T,edgesize = 5,labelsize=0.7)
O objetivo da análise de co-palavras é mapear a estrutura conceitual de uma estrutura usando a palavra co-ocorrências em uma coleção bibliométrica.
A análise pode ser realizada por meio de técnicas de redução de dimensionalidade como Escala Multidimensional (MDS), Análise de Correspondência (CA) ou Análise de Correspondência Múltipla (MCA).
Aqui, mostramos um exemplo usando a função conceptualStructure que executa um CA ou MCA para desenhar uma estrutura conceitual do campo e agrupamento K-médias para identificar grupos de documentos que expressam conceitos comuns. Os resultados são plotados em um mapa bidimensional.
O conceptualStructure inclui rotinas de processamento de linguagem natural (NLP) (consulte a função termExtraction) para extrair termos de títulos e resumos. Além disso, ele implementa o algoritmo de radicalização de Porter para reduzir palavras flexionadas (ou às vezes derivadas) ao seu radical, base ou forma de raiz.
# Conceptual Structure using keywords (method="CA")
CS <- conceptualStructure(M,field="ID", method="CA", minDegree=4, clust=5, stemming=FALSE, labelsize=10, documents=10)
O mapa historimétrico é um grafo proposto por E. Garfield (2004) para representar um mapa cronológico em rede das citações diretas mais relevantes resultantes de um acervo bibliográfico.
Garfield, E. (2004). Mapeamento historiográfico da literatura de domínios de conhecimento. Journal of Information Science, 30(2), 119-145.
A função gera uma matriz de rede de citação direta cronológica que pode ser plotada usando histPlot:
# Create a historical citation network
options(width=130)
histResults <- histNetwork(M, min.citations = 1, sep = ";")
# Plot a historical co-citation network
net <- histPlot(histResults, n=15, size = 10, labelsize=5)
Aria, M. & Cuccurullo, C. (2017). bibliometrix: An R-tool for comprehensive science mapping analysis, Journal of Informetrics, 11(4), pp 959-975, Elsevier, DOI: 10.1016/j.joi.2017.08.007 (https://doi.org/10.1016/j.joi.2017.08.007).
Aria M., Misuraca M., Spano M. (2020) Mapping the evolution of social research and data science on 30 years of Social Indicators Research, Social Indicators Research. (DOI: )https://doi.org/10.1007/s11205-020-02281-3)
Aria, M., Cuccurullo, C., D’Aniello, L., Misuraca, M., & Spano, M. (2022). Thematic Analysis as a New Culturomic Tool: The Social Media Coverage on COVID-19 Pandemic in Italy. Sustainability, 14(6), 3643, (https://doi.org/10.3390/su14063643).
Aria M., Alterisio A., Scandurra A, Pinelli C., D’Aniello B, (2021) The scholar’s best friend: research trends in dog cognitive and behavioural studies, Animal Cognition. (https://doi.org/10.1007/s10071-020-01448-2)
Cuccurullo, C., Aria, M., & Sarto, F. (2016). Foundations and trends in performance management. A twenty-five years bibliometric analysis in business and public administration domains, Scientometrics, DOI: 10.1007/s11192-016-1948-8 (https://doi.org/10.1007/s11192-016-1948-8).
Cuccurullo, C., Aria, M., & Sarto, F. (2015). Twenty years of research on performance management in business and public administration domains. Presentation at the Correspondence Analysis and Related Methods conference (CARME 2015) in September 2015 (https://www.bibliometrix.org/documents/2015Carme_cuccurulloetal.pdf).
Sarto, F., Cuccurullo, C., & Aria, M. (2014). Exploring healthcare governance literature: systematic review and paths for future research. Mecosan (https://www.francoangeli.it/Riviste/Scheda_Rivista.aspx?IDarticolo=52780&lingua=en).
Cuccurullo, C., Aria, M., & Sarto, F. (2013). Twenty years of research on performance management in business and public administration domains. In Academy of Management Proceedings (Vol. 2013, No. 1, p. 14270). Academy of Management (https://doi.org/10.5465/AMBPP.2013.14270abstract).