In prezent, peste 80% din datele digitale generate sunt date nestructurate sau semi-strucutrate. Prin urmare, necesitatea identificarii tiparelor, a tendintelor, respectiv extragerea informatiilor relevante din astfel de date reprezinta o provocare. Exista diverse instrumente si tehnici data mining ce pot fi utilizate pentru analiza tendintelor, respectiv pentru identificarea noilor directii de cercetare prin procesarea si analizarea datelor nestructurate. Aplicarea instrumentelor NLP (natural language processing) intr-un domeniu de cercetare poate ajuta la extragerea, preprocesarea, transformarea textului, extragerea caracteristicilor, identificarea pattern-urilor, respectiv gruparea documentelor stiintifice relevate (Talib et al. 2016).
Obiectiv
Studiul este focalizat pe analiza scientometrica a unui set de date ce contine informatii cu privire la domeniile Quantum machine learning (QML) and Quantum Computing (QC) - set de documente stiintifice indexate pe Web of Science.
Dintre obiectivele propuse amintim:
identificarea celor mai citati autori,
distributia geografica a publicatiilor stiintifice,
evolutia cuvintelor cheie
Descrierea setului de date analizat
Setul de date analizat in cadrul lucrarii contine un numar de 2119 documente stiintifice indexate in Web of Science, publicate in perioada 1999 - 2026, ce abordeaza diferite teme de cercetare din domeniile QML si QC, fiind descarcate prin intermediul plataformei e-nformation.
Descrierea variabilelor din setul de date analizat
Setul de date analizat contine un numar de 79 de variabile numerice si nenumerice. In tabelul de mai sus sunt prezentate o parte din cele mai importante variabile ce vor fi utilizate in analiza. Mai multe detalii gasiti aici
Prezentarea variabilelor si a tipului acestora:
## Rows: 2,119
## Columns: 80
## $ AU <chr> "KOTTMANN JS;ALPERIN-LEA S;TAMAYO-MENDOZA T;CERVERA-LIERTA A…
## $ AF <chr> "KOTTMANN, JAKOB S.;ALPERIN-LEA, SUMNER;TAMAYO-MENDOZA, TERE…
## $ CR <chr> "ANIS MS, 2019, QISKIT OPEN SOURCE F, DOI DOI 10.5281/ZENODO…
## $ AB <chr> "VARIATIONAL QUANTUM ALGORITHMS ARE CURRENTLY THE MOST PROMI…
## $ AR <chr> "024009", "8700308", "68", "E70337", "20210103", NA, NA, NA,…
## $ BA <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, …
## $ BE <chr> NA, NA, NA, NA, NA, "LI, K FEI, M IRWIN, GW MA, SW", "BYRD, …
## $ BF <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, …
## $ BN <chr> NA, NA, NA, NA, NA, "978-3-540-74768-0", "979-8-3315-4137-8"…
## $ BP <chr> NA, NA, NA, NA, NA, "28", "1583", NA, "9942", NA, NA, NA, NA…
## $ C1 <chr> "UNIV TORONTO, DEPT CHEM, CHEM PHYS THEORY GRP, TORONTO, ON,…
## $ C3 <chr> "UNIVERSITY OF TORONTO; UNIVERSITY OF TORONTO; HARVARD UNIVE…
## $ CL <chr> NA, NA, NA, NA, NA, "SHANGHAI, PEOPLES R CHINA", "MONTREAL, …
## $ CT <chr> NA, NA, NA, NA, NA, "INTERNATIONAL CONFERENCE ON LIFE SYSTEM…
## $ CY <chr> NA, NA, NA, NA, NA, "SEP 14-17, 2007", "SEP 15-20, 2024", NA…
## $ D2 <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, …
## $ DA <chr> "2025-11-20", "2025-11-20", "2025-11-20", "2025-11-20", "202…
## $ KW_Merged <chr> "QUANTUM SOFTWARE; VARIATIONAL ALGORITHMS; QUANTUM CHEMISTRY…
## $ DE <chr> "QUANTUM SOFTWARE; VARIATIONAL ALGORITHMS; QUANTUM CHEMISTRY…
## $ DI <chr> "10.1088/2058-9565/abe567", "10.1109/JQE.2024.3415126", "10.…
## $ DT <chr> "ARTICLE", "ARTICLE", "ARTICLE", "REVIEW", "REVIEW", "PROCEE…
## $ EA <chr> NA, NA, NA, NA, NA, NA, NA, "OCT 2024", NA, NA, NA, "FEB 202…
## $ EF <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, …
## $ EI <chr> NA, "1558-1713", "2524-4914", "2577-8196", "1471-2962", "161…
## $ EM <chr> "JAKOB.KOTTMANN@UTORONTO.CA; SUMNER.ALPERIN@MAIL.UTORONTO.CA…
## $ EP <chr> NA, NA, NA, NA, NA, "+", "1594", NA, "9952", NA, NA, NA, NA,…
## $ ER <chr> "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", …
## $ FU <chr> "US DEPARTMENT OF ENERGY [DE-SC0019374, DE-AC02-05CH11231, 5…
## $ FX <chr> "WE THANK SHUMPEI KOBAYASHI FOR IMPROVEMENTS ON THE OPTIMIZE…
## $ GA <chr> "QV8JR", "H2V9W", "I6H4R", "6TA6D", "XQ4UZ", "BGV86", "BY4DL…
## $ GP <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, "IEE…
## $ HC <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, …
## $ HO <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, …
## $ HP <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, …
## $ ID <chr> "EIGENSOLVER; FRAMEWORK", "REPRESENTATION", "FEATURE-SELECTI…
## $ IS <chr> "2", "6", "2", "8", "2216", NA, NA, NA, "11", "5", "1", NA, …
## $ J9 <chr> "QUANTUM SCI TECHNOL", "IEEE J QUANTUM ELECT", "QUANT MACH I…
## $ JI <chr> "QUANTUM SCI. TECHNOL.", "IEEE J. QUANTUM ELECTRON.", "QUANT…
## $ LA <chr> "ENGLISH", "ENGLISH", "ENGLISH", "ENGLISH", "ENGLISH", "ENGL…
## $ NR <chr> "73", "43", "67", "180", "35", "12", "70", "75", "47", "82",…
## $ OA <chr> "GREEN SUBMITTED", NA, "GREEN SUBMITTED, HYBRID", "GREEN SUB…
## $ OI <chr> "DEGROOTE, MATTHIAS/0000-0002-8850-7708; ZENDEJAS-MORALES, C…
## $ PA <chr> "TEMPLE CIRCUS, TEMPLE WAY, BRISTOL BS1 6BE, ENGLAND", "445 …
## $ PD <chr> "APR", "DEC", "DEC", "AUG", "FEB 7", NA, NA, "2024 OCT 30", …
## $ PG <chr> "22", "8", "23", "27", "10", "2", "12", "10", "11", "72", "2…
## $ PI <chr> "BRISTOL", "PISCATAWAY", "LONDON", "HOBOKEN", "LONDON", "BER…
## $ PM <chr> NA, NA, NA, NA, "34923843", NA, NA, NA, NA, NA, NA, NA, NA, …
## $ PN <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, …
## $ PT <chr> "J", "J", "J", "J", "J", "C", "C", "J", "J", "J", "J", "J", …
## $ PU <chr> "IOP PUBLISHING LTD", "IEEE-INST ELECTRICAL ELECTRONICS ENGI…
## $ PY <dbl> 2021, 2024, 2024, 2025, 2022, 2007, 2024, 2024, 2023, 2022, …
## $ RI <chr> "LAVIGNE, CYRILLE/D-7422-2012; DEGROOTE, MATTHIAS/K-8543-201…
## $ RP <chr> "KOTTMANN, JS; ALPERIN-LEA, S; ASPURU-GUZIK, A (CORRESPONDIN…
## $ SC <chr> "PHYSICS", "ENGINEERING; PHYSICS; OPTICS", "COMPUTER SCIENCE…
## $ SE <chr> NA, NA, NA, NA, NA, "LECTURE NOTES IN COMPUTER SCIENCE", NA,…
## $ SI <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, …
## $ SN <chr> "2058-9565", "0018-9197", "2524-4906", NA, "1364-503X", "030…
## $ SO <chr> "QUANTUM SCIENCE AND TECHNOLOGY", "IEEE JOURNAL OF QUANTUM E…
## $ SP <chr> NA, NA, NA, NA, NA, "CHINESE ASSOC SYST SIMULAT, IEEE UK, IE…
## $ SU <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, …
## $ TC <dbl> 53, 0, 2, 0, 4, 4, 0, 2, 33, 17, 1, 17, 38, 0, 0, 7, 0, 3, 6…
## $ TI <chr> "TEQUILA: A PLATFORM FOR RAPID DEVELOPMENT OF QUANTUM ALGORI…
## $ U1 <chr> "0", "1", "0", "1", "0", "0", "0", "2", "7", "1", "4", "3", …
## $ U2 <chr> "24", "2", "2", "1", "15", "0", "1", "2", "28", "10", "11", …
## $ UT <chr> "WOS:000628211100001", "WOS:001322078500004", "WOS:001331248…
## $ VL <chr> "6", "60", "6", "7", "380", "4688", NA, NA, "10", "69", "10"…
## $ WC <chr> "QUANTUM SCIENCE & TECHNOLOGY; PHYSICS, MULTIDISCIPLINARY", …
## $ WE <chr> "SCIENCE CITATION INDEX EXPANDED (SCI-EXPANDED)", "SCIENCE C…
## $ Z9 <chr> "66", "0", "2", "5", "5", "4", "0", "3", "38", "19", "1", "2…
## $ C1raw <chr> "[KOTTMANN, JAKOB S.; ALPERIN-LEA, SUMNER; TAMAYO-MENDOZA, T…
## $ DB <chr> "ISI", "ISI", "ISI", "ISI", "ISI", "ISI", "ISI", "ISI", "ISI…
## $ AB_raw <chr> "Variational quantum algorithms are currently the most promi…
## $ TI_raw <chr> "TEQUILA: a platform for rapid development of quantum algori…
## $ DE_raw <chr> "quantum software; variational algorithms; quantum chemistry…
## $ AU_UN <chr> "UNIVERSITY OF TORONTO;UNIVERSITY OF TORONTO;HARVARD UNIVERS…
## $ AU1_UN <chr> "NOTREPORTED;NOTREPORTED;UNIV TORONTO;NOTREPORTED;UNIV TORON…
## $ AU_UN_NR <lgl> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, …
## $ SR_FULL <chr> "KOTTMANN JS, 2021, QUANTUM SCI TECHNOL", "MEHTA V, 2024, IE…
## $ SR <chr> "KOTTMANN JS, 2021, QUANTUM SCI TECHNOL", "MEHTA V, 2024, IE…
## $ AU_CO <chr> "CANADA;CANADA;CANADA;CANADA;CANADA;UNITED KINGDOM;UNITED KI…
Analiza descriptiva
Tabel. Main information about dataset.
Observam ca:
Tabel. Main information about document types.
We observe that:
numarul total de articole stiintifice standard publicate este de 1420 articole
494 de publicatii stiintifice sunt publicate in revistele conferintelor - proceedings paper
50 de documente stiintifice sunt de tip review
36 de publicatii sunt articole publicate online inainte de versiunea tiparita
etc.
Se poate observa ca domeniul este dominat de articole stiintifce standard (aproximativ 67%) ceea ce reflecta interesul comunitatilor stiintifice cu privire la domeniul analizat. Participarea activa la conferinte, respectiv colaborarea dintre comunitatile stiintifice, este indicata de numarul mare de articole stiintifice publicate in revistele conferintelor, 23% din totalul documentelor stiintifice. Aceasta tendinta este observata in special in cazul comunitatilor stiintifice din domeniile stiintelor exacte/tehnice sau in curs de dezvoltare. De asemenea, progresul domeniului analizat (sinteza si evaluarea cunostintelor acumulate) este evaluat de numarul de articole de tip review (7% din numarul total de documente stiintifice).
Table. Main information about document contents
Observam ca numarul de cuvinte cheie generate de platforma Web of Science pe baza textului introdus de autor este de 1759 de cuvinte cheie, in timp ce numarul de cuvinte cheie specificate de autor este de 4719 cuvinte cheie. Frecventa cuvintelor cheie specificate de autor reflecta numarul mare de termeni unici specifici domeniului (exista foarte multe concepte specifice), in timp ce cuvintele cheie generate sunt mai generale si mai standardizate.
Table. Main information about authors
Numarul unic de autori este de 6822 cercetatori stiintifici. Diferenta dintre numarul de autori si numarul unic de autori reflecta autori care au scris mai mult de un articol sau sunt co-autori la mai mult de un articol. Se poate oberva ca numarul de publicatii stiintifice scrise de un singur autor este de 108.
Table. Main information about authors collaboration
11 autori au scris mai mult de o lucrare stiintifica ca single author, respectiv numarul de lucrari mediu ce revine unui autor este de 0.31 lucrari stiintifice. Observam ca numarul mediu de autori per lucrare stiintifica este de aproximativ 4 autori, respectiv procentul colaborarilor internationale este de 31%, ceea ce indica gradul ridicat de colaborare dintre cercetatori/comunitati stiintifice.
Analiza retelei sociale dintre autori
Analiza retelelor sociale (Social Network Analysis - SNA) este utilizata ca instrument de analiza a legaturilor informale dintre oameni, echipe, institutii etc. in cadrul a diferite grupuri definite formal (Umadevi 2013). Prin urmare, retelele de colaborare dintre autori (co-aauthorship network) sunt un tip de retea sociala si reflecta activitatea stiintifica a cercetatorilor pe domeniul si perioada analizata.
Variabilele corespunzatoare unei publicatii sunt legate intre ele prin intermediul publicatiei. Aceste conexiuni dintre diferite atribute pot genera retele reprezentate sub forma de matrici (cum ar fi de exemplu publicatia stiintifica x variabila: autori, organizatii etc.). Mai mult fiecare publicatie contine o serie de referinte catre alte lucrari stiintifice, lucru care permite generarea de retele de co-citare, respectiv permite obtinerea de informatii cu privire la influenta unitatilor bibliometrice (jurnale, autori etc.) (Aria and Cuccurullo 2017).
Identificarea tiparelor dintre comunitatile stiintifice se poate face pe baza analizei retelei de colaborare dintre autori.
Reprezentarea retelei de colaborare dintre autori
Statisticile retelei de colaborare dintre autori pentru documentele stiintifice publicate in perioada 1999 - 2026
Reprezentarea retelei de colaborare dintre autori si interpretarea metricilor luand in considerare doar publicatiile stiintifice disponibile pe Web of Science din perioada 1999 - 2026 si este disponibila aici.
##
##
## Main statistics about the network
##
## Size 6822
## Density 0.001
## Transitivity 0.806
## Diameter 16
## Degree Centralization 0.009
## Average path length 6.898
##
Statisticile retelei de colaborare dintre autori pentru documentele stiintifice publicate in perioada 2016 - 2026
Interpretarea metricilor si reprezentarea retelei de colaborare dintre autori luand in considerare doar publicatiile stiintifice disponibile pe Web of Science din perioada 2016 - 2026 este disponibila aici.
##
##
## Main statistics about the network
##
## Size 6651
## Density 0.001
## Transitivity 0.807
## Diameter 16
## Degree Centralization 0.01
## Average path length 6.874
##
reteau are 6651 de autori care au publicat in perioada 1999 - 2026, iar numarul legaturilor formate este de 22722 conexiuni
densitatea retelei este foarte mica, aproximativ, 0.1%, si reprezinta proportia conexiunilor existente din totalul legaturilor posibile (numar noduri x (numar noduri - 1) / 2 = 22.115 legaturi). Majoritatea autorilor colaboreaza doar cu comunitati stiintifice mici.
tranzitivitatea sau coeficientul de grupare global este de 0.81 si reprezinta probabilitatea ca doi vecini ai unui nod sa fie la randul lor vecini. Prin urmare, in 81% din cazuri B si C colaboreaza intre ei daca A colaboreaza cu B, respectiv C. Valoarea ridicata arata ca in cadrul echipelor de cercetare toti membri colaboreaza intre ei (echipele de cercetare sunt foarte compacte). Comunitatille stiintifice sunt foarte compacte, iar echipele de cercetare sunt mici si bine definite. Se poate observa ca exista suficienti autori care fac legatura cu alte grupuri de cercetare, mentinand distanta la nivel global mica.
diametrul retelei (16) definita ca cea mai lunga distanta dintre oricare doua noduri conectate din retea. Metoda de calcul presupune calcularea distantei minime dintre fiecare doua perechi de noduri si selectarea distantei maxime dintre cele calculate anterior. In cazul nostru orice doi autori sunt conectati prin cel mult 16 pasi (daca 16 autori nu au colaborat direct exista un autor care a colaborat cu unul dintre acestia sau cu toti), iar viteza de propagare a informatiei este medie. Avem un lant de colaborare intre doi autori oarecare lung, ceea ce reflecta o retea bine conectata.
centralitatea arata cat de mult este dominata reteau de un singur nod sau de cateva noduri. Valoarea obtinuta este foarte mica de 0.0096 ceea ce reflecta faptul ca reteaua nu este centralizata in jurul unui singur autor, iar conexiunile sunt distribuite uniform intre autori.
distanta medie dintre doi autori este de 6.87, o valoare foarte mica, ceea ce inseamna ca doi autori sunt, in medie, la o distanta mai mica de 7 co-autori. Majoritatea autorilor sunt conectati direct, in timp ce restul prin intermediul unui alt autor sau altor autori (diametrul este 16). Observam ca la nivel global reteau este foarte bine interconectata.
Statisticile retelei de colaborare dintre autori pentru documentele stiintifice publicate in perioada 1999 - 2010
Pentru simplitate am ales sa analizam reteaua de colaborare dintre autori pentru documentele stiintifice publicate si indexate pe Web of Science in perioada 1999 - 2010.
Reprezentarea retelei de colaborare dintre autori in perioda 1999 - 2010
Statisticile retelei de colaborare dintre autori pentru documentele stiintifice publicate in perioada 1999 - 2010
##
##
## Main statistics about the network
##
## Size 90
## Density 0.032
## Transitivity 0.901
## Diameter 2
## Degree Centralization 0.069
## Average path length 1.181
##
Observa ca:
reteau are 90 de autori care au publicat in perioada 1999 - 2010
densitatea retelei este foarte mica, aproximativ, 3.2%, si reprezinta proportia conexiunilor existente din totalul legaturilor posibile (numar noduri x (numar noduri - 1) / 2 = 4009 legaturi).
tranzitivitatea sau coeficientul de grupare global este de 0.91 si reprezinta probabilitatea ca doi vecini ai unui nod sa fie la randul lor vecini. Prin urmare, in 90% din cazuri si B si c colaboreaza intre ei daca A colaboreaza cu B si C. Valoarea ridicata arata ca in cadrul echipelor de cercetare toti membri colaboreaza intre ei (echipele de cercetare sunt foarte compacte).
diametrul retelei (2) definita ca cea mai lunga distanta dintre oricare doua noduri conectate din retea. Metoda de calcul presupune calcularea distantei minime dintre fiecare doua perechi de noduri si selectarea distantei maxime dintre cele calculate anterior. In cazul nostru orice doi autori sunt conectati prin cel mult doi pasi (daca doi autori nu au colaborat direct exista un autor care a colaborat cu amandoi), iar viteza de propagare a informatiei este mare.
centralitatea arata cat de mult este dominata reteau de un singur nod sau de cateva noduri. Valoarea obtinuta este foarte mica de 0.069 ceea ce reflecta faptul ca reteaua nu este centralizata in jurul unui singur autor, iar conexiunile sunt distribuite uniform intre autori.
distanta medie dintre doi autori este de 1.181, o valoare foarte mica, ceea ce inseamna ca doi autori sunt, in medie, la o distanta mai mica de 1.18. Majoritatea autorilor sunt conectati direct, in timp ce restul prin intermediul unui alt autor (distanta este 2).
Observam ca numarul total de comunitati stiintifice este 23 de grupuri de cercetare. Cel mai mare grup de cercetare este format dintr-un numar de 10 cercetatori, in timp ce cel mai mic grup de cercetare este format din doi cercetatori. Precizam ca am eliminat cercetatori izolati.
Componenta grupui de cercetare 3
Observam ca autori Takahashi K, respectiv Ulyanov Sv prezinta cele mai ridicate valori pentru indicatori centralitatii (betweenness, closeness and page rank). Acest lucru indica faptul ca acestia prezinta o influenta ridicata in cadrul comunitatii. De asemenea, cei doi autori fac legatura dintre cele doua clustere.
##
##
## Main statistics about the network
##
## Size 10
## Density 0.733
## Transitivity 0.882
## Diameter 2
## Degree Centralization 0.267
## Average path length 1.267
##
Componenta grupui de cercetare 1
##
##
## Main statistics about the network
##
## Size 8
## Density 0.536
## Transitivity 0.692
## Diameter 2
## Degree Centralization 0.464
## Average path length 1.464
##
Observam ca grupul de cercetare 1 este format din 8 autori. Densitatea retelei este de 53.6%, sugerand o colaborare intensa intre cercetatori. Cercetatori sunt bine conectati intre ei. Coeficientul de tranzitivitate arataa ca exista o tendinta puternica de colaborare intre grupuri (daca doi cercetatori colaboreaza cu acelasi autor este foarte probabil sa colaboreze si intre ei). Oricare doi cercetatori pot fi conectati prin cel mult doua colaborari (diametrul retelei este 2). Acest lucru arataa ca informatiile si cunostintele circula rapid intre membri. Reteaua nu pare sa fie dominata de un singur autor (degree centrality este 0.46), insa exista un cercetator (Shuai Dx, 21 de decumente publicate in colaborare cu ceilalti autori) care are mai multe colaborari decat restul, jucand un rol important in conectarea retelei. Comunicarea dintre cercetatori este foarte eficienta, iar conectivitatea este buna. In medie, un cercetator poate ajunge la oricare altul prin una sau doua colaborari (Kaur and Singh (2016), Newman (2005)).
Bibliography
https://cran.r-project.org/web/packages/bibliometrix/bibliometrix.pdf accessed on 28.06.2026.
https://academic.oup.com/view-large/286057600 accessed on 28.06.2026.
https://igraph.org/r/html/1.3.0/transitivity.html accessed on 28.06.2026.