Khảo sát về mối liên hệ giữa các thông số định lượng là một phân tích thống kê thường gặp trong nghiên cứu y học. Với chuyên đề hỗ trợ sinh sản, ngoài mục tiêu đánh giá hiệu quả của can thiệp điều trị như đã làm trong những chương trước, ta còn quan tâm đến tình trạng bất thường về giải phẫu, sinh lý nội tiết, chức năng sinh sản… góp phần gây ra tình trạng hiếm muộn, ảnh hưởng đến khả năng thành công của can thiệp hoặc kết cục của thai kì sau can thiệp, như hội chứng buồng trứng đa nang (PCOS), rối loạn chuyển hóa glucose, suy giảm dự trữ buồng trứng, nguy cơ tai biến sản khoa… Các thực thể bệnh lý này có thể biểu hiện qua sự thay đổi giá trị của nhiều thông số xét nghiệm sinh lý, sinh hóa, giải phẫu bệnh, hình ảnh học … ở điều kiện cơ bản, trong chu kỳ hỗ trợ sinh sản hoặc trong thai kì. Từ đó, dẫn đến nhu cầu nghiên cứu về mối tương quan giữa những đại lượng này.
Phân tích tương quan có giá trị ứng dụng trong nhiều hoàn cảnh, bao gồm mô tả về mối liên hệ phức tạp giữa các yếu tố trong thực thể bệnh lý, nhận diện các quy luật sinh lý-bệnh học, phát hiện những thông số xét nghiệm tiềm năng cho mục tiêu chẩn đoán hoặc tiên lượng, xác định những biến số quan trọng để xây dựng mô hình hồi quy với mục tiêu tiên lượng hoặc diễn dịch, vv.
Thông thường, phân tích tương quan được áp dụng cho một cặp biến số. Các bạn đồng nghiệp thường sử dụng hệ số tương quan \(r\) của Pearson (thuật ngữ đầy đủ : Pearson’s product moment correlation coefficient). Đây là một trị số thống kê cho phép đo lường độ mạnh và chiều hướng của tương quan giữa 2 biến liên tục \(X\) và \(Y\) Một cách tổng quát, \(r\) được xác định bằng tỉ số giữa hiệp phương sai (covariance) của 2 biến \(X,Y\) chia cho tích số của độ lệch chuẩn của chúng:
\[r_{X,Y}=\frac{Cov(XY)}{\sigma_X*\sigma_Y}\]
Ta cũng có thể hình dung về \(r\) như hệ số hồi quy trong một mô hình hồi quy tuyến tính đơn biến \(Y \sim X\) mà cả X và Y đều cùng đơn vị đo trên một thang đo chuẩn hóa (z-scores).
Hệ số \(r\) dao động trong khoảng -1 đến +1. Giá trị \(r=0\) trong trường hợp không có liên hệ nào giữa 2 biến. Giá trị \(r>0\) biểu thị cho mối tương quan thuận (X và Y biến thiên cùng hướng), Giá trị \(r<0\) biểu thị cho tương quan nghịch (X tăng, Y giảm và ngược lại). Càng gần cực trị +/-1 thì mức độ tương quan càng mạnh. Giá trị \(r\) càng gần 1 cho thấy 2 biến tỉ lệ với nhau một cách hoàn hảo.
Ý nghĩa thống kê của hệ số tương quan \(r\) được kiểm định thông qua một suy diễn thống kê nhằm phản nghiệm giả thuyết H0 là r=0 (không có tương quan), dựa vào trị số thống kê \(t\) được ước tính từ r và cỡ mẫu, t theo phân phối Student t với độ tự do = (n-2):
\[t = r\sqrt{\frac{N-2}{1-r^2}}\] Mặt khác, với sự phát triển của kiến thức sinh lý bệnh học và công nghệ xét nghiệm, nhà khoa học được cung cấp lượng thông tin ngày càng lớn hơn, thậm chí đến cấp độ phân tử. Lúc này, việc đọc và diễn giải kết quả phân tích tương quan trở nên khó khăn khi kết quả thu được sẽ là một bảng với kích thước rất lớn, trình bày giá trị hệ số tương quan của mỗi biến bắt cặp tuần tự với tất cả những biến còn lại. Vì vậy, chúng ta cần một giải pháp khác hiệu quả hơn thay cho bảng kết quả. Trong chương này chúng tôi sẽ giới thiệu về quy trình phân tích mạng lưới tương quan (correlation network), một ý tưởng thú vị cho phép trình bày bức tranh toàn cảnh về cấu trúc liên hệ phức tạp giữa rất nhiều biến số trong một thực thể bệnh lý.
Ta sẽ phân tích một dữ liệu có thực với mục tiêu đặt ra là khảo sát về mối tương quan giữa 15 thông số lâm sàng trong 2 nhóm khác nhau: 132 phụ nữ bình thường và 249 trường hợp có hội chứng buồng trứng đa nang (PCOS) có kèm rối loạn kháng insulin (IR). Tập hợp 15 thông số cần phân tích bao gồm: tuổi của bệnh nhân (Age), chỉ số BMI, kết quả định lượng các loại hormones: AMH: (Anti-Müllerian Hormone), E2 (Estrogen), FSH (Follicle-Stimulating Hormone), LH (Luteinizing hormone), P (Progesterone hormone), PRL (prolactin hormone), T (Testosterone hormone), TSH (thyroid stimulating hormone), các chỉ số: AFC (antral follicle count), OSI (ovarian sensitivity index), kết quả insulin fasting blood test (F_INS), đường huyết (Gluc) và HOMA-IR (Homeostatic Model Assessment for Insulin Resistance).
Trước hết, ta tải dữ liệu vào R và thực hiện một phân tích thống kê mô tả đơn giản về đặc điểm phân phối của 15 biến số kể trên giữa 2 nhóm Normal và PCOS. Kết quả trình bày trong bảng sau:
Class | Features | n | Mean | sd | Median | p5 | p95 |
---|---|---|---|---|---|---|---|
Normal | AFC | 132 | 16.70 | 4.82 | 17.00 | 9.00 | 24.00 |
Normal | AMH | 132 | 3.77 | 1.70 | 3.38 | 1.68 | 6.68 |
Normal | Age | 132 | 30.10 | 3.94 | 30.00 | 23.00 | 36.00 |
Normal | BMI | 132 | 24.15 | 3.53 | 23.71 | 18.99 | 30.06 |
Normal | E2 | 132 | 39.98 | 23.85 | 34.10 | 20.22 | 72.24 |
Normal | FSH | 132 | 6.17 | 1.39 | 6.12 | 4.32 | 8.97 |
Normal | F_INS | 132 | 19.12 | 6.67 | 16.40 | 11.95 | 31.94 |
Normal | Gluc | 132 | 5.30 | 0.34 | 5.31 | 4.75 | 5.83 |
Normal | HOMA_IR | 132 | 4.50 | 1.58 | 3.92 | 2.83 | 7.60 |
Normal | LH | 132 | 5.43 | 3.34 | 4.92 | 2.40 | 9.07 |
Normal | OSI | 132 | 8.37 | 5.02 | 6.85 | 2.43 | 19.17 |
Normal | P | 132 | 0.40 | 0.81 | 0.26 | 0.07 | 1.01 |
Normal | PRL | 132 | 16.77 | 7.51 | 15.55 | 7.73 | 28.91 |
Normal | T | 132 | 24.84 | 14.68 | 22.98 | 9.98 | 47.00 |
Normal | TSH | 132 | 2.24 | 0.94 | 2.14 | 0.89 | 3.92 |
PCOS | AFC | 249 | 23.21 | 10.70 | 21.00 | 11.00 | 42.60 |
PCOS | AMH | 249 | 5.88 | 4.00 | 4.84 | 1.82 | 14.92 |
PCOS | Age | 249 | 29.58 | 3.80 | 30.00 | 23.00 | 35.60 |
PCOS | BMI | 249 | 24.52 | 3.20 | 24.49 | 19.14 | 29.40 |
PCOS | E2 | 249 | 40.26 | 20.90 | 35.60 | 20.12 | 68.34 |
PCOS | FSH | 249 | 5.97 | 1.47 | 5.79 | 3.92 | 8.95 |
PCOS | F_INS | 249 | 22.74 | 15.97 | 17.80 | 11.93 | 47.76 |
PCOS | Gluc | 249 | 5.33 | 0.39 | 5.32 | 4.79 | 5.97 |
PCOS | HOMA_IR | 249 | 5.39 | 3.75 | 4.31 | 2.78 | 11.33 |
PCOS | LH | 249 | 7.60 | 5.32 | 5.75 | 2.48 | 17.67 |
PCOS | OSI | 249 | 8.74 | 5.60 | 7.33 | 1.99 | 20.12 |
PCOS | P | 249 | 0.33 | 0.61 | 0.24 | 0.06 | 0.85 |
PCOS | PRL | 249 | 16.35 | 8.92 | 14.00 | 7.70 | 30.76 |
PCOS | T | 249 | 33.08 | 22.72 | 27.10 | 11.64 | 73.34 |
PCOS | TSH | 249 | 2.26 | 0.93 | 2.11 | 0.89 | 3.88 |
Tiếp theo, ta sẽ thực hiện một phân tích tương quan cổ điển cho 15 biến số này, riêng cho mỗi nhóm Normal và PCOS, sử dụng hệ số tương quan \(r\) của Pearson theo quy trình gồm 3 bước sau:
Dùng hàm filter của dplyr để phân lập 2 dataframe riêng cho 2 nhóm Normal và PCOS,
Dùng hàm select để loại bỏ biến phân nhóm cho mỗi dataframe, kết quả ta sẽ có một matrix chỉ chứa toàn biến kiểu số
Áp dụng hàm cor() trên data matrix 15 biến số, ta sẽ thu được kết quả là một correlation matrix với kích thước 15 x 15
Sử dụng thư viện corrplot để chuyển ma trận tương quan này thành biểu đồ (có tên gọi là correlogram). Lưu ý rằng biểu đồ này đã giản lược kết quả từ ma trận tương quan có kích thước 15x15 bằng cách chỉ lấy 1 nửa dưới (vì ma trận có cấu trúc đối xứng) và loại bỏ đường chéo (toàn bộ giá trị r=1 trên đường chéo này, khi 1 biến tương quan với chính nó).
Kết quả ma trận tương quan cho nhóm PCOS
Kết quả ma trận tương quan cho nhóm Normal
Ta có thể giản lược kết quả này nhiều hơn nữa, bằng cách chỉ giữ lại
những cặp tương quan có ý nghĩa thống kê (p<0.05), và chuyển những
con số giá trị \(r\) thành các biểu
tượng, cho phép nhận diện nhanh hướng và độ mạnh tương quan.
Đây là kết quả cho nhóm PCOS:
Còn đây là kết quả cho nhóm Normal
Ta thấy rằng ngay cả khi đã được giản lược tối đa và tối ưu hóa bằng màu sắc và biểu tượng, vẫn khó diễn giải trực tiếp kết quả phân tích tương quan cho tập hợp quá nhiều biến số. Mặt khác, hình thức trình bày kết quả này chỉ cho phép chúng ta suy diễn thống kê về độ mạnh và chiều hướng của mối tương quan giữa từng cặp biến, nhưng không cung cấp được bức tranh toàn cảnh về quan hệ phức tạp, chồng chéo giữa TẤT CẢ các biến.
Trong phần tiếp theo, ta sẽ áp dụng phương pháp Network analysis, cho phép đi xa hơn và khai thác thêm nhiều thông tin hơn từ ma trận tương quan.
Sơ đồ mạng lưới (network, graph) là một khái niệm giao thoa giữa nhiều chuyên ngành. Trong ngành khoa học máy tính, graph là một cấu trúc dữ liệu với công dụng mô phỏng các hệ thống tương tác trong xã hội đời thực, với khả năng truy xuất và tìm kiếm nhanh chóng một phần tử thông qua liên kết với những phần tử khác. Với thống kê và khoa học dữ liệu, graph vừa có ý nghĩa như một công cụ đồ họa, vừa là một mô hình toán học chính xác dẫn đến các ứng dụng như suy luận nhân quả, phân tích tương quan …
Sơ đồ mạng là một tập hợp của 2 thành phần: các nút (vertices) và liên kết giữa chúng (edges, arcs). Mỗi nút (vertex) trong mạng lưới biểu thị cho một nhân tố. Nó có thể là một cấu trúc sinh học phân tử (genes, protein, một loại tế bào, thông số xét nghiệm sinh hóa, một đại lượng sinh học, một biến định lượng hoặc định tính. Liên kết giữa 2 nút (edge) trong mạng lưới có thể biểu thị cho mọi hình thức về mối liên hệ, với ý nghĩa thống kê hay hiện thực. Thí dụ: tương quan thống kê giữa 2 biến định lượng, liên hệ giữa thông số lâm sàng và xác suất bệnh lý, tương tác giữa phân tử truyền tin và thụ thể giữa 2 tế bào, tỉ lệ cùng hiện diện giữa 2 thực thể lâm sàng.
Trong giới hạn của chương này, ta sử dụng một ứng dụng cá biệt của sơ đồ mạng đó là mạng lưới tương quan (correlation network) như một phương tiện cho phép trình bày trực quan về mối liên hệ giữa các phần tử trong tập hợp nhiều biến số. Ngoài ra, ta có thể mô tả, so sánh đặc điểm của cấu trúc mạng lưới này giữa 2 trạng thái bình thường và bệnh lý. Trong mạng lưới tương quan, mỗi nút tương ứng với một biến số, và mỗi liên kết giữa 2 nút X,Y tương ứng với mối tương quan tuyến tính giữa biến X và biến Y, sự hiện diện của liên kết được xác lập nhờ vào giá trị của r và p_value.
Trong R, có 2 nhóm công cụ khác nhau cho Network analysis, đó là packages statnet và igraph. Mỗi nhóm sử dụng dữ liệu network có cấu trúc khác nhau (network và graph). Ta có thể hoán chuyển giữa graph và network bằng package intergraph. Một network hay graph có thể được dựng từ 2 cấu trúc dữ liệu cơ bản là “adjacency matrix”, hoặc “edges list”. Correlation matrix chính là một adjacency matrix.
Quy trình phân tích mạng lưới tương quan khi dùng thư viện igraph gồm các bước sau:
Đầu tiên, ta dùng thư viện igraph để chuyển correlation matrix thành graph.
Ta có thể tạo thêm một vài thuộc tính cho các mối nối liên kết trong mạng lưới như: Direction = hướng quan hệ, nhận giá trị “Proportional” nếu r>0 (tương quan thuận), “Inverse” nếu r<0 (tương quan nghịch); và Strength là một biến nhị phân về độ mạnh tương quan: Strong (tương quan mạnh) nếu abs(r) >0.5 và Weak (tương quan yếu) nếu giá trị tuyệt đối này <0.5.
Chuyển mạng lưới thành hình ảnh
Ta thử làm như vậy cho nhóm bệnh nhân PCOS và thu được kết quả như sau:
Tuy nhiên, ta sẽ không làm việc trên graph mà sẽ chuyển nó thành
network. Nguyên nhân vì định dạng dữ liệu network tương thích với hệ
sinh thái statnet, cho phép chúng ta đi xa hơn với nhiều phân tích và mô
hình mà hệ sinh thái này cung cấp.
Ta dùng intergaph để chuyển graph object thành network object. Kết quả của mạng lưới tương quan cho nhóm PCOS như sau:
Trên network, ta còn có thể gán thêm thuộc tính cho các nút, thí dụ 15
biến số hiện thời có thể được phân thành 4 loại tùy ý nghĩa sinh lý của
chúng: “A” tương ứng với thông số nhân trắc (anthropometric) như tuổi,
BMI, “OV” tương ứng với các thông số về chức năng buồng trứng (Ovarian)
như AFC, AMH, OSI, nhóm “Glu” tương ứng với các xét nghiệm về chuyển hóa
glucose và insuline như đường huyết, HOMA-IR, và cuối cùng là nhóm “H”
gồm các hormones sinh dục.
Tương tự, ta thực hiện cùng quy trình trên cho nhóm Normal:
## Phân tích cấu trúc mạng lưới tương quan
Sơ đồ mạng không chỉ đơn giản là một hình vẽ trình bày ý tưởng, khái niệm về mạng lưới liên hệ giữa các biến, nhưng còn là một mô hình toán học chính xác về kích thước, cấu trúc phân bố của hệ thống các nút (node, vertex, actor) và mạng liên kết giữa chúng (edges, arcs).
Hàm summary cho phép mô tả tóm tắt về cấu trúc của mạng lưới. Thí dụ cho mạng tương quan của nhóm PCOS, ta có kết quả mô tả như sau:
## Network attributes:
## vertices = 14
## directed = FALSE
## hyper = FALSE
## loops = FALSE
## multiple = FALSE
## bipartite = FALSE
## total edges = 31
## missing edges = 0
## non-missing edges = 31
## density = 0.3406593
##
## Vertex attributes:
##
## Physio:
## character valued attribute
## attribute summary:
## A Glu H Ov
## 2 3 6 3
## vertex.names:
## character valued attribute
## 14 valid vertex names
##
## Edge attributes:
##
## Direction:
## character valued attribute
## attribute summary:
## Inv Pro
## 10 21
##
## r:
## numeric valued attribute
## attribute summary:
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -0.2892 -0.1434 0.1467 0.1474 0.3337 0.9928
##
## sig:
## numeric valued attribute
## attribute summary:
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.000e+00 2.800e-07 3.563e-04 1.012e-02 2.074e-02 4.268e-02
##
## Strength:
## character valued attribute
## attribute summary:
## Strong Weak
## 3 28
Mạng tương quan của nhóm PCOS có 14 nút. Thống kê cho thuộc tính của nút cho thấy có 2 biến nhân trắc, 3 biến về chuyển hóa Glucose, 6 biến hormones, 3 biến chức năng buồng trứng trong hệ thống tương quan. Kết quả thống kê cho các thuộc tính của liên kết (edges) cho thấy có tổng cộng 31 cặp tương quan, trong đó 10 cặp tương quan nghịch và 21 cặp tương quan thuận, 3 cặp tương quan mạnh và 28 cặp tương quan yếu. Giá trị hệ số r trung bình là 0.147, thấp nhất là -0.289, cao nhất là 0.993
Với mạng tương quan cho nhóm Normal, ta có kết quả như sau:
## Network attributes:
## vertices = 11
## directed = FALSE
## hyper = FALSE
## loops = FALSE
## multiple = FALSE
## bipartite = FALSE
## total edges = 21
## missing edges = 0
## non-missing edges = 21
## density = 0.3818182
##
## Vertex attributes:
##
## Physio:
## character valued attribute
## attribute summary:
## A Glu H Ov
## 1 3 4 3
## vertex.names:
## character valued attribute
## 11 valid vertex names
##
## Edge attributes:
##
## Direction:
## character valued attribute
## attribute summary:
## Inv Pro
## 7 14
##
## r:
## numeric valued attribute
## attribute summary:
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -0.3028 -0.1865 0.2177 0.1555 0.3121 0.9802
##
## sig:
## numeric valued attribute
## attribute summary:
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000000 0.0002689 0.0021453 0.0110976 0.0206020 0.0370451
##
## Strength:
## character valued attribute
## attribute summary:
## Strong Weak
## 2 19
Theo kết quả này, mạng lưới tương quan của nhóm Normal có kích thước nhỏ hơn (chỉ có 11 nút/biến số) và số cặp tương quan cũng ít hơn (chỉ 21 cặp), trong đó chủ yếu là tương quan thuận (14 cặp), có 2 liên kết tương quan mạnh và 19 cặp tương quan yếu.
Cũng trong kết quả này, ta có mật độ của mạng lưới (density), cho phép hình dung về khả năng liên kết giữa các phần tử trong tập hợp. Ta thấy rằng tuy mạng tương quan ở nhóm bình thường có kích thước nhỏ hơn (11 so với 14) nhưng mật độ cao liên kết cao hơn (0.382 so với 0.340)
Sự khác biệt về cấu trúc giữa 2 mạng lưới tương quan cho thấy một điều thú vị, đó là chúng ta vẫn thường hiểu sai về mục tiêu cách diễn giải kết quả của phân tích tương quan. Tâm lý chung của nghiên cứu sinh thường trông đợi phát hiện sự tồn tại mối liên hệ có ý nghĩa thống kê giữa 2 yếu tố bất kì, và cho rằng đó là kết quả tốt. Tuy nhiên, thực tế có thể phức tạp hơn nhiều. Khi chuyển từ trạng thái sinh lý bình thường sang bệnh lý, có thể chỉ một trong 2, hay cả 2 biến số bị thay đổi giá trị, sự thay đổi này có thể thuận chiều hay nghịch chiều. Do đó, một rối loạn bệnh lý có thể biểu hiện theo nhiều cách: hoặc phát sinh một mối tương quan mà bình thường không có, hoặc ngược lại: làm đứt gãy hoặc tăng cường/giảm nhẹ, đảo chiều một mối liên hệ có sẵn.
Một số thuộc tính khác về cấu trúc mà ta có thể ước tính từ mạng lưới, bao gồm:
Đường kính của mạng lưới là con đường nối từ đầu này sang đầu kia trong mạng lưới. Ở đây, cả 2 nhóm PCOS và Normal đều có đường kính mạng lưới là 3.
## [1] 3
## [1] 3
Chỉ số Transitivity: tỉ lệ giữa số liên kết bộ ba khép kín trên tổng số liên kết bộ ba hở và kín
## [1] 0.4662162
## [1] 0.4761905
Mạng của nhóm Normal có tỉ số transitivity cao hơn (0.48 so với 0.47), cho thấy nó có nhiều liên kết bộ ba hơn so với mạng tương quan của nhóm PCOS.
Ngoài ra, mạng lưới tương quan còn cho phép nhận diện thông số lâm sàng nào có vai trò trung tâm, đóng góp quan trọng vào việc kiến tạo mạng liên kết với những biến còn lại, từ đó trả lời câu hỏi: đại lượng nào là quan trọng nhất trong toàn bộ các thông số đang được nghiên cứu ?
Một phần tử có vai trò trung tâm khi nó có nhiều liên hệ nhất với các phần tử khác trong mạng lưới. Có nhiều chỉ số để ước lượng tính Trung tâm này, như: Degree, Betweeness, Closeness, Eigen vector, Bonacich power, Information, Harary graph. Ở mỗi trạng thái khác nhau: Bệnh lý/Bình thường, mỗi biến có vai trò khác nhau trong việc kiến tạo ra mạng lưới quan hệ với các biến còn lại.
Sau đây là kết quả mô tả về vai trò quan trọng của mỗi loại biến số trong mạng lưới tương quan của 2 nhóm.
Status | Physio | Features | n | Median | p5 | p95 |
---|---|---|---|---|---|---|
Normal | A | Beetweeness | 1 | 0.00 | 0.00 | 0.00 |
Normal | A | BonPow | 1 | 1.65 | 1.65 | 1.65 |
Normal | A | Closeness | 1 | 0.46 | 0.46 | 0.46 |
Normal | A | Degree | 1 | 2.00 | 2.00 | 2.00 |
Normal | A | Eigen | 1 | 0.13 | 0.13 | 0.13 |
Normal | A | InfoCent | 1 | 1.14 | 1.14 | 1.14 |
Normal | Glu | Beetweeness | 3 | 5.83 | 5.76 | 11.75 |
Normal | Glu | BonPow | 3 | 0.50 | -0.71 | 1.06 |
Normal | Glu | Closeness | 3 | 0.62 | 0.62 | 0.71 |
Normal | Glu | Degree | 3 | 6.00 | 6.00 | 7.80 |
Normal | Glu | Eigen | 3 | 0.34 | 0.32 | 0.41 |
Normal | Glu | InfoCent | 3 | 1.84 | 1.84 | 2.00 |
Normal | H | Beetweeness | 4 | 0.84 | 0.35 | 2.84 |
Normal | H | BonPow | 4 | -0.58 | -1.16 | 0.77 |
Normal | H | Closeness | 4 | 0.57 | 0.51 | 0.59 |
Normal | H | Degree | 4 | 3.50 | 3.00 | 4.85 |
Normal | H | Eigen | 4 | 0.21 | 0.18 | 0.28 |
Normal | H | InfoCent | 4 | 1.51 | 1.39 | 1.68 |
Normal | Ov | Beetweeness | 3 | 1.09 | 0.11 | 23.87 |
Normal | Ov | BonPow | 3 | 0.41 | -1.08 | 0.97 |
Normal | Ov | Closeness | 3 | 0.57 | 0.46 | 0.71 |
Normal | Ov | Degree | 3 | 5.00 | 2.30 | 7.70 |
Normal | Ov | Eigen | 3 | 0.31 | 0.13 | 0.35 |
Normal | Ov | InfoCent | 3 | 1.73 | 1.17 | 2.00 |
PCOS | A | Beetweeness | 2 | 0.00 | 0.00 | 0.00 |
PCOS | A | BonPow | 2 | -1.23 | -1.23 | -1.23 |
PCOS | A | Closeness | 2 | 0.43 | 0.43 | 0.43 |
PCOS | A | Degree | 2 | 1.00 | 1.00 | 1.00 |
PCOS | A | Eigen | 2 | 0.06 | 0.06 | 0.06 |
PCOS | A | InfoCent | 2 | 0.74 | 0.74 | 0.74 |
PCOS | Glu | Beetweeness | 3 | 6.17 | 0.62 | 9.54 |
PCOS | Glu | BonPow | 3 | -1.14 | -1.34 | -0.71 |
PCOS | Glu | Closeness | 3 | 0.67 | 0.50 | 0.67 |
PCOS | Glu | Degree | 3 | 5.00 | 3.20 | 5.00 |
PCOS | Glu | Eigen | 3 | 0.37 | 0.30 | 0.42 |
PCOS | Glu | InfoCent | 3 | 1.91 | 1.49 | 1.97 |
PCOS | H | Beetweeness | 6 | 1.96 | 0.75 | 6.42 |
PCOS | H | BonPow | 6 | -0.95 | -1.15 | -0.77 |
PCOS | H | Closeness | 6 | 0.51 | 0.50 | 0.64 |
PCOS | H | Degree | 6 | 3.00 | 3.00 | 4.75 |
PCOS | H | Eigen | 6 | 0.22 | 0.17 | 0.38 |
PCOS | H | InfoCent | 6 | 1.49 | 1.40 | 1.86 |
PCOS | Ov | Beetweeness | 3 | 8.00 | 3.35 | 16.44 |
PCOS | Ov | BonPow | 3 | -0.64 | -1.06 | -0.05 |
PCOS | Ov | Closeness | 3 | 0.56 | 0.53 | 0.71 |
PCOS | Ov | Degree | 3 | 4.00 | 4.00 | 7.60 |
PCOS | Ov | Eigen | 3 | 0.34 | 0.30 | 0.37 |
PCOS | Ov | InfoCent | 3 | 1.75 | 1.69 | 1.99 |
Ta còn có thể phát hiện ra phần tử then chốt “cut-point” , có nghĩa là khi loại bỏ phần tử này, cấu trúc mạng lưới sẽ bị phân rã, chia cắt thành 2 hay nhiều cụm. Thí dụ cho nhóm PCOS, thông số then chốt là BMI
Có nhiều hình thức trình bày mạng lưới tương quan, sau đây là 6 kiểu thông dụng nhất áp dụng cho mạng tương quan của nhóm PCOS:
Ta có thể thấy rằng 3 kiểu trình bày: mạng lưới vòng (Circle),
Kamadakawai và Fruchterman-Reingold là rõ ràng và đẹp nhất.
Sơ đồ mạng có thể truyền tải nhiều thông tin qua các kênh khác nhau: Kích thước của nút có thể mã hóa cho một biến định lượng, màu sắc của nút có thể biểu thị biến định tính (phân loại), kích thước và màu sắc của liên kết có thể trình bày về độ mạnh, chiều hướng hoặc bản chất của mối tương quan giữa 2 nút.
Ta có thể tùy chỉnh kích thước và màu của nút theo thuộc tính của nó: thí dụ 3 chỉ số Degree, Closeness và Betweeness đo lường mức độ quan trọng (khả năng kiến tạo liên kết) của mỗi nút.
Tương tự, ta có thể tùy chỉnh màu sắc, dán nhãn cho các liên kết (cặp
tương quan) tùy theo các thuộc tính, thí dụ độ mạnh, chiều hướng của
tương quan.
## Kết luận
Qua thí nghiệm này, ta thấy có thể kết hợp giữa phân tích tương quan cổ điển và một phương pháp thống kê hiện đại là Network analysis. Từ đó ta có thể khai thác nhiều thông tin hơn từ ma trận tương quan, khảo sát một cách định lượng cấu trúc của mối quan hệ đa chiều giữa các biến, so sánh 2 mạng lưới tương quan dựa vào các chỉ số về mật độ và vai trò của mỗi biến trong việc kiến tạo nên mạng lưới quan hệ giữa chúng.