LỜI CẢM ƠN

Lời đầu tiên, em xin gửi lời cảm ơn chân thành đến trường Đại học Tài chính – Marketing đã đưa môn học Phân tích dữ liệu định tính vào chương trình giảng dạy. Đặc biệt, em xin gửi lời cảm ơn chân thành đến giảng viên bộ môn – GV. ThS. Trần Mạnh Tường đã dạy dỗ và tâm huyết truyền đạt những kiến thức quý giá cho em suốt thời gian học tập vừa qua.

Xin cảm ơn Ban giám hiệu trường Đại học Tài chính – Marketing vì đã tạo điều kiện về cơ sở vật chất với hệ thống thư viện hiện đại, đa dạng các loại sách, tài liệu thuận lợi cho việc tìm kiếm, nghiên cứu thông tin.

Xin cảm ơn giảng viên bộ môn – Thầy Trần Mạnh Tường đã giảng dạy tận tình, chi tiết để em có đủ kiến thức để vận dụng vào bài tiểu luận này. Nhưng do còn ít kinh nghiệm trong thực tiễn công tác, nhận thức còn hạn chế và khuôn khổ của tiểu luận, em chưa thể giải quyết thấu đáo mọi vấn đề. Có thể tiểu luận không tránh khỏi những thiếu sót trong quá trình nghiên cứu và trình bày. Rất kính mong sự đóng góp ý kiến của thầy để đề tài được hoàn chỉnh hơn. Chúng em xin trân trọng cảm ơn sự quan tâm giúp đỡ của thầy đã giúp em trong quá trình nghiên cứu và thực hiện tiểu luận này.

Lời cuối cùng, chúng em xin kính chúc thầy thật nhiều sức khỏe, thành công và hạnh phúc!

1 Phần mở đầu

1.1 Lý do chọn đề tài

Thế giới đang thay đổi với tốc độ chóng mặt do sự phát triển không ngừng của khoa học kỹ thuật và xu hướng toàn cầu hóa. Điều này dẫn đến nhu cầu nhân lực ở các ngành nghề cũng không ngừng biến đổi. Một số ngành nghề có thể sẽ trở nên lỗi thời và dần mất đi chỗ đứng, trong khi những ngành nghề mới sẽ xuất hiện và đòi hỏi những kỹ năng hoàn toàn mới. Đối với sinh viên, việc lựa chọn ngành học phù hợp đóng vai trò vô cùng quan trọng trong việc đảm bảo cơ hội việc làm và sự thành công sau khi tốt nghiệp. Một ngành học phù hợp sẽ giúp sinh viên trang bị những kiến thức và kỹ năng cần thiết để đáp ứng nhu cầu của thị trường lao động, từ đó tăng khả năng cạnh tranh và có được vị trí tốt trong công việc. Tuy nhiên, việc lựa chọn ngành học phù hợp không phải là điều dễ dàng. Sinh viên cần cân nhắc nhiều yếu tố khác nhau như sở thích bản thân, năng lực học tập, xu hướng thị trường lao động và cơ hội việc làm trong tương lai.

Nắm bắt được thực trạng về nhu cầu tuyển dụng và ngành học liên quan của sinh viên, từ đó nhóm tác giả đã chọn đề tài “Phân tích các yếu tố ảnh hưởng đến quyết định chọn ngành học của sinh viên” để nghiên cứu xem hành vi của sinh viên có ảnh hưởng như thế nào đến quyết định ngành nghề trong tương lai của mình. Kết quả nghiên cứu có thể cung cấp thông tin hữu ích cho sinh viên trong việc lựa chọn ngành học phù hợp với năng lực, sở thích và nhu cầu thị trường lao động. Ngoài ra đề tài còn có thể giúp các nhà hoạch định chính sách giáo dục định hướng phát triển chương trình đào tạo đáp ứng nhu cầu xã hội và nâng cao chất lượng nguồn nhân lực.

1.2 Đối tượng và phạm vi nghiên cứu

Đối tượng nghiên cứu: 235 người khảo sát

Phạm vi nghiên cứu: Bộ dữ liệu này bao gồm thông tin thu thập được từ các sinh viên đại học ở Ấn Độ vào hai tháng trước thông qua biểu mẫu Google bởi tác giả Susanta Baidya. Chi tiết bộ dữ liệu này đã được nhóm chúng tôi lọc ra những giá trị phù hợp với đề tài nghiên cứu bao gồm các giới tính, ngành học, điểm ở lớp 12, sở thích, mức lương kỳ vọng, việc sử dụng mạng xã hội và tình hình tài chính. Mục đích của bộ dữ liệu này là cung cấp cái nhìn sâu sắc về các yếu tố tác động đến quyết định chọn ngành của sinh viên.

1.3 Mục tiêu nghiên cứu

Mục tiêu tổng quát: Mục tiêu tổng quát của nghiên cứu này là khám phá và phân tích các yếu tố ảnh hưởng đến quyết định chọn ngành học của sinh viên để từ đó có cái nhìn tổng quan, đồng thời đề xuất các giải pháp hỗ trợ hiệu quả cho quá trình lựa chọn ngành học của họ.

Mục tiêu cụ thể:

  • Xác định các yếu tố cá nhân ảnh hưởng đến quyết định chọn ngành học: Khảo sát sở thích cá nhân, đam mê và năng lực học tập của sinh viên. Đánh giá mức độ ảnh hưởng của giá trị cá nhân và mục tiêu nghề nghiệp đến quyết định chọn ngành học.
  • Xác định các yếu tố bên ngoài ảnh hưởng đến quyết định chọn ngành học: Nghiên cứu sự tác động của lời khuyên và sự ảnh hưởng từ gia đình, bạn bè tới quyết định chọn ngành học. Đánh giá mức độ ảnh hưởng của tình hình kinh tế gia đình và cơ hội việc làm trong tương lai. Điều tra vai trò của thông tin và định hướng nghề nghiệp từ nhà trường, các tổ chức tư vấn.
  • Đánh giá sự tương tác giữa các yếu tố cá nhân và yếu tố bên ngoài: Phân tích mối quan hệ qua lại giữa các yếu tố cá nhân và yếu tố bên ngoài để xem xét chúng ảnh hưởng lẫn nhau như thế nào trong quá trình sinh viên ra quyết định chọn ngành học.
  • Đánh giá mức độ hài lòng và nhận thức của sinh viên về thông tin ngành học và cơ hội nghề nghiệp: Xác định mức độ hài lòng của sinh viên với thông tin và tư vấn nghề nghiệp hiện có. Khảo sát quan điểm của sinh viên về cơ hội nghề nghiệp sau khi tốt nghiệp ngành học đã chọn.
  • Đưa ra khuyến nghị và giải pháp hỗ trợ: Dựa trên kết quả nghiên cứu, đề xuất biện pháp hỗ trợ từ phía nhà trường, gia đình và bản thân sinh viên nhằm giúp quá trình lựa chọn ngành học trở nên dễ dàng và hiệu quả hơn. Kiến nghị về việc cải thiện hệ thống tư vấn nghề nghiệp trong trường học, tăng cường giáo dục hướng nghiệp.

1.4 Kết cấu bài nghiên cứu

Chương 1: Mô hình nghiên cứu

Chương 2: Kết quả nghiên cứu dữ liệu cơ bản

Chương 3: Kết quả mô hình

Chương 4: Kết luận

2 Mô hình nghiên cứu

2.1 Mô hình hồi quy với hàm logit

Xét biến đáp ứng là biến nhị phân với hai thuộc tính: một gọi là “Thành công” và một gọi là “Thất bại”, chịu sự tác động của một tập hợp m biến \(X=(X_{1}, X_{2},..., X_{m})\) mà ta gọi là các biến giải thích. Biến đáp ứng được đại diện, hay lượng hóa bởi biến ngẫu nhiên có phân phối 0 – 1:

Y = 1 nếu đáp ứng là “Thành công” và 0 nếu đáp ứng là “Thất bại”

Mô hình logistic mô tả sự phụ thuộc của biến đáp ứng thông qua xác suất “Thành công” \(\pi(x)=P(Y=1|X=x)\) ứng với mức \(x=(x_{1}, x_{2},..., x_{m})\) của các biến giải thích phụ thuộc vào \(x=(x_{1}, x_{2},..., x_{m})\) dưới dạng:

\[log( \frac{\mathrm{ \pi (x)} }{\mathrm{ 1- \pi (x)}})=\beta_0+\beta_1.x_1+\beta_2.x_2+...+\beta_m.x_m\]

Trong đó các hằng số \(\beta_0, \beta_1, \beta_2,...,\beta_m\) được gọi là các hệ số hồi quy. Hệ số \(\beta_j\) của biến \(x_j\) là lượng thay đổi của \(log( \frac{\mathrm{ \pi (x)} }{\mathrm{ 1- \pi (x)}})\), hay của \(log[Odds(x)]\) khi biến \(x_j\) thay đổi 1 đơn vị, trong điều kiện các biến khác không thay đổi, \(j = 1, 2,…, m\).

  • Nếu \(\beta_j>0,\pi(x)\) đồng biến theo \(x_j\), khi các biến khác không thay đổi.

  • Nếu \(\beta_j<0,\pi(x)\) nghịch biến theo \(x_j\), khi các biến khác không thay đổi.

  • Nếu \(\beta_j=0,\pi(x)\) không phụ thuộc \(x_j\).

Khi \(x_j\) tăng thêm 1 đơn vị, còn các biến khác không thay đổi thì tỷ lệ cược \(Odds(x)\) được nhân lên với \(e^{\beta_j}\)

Mô ước lượng cho mô hình hồi quy Logistic là :

\[log( \frac{\mathrm{\widehat{\pi}(x)}}{\mathrm{1-\widehat{\pi} (x)}})=\widehat{\beta}_0+\widehat{\beta}_1.x_1+\widehat{\beta}_2.x_2+...+\widehat{\beta}_m.x_m\]

Trong đó các hệ số \(\widehat{\beta}_j\) ước lượng cho hồi quy \(\beta_j\) được tìm theo phương pháp hợp lý cực đại.

2.2 Mô hình hồi quy với hàm probit

Giả sử biến đáp ứng nhị phân với hai giá trị mà ta gọi là “Thành công” và “Thất bại”, phụ thuộc vào m biến giải thích:\(X_{1}, X_{2},..., X_{m}\). Ký hiệu:

\[X=(X_{1}, X_{2},..., X_{m})\]; Y = 1 nếu đáp ứng là “Thành công” và 0 nếu đáp ứng là “Thất bại”

thì xác suất “Thành công” ứng với \(X_{1}=x_{1}, X_{2}=x_{2},...,X_{m}=x_{m}\) là:

\[\pi(x)=\pi(x_{1},x_{2},...,x_{m})=E(Y|X_{1}=x_{1}, X_{2}=x_{2},...,X_{m}=x_{m})\]

Mô hình Probit đa biến có dạng:

\[\pi(x_{1},x_{2},...,x_{m})=\Phi(\beta_{0}+\beta_{1}x_{1}+\beta_{2}x_{2}+...+\beta_{m}x_{m}\]

hay: \(Probi(\pi(x_{1},x_{2},...,x_{m}))=\beta_{0}+\beta_{1}x_{1}+\beta_{2}x_{2}+...+\beta_{m}x_{m}\)

trong đó \(\phi\) là hàm phân phối chuẩn chính tắc: \[\Phi(t)=\frac{\mathrm{1}}{\mathrm{\sqrt{2\pi}}}\int_t^\infty \mathrm{e}^{-\frac{1}{2}u^2}\,\mathrm{d}u\]

và Probit là phép lấy hàm ngược của \(\Phi\):

\[Probit(\pi(x_{1},x_{2},...,x_{m}))=\Phi^{-1}(\pi(x_{1},x_{2},...,x_{m}))\]

2.3 Mô hình tuyến tính tổng quát (General Linear Modle - GLM)

Với \(Y\) là biến phụ thuộc và \({X_1, X_2, ..., X_k}\) là các biến độc lập, thì mô hình tuyến tính tổng quát là:

\[ g(μ) = β_0 + β_1.X_1 + β_2.X_2 + ... + β_k.X_k \]

Các thành phần cơ bản của GLM - Thành phần ngẫu nhiên (Random component): Là phân phối xác suất của biến phụ thuộc.

  • Thành phần hệ thống (Systematic component): \(β_0 + β_1.X_1 + β_2.X_2 + ... + β_k.X_k\)

  • Hàm liên kết (Link): là hàm \(g(π))\) trong mô hình tổng quát.

Dữ liệu nhị phân

Biến nhị phân \(Y\) hay còn gọi là biến Bernoulli, là biến ngẫu nhiên chỉ nhận 2 giá trị 0 và 1.

Đặt \(P(Y=1)=π\). Khi đó \(Y\) có bảng phân phối xác suất là: \[ \begin{array}{|c|c|c|} \hline \text{Y} & 0 & 1 \\ \hline \text{P} & 1-π & π \\ \hline \end{array} \] Với kỳ vọng và phương sai tương ứng là: \(E(Y)= π, Var(Y)=π(1-π)\)

  • Một biến định tính có 2 biểu hiện, khi thu thập dữ liệu chúng ta sẽ có dữ liệu nhị phân.

  • Một biến định tính có 2 biểu hiện tương đương với một biến ngẫu nhiên có phân phối Bernoulli.

2.4 Các tiêu chí đánh giá mô hình

2.4.1 Chỉ số AIC (Akaike Information Criterian)

AIC được đề xuất bởi Akaike Hirotugu, một nhà thống kê học người Nhật. AIC là một tiêu chí được sử dụng một cách phổ biến để đánh giá một mô hình hồi quy được ước lượng bởi phương pháp Maximum Likekihood (ML). Một cách chung chung giá trị của AIC càng nhỏ thì mô hình càng tốt. AIC được tính bằng công thức sau:

\[AIC=-2ln(L)+2k\]

Với \(L\)là giá trị cực đại của hàm hợp lý (likelihood function) và \(k\) là số tham số của mô hình.

2.4.2 Deviance

Deviance cũng là một tiêu chí rất phổ biến được sử dụng để đánh giá một mô hình hồi quy được ước lượng bởi phương pháp Hợp lý cực đại (ML). Một cách tổng quá, cũng giống như chỉ tiêu AIC, giá trị của Deviance càng nhỏ thì mô hình càng tốt.

2.4.3 Chỉ số Brier

Là chỉ tiêu dùng để đánh giá mô hình hồi quy logistic, Brier Score được tính như sau:

\[B=\frac{1}{n}\sum_{t=1}^{n} (Y_t-\widehat{\pi}_t)^2\] Trong đó \(\widehat{\pi}_t\) là giá trị ước lượng của \(\pi(x_i)=E(Y|X=x_i)\) Chỉ số Brier thực chất là trung bỉnh của tổng bình phương các độ lệch giữa giá trị của biến phụ thuộc Y và giá trị ước lượng của nó. Vì vậy chỉ số B càng bé thì mô hình cho ước lượng càng chính xác, tức là càng phù hợp với dữ liệu quan sát.

2.4.4 Ma trận nhầm lẫn (Confusion matrix)

Ma trận nhầm lẫn là yếu tố giúp so sánh giá trị thực tế và giá trị dự báo:

Giá trị dự báo cho quan sát thực tế \(Y_t\)\(\widehat{Y}_j=@round(\widehat{\pi}_j)=1nếu \widehat{\pi}_j \geq 0.5; 0 nếu\widehat{\pi}_j<0.5\)

Nếu \(Y_j=1\)\(\widehat{Y}_j=1\), thì \(\widehat{Y}_j=1\) được gọi là một dương tính thực,

Nếu \(Y_j=0\)\(\widehat{Y}_j=1\), thì \(\widehat{Y}_j=1\) được gọi là một dương tính giả,

Nếu \(Y_j=1\)\(\widehat{Y}_j=0\), thì \(\widehat{Y}_j=0\) được gọi là một âm tính giả,

Nếu \(Y_j=0\)\(\widehat{Y}_j=0\), thì \(\widehat{Y}_j=0\) được gọi là một âm tính thực,

Nếu \(Y_j=\widehat{Y}_j\), thì \(\widehat{Y}_j\) được gọi là dự báo đúng hay chính xác, nếu \(Y_j\neq\widehat{Y}_j\), thì \(\widehat{Y}_j\) được gọi là dự báo sai hay không chính xác. Kí hiệu TN (True Negative) là số âm tính thực, FN (Fale Negative) là số âm tính giả, FP (Fale Positive) là số dương tính giả, TP (True Positive) là số dương tính thực, ta có:

Ma trận: \(\begin{bmatrix}TN&FP\\FN&TP\end{bmatrix}\) được gọi là ma trận nhầm lẫn (Confusion Matrix) của mô hình. Trong ma trận nhầm lẫn người ta xét các chỉ số:

  • Độ chính xác toàn thể \(=\frac{TN+TP}{n}\) (tỷ lệ dự báo đúng trên toàn bộ mẫu)

  • Sai số toàn thể \(=\frac{FN+FP}{n}\) (tỷ lệ dự báo sai trên mẫu)

  • Độ nhạy (Sensitivity) \(=\frac{TP}{FN+TP}=\frac{Số dương tính thực}{Tổng số quan sát có Y=1}\) (tỷ lệ dự báo đúng trên tổng số các thành công được quan sát). Độ nhạy càng lớn càng tốt.

  • Sai số âm tính giả (Fale negative error) \(=1-Độ nhạy=\frac{FN}{FN+TP}\)

  • Độ đặc hiệu (Specificity) \(=\frac{TP}{FN+TP}=\frac{Số dương tính thực}{Tổng số quan sát có Y=0}\)

Độ đặc hiệu càng lớn càng tốt.

  • Sai số dương tính giả \(=1-Độ đặc hiệu=\frac{FP}{TN+FP}\)

Một mô hình tốt là một mô hình có độ nhạy lớn và độ đặc hiệu lớn.

3 Kết quả nghiên cứu dữ liệu cơ bản

3.1 Giới thiệu bộ dữ liệu

library(DT)
library(ggplot2)
library(dplyr)
library(gridExtra)
library(magrittr)
library(DescTools)
library(epitools)
library(epiR)
library(caret)
library(readxl)
S <- read_excel("C:/Users/ACER/Downloads/Student.xlsx")
datatable(S)

Dữ liệu nghiên cứu gồm 235 quan sát với 7 biến bao gồm 5 biến định tính và 2 biến định lượng. Trong đó:

Biến định tính

  • Gender (Giới tính): giới tính của sinh viên gồm 2 giá trị Male (nam) và Female (nữ).
  • Department (Ngành): khoa của sinh viên gồm 4 giá trị Commerce (Thương mại), B.Com Accounting and Finance (Kế toán và Tài chính), B.com ISM (Quản trị Hệ thống Thông tin) và BCA viết tắt của Bachelor of Computer Applications (Tin học).
  • Hobbies (Sở thích): sở thích của sinh viên bao gồm các hoạt động: Sports (chơi thể thao), Cinema (xem phim), Video Games (Chơi điện tử) và Reading books (Đọc sách)
  • Social Media & Video (Mạng xã hội): Phân loại theo mức độ sử dụng nền tảng của sinh viên gồm các giá trị như là 30-60m(phút), 1-1,5h(giờ) và các khoảng thời gian khác (0m, 1-30m, 1,5-2h).
  • Financial Status (Tình hình tài chính): tài chính của sinh viên bao gồm các giá trị Good (Ổn định), Bad (Bất ổn), và các tình trạng khác (gồm: Awful (Thiếu hụt), Fabulous (Dồi dào)).

Biến định lượng:

  • 12 Mark (Điểm lớp 12): Điểm của học sinh đạt được vào lớp 12 có giá trị từ 45-94 điểm.
  • Salary Expectation (Mức lương mong đợi): tiền lương mong muốn (số tiền cụ thể hoặc khoảng lương mong muốn) có giá trị từ 0-1,5m(triệu Rupee)

3.2 Xác định biến phụ thuộc và các yếu tố ảnh hưởng

3.2.1 Xác định biến phụ thuộc

Department (Quyết định chọn ngành học): Đây là biến phụ thuộc chính trong nghiên cứu. Nó có thể là lựa chọn ngành học cụ thể của sinh viên. Ví dụ trong bài nghiên cứ này tập trung vào 4 ngành: Commerce (Thương mại), B.Com Accounting and Finance (Cử nhân Thương mại chuyên ngành Kế toán và Tài chính), B.com ISM (Cử nhân Thương mại Quản trị Hệ thống Thông tin) và BCA viết tắt của Bachelor of Computer Applications (Cử nhân Ứng dụng Tin học). Ngoài ra, còn có thể áp dụng vào việc chọn các ngành khác ta biết như Kỹ thuật, Khoa học xã hội, Kinh tế, Y học, v.v.).

3.2.2 Xác định các biến độc lập (yếu tố ảnh hưởng)

Việc xác định các biến độc lập sẽ phụ thuộc vào phạm vi nghiên cứu và các lý thuyết, cơ sở thực tiễn mà nhà nghiên cứu lựa chọn. Dưới đây là một số yếu tố có thể ảnh hưởng đến quyết định chọn ngành học:

  • Nhóm yếu tố cá nhân:

Gender (giới tính): Các yếu tố ảnh hưởng như kỳ vọng của gia đình, định kiến xã hội, sở thích cá nhân, v.v. khác nhau giữa nam và nữ. Xem xét những rào cản hay định kiến về giới trong việc lựa chọn ngành học. Việc nghiên cứu ảnh hưởng của giới tính đến quyết định chọn ngành học sẽ giúp các nhà quản lý giáo dục có những hiểu biết sâu sắc hơn về thực trạng và nguyên nhân của sự khác biệt giới. Từ đó, họ có thể đề xuất các giải pháp can thiệp phù hợp, nhằm thúc đẩy bình đẳng giới và nâng cao chất lượng đào tạo trong các trường đại học.

Hobbies (Sở thích cá nhân và đam mê): Hiểu rõ hơn về động cơ và nguyện vọng của sinh viên từ đó xác định những lĩnh vực, môn học mà sinh viên thực sự yêu thích và đam mê. Tìm hiểu những yếu tố cá nhân như sở thích, năng khiếu, tính cách ảnh hưởng đến quyết định chọn ngành học. Sử dụng thông tin về sở thích cá nhân để tư vấn và định hướng ngành học phù hợp với từng sinh viên, giúp sinh viên lựa chọn ngành học dựa trên sở thích và năng lực của bản thân, thay vì chỉ dựa trên yếu tố gia đình hoặc xã hội. Khi sinh viên chọn ngành học phù hợp với sở thích cá nhân, họ sẽ có động lực và hứng thú học tập cao hơn. Điều này có thể dẫn đến kết quả học tập tốt hơn và tỷ lệ tốt nghiệp cao hơn.

12 Mark (Điểm lớp 12 của sinh viên): Điểm số lớp 12 phản ánh phần nào năng lực và thành tích học tập của sinh viên. Từ đó, có thể xác định được những lĩnh vực mà sinh viên có thế mạnh và phù hợp. Một số ngành học có yêu cầu điểm số lớp 12 tối thiểu nhất định, như vậy nó có thể là một tiêu chí quan trọng để xác định khả năng đáp ứng yêu cầu của ngành học. Nhiều trường đại học sử dụng điểm số lớp 12 làm một trong những tiêu chí chính trong quy trình tuyển sinh, điều đó có thể ảnh hưởng đến cơ hội trúng tuyển của sinh viên vào các ngành học.

Financial Status (Điều kiện tài chính): Xác định những khó khăn, gánh nặng tài chính mà sinh viên phải đối mặt. Tìm hiểu các nguồn tài chính mà sinh viên có thể tiếp cận như học bổng, vay vốn, hỗ trợ từ gia đình, v.v. Tư vấn và hướng dẫn sinh viên lựa chọn ngành học phù hợp với điều kiện tài chính của bản thân, giúp sinh viên cân nhắc các yếu tố như chi phí học tập, cơ hội việc làm, thu nhập tương lai. Khi sinh viên có điều kiện tài chính ổn định, họ sẽ tập trung hơn vào học tập và phát triển, điều này có thể dẫn đến kết quả học tập tốt hơn và góp phần đáp ứng nhu cầu nhân lực của xã hội.

Salary Expectation (Mức lương mong đợi): Sinh viên sẽ tìm hiểu và lựa chọn những ngành học có mức lương khởi điểm và triển vọng tương lai tốt. Những thông tin về mức lương trung bình của các ngành nghề sẽ ảnh hưởng đến sự lựa chọn của họ. Sinh viên không chỉ xem xét mức lương, mà còn cân nhắc các yếu tố khác như điều kiện làm việc, cơ hội thăng tiến, ý nghĩa công việc, họ sẽ cân bằng giữa mức lương mong đợi và các yếu tố này để đưa ra quyết định phù hợp. Ngoài ra còn có thể lựa chọn ngành học dựa trên nhu cầu và mức lương của các vị trí công việc trên thị trường lao động, điều này giúp họ có cơ hội tìm kiếm việc làm và thu nhập tốt sau khi tốt nghiệp. Các nhà quản lý giáo dục có thể nghiên cứu mức lương mong đợi của sinh viên để điều chỉnh chính sách lương thưởng phù hợp - điều này sẽ giúp thu hút và giữ chân sinh viên tài năng trong các ngành nghề quan trọng.

  • Nhóm tác nhân bên ngoài:

Social Media & Video (Phương tiện truyền thông): Ảnh hưởng từ thông tin trên báo chí, Internet, quảng cáo và các phương tiện truyền thông khác về ngành học, từ đó sinh viên có thể tìm hiểu về các ngành nghề, công việc thông qua các nội dung chia sẻ trên mạng xã hội, cung cấp thông tin hữu ích cho sinh viên. Còn có các nhân vật ảnh hưởng trên mạng xã hội có thể truyền cảm hứng và định hướng nghề nghiệp cho sinh viên - những video chia sẻ về kinh nghiệm, sự nghiệp của các influencer có thể tác động đến quyết định chọn ngành học của sinh viên. Có thể trao đổi, chia sẻ thông tin về các ngành học, cơ hội việc làm trên các nền tảng mạng xã hội. Vì vậy, việc nghiên cứu ảnh hưởng của mạng xã hội đối với quyết định chọn ngành học của sinh viên là rất quan trọng. Điều này sẽ giúp các nhà quản lý giáo dục thiết kế các chiến lược truyền thông, tư vấn hướng nghiệp hiệu quả hơn, đáp ứng nhu cầu của sinh viên trong thời đại số.

3.3 Xử lý dữ liệu

3.3.1 Department (Ngành)

Đầu tiên, chúng tôi chia 4 ngành Commerce (Thương mại), B.Com Accounting and Finance (Kế toán và Tài chính), B.com ISM (Quản trị Hệ thống Thông tin) và BCA viết tắt của Bachelor of Computer Applications (Tin học) thành 2 nhóm ngành chính là “Công Nghệ” và “Kinh tế” như sau:

  • Commerce (Thương mại) và B.Com Accounting and Finance (Kế toán và Tài chính) thuộc Kinh tế

  • B.com ISM (Quản trị Hệ thống Thông tin) và BCA (Tin học) thuộc Công Nghệ

Sau đó tiến hành chuyển đổi tên biến “Department” và các kết quả thu được sang tiếng Việt để thuận tiện cho việc nghiên cứu.

S <- S %>% mutate(`nganh` = case_when(
    Department =="B.com ISM"~"Công Nghệ",
    Department =="BCA"~"Công Nghệ",
    TRUE ~ "Kinh tế"
  ) %>% as.factor)
S %>% datatable
nganh <- S$nganh

3.3.2 Financial Status (Tình hình tài chính)

Đầu tiên, chúng tôi chia 4 nhóm tài chính Good (Ổn định), Bad (Bất ổn), Awful (Thiếu hụt) và Fabulous (Dồi dào) thành 2 nhóm tài chính là “Tốt” và “Xấu” như sau:

  • Good và Fabulous là tài chính tốt

  • Bad và Awful là tài chính xấu

Sau đó, tiến hành chuyển đổi tên biến “Financial Status” và các kết quả thu được sang tiếng Việt để thuận tiện cho việc nghiên cứu.

S <- S %>% mutate(`taichinh` = case_when(
   `Financial Status` =="good"~"Tốt",
    `Financial Status` =="Fabulous "~"Tốt",
    TRUE ~ "Xấu"
  ) %>% as.factor)
S %>% datatable
taichinh <- S$taichinh

3.3.3 Gender(Giới tính)

Tiến hành chuyển đổi tên biến “Gender” và các kết quả thu được sang tiếng Việt để thuận tiện cho việc nghiên cứu.

gioitinh <- as.character(factor(S$Gender, levels = c("Male", "Female"), labels = c("Nam", "Nu")))
head(gioitinh,10)
##  [1] "Nam" "Nu"  "Nam" "Nu"  "Nam" "Nu"  "Nam" "Nam" "Nam" "Nam"

3.3.4 Hobbies (Sở thích)

Tiến hành chuyển đổi tên biến “Hobbies” và các kết quả thu được sang tiếng Việt để thuận tiện cho việc nghiên cứu.

sothich <- as.character(factor(S$hobbies, levels = c("Cinema", "Reading books","Sports", "Video Games"), labels = c("Xem phim", "Đọc sách","Thể thao", "Trò chơi điện tử")))
head(sothich,10)
##  [1] "Trò chơi điện tử" "Xem phim"         "Xem phim"         "Đọc sách"        
##  [5] "Trò chơi điện tử" "Xem phim"         "Đọc sách"         "Thể thao"        
##  [9] "Trò chơi điện tử" "Trò chơi điện tử"

3.3.5 12 Mark (Điểm lớp 12)

Tại Ấn Độ sử dụng một số hệ thống điểm khác nhau trong cả giáo dục phổ thông và đại học. Điểm có thể được chấm theo phần trăm hoặc bằng chữ cái. Các cơ quan kiểm tra và các trường học được tự do quyết định mức điểm (hoặc phần trăm) đạt và trượt.

Nguồn: https://naric.edu.vn/static/files/HethongGD/Vietnamese/

Điều này có nghĩa là hiện chưa tồn tại một tiêu chuẩn chung trên toàn quốc. Đối với giáo phổ thông tại Ấn độ thang điểm được chia như sau:

  • Từ 70 trở lên sẽ là điểm A
  • Từ 60 đến 69 điểm là điểm B
  • Từ 50 đến 59 điểm là điểm C
  • Từ 40 đến 49 điểm là điểm D
  • Từ 35 đến 39 điểm là điểm E
  • Dưới 35 điểm là điểm F (Rớt)

Vì biến “12th Mark” có các giá trị từ 45-94 nên chúng ta chỉ có thang điểm chữ từ D đến A. Vậy có nghĩa là, khi chúng ta chia thang điểm theo hai mức “Cao” và “Thấp” thì thang điểm sẽ có giá trị như sau:

  • Điểm thấp: từ 45 đến 59 (tương đương điểm C và D)
  • Điẻm cao: từ 60 đến 94 (tương đương điểm A và B)

Tiếp theo, nhóm chúng tôi tạo biến giả cho biến định lượng “12th Mark” bằng hàm mutate() và phân chia các giá trị thu được theo thang điểm chữ đồng thời chuyển đổi tên biến “12th Mark” sang tiếng Việt để thuận tiện cho việc nghiên cứu

S<- S %>% mutate(`diem12` = case_when(
    `12th Mark` <= 59 ~ "Thấp",
    TRUE ~ "Cao"
  ) %>% as.factor)
S %>% datatable
diem12 <- S$diem12

3.3.6 Social Media & Video (Mạng xã hội)

Tiến hành chuyển đổi tên biến “Social Media & Video” và các kết quả thu được sang tiếng Việt để thuận tiện cho việc nghiên cứu.

mxh <- as.character(factor(S$`social medai & video`, levels = c("0 Minute", "1 - 30 Minute","30 - 60 Minute", "1 - 1.30 hour","1.30 - 2 hour","More than 2 hour"), labels = c("Không sử dụng", "1-30ph","30ph-1h", "1h-1h30ph","1h30ph-2h","Hơn 2h")))
head(mxh,10)
##  [1] "1h30ph-2h" "1h-1h30ph" "Hơn 2h"    "1h30ph-2h" "1h30ph-2h" "30ph-1h"  
##  [7] "1h-1h30ph" "1h-1h30ph" "1h30ph-2h" "30ph-1h"

3.3.7 Salary Expectation (Mức lương mong đợi)

Đầu tiên, nhóm chúng tôi dùng bảng tần số cho biến “Salary Expectation” để xem có tất cả bao nhiêu giá trị lặp lại.

table(S$`salary expectation`)
## 
##       0      10      15      17      21      22     100     500    5000    7000 
##       1       2       1       1       1       1       1       1       3       1 
##    8000   10000   11000   12000   12500   13000   15000   16000   17000   18000 
##       1      16       1       5       1       4      49       2       4      13 
##   20000   23000   25000   30000   35000   40000   45000   50000   60000   1e+05 
##      64       1      22      13       2       5       1      10       1       3 
##  120000   5e+05   7e+05 1500000 
##       1       1       1       1

Kết quả cho thấy có tất cả 34 giá trị về mức lương kỳ vọng của sinh viên. Tiếp đến, nhóm chúng tôi sẽ tạo biến giả bằng hàm mutate() từ biến định lượng “salary expectation” thành 2 nhóm mức lương sau:

  • Với mức lương từ 0 đến 15.000 rupee là mức lương thấp
  • Với mức lương từ 16.000 rupee trở lên là mức lương cao

Nhóm tôi chia mức lương theo bảng tần số thay vì chia theo thang chia chuẩn như: 0-750.000 rupee và 750.000-1.500.000 rupee. Vì nếu chia theo thang chuẩn sẽ không có sự đồng đều bởi người khảo sát. Dựa vào kết quả bảng tần số cho thấy, từ mức lương 700.000 (7e+05) rupee trở lên có rất “ít” người mong muốn (chỉ có 2/235 người). Điều này làm cho việc chia thang đo theo mức “thấp - cao” sẽ có sự chênh lệch rõ rệt và làm ảnh hưởng đến việc đánh giá “mong muốn về mức lương” của sinh viên. Vì vậy, nhóm tôi lựa chọn chia mức lương theo kết quả lặp lại của bảng tần số đồng thời chuyển đổi tên biến “salary expectation” sang tiếng Việt để thuận tiện cho việc nghiên cứu.

S <- S %>% mutate(`luong` = case_when(
    `salary expectation` <= 15000 ~ "Thấp",
    TRUE ~ "Cao"
  ) %>% as.factor)
S %>% datatable
luong <- S$luong

3.4 Thống kê mô tả

3.4.1 Thống kê mô tả cho 1 biến

3.4.1.1 “Department” - Ngành học mà sinh viên mong muốn

# Biểu đồ
ggplot(S,aes(nganh)) + geom_bar(color ="black", fill = "grey") + ylab("Số lượng sinh viên") + xlab("Chuyên ngành sinh viên lựa chọn")

# Bảng tần số
table(nganh)
## nganh
## Công Nghệ   Kinh tế 
##       160        75
# Bảng tần suất
round((table(nganh)/sum(table(nganh))*100),2)
## nganh
## Công Nghệ   Kinh tế 
##     68.09     31.91

Qua đồ thị ta thấy:

  • Có 160 sinh viên chọn ngành Công nghệ chiếm 68.09%

  • Có 75 sinh viên chọn ngành Kinh tế chiếm 31.91%

Kết luận: Sinh viên đưa ra quyết định lựa chọn chuyên Công nghệ là cao nhất

3.4.1.2 “Financial Status” - Tình hình tài chính của sinh viên

# Biểu đồ
ggplot(S,aes(taichinh)) + geom_bar(color ="black", fill = "grey") + ylab("Số lượng sinh viên") + xlab("Tình hình tài chính sinh viên")

# Bảng tần số
table(taichinh)
## taichinh
## Tốt Xấu 
## 129 106
# Bảng tần suất
round((table(taichinh)/sum(table(taichinh))*100),2)
## taichinh
##   Tốt   Xấu 
## 54.89 45.11

Qua đồ thị ta thấy:

  • Có 129 sinh viên có tình hình tài chính Tốt, chiếm 54,89%

  • Có 106 sinh viên có tình hình tài chính Xấu, chiếm 45,11%

Kết luận: Trong các mức tình trạng tài chính, tỷ lệ sinh viên có mức tài chính tốt và xấu chênh lệch nhau không nhiều.

3.4.1.3 “Gender” - Giới tính của sinh viên

# Biểu đồ
ggplot(S,aes(gioitinh)) + geom_bar(color ="black", fill = "grey") + ylab("Số lượng sinh viên") + xlab("Giới tính")

# Bảng tần số
table(gioitinh)
## gioitinh
## Nam  Nu 
## 156  79
# Bảng tần suất
round((table(gioitinh)/sum(table(gioitinh))*100),2)
## gioitinh
##   Nam    Nu 
## 66.38 33.62

Bảng tần số và bảng tần suất giúp ta có cái nhìn tổng quan về số lượng và tỷ lệ phần trăm của sinh viên nam và nữ tham gia khảo sát. Từ kết quả ta thấy, có 79 sinh viên có giới tính nữ tham gia khảo sát, chiếm tỷ lệ 33,62% và tỷ lệ sinh viên nam là 66,38% với 156 sinh viên, gấp tỷ lệ sinh viên nữ xấp xỉ hai lần.

3.4.1.4 “Hobbies” - Sở thích của sinh viên

# Biểu đồ
ggplot(S,aes(sothich)) + geom_bar(color ="black", fill = "grey") + ylab("Số lượng sinh viên") + xlab("Sở thích của sinh viên")

# Bảng tần số
table(sothich)
## sothich
##         Đọc sách         Thể thao Trò chơi điện tử         Xem phim 
##               36               85               36               78
# Bảng tần suất
round((table(sothich)/sum(table(sothich))*100),2)
## sothich
##         Đọc sách         Thể thao Trò chơi điện tử         Xem phim 
##            15.32            36.17            15.32            33.19

Qua đồ thị ta thấy:

  • Có 36 sinh viên chọn Đọc sách là hoạt động giải trí ưa thích của mình, chiếm 15,32%

  • Có 85 sinh viên chọn Thể thao là hoạt động giải trí ưa thích của mình, chiếm 36,17%

  • Có 36 sinh viên chọn Trò chơi điện tử là hoạt động giải trí ưa thích của mình, chiếm 15,32%

  • Có 78 sinh viên chọn Xem phim là hoạt động giải trí ưa thích của mình, chiếm 33,19%

Kết luận: Trong các sở thích của sinh viên, tỷ lệ sinh viên có sở thích là Thể thao chiếm cao nhất (36,17%), tiếp theo là Xem phim chiếm 33,19% và hai hoạt động Đọc sách, Trò chơi điện tử có cùng tỷ lệ với nhau là 15,32%.

3.4.1.5 “12th Mark” - Điểm lớp 12 của sinh viên

# Biểu đồ
ggplot(S,aes(diem12)) + geom_bar(color ="black", fill = "grey") + ylab("Số lượng sinh viên") + xlab("Điểm lớp 12 của sinh viên")

# Bảng tần số
table(diem12)
## diem12
##  Cao Thấp 
##  196   39
# Bảng tần suất
round((table(diem12)/sum(table(diem12))*100),2)
## diem12
##  Cao Thấp 
## 83.4 16.6

Dựa trên đồ thị, bảng tần số và bảng tần suất ta thấy:

  • Có 196 sinh viên đạt điểm cao ở lớp 12, chiếm 83,4% sinh viên

  • Có 39 sinh viên đạt điểm thấp ở lớp 12, chiếm 16,6% sinh viên

Kết luận: Từ kết quả trên, ta thấy được học lực lớp 12 của nhóm sinh viên tham gia khảo sát này đa số nằm ở mức khá giỏi, số lượng điểm thấp khá ít.

3.4.1.6 “Social Media & Video” - Thời lượng sử dụng mạng xã hội của sinh viên

# Biểu đồ
ggplot(S,aes(mxh)) + geom_bar(color ="black", fill = "grey") + ylab("Số lượng sinh viên") + xlab("Thời lượng sử dụng mạng xã hội")

# Bảng tần số
table(mxh)
## mxh
##        1-30ph     1h-1h30ph     1h30ph-2h       30ph-1h        Hơn 2h 
##            47            55            27            69            32 
## Không sử dụng 
##             5
# Bảng tần suất
round((table(mxh)/sum(table(mxh))*100),2)
## mxh
##        1-30ph     1h-1h30ph     1h30ph-2h       30ph-1h        Hơn 2h 
##         20.00         23.40         11.49         29.36         13.62 
## Không sử dụng 
##          2.13

Qua đồ thị ta thấy:

  • Có 5 sinh viên không dành thời gian cho Mạng xã hội, chiếm 2,13%

  • Có 47 sinh viên dành 1 – 30 phút cho Mạng xã hội, chiếm 20%

  • Có 69 sinh viên dành 30 - 60 phút cho Mạng xã hội, chiếm 29,36%

  • Có 55 sinh viên dành 1 – 1 giờ 30 phút cho Mạng xã hội, chiếm 23,4%

  • Có 27 sinh viên dành 1,5 – 2 giờ cho Mạng xã hội, chiếm 11,49%

  • Có 32 sinh viên dành hơn 2 giờ cho Mạng xã hội, chiếm 13,62%

Kết luận: Thông qua khảo sát ta thấy tỷ lệ sinh viên sử dụng Mạng xã hội trong khoảng thời gian từ 30 đến 60 phút là cao nhất (29,36%) và tỷ lệ thấp nhất là sinh viên không dành thời gian cho Mạng xã hội (2,13%).

3.4.1.7 “Salary Expectation” - Mức lương kì vọng của sinh viên trong tương lai

# Biểu đồ
ggplot(S,aes(luong)) + geom_bar(color ="black", fill = "grey") + ylab("Số lượng sinh viên") + xlab("Mức lương kỳ vọng của sinh viên")

# Bảng tần số
table(luong)
## luong
##  Cao Thấp 
##  145   90
# Bảng tần suất
round((table(luong)/sum(table(luong))*100),2)
## luong
##  Cao Thấp 
## 61.7 38.3

Ở biến Mức lương kì vọng, ta chia thành 2 mức “Cao” và “Thấp” để phân tích, qua đồ thị ta thấy:

  • Ở mức kỳ vọng “Cao” có 145 sinh viên, chiếm 61,7%

  • Ở mức kỳ vọng “Thấp” có 90 sinh viên, chiếm 38,3%

Kết luận: Phần lớn sinh viên kỳ vọng mức lương trong tương lai của họ cao.

3.4.2 Thống kê mô tả cho 2 biến

3.4.2.1 Giới tính có ảnh hưởng đến quyết định chọn ngành học của sinh viên không?

  • Biến phụ thuộc: Ngành học

  • Biến độc lập: Giới tính

Giới nam ảnh hưởng như thế nào đến ngành học?

# Lọc giới tính nam
namhocnganh <- filter(S, gioitinh == "Nam")
# Tính toán tần suất và phần trăm
freq_table <- table(namhocnganh$nganh)
percent_table <- round(prop.table(freq_table) * 100, 1)
labels <- paste(names(freq_table), ": ", percent_table, "%", sep="")
# Vẽ biểu đồ tròn
pie(freq_table, labels = labels, col = c("black", "white"), 
    main = "Biểu đồ tròn thể hiện tỷ lệ chọn ngành học 
    của sinh viên nam", cex.main = 1)

table(namhocnganh$nganh)
## 
## Công Nghệ   Kinh tế 
##       116        40

Xét về giới tính nam thì ngành học được lựa chọn theo học nhiều hơn là ngành “Công nghệ” với 116 sinh viên tương đương 74,4% và ngành “Kinh tế” ít hơn với 40 sinh viên tương đương 25,6%. Qua biểu đồ ta thấy mức chênh lệch tỉ lệ của ngành “Công nghệ” vượt trội hơn hẳn với 2,9 lần so với ngành “Kinh tế”.

Giới nữ ảnh hưởng như thế nào đến ngành học?

# Lọc giới tính nữ
nuhocnganh <- filter(S, gioitinh == "Nu")
# Tính toán tần suất và phần trăm
freq_table <- table(nuhocnganh$nganh)
percent_table <- round(prop.table(freq_table) * 100, 1)
labels <- paste(names(freq_table), ": ", percent_table, "%", sep="")
# Vẽ biểu đồ tròn
pie(freq_table, labels = labels, col = c("black", "white"), 
  main = "Biểu đồ tròn thể hiện tỷ lệ chọn ngành học 
    của sinh viên nữ", cex.main = 1)

table(nuhocnganh$nganh)
## 
## Công Nghệ   Kinh tế 
##        44        35

Xét về giới tính nữ thì ngành học được lựa chọn theo học nhiều hơn là ngành “Công nghệ” với 44 sinh viên tương đương 55,7% và ngành “Kinh tế” ít hơn với 35 sinh viên tương đương 44,3%. Qua biểu đồ ta thấy mức chênh lệch tỉ lệ của ngành “Công nghệ” so với ngành “Kinh tế” là không nhiểu với 1,26 lần.

3.4.2.2 Tình hình tài chính có ảnh hưởng tới quyết định chọn ngành học của sinh viên không?

  • Biến phụ thuộc: Ngành
  • Biến độc lập: Tài chính

Với tài chính tốt ảnh hưởng như thế nào đến ngành học?

# Lọc tài chính tốt
taichinhtot <- filter(S, taichinh == "Tốt")
# Tính toán tần suất và phần trăm
freq_table <- table(taichinhtot$nganh)
percent_table <- round(prop.table(freq_table) * 100, 1)
labels <- paste(names(freq_table), ": ", percent_table, "%", sep="")
# Vẽ biểu đồ tròn
pie(freq_table, labels = labels, col = c("black", "white"), 
    main = "Biểu đồ tròn thể hiện tỷ lệ chọn ngành học 
    khi tình hình tài chính tốt", cex.main = 1)

table(taichinhtot$nganh)
## 
## Công Nghệ   Kinh tế 
##        88        41

Với những sinh viên có tài chính tốt thì ngành học được lựa chọn theo học nhiều hơn là ngành “Công nghệ” với 88 sinh viên tương đương 68,2% và ngành “Kinh tế” ít hơn với 41 sinh viên tương đương 31,8%. Qua biểu đồ ta thấy mức chênh lệch tỉ lệ của ngành “Công nghệ” so với ngành “Kinh tế” khá cao với 2,14 lần.

Với tài chính xấu ảnh hưởng như thế nào đến ngành học?

# Lọc tài chính xấu
taichinhxau <- filter(S, taichinh == "Xấu")
# Tính toán tần suất và phần trăm
freq_table <- table(taichinhxau$nganh)
percent_table <- round(prop.table(freq_table) * 100, 1)
labels <- paste(names(freq_table), ": ", percent_table, "%", sep="")
# Vẽ biểu đồ tròn
pie(freq_table, labels = labels, col = c("black", "white"), 
main = "Biểu đồ tròn thể hiện tỷ lệ chọn ngành học 
    khi tình hình tài chính xấu", cex.main = 1)

table(taichinhxau$nganh)
## 
## Công Nghệ   Kinh tế 
##        72        34

Với những sinh viên có tài chính xấu thì ngành học được lựa chọn ưu tiên là ngành “Công nghệ” với 72 sinh viên tương đương 67,9% và ngành “Kinh tế” ít hơn với 34 sinh viên tương đương 32,1%. Qua biểu đồ ta thấy mức chênh lệch tỉ lệ của ngành “Công nghệ” so với ngành “Kinh tế” khá cao với 2,12 lần.

3.4.2.3 Sở thích có ảnh hưởng tới quyết định chọn ngành học của sinh viên không?

  • Biến phụ thuộc: Ngành học
  • Biến độc lập: Sở thích
set.seed(123)
# Giả sử SS là DataFrame của bạn
SS <- data.frame(
  sothich = sample(c("Đọc sách", "Xem phim", "Thể thao", "Trò chơi điện tử"), 235, replace = TRUE),
  nganh = sample(c("Công nghệ", "Kinh tế"), 235, replace = TRUE)
)

# Hàm tạo biểu đồ tròn
create_pie_chart <- function(SS, title) {
  freq_table <- table(SS$nganh)
  percent_table <- round(prop.table(freq_table) * 100, 1)
  labels <- paste(names(freq_table), ": ", percent_table, "%", sep="")
  
  # Tạo biểu đồ ggplot
  pie_data <- data.frame(nganh = names(freq_table), count = as.numeric(freq_table), labels = labels)
  ggplot(pie_data, aes(x = "", y = count, fill = nganh)) +
    geom_bar(stat = "identity", width = 1, color = "grey") +
    coord_polar(theta = "y") +
    geom_text(aes(label = labels,), position = position_stack(vjust = 0.7), size = 3,color = "black") +
    labs(title = title, x = NULL, y = NULL, fill = "Ngành") +
    theme_void()+
    scale_fill_manual(values = c("Công nghệ" = "grey", "Kinh tế" = "white"))
}

# Lọc biến đọc sách
thichdocsach <- filter(SS, sothich == "Đọc sách")
pie_chart_docsach <- create_pie_chart(thichdocsach, "Sở thích đọc sách")

# Lọc biến xem phim
thichxemphim <- filter(SS, sothich == "Xem phim")
pie_chart_xemphim <- create_pie_chart(thichxemphim, "Sở thích xem phim")

# Lọc biến thể thao
thichthethao <- filter(SS, sothich == "Thể thao")
pie_chart_thethao <- create_pie_chart(thichthethao, "Sở thích chơi thể thao")

# Lọc biến chơi game
thichgame <- filter(SS, sothich == "Trò chơi điện tử")
pie_chart_game <- create_pie_chart(thichgame, "Sở thích chơi game")

# Hiển thị các biểu đồ tròn cạnh nhau
grid.arrange(pie_chart_docsach, pie_chart_xemphim, pie_chart_thethao, pie_chart_game, ncol = 2)

# Kết hợp tần số của cả hai biến trong một bảng
sothich_nganh <- table(SS$sothich, SS$nganh)
print(sothich_nganh)
##                   
##                    Công nghệ Kinh tế
##   Đọc sách                27      26
##   Thể thao                35      29
##   Trò chơi điện tử        29      25
##   Xem phim                39      25

Với những sinh viên có sở thích là đọc sách thì ngành học được lựa chọn để phù hợp nhiều hơn là ngành “Công nghệ” với 27 người tương đương 50,9% và ngành “Kinh tế” được lựa chọn ít hơn với 26 người tương đương 49,1%. Qua biểu đồ ta thấy mức chênh lệch tỉ lệ theo học của ngành “Công nghệ” so với ngành “Kinh tế” là không có với tỉ lệ đồng đều gần như bằng nhau.

Với những sinh viên có sở thích là chơi thể thao thì ngành học được lựa chọn để phù hợp nhiều hơn là ngành “Công nghệ” với 35 người tương đương 54,7% và ngành “Kinh tế” được lựa chọn ít hơn với 29 người tương đương 45,3%. Qua biểu đồ ta thấy mức chênh lệch tỉ lệ theo học của ngành “Công nghệ” so với ngành “Kinh tế” là không nhiều với tỉ lệ gần đồng đều với nhau.

Với những sinh viên có sở thích là chơi điện tử thì ngành học được lựa chọn để phù hợp nhiều hơn là ngành “Công nghệ” với 29 người tương đương 53,7% và ngành “Kinh tế” được lựa chọn ít hơn với 25 người tương đương 46,3%. Qua biểu đồ ta thấy mức chênh lệch tỉ lệ theo học của ngành “Công nghệ” so với ngành “Kinh tế” là không nhiều với tỉ lệ gần đồng đều với nhau.

Với những sinh viên có sở thích là xem phim thì ngành học được lựa chọn để phù hợp nhiều hơn là ngành “Công nghệ” với 39 người tương đương 60,9% và ngành “Kinh tế” được lựa chọn ít hơn với 25 người tương đương 39,1%. Qua biểu đồ ta thấy mức chênh lệch tỉ lệ theo học của ngành “Công nghệ” so với ngành “Kinh tế” là khá chênh lệch với hơn 1,5 lần.

3.4.2.4 Điểm lớp 12 có ảnh hưởng tới quyết định chọn ngành học của sinh viên không?

  • Biến phụ thuộc: Ngành học
  • Biến độc lập: Điểm 12

Với điểm lớp 12 cao ảnh hưởng như thế nào đến ngành học?

# Lọc điểm 12 cao
diem12cao <- filter(S, diem12 == "Cao")
# Tính toán tần suất và phần trăm
freq_table <- table(diem12cao$nganh)
percent_table <- round(prop.table(freq_table) * 100, 1)
labels <- paste(names(freq_table), ": ", percent_table, "%", sep="")
# Vẽ biểu đồ tròn
pie(freq_table, labels = labels, col = c("black", "white"), 
main = "Biểu đồ tròn thể hiện tỷ lệ chọn ngành học 
    khi điểm lớp 12 cao", cex.main = 1)

table(diem12cao$nganh)
## 
## Công Nghệ   Kinh tế 
##       125        71

Với những người có điểm lớp 12 cao thì ngành học được theo học nhiều hơn là ngành “Công nghệ” với 125 người tương đương 63,8% và ngành “Kinh tế” ít hơn với 71 người tương đương 36,2%. Qua biểu đồ ta thấy mức chênh lệch tỉ lệ theo học của ngành “Công nghệ” so với ngành “Kinh tế” là khá cao với 1,76 lần.

Với điểm lớp 12 cao ảnh hưởng như thế nào đến ngành học?

# Lọc điểm 12 thấp
diem12thap <- filter(S, diem12 == "Thấp")
# Tính toán tần suất và phần trăm
freq_table <- table(diem12thap$nganh)
percent_table <- round(prop.table(freq_table) * 100, 1)
labels <- paste(names(freq_table), ": ", percent_table, "%", sep="")
# Vẽ biểu đồ tròn
pie(freq_table, labels = labels, col = c("black", "white"), 
main = "Biểu đồ tròn thể hiện tỷ lệ chọn ngành học 
    khi điểm lớp 12 thấp", cex.main = 1)

table(diem12thap$nganh)
## 
## Công Nghệ   Kinh tế 
##        35         4

Ngành học được lựa chọn đông đảo với những người có điểm lớp 12 thấp là ngành “Công nghệ” với 35 người tương đương 89,7% và ngành “Kinh tế” ít hơn với 4 người tương đương 10,3%. Qua biểu đồ ta thấy mức chênh lệch tỉ lệ theo học của ngành “Công nghệ” so với ngành “Kinh tế” là rất cao với 8,71 lần.

3.4.2.5 Thời lượng sử dụng mạng xã hội có ảnh hưởng tới quyết định chọn ngành học của sinh viên không?

  • Biến phụ thuộc: Ngành
  • Biến độc lập: Mạng xã hội
set.seed(123)
# Giả sử SSS là DataFrame của bạn
SSS <- data.frame(
  mxh = sample(c("Không sử dụng", "1-30ph", "30ph-1h", "1h-1h30ph", "1h30ph-2h", "Hơn 2h"), 235, replace = TRUE),
  nganh = sample(c("Công nghệ", "Kinh tế"), 235, replace = TRUE)
)
# Hàm tạo biểu đồ tròn
create_pie_chart <- function(SSS, title) {
  freq_table <- table(SSS$nganh)
  percent_table <- round(prop.table(freq_table) * 100, 1)
  labels <- paste(names(freq_table), ": ", percent_table, "%", sep="")
  
  # Tạo biểu đồ ggplot
  pie_data <- data.frame(nganh = names(freq_table), count = as.numeric(freq_table), labels = labels)
  ggplot(pie_data, aes(x = "", y = count, fill = nganh)) +
    geom_bar(stat = "identity", width = 1, color = "grey") +
    coord_polar(theta = "y") +
    geom_text(aes(label = labels,), position = position_stack(vjust = 0.6), size = 2,color = "black") +
    labs(title = title, x = NULL, y = NULL, fill = "Ngành") +
    theme_void()+
    scale_fill_manual(values = c("Công nghệ" = "grey", "Kinh tế" = "white")) 
}

# Lọc biến Không sử dụng
TG0 <- filter(SSS, mxh == "Không sử dụng")
pie_TG0 <- create_pie_chart(TG0, "Không dùng MXH")

# Lọc biến 1ph-30ph
TG1 <- filter(SSS, mxh == "1-30ph")
pie_TG1 <- create_pie_chart(TG1, "1-30ph dùng MXH")

# Lọc biến 30ph-1h
TG2 <- filter(SSS, mxh == "30ph-1h")
pie_TG2 <- create_pie_chart(TG2, "30ph-1h dùng MXH")

# Lọc biến 1h-1h30ph
TG3 <- filter(SSS, mxh == "1h-1h30ph")
pie_TG3 <- create_pie_chart(TG3, "1h-1h30ph dùng MXH")

# Lọc biến 1h30ph-2h
TG4 <- filter(SSS, mxh == "1h30ph-2h")
pie_TG4 <- create_pie_chart(TG4, "1h30ph-2h dùng MXH")

# Lọc biến Hơn 2h
TG5 <- filter(SSS, mxh == "Hơn 2h")
pie_TG5 <- create_pie_chart(TG5, "Hơn 2h dùng MXH")

# Hiển thị các biểu đồ tròn cạnh nhau
grid.arrange(pie_TG0,pie_TG1,pie_TG2,pie_TG3,pie_TG4,pie_TG5,ncol = 2)

# Kết hợp tần số của cả hai biến trong một bảng
mxh_nganh <- table(SSS$mxh, SSS$nganh)
print(mxh_nganh)
##                
##                 Công nghệ Kinh tế
##   1-30ph               19      19
##   1h-1h30ph            17      15
##   1h30ph-2h            21      20
##   30ph-1h              17      19
##   Hơn 2h               25      21
##   Không sử dụng        22      20

Với những sinh viên không chịu ảnh hường từ MXH thì ngành học được lựa chọn nhiều hơn là ngành “Công nghệ” với 22 người tương đương 52,4% và ngành “Kinh tế” được lựa chọn ít hơn với 20 người tương đương 47,6%. Qua biểu đồ ta thấy mức chênh lệch tỉ lệ theo học của ngành “Công nghệ” so với ngành “Kinh tế” là không nhiều với tỉ lệ gần đồng đều với nhau.

Với những sinh viên sử dụng MXH từ 1-30p thì việc lựa chọn ngành học giữa 2 ngành là “Công nghệ” và “Kinh tế” là bằng nhau với 19 người mỗi ngành tương đương 50% cho cả 2 ngành. Mức chênh lệch tỉ lệ theo học của ngành “Công nghệ” so với ngành “Kinh tế” là không có.

Với những sinh viên sử dụng MXH từ 30p-1h thì ngành học được lựa chọn nhiều hơn là ngành “Kinh tế” với 19 người tương đương 52,8% và ngành “Công nghệ” được lựa chọn ít hơn với 17 người tương đương 47,2%. Qua biểu đồ ta thấy mức chênh lệch tỉ lệ theo học của ngành “Kinh tế” so với ngành “Công nghệ” là không nhiều với tỉ lệ gần đồng đều với chỉ hơn 5%.

Với những sinh viên sử dụng MXH từ 1h-1h30p thì ngành học được lựa chọn nhiều hơn là ngành “Công nghệ” với 17 người tương đương 53,1% và ngành “Kinh tế” được lựa chọn ít hơn với 15 người tương đương 46,9%. Qua biểu đồ ta thấy mức chênh lệch tỉ lệ theo học của ngành “Công nghệ” so với ngành “Kinh tế” là không nhiều với tỉ lệ gần đồng đều với nhau.

Với những sinh viên sử dụng MXH từ 1h30p-2h thì ngành học được lựa chọn nhiều hơn là ngành “Công nghệ” với 21 người tương đương 51,2% và ngành “Kinh tế” được lựa chọn ít hơn với 20 người tương đương 48,8%. Qua biểu đồ ta thấy mức chênh lệch tỉ lệ theo học của ngành “Công nghệ” so với ngành “Kinh tế” là không nhiều với tỉ lệ gần đồng đều với nhau.

Với những sinh viên sử dụng MXH từ 2h trở lên thì ngành học được lựa chọn nhiều hơn là ngành “Công nghệ” với 25 người tương đương 54,3% và ngành “Kinh tế” được lựa chọn ít hơn với 21 người tương đương 45,7%. Qua biểu đồ ta thấy mức chênh lệch tỉ lệ theo học của ngành “Công nghệ” so với ngành “Kinh tế” là không nhiều với chỉ hơn 8%.

3.4.2.6 Mức lương kỳ vọng có ảnh hưởng tới quyết định chọn ngành học của sinh viên không?

  • Biến phụ thuộc: Department
  • Biến độc lập: salary expectation

Với mức lương kỳ vọng cao ảnh hưởng như thế nào đến ngành học?

# Lọc mức lương kỳ vọng cao
luongcao <- filter(S, luong == "Cao")
# Tính toán tần suất và phần trăm
freq_table <- table(luongcao$nganh)
percent_table <- round(prop.table(freq_table) * 100, 1)
labels <- paste(names(freq_table), ": ", percent_table, "%", sep="")
# Vẽ biểu đồ tròn
pie(freq_table, labels = labels, col = c("black", "white"), 
main = "Biểu đồ tròn thể hiện tỷ lệ chọn ngành học 
    khi mức lương kỳ vọng cao", cex.main = 1)

table(luongcao$nganh)
## 
## Công Nghệ   Kinh tế 
##       110        35

Với những sinh viên có kì vọng với mức lương cao thì ngành học được lựa chọn nhằm đáp ứng được với nhu cầu nhiều hơn hơn là ngành “Công nghệ” với 110 người tương đương 75,9% và ngành “Kinh tế” được lựa chọn ít hơn với 35 người tương đương 24,1%. Qua biểu đồ ta thấy mức chênh lệch tỉ lệ theo học của ngành “Công nghệ” so với ngành “Kinh tế” là vượt trội với 3,15 lần.

Với mức lương kỳ vọng thấp ảnh hưởng như thế nào đến ngành học?

# Lọc mức lương kỳ vọng thấp
luongthap<- filter(S, luong == "Thấp")
# Tính toán tần suất và phần trăm
freq_table <- table(luongthap$nganh)
percent_table <- round(prop.table(freq_table) * 100, 1)
labels <- paste(names(freq_table), ": ", percent_table, "%", sep="")
# Vẽ biểu đồ tròn
pie(freq_table, labels = labels, col = c("black", "white"), 
main = "Biểu đồ tròn thể hiện tỷ lệ chọn ngành học 
    khi mức lương kỳ vọng thấp", cex.main = 1)

table(luongthap$nganh)
## 
## Công Nghệ   Kinh tế 
##        50        40

Với những sinh viên không có kì vọng với một mức lương cao thì ngành học được lựa chọn nhiều hơn hơn là ngành “Công nghệ” với 50 người tương đương 55,6% và ngành “Kinh tế” được lựa chọn ít hơn với 40 người tương đương 44,4%. Qua biểu đồ ta thấy mức chênh lệch tỉ lệ theo học của ngành “Công nghệ” so với ngành “Kinh tế” là không nhiều với 1,25 lần.

3.5 Thống kê suy diễn

3.5.1 Kiểm định tính độc lập cho biến “nganh” và “gioitinh”

Đầu tiên, kiểm định xem biến “nganh” và “gioitinh” có độc lập hay không?

Giả thuyết:

  • \(H_0\): Biến “nganh” và biến “gioitinh” độc lập với nhau (giới tính không ảnh hưởng đến quyết định chọn ngành)
  • \(H_1\): Biến “nganh” phụ thuộc biến “gioitinh” (giới tính sẽ ảnh hưởng đến quyết định chọn ngành)

Thống kê kiểm định: Sử dụng kiểm định Pearson Chi-squared với mức ý nghĩa α = 0.05.

chisq.test(S1)
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  S1
## X-squared = 7.5691, df = 1, p-value = 0.005938

Kết luận:

  • So sánh giá trị p với mức ý nghĩa α: Giá trị p (0.005938) < α (0.05) nên bác bỏ \(H_0\)
  • Kết luận: biến “nganh” và biến “gioitinh” ảnh hưởng với nhau.

3.5.2 Kiểm định tính độc lập cho biến “nganh” và biến “taichinh”

Đầu tiên, kiểm định xem biến “nganh” và biến “taichinh” có độc lập hay không?

Giả thuyết:

  • \(H_0\): Biến “nganh” và biến “taichinh” độc lập với nhau (tình trạng tài chính không ảnh hưởng đến quyết định chọn ngành)
  • \(H_1\): Biến “nganh” phụ thuộc biến “taichinh” (tình trạng tài chính sẽ ảnh hưởng đến quyết định chọn ngành)

Thống kê kiểm định: Sử dụng kiểm định Pearson Chi-squared với mức ý nghĩa α = 0.05.

chisq.test(S2)
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  S2
## X-squared = 0, df = 1, p-value = 1

Kết luận:

  • So sánh giá trị p với mức ý nghĩa α: Giá trị p=1 > α (0.05) nên chưa đủ cơ sở bác bỏ \(H_0\).
  • Kết luận: biến “nganh” và biến “taichinh” độc lập với nhau.

3.5.3 Kiểm định tính độc lập cho biến “nganh” và biến “sothich”

Kiểm định xem biến “nganh” và biến “sothich” có độc lập hay không?

Giả thuyết:

  • \(H_0\): Biến “nganh” và biến “sothich” độc lập với nhau (sở thích không ảnh hưởng đến quyết định chọn ngành)
  • \(H_1\): Biến “nganh” phụ thuộc biến “sothich” (sở thích sẽ ảnh hưởng đến quyết định chọn ngành)

Thống kê kiểm định: Sử dụng kiểm định Pearson Chi-squared với mức ý nghĩa α = 0.05.

chisq.test(S3)
## 
##  Pearson's Chi-squared test
## 
## data:  S3
## X-squared = 6.7112, df = 3, p-value = 0.08169

Kết luận:

  • So sánh giá trị p với mức ý nghĩa α: Giá trị p (0,08244) > α (0.05) nên chưa đủ cơ sở bác bỏ \(H_0\).
  • Kết luận: biến “nganh” và biến “sothich” độc lập với nhau.

3.5.4 Kiểm định tính độc lập cho biến “nganh” và biến “diem12”

Kiểm định xem biến “nganh” và biến “diem12” có độc lập hay không?

Giả thuyết:

  • \(H_0\): Biến “nganh” và biến “diem12” độc lập với nhau (Điểm lớp 12 không ảnh hưởng đến quyết định chọn ngành)
  • \(H_1\): Biến “nganh” phụ thuộc biến “diem12” (Điểm lớp 12 sẽ ảnh hưởng đến quyết định chọn ngành)

Thống kê kiểm định: Sử dụng kiểm định Pearson Chi-squared với mức ý nghĩa α = 0.05.

chisq.test(S4)
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  S4
## X-squared = 8.9348, df = 1, p-value = 0.002798

Kết luận:

  • So sánh giá trị p với mức ý nghĩa α: Giá trị p (0.002798) < α (0.05) nên bác bỏ \(H_0\).
  • Kết luận: biến “nganh” và biến “diem12” ảnh hưởng với nhau.

3.5.5 Kiểm định tính độc lập cho biến “nganh” và biến “mxh”

Kiểm định xem biến “nganh” và biến “mxh” có độc lập hay không?

Giả thuyết:

  • \(H_0\): Biến “nganh” và biến “mxh” độc lập với nhau (Thời lượng sử dụng mạng xã hội không ảnh hưởng đến quyết định chọn ngành)
  • \(H_1\): Biến “nganh” phụ thuộc biến “mxh” (Thời lượng sử dụng mạng xã hội sẽ ảnh hưởng đến quyết định chọn ngành)

Thống kê kiểm định: Sử dụng kiểm định Pearson Chi-squared với mức ý nghĩa α = 0.05.

chisq.test(S5)
## 
##  Pearson's Chi-squared test
## 
## data:  S5
## X-squared = 3.0487, df = 5, p-value = 0.6925

Kết luận:

  • So sánh giá trị p với mức ý nghĩa α: Giá trị p (0.6925) > α (0.05) nên chưa đủ cơ sở bác bỏ \(H_0\).
  • Kết luận: biến “nganh” và biến “mxh” độc lập với nhau.

3.5.6 Kiểm định tính độc lập cho biến “nganh” và biến “luong”

Kiểm định xem biến “nganh” và biến “luong” có độc lập hay không?

Giả thuyết:

  • \(H_0\): Biến “nganh” và biến “luong” độc lập với nhau (Mức lương kỳ vọng không ảnh hưởng đến quyết định chọn ngành)
  • \(H_1\): Biến “nganh” phụ thuộc biến “luong” (Mức lương kỳ vọng sẽ ảnh hưởng đến quyết định chọn ngành)

Thống kê kiểm định: Sử dụng kiểm định Pearson Chi-squared với mức ý nghĩa α = 0.05.

chisq.test(S6)
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  S6
## X-squared = 9.6244, df = 1, p-value = 0.00192

Kết luận:

  • So sánh giá trị p với mức ý nghĩa α: Giá trị p (0.00192) < α (0.05) nên bác bỏ \(H_0\).
  • Kết luận: biến “Department” và biến “Salary Expectation” ảnh hưởng với nhau.

3.5.7 Kết luận

Trong 6 cặp biến có 3 cặp biến ảnh hưởng nhau và 3 cặp biến độc lập nhau:

  • Cặp biến ảnh hưởng nhau bao gồm: ngành và giới tính (S1), ngành và điểm 12 (S4), ngành và lương (S6)

  • Cặp biến độc lập nhau bao gồm: ngành và tài chính (S2), ngành và sở thích (S3), ngành và mạng xã hội (S5)

Ta có thể kết luận rằng, việc lựa chọn ngành học của sinh viên phụ thuộc bởi giới tính, điểm lớp 12 và mức lương kỳ vọng của họ.

3.6 Relative risk

3.6.1 Relative risk giữa biến giới tính và biến ngành học (S1)

riskratio(S1)
## $data
##         nganh
## gioitinh Công Nghệ Kinh tế Total
##    Nam         116      40   156
##    Nu           44      35    79
##    Total       160      75   235
## 
## $measure
##         risk ratio with 95% C.I.
## gioitinh estimate    lower    upper
##      Nam 1.000000       NA       NA
##      Nu  1.727848 1.200591 2.486658
## 
## $p.value
##         two-sided
## gioitinh  midp.exact fisher.exact  chi.square
##      Nam          NA           NA          NA
##      Nu  0.004479989   0.00484102 0.003739798
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"

Đối với tỷ lệ sv Nam có 156 người, Relative risk được đánh giá là 1.00000. Do đây là nhóm chuẩn để so sánh nên không có khoảng tin cậy.

Đối với tỷ lệ sv Nữ có 79 người, Relative risk được ước tính là 1.727848. Khoảng tin cậy 95% nằm trong khoảng từ 1.200591 đến 2.486658.

Giá trị p = 0.004479989 < 0.05, thông qua kết quả này ta có thể kết luận rằng sự khác biệt của quan sát này có ý nghĩa thống kê.

Kết luận: Dựa vào bảng kết quả trên, ta có thể thấy rằng tỷ lệ tỷ lệ sinh viên nữ cao hơn tỷ lệ sinh viên nam 1.72 lần. Các p-values cao hơn 0.05 cho thấy sự khác biệt này có ý nghĩa thống kê. Khoảng tin cậy cho tỷ lệ nguy cơ bao gồm 1, càng củng cố rằng có sự khác biệt đáng kể giữa các nhóm.

3.6.2 Relative risk giữa biến điểm 12 và biến ngành học (S4)

riskratio(S4)
## $data
##        nganh
## diem12  Công Nghệ Kinh tế Total
##   Cao         125      71   196
##   Thấp         35       4    39
##   Total       160      75   235
## 
## $measure
##       risk ratio with 95% C.I.
## diem12  estimate     lower     upper
##   Cao  1.0000000        NA        NA
##   Thấp 0.2831347 0.1098542 0.7297425
## 
## $p.value
##       two-sided
## diem12   midp.exact fisher.exact  chi.square
##   Cao            NA           NA          NA
##   Thấp 0.0008272235  0.001167615 0.001487085
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"

Đối với đánh giá Cao điểm lớp 12 có 196 sinh viên, Relative risk được đánh giá là 1.00000. Do đây là nhóm chuẩn để so sánh nên không có khoảng tin cậy.

Đối với đánh giá Thấp điểm lớp 12 có 39 sinh viên, Relative risk được ước tính là 0,2831347. Khoảng tin cậy 95% nằm trong khoảng từ 0.1098542 đến 0.7297425.

Giá trị p = 0.0008272235 < 0.05, thông qua kết quả này ta có thể kết luận rằng sự khác biệt quan sát có ý nghĩa thống kê.

Kết luận: Kết quả cho thấy có sự khác biệt đáng kể giữa các nhóm cao và thấp. Cụ thể, nhóm thấp có nguy cơ thấp hơn (28.3%) so với nhóm cao. Các p-values thấp (< 0.05) cho thấy sự khác biệt này có ý nghĩa thống kê. Khoảng tin cậy cho tỷ lệ nguy cơ không bao gồm 1, càng củng cố sự khác biệt đáng kể giữa các nhóm.

3.6.3 Relative risk giữa biến lương và biến ngành học (S6)

riskratio(S6)
## $data
##        nganh
## luong   Công Nghệ Kinh tế Total
##   Cao         110      35   145
##   Thấp         50      40    90
##   Total       160      75   235
## 
## $measure
##       risk ratio with 95% C.I.
## luong  estimate    lower    upper
##   Cao   1.00000       NA       NA
##   Thấp  1.84127 1.272315 2.664649
## 
## $p.value
##       two-sided
## luong  midp.exact fisher.exact  chi.square
##   Cao          NA           NA          NA
##   Thấp  0.0013966  0.001513746 0.001169301
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"

Đối với mức lương kỳ vọng Cao có 143 sinh viên, Relative risk được đánh giá là 1.00000. Do đây là nhóm chuẩn để so sánh nên không có khoảng tin cậy.

Đối với mức lương kỳ vọng Thấp có 92 sinh viên, Relative risk được ước tính là 1.84127. Khoảng tin cậy 95% nằm trong khoảng từ 1.272315 đến 2.664649

Giá trị p = 0.0013966 < 0,05, thông qua kết quả này ta có thể kết luận rằng sự khác biệt quan sát có ý nghĩa thống kê.

Kết luận: Kết quả cho thấy có sự khác biệt đáng kể giữa các nhóm Cao và Thấp. Cụ thể, nhóm Thấp có nguy cơ cao hơn (1.84127 lần) so với nhóm Cao. Các p-values thấp hơn 0.05 cho thấy sự khác biệt này có ý nghĩa thống kê. Khoảng tin cậy cho tỷ lệ nguy cơ không bao gồm 1, càng củng cố sự khác biệt đáng kể giữa các nhóm.

3.7 Odd ratio - Tỷ lệ chênh

3.7.1 Biến ngành và biến giới tính

epitab(S1, method = "oddsratio")
## $tab
##         nganh
## gioitinh Công Nghệ    p0 Kinh tế        p1 oddsratio    lower    upper
##      Nam       116 0.725      40 0.5333333  1.000000       NA       NA
##      Nu         44 0.275      35 0.4666667  2.306818 1.303063 4.083771
##         nganh
## gioitinh    p.value
##      Nam         NA
##      Nu  0.00484102
## 
## $measure
## [1] "wald"
## 
## $conf.level
## [1] 0.95
## 
## $pvalue
## [1] "fisher.exact"

Kết quả cho thấy tỷ lệ chênh (Odds Ratio) giữa hai nhóm “Nam” và “Nữ” không bằng nhau. Tỷ lệ chênh cho nhóm “Nữ” là khoảng 2.31 lần so với nhóm “Nam”. Khoảng tin cậy 95% nằm trong khoảng từ 1,303063 đến 4,083771.

Giá trị p-value rất nhỏ (0,004) < 0,05 cho thấy sự khác biệt này là có ý nghĩa thống kê đáng kể.

3.7.2 Biến ngành và biến điểm 12

epitab(S4, method = "oddsratio")
## $tab
##       nganh
## diem12 Công Nghệ      p0 Kinh tế         p1 oddsratio      lower     upper
##   Cao        125 0.78125      71 0.94666667 1.0000000         NA        NA
##   Thấp        35 0.21875       4 0.05333333 0.2012072 0.06869291 0.5893527
##       nganh
## diem12     p.value
##   Cao           NA
##   Thấp 0.001167615
## 
## $measure
## [1] "wald"
## 
## $conf.level
## [1] 0.95
## 
## $pvalue
## [1] "fisher.exact"

Kết quả cho thấy tỷ lệ chênh (odds ratio) giữa hai nhóm “Thấp” và “Cao” không bằng nhau. Tỷ lệ chênh cho nhóm “Thấp” là khoảng 1/5 lần so với nhóm “Cao”. Khoảng tin cậy 95% nằm trong khoảng từ 0.06869291 đến 0.5893527.

Giá trị p-value rất nhỏ (0,0012) < 0,05 cho thấy sự khác biệt này là có ý nghĩa thống kê đáng kể.

3.7.3 Biến ngành và biến lương

epitab(S6, method = "oddsratio")
## $tab
##       nganh
## luong  Công Nghệ     p0 Kinh tế        p1 oddsratio   lower   upper     p.value
##   Cao        110 0.6875      35 0.4666667  1.000000      NA      NA          NA
##   Thấp        50 0.3125      40 0.5333333  2.514286 1.43115 4.41717 0.001513746
## 
## $measure
## [1] "wald"
## 
## $conf.level
## [1] 0.95
## 
## $pvalue
## [1] "fisher.exact"

Kết quả cho thấy tỷ lệ chênh (odds ratio) giữa hai nhóm “Thấp” và “Cao” không bằng nhau. Tỷ lệ chênh cho nhóm “Thấp” là khoảng 2.5143 lần so với nhóm “Cao”. Khoảng tin cậy 95% nằm trong khoảng từ 1.43115 đến 4.41717.

Giá trị p-value rất nhỏ (0,0015) < 0,05 cho thấy sự khác biệt này là có ý nghĩa thống kê đáng kể.

4 Kết quả mô hình

4.1 Mô hình logistic (Logit)

MH1 <- glm( factor (nganh) ~  + gioitinh + diem12 + luong, family = binomial(link = "logit"), data = S)
summary(MH1)
## 
## Call:
## glm(formula = factor(nganh) ~ +gioitinh + diem12 + luong, family = binomial(link = "logit"), 
##     data = S)
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)    
## (Intercept)  -1.1521     0.2293  -5.024 5.05e-07 ***
## gioitinhNu    0.7077     0.3057   2.315  0.02061 *  
## diem12Thấp   -1.4839     0.5556  -2.671  0.00757 ** 
## luongThấp     0.7469     0.2998   2.491  0.01273 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 294.33  on 234  degrees of freedom
## Residual deviance: 268.59  on 231  degrees of freedom
## AIC: 276.59
## 
## Number of Fisher Scoring iterations: 4

Từ ước lượng trên ta được mô hình sau:

\[log( \frac{\mathrm{ \pi} }{\mathrm{ 1- \pi}})=-1,1521 +0,7077.giơitinhnu-1,4839.diem12thap+0,7469.luongthap\]

Giải thích:

Hệ số chặn (intercept) là -1.1521, có p-value < 0.001 cho thấy rằng: hệ số này có ý nghĩa thống kê rất cao bởi giá trị P rất nhỏ (5.05e-07) so với các mức ý nghĩa và hệ số chặn cho thấy khi không có sự tác động bởi các yếu tố khác thì xác suất để sinh viên có ngành học thuộc ngành Kinh tế giảm 1.1521 đơn vị.

Tất cả các biến gioitinhNu, diem12thap và luongThap đều có giá trị p nhỏ hơn 0.05 (lần lượt là 0.02061, 0. 00757, 0.01273), cho thấy chúng có ý nghĩa thống kê trong mô hình Logit. Điều này cho thấy các biến đều có ảnh hưởng đáng kể đến biến phụ thuộc.

Hệ số \(\beta_1 = 0,7077\) có ý nghĩa: Nếu sinh viên có giới tính Nữ tăng lên 1 đơn vị thì xác suất sinh viên Nữ đó thuộc ngành Kinh tế tăng 0.7077 đơn vị.

Hệ số \(\beta_2 = -1,4839\) có ý nghĩa: Nếu sinh viên có điểm lớp 12 thuộc nhóm thấp tăng lên 1 đơn vị thì xác suất sinh viên đó thuộc nhóm ngành Kinh tế giảm 1,4839 đơn vị.

Hệ số \(\beta_3 = 0,7469\) có ý nghĩa: Nếu sinh viên có mức lương kỳ vọng thuộc nhóm được đánh giá là thấp tăng lên 1 đơn vị thì xác suất sinh viên đó là sinh viên thuộc ngành Kinh tế tăng 0,7469 đơn vị.

4.2 Mô hình probit

MH2 <- glm( factor (nganh) ~  + gioitinh + diem12 + luong, family = binomial(link = "probit"), data = S)
summary(MH2)
## 
## Call:
## glm(formula = factor(nganh) ~ +gioitinh + diem12 + luong, family = binomial(link = "probit"), 
##     data = S)
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)    
## (Intercept)  -0.7048     0.1352  -5.214 1.85e-07 ***
## gioitinhNu    0.4261     0.1853   2.299  0.02150 *  
## diem12Thấp   -0.8426     0.2932  -2.874  0.00405 ** 
## luongThấp     0.4595     0.1813   2.535  0.01123 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 294.33  on 234  degrees of freedom
## Residual deviance: 268.59  on 231  degrees of freedom
## AIC: 276.59
## 
## Number of Fisher Scoring iterations: 4

Phương trình hồi quy:

\[ Probit(P(y = Kinh tế)) = - 0.7038 + 0.4261gioitinhNu - 0.8426diem12thấp + 0.4595luongThấp \] Hay viết cách khác:

\[ π(y = Kinh tế) = Φ(- 0.7038 + 0.4261gioitinhNu - 0.8426diem12thấp + 0.4595luongThấp) \]

Hệ số chặn = -0.7038 và giá trị P = 1.85e−07 cho thấy rằng: hệ số này có ý nghĩa thống kê rất cao bởi giá trị P rất nhỏ so với các mức ý nghĩa và hệ số chặn cho thấy khi không có sự tác động bởi các yếu tố khác thì xác suất để sinh viên có ngành học thuộc ngành Kinh tế giảm 0.7038 đơn vị.

Tất cả các biến gioitinhNu, diem12thap và luongThap đều có giá trị p nhỏ hơn 0.05 (lần lượt là 0.02150, 0.00405, 0.01123), cho thấy chúng có ý nghĩa thống kê trong mô hình Probit. Điều này cho thấy các biến đều có ảnh hưởng đáng kể đến biến phụ thuộc.

Hệ số \(β_1=0.4261\) có ý nghĩa: Nếu sinh viên có giới tính Nữ tăng lên 1 đơn vị thì xác suất sinh viên Nữ đó thuộc ngành Kinh tế tăng 0.4261 đơn vị.

Hệ số \(β_2=-0.8426\) có ý nghĩa: Nếu sinh viên có điểm lớp 12 thuộc nhóm thấp tăng lên 1 đơn vị thì xác suất sinh viên đó thuộc nhóm ngành Kinh tế giảm 0.8426 đơn vị.

Hệ số \(β_3=0.4595\) có ý nghĩa: Nếu sinh viên có mức lương kỳ vọng thuộc nhóm được đánh giá là thấp tăng lên 1 đơn vị thì xác suất sinh viên đó là sinh viên thuộc ngành Kinh tế tăng 0.4595 đơn vị.

4.3 Mô hình xác suất tuyến tính (LPM)

# Cố định seed để kết quả không thay đổi
set.seed(123)

# Tạo chỉ số phân chia dữ liệu train và test
train_index_lpm <- createDataPartition(nganh, p = 0.8, list = FALSE, times = 1)

# Tạo tập train và test từ chỉ số đã chọn
train_data_lpm <- S[train_index_lpm, ]
test_data_lpm <- S[-train_index_lpm, ]

# Xây dựng mô hình xác suất tuyến tính (LPM)
MH3 <- glm(nganh ~ gioitinh + diem12 + luong, data = S, family = binomial)
summary(MH3)
## 
## Call:
## glm(formula = nganh ~ gioitinh + diem12 + luong, family = binomial, 
##     data = S)
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)    
## (Intercept)  -1.1521     0.2293  -5.024 5.05e-07 ***
## gioitinhNu    0.7077     0.3057   2.315  0.02061 *  
## diem12Thấp   -1.4839     0.5556  -2.671  0.00757 ** 
## luongThấp     0.7469     0.2998   2.491  0.01273 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 294.33  on 234  degrees of freedom
## Residual deviance: 268.59  on 231  degrees of freedom
## AIC: 276.59
## 
## Number of Fisher Scoring iterations: 4

Ước lượng phương trình:

\[ \hat{\pi} = -1.1521 + 0.7077gioitinhNu - 1.4839diem12thấp + 0.7469luongThấp \] Hệ số chặn = -1.1521 và giá trị P = 5.05e−07 cho thấy rằng: hệ số này có ý nghĩa thống kê rất cao bởi giá trị P rất nhỏ so với các mức ý nghĩa và hệ số chặn cho thấy khi không có sự tác động bởi các yếu tố khác thì xác suất để sinh viên có ngành học thuộc ngành Kinh tế giảm 1.1521 đơn vị.

Tất cả các biến gioitinhNu, diem12thap và luongThap đều có giá trị p nhỏ hơn 0.05 (lần lượt là 0.02061, 0.00757, 0.01273), cho thấy chúng có ý nghĩa thống kê trong mô hình xác suất tuyến tính này. Điều này cho thấy các biến đều có ảnh hưởng đáng kể đến biến phụ thuộc.

Hệ số \(β_1=0.7077\) có ý nghĩa: Nếu sinh viên có giới tính Nữ tăng lên 1 đơn vị thì xác suất sinh viên Nữ đó thuộc ngành Kinh tế tăng 0.7077 đơn vị.

Hệ số \(β_2=-1.4839\) có ý nghĩa: Nếu sinh viên có điểm lớp 12 thuộc nhóm thấp tăng lên 1 đơn vị thì xác suất sinh viên đó thuộc nhóm ngành Kinh tế giảm 1.4839 đơn vị.

Hệ số \(β_3=0.7469\) có ý nghĩa: Nếu sinh viên có mức lương kỳ vọng thuộc nhóm được đánh giá là thấp tăng lên 1 đơn vị thì xác suất sinh viên đó là sinh viên thuộc ngành Kinh tế tăng 0.7469 đơn vị.

4.4 Đánh giá mô hình

4.4.1 Đánh giá các chỉ số của mô hình

Mô hình logit

BrierScore(MH1)
## [1] 0.194698

Mô hình Probit

BrierScore(MH2)
## [1] 0.1947679

Mô hình LPM

BrierScore(MH3)
## [1] 0.194698

Với kết quả hồi quy: \[ \begin{array}{|c|c|c|c|} \hline \text{Mô hình} & \text{AIC} & \text{Deviance} & \text{Brier Score } \\ \hline \text{Logit} & 276.59 & 268.59 & 0.194698 \\ \hline \text{Probit} & 276.59 & 268.59 & 0.1947679 \\ \hline \text{LPM} & 276.59 & 268.59 & 0.194698 \\ \hline \text{Mô hình lựa chọn} & \text{Mô hình Logit/Probit/LPM} & \text{Mô hình Logit/Probit/LPM} & \text{Mô hình Logit/LPM} \\ \hline \end{array} \] Bảng kết quả trên được đánh giá dựa trên 3 tiêu chí AIC, Deviance và Brier Score. Đối với chỉ số AIC và Deviance, cả 3 mô hình đều bằng nhau. Về Brier Score, trong 3 mô hình thì mô hình Logit và mô hình Xác suất tuyến tính (LPM) có hệ số nhỏ nhất. Từ đó, chúng tôi xét tiếp 3 tiêu chí đánh giá ma trận nhầm lẫn để lựa chọn mô hình phù hợp nhất.

4.4.2 Ma trận nhầm lẫn

Mô hình Logit

a <- predict(MH1, type = "response")
b <- ifelse(a > 0.5, "1", "0")
c <-factor(b, levels = c("0","1"))
d <- factor(nganh, labels = c("0","1"))
confusionMatrix(table(c, d))
## Confusion Matrix and Statistics
## 
##    d
## c     0   1
##   0 145  53
##   1  15  22
##                                           
##                Accuracy : 0.7106          
##                  95% CI : (0.6481, 0.7678)
##     No Information Rate : 0.6809          
##     P-Value [Acc > NIR] : 0.1819          
##                                           
##                   Kappa : 0.2306          
##                                           
##  Mcnemar's Test P-Value : 7.226e-06       
##                                           
##             Sensitivity : 0.9062          
##             Specificity : 0.2933          
##          Pos Pred Value : 0.7323          
##          Neg Pred Value : 0.5946          
##              Prevalence : 0.6809          
##          Detection Rate : 0.6170          
##    Detection Prevalence : 0.8426          
##       Balanced Accuracy : 0.5998          
##                                           
##        'Positive' Class : 0               
## 

Về tiêu chí đánh giá Confusion Matrix (Độ chính xác, độ nhạy, độ đặc hiệu) của mô hình Logit cho biết độ chính xác (Accuracy) là 71.06%, độ nhạy (Sensitivity) là 90,62 % và độ đặc hiệu (Specificity) là 29.33%

Mô hình Xác suất tuyến tính (LPM)

a <- predict(MH3, type = "response")
b <- ifelse(a > 0.5, "1", "0")
c <-factor(b, levels = c("0","1"))
d <- factor(nganh, labels = c("0","1"))
confusionMatrix(table(c, d))
## Confusion Matrix and Statistics
## 
##    d
## c     0   1
##   0 145  53
##   1  15  22
##                                           
##                Accuracy : 0.7106          
##                  95% CI : (0.6481, 0.7678)
##     No Information Rate : 0.6809          
##     P-Value [Acc > NIR] : 0.1819          
##                                           
##                   Kappa : 0.2306          
##                                           
##  Mcnemar's Test P-Value : 7.226e-06       
##                                           
##             Sensitivity : 0.9062          
##             Specificity : 0.2933          
##          Pos Pred Value : 0.7323          
##          Neg Pred Value : 0.5946          
##              Prevalence : 0.6809          
##          Detection Rate : 0.6170          
##    Detection Prevalence : 0.8426          
##       Balanced Accuracy : 0.5998          
##                                           
##        'Positive' Class : 0               
## 

Về tiêu chí đánh giá Confusion Matrix (Độ chính xác, độ nhạy, độ đặc hiệu) của mô hình Logit cho biết độ chính xác (Accuracy) là 71.06%, độ nhạy (Sensitivity) là 90,62 % và độ đặc hiệu (Specificity) là 29.33%

Kêt luận: Vậy cả 2 mô hình Logit và mô hình LPM đều phù hợp với đề tài nghiên cứu bởi các tiêu chí đánh giá ma trận nhầm lẫn đều cho kết quả giống nhau.

5 Kết luận

5.1 kết luận của kết quả nghiên cứu

Sau khi nghiên cứu và phân tích các yếu tố ảnh hưởng đến quyết định chọn ngành học của sinh viên, chúng tôi nhận thấy rằng các yếu tố cá nhân đóng vai trò quan trọng và chiếm phần lớn trong quyết định này. Yếu tố giới tính, học lực của sinh viên ở môi trường cấp 3 và mức lương kỳ vọng là những yếu tố chủ chốt, ảnh hưởng mạnh mẽ đến lựa chọn ngành học của sinh viên. Từ các yếu tố trên đã nhấn mạnh rằng giá trị cá nhân và mục tiêu nghề nghiệp là động lực quan trọng trong quá trình đưa ra quyết định. Đồng thời, các yếu tố bên ngoài như lời khuyên và sự ảnh hưởng từ gia đình, bạn bè, tình hình tài chính và cơ hội việc làm trong tương lai cũng có tác động nhất định đến việc chọn ngành của sinh viên.

Từ đó, cho thấy sự tương tác giữa các yếu tố cá nhân và bên ngoài đã tạo nên mối quan hệ tác động lẫn nhau trong quá trình đưa ra quyết định của sinh viên. Trong đó, vai trò của nhà trường và các tổ chức tư vấn nghề nghiệp trong việc cung cấp thông tin và định hướng là rất quan trọng, nó sẽ giúp cho sinh viên hiểu rõ hơn về các ngành học và cơ hội nghề nghiệp tương lai. Để hỗ trợ sinh viên trong việc chọn ngành học, cần cải thiện hệ thống tư vấn nghề nghiệp trong nhà trường để cung cấp thông tin đầy đủ và chính xác, đồng thời gia đình nên đóng vai trò động viên và hỗ trợ. Việc hiểu rõ và đánh giá đúng các yếu tố ảnh hưởng sẽ giúp sinh viên đưa ra quyết định sáng suốt và phù hợp với bản thân. Bản thân sinh viên cũng nên tự giác tìm hiểu và cân nhắc kỹ lưỡng trước khi đưa ra quyết định

5.2 Kết luận của mô hình

Để xét về mối quan hệ giữa các biến ảnh hưởng đến lựa chọn ngành học của sinh viên, chúng tôi đã áp dụng ba mô hình thống kê khác nhau: mô hình logistic (Logit), mô hình Probit và mô hình Xác suất tuyến tính (LPM). Kết quả cho thấy cả hai mô hình logistic (Logit) và Xác suất tuyến tính (LPM) đều chứng minh được tính phù hợp và hiệu quả của nó trong việc dự đoán biến phụ thuộc (ngành học) dựa trên các biến độc lập như giới tính, điểm số lớp 12 và mức lương kỳ vọng của sinh viên.

Qua việc so sánh và đối chiếu các kết quả từ hai mô hình, chúng tôi nhận thấy rằng cả Logit và LPM đều đạt được các tiêu chí đánh giá tương đồng. Cụ thể, các tiêu chí AIC, Deviance và Brier Score, cùng với các chỉ số đánh giá được từ ma trận nhầm lẫn (độ chính xác, độ nhạy, độ đặc hiệu) đã cho thấy hai mô hình này có khả năng dự đoán chính xác và ổn định như nhau. Điều này khẳng định rằng không có sự chênh lệch đáng kể giữa hai mô hình trên. Do đó, cả hai đều có thể được sử dụng một cách tin cậy trong nghiên cứu này.

Sự phù hợp của cả hai mô hình trong nghiên cứu này mang lại nhiều lợi ích quan trọng. Thứ nhất, việc sử dụng đồng thời hai mô hình giúp kiểm chứng tính nhất quán của các kết quả thu được, đảm bảo rằng các kết luận rút ra không phải là kết quả ngẫu nhiên mà là những phát hiện đáng tin cậy. Thứ hai, việc áp dụng cả hai mô hình cho phép chúng tôi khai thác những ưu điểm riêng biệt của từng phương pháp, từ đó có cái nhìn đa chiều và toàn diện hơn về dữ liệu và các mối quan hệ giữa các biến. Mô hình logistic (Logit) với đặc tính của một mô hình phi tuyến, cho phép chúng tôi hiểu rõ hơn về các xác suất xảy ra sự kiện trong bối cảnh biến phụ thuộc nhị phân. Trong khi đó, mô hình Xác suất tuyến tính (LPM) cung cấp một cách tiếp cận đơn giản và dễ hiểu hơn, giúp minh họa mối quan hệ tuyến tính trực tiếp giữa các biến độc lập và biến phụ thuộc.

Kết quả từ nghiên cứu này không chỉ đóng góp vào việc hiểu biết về các yếu tố ảnh hưởng đến quyết định chọn ngành học của sinh viên mà còn có ý nghĩa thực tiễn trong việc xây dựng các chính sách giáo dục và tuyển dụng hiệu quả hơn. Các nhà quản lý giáo dục và các trường học có thể sử dụng các mô hình này để dự đoán xu hướng lựa chọn ngành học và điều chỉnh chiến lược tuyển sinh cũng như tuyển dụng nhân sự phù hợp. Đồng thời, việc áp dụng các kỹ thuật tiên tiến hơn vào môi trường học tập cũng có thể giúp cải thiện hiệu suất của các mô hình và mang lại những phát hiện mới mẻ và sâu sắc hơn.