library("webshot2")
## Warning: package 'webshot2' was built under R version 4.3.1
library("epitools")
library("DescTools")
## Warning: package 'DescTools' was built under R version 4.3.1
library("ggplot2")
## Warning: package 'ggplot2' was built under R version 4.3.1
library("caret")
## Warning: package 'caret' was built under R version 4.3.1
## Loading required package: lattice
##
## Attaching package: 'caret'
## The following objects are masked from 'package:DescTools':
##
## MAE, RMSE
library(AER)
## Loading required package: car
## Loading required package: carData
##
## Attaching package: 'car'
## The following object is masked from 'package:DescTools':
##
## Recode
## Loading required package: lmtest
## Loading required package: zoo
##
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
##
## as.Date, as.Date.numeric
## Loading required package: sandwich
## Loading required package: survival
##
## Attaching package: 'survival'
## The following object is masked from 'package:caret':
##
## cluster
## The following object is masked from 'package:epitools':
##
## ratetable
library(DT)
## Warning: package 'DT' was built under R version 4.3.1
Quyết định cho vay thế chấp là một khía cạnh quan trọng trong ngành tài chính và ngân hàng. Nghiên cứu về các yếu tố ảnh hưởng đến quyết định này sẽ giúp cải thiện quá trình cho vay thế chấp, tối ưu hóa quy trình và giảm rủi ro cho các ngân hàng và tài chính công ty. Việc mua nhà bằng việc vay thế chấp là một quyết định quan trọng trong cuộc sống của nhiều người. Hiểu rõ các yếu tố ảnh hưởng đến quyết định cho vay thế chấp sẽ giúp cá nhân đưa ra quyết định tài chính sáng suốt và có lợi nhất. Quyết định cho vay thế chấp có thể ảnh hưởng đến thị trường bất động sản nói chung. Hiểu rõ các yếu tố ảnh hưởng đến quyết định này sẽ giúp dự đoán xu hướng và biến động của thị trường bất động sản. Hiểu rõ các yếu tố ảnh hưởng đến quyết định cho vay thế chấp cũng giúp các ngân hàng và tài chính công ty đánh giá tín dụng và rủi ro một cách chính xác hơn. Điều này làm tăng tính minh bạch và đáng tin cậy của hệ thống tài chính. Đề tài này còn mở ra cơ hội cho nhiều nghiên cứu và phát triển mới trong lĩnh vực tài chính, kinh tế và ngân hàng. Nâng cao hiểu biết về các yếu tố ảnh hưởng đến quyết định cho vay thế chấp có thể dẫn đến các phương pháp và công cụ mới để quản lý tài chính và tối ưu hóa việc cho vay.
Tóm lại, đề tài “Các yếu tố ảnh hưởng đến quyết định cho vay thế chấp” là một đề tài có ý nghĩa và có thể mang lại những đóng góp quan trọng cho lĩnh vực tài chính, ngân hàng và bất động sản. Nó có ảnh hưởng đến nhiều khía cạnh của cuộc sống và kinh tế của cá nhân và cộng đồng.
Phân tích các yếu tố ảnh hưởng đến quyết định cho vay thế chấp giúp đánh giá rủi ro và tín dụng của người vay. Những yếu tố như thu nhập, lịch sử tín dụng, tỷ lệ nợ trên thu nhập, tình trạng việc làm… đều có thể ảnh hưởng đến khả năng và đáng tin cậy của người vay.Phạm vi và đối tượng nghiên cứu. (Hiểu rõ rủi ro và tín dụng)
Việc phân tích các yếu tố ảnh hưởng đến quyết định cho vay thế chấp cũng giúp đảm bảo sự công bằng và bình đẳng trong quá trình cấp tín dụng. Điều này đặc biệt quan trọng để ngăn ngừa việc phân biệt đối xử không công bằng dựa trên giới tính, sắc tộc hay các yếu tố khác không liên quan đến khả năng trả nợ. (Đảm bảo sự công bằng và bình đẳng)
Phân tích các yếu tố ảnh hưởng đến quyết định cho vay thế chấp giúp cải thiện quá trình cho vay, tối ưu hóa việc đánh giá khách hàng và đưa ra quyết định nhanh chóng và chính xác hơn. (Tối ưu hóa quá trình cho vay thế chấp)
Phân tích yếu tố ảnh hưởng đến quyết định cho vay thế chấp cũng giúp nắm bắt xu hướng và biến động của thị trường tài chính và bất động sản, từ đó làm tăng tính linh hoạt và hiệu quả trong việc cung cấp dịch vụ cho vay. (Nắm bắt xu hướng thị trường).
Đối tượng nghiên cứu: 2380 người được khảo sát.
Phạm vi nghiên cứu: Watson (2007)
PHẦN MỞ ĐẦU
Chương 1: TỔNG QUAN LÝ THUYẾT
Chương 2: PHƯƠNG PHÁP NGHIÊN CỨU
Chương 3: KẾT QUẢ NGHIÊN CỨU
Chương 4: KẾT LUẬN
Dữ liệu định tính là loại dữ liệu thuộc vào hạng mục hoặc nhóm và được phân loại thành các danh mục riêng biệt, không theo thứ tự số học. Thông thường, dữ liệu định tính mô tả các đặc điểm không đo lường được bằng các con số, mà thay vào đó được biểu thị bằng các nhãn hoặc từ ngữ.
Có hai loại dữ liệu định tính chính:
Dữ liệu định tính nhị phân: Dữ liệu định tính nhị phân chỉ có hai giá trị có thể xảy ra, ví dụ “có” và “không”, “đúng” và “sai”, “nam” và “nữ”. Đây là loại dữ liệu đơn giản nhất và thường được biểu thị bằng các nhãn hoặc số 0 và 1.
Dữ liệu định tính phân loại: Dữ liệu định tính phân loại bao gồm ba hoặc nhiều hơn các nhóm không có thứ tự số học. Ví dụ: “loại A”, “loại B”, “loại C”, “không” hoặc “nhẹ”, “trung bình”, “nặng”. Dữ liệu định tính phân loại thường được biểu thị bằng các nhãn hoặc từ ngữ.
Vay thế chấp (hay còn gọi là vay vốn thế chấp) là quá trình mà người vay (thường là cá nhân hoặc doanh nghiệp) vay một khoản tiền từ một tổ chức tài chính (như ngân hàng hoặc công ty thế chấp) và đưa tài sản cụ thể làm bảo đảm cho khoản vay. Tài sản cụ thể này thường là bất động sản như nhà ở, đất đai hoặc tài sản có giá trị lớn khác.
Người vay sẽ đệ trình hồ sơ vay vốn cho tổ chức tài chính, trong đó ghi rõ thông tin về thu nhập, tài sản và lịch sử tín dụng. Từ đó, tổ chức tài chính sẽ đánh giá khả năng thanh toán của người vay và định giá tài sản thế chấp.
Nếu hồ sơ của người vay được chấp nhận và đáp ứng các yêu cầu, tổ chức tài chính sẽ cung cấp một khoản tiền vay với điều kiện người vay đồng ý đưa tài sản thế chấp làm bảo đảm. Tài sản này sẽ trở thành tài sản của tổ chức tài chính trong thời gian vay và sẽ được trả lại cho người vay sau khi khoản vay đã được trả đủ theo thỏa thuận. Với việc sở hữu tài sản thế chấp, tổ chức tài chính có một phần bảo đảm nếu người vay không thể hoặc không muốn trả nợ. Trong trường hợp không thể thanh toán, tổ chức tài chính có thể tiến hành giải quyết tài sản thế chấp để thu lại khoản tiền vay. Vay thế chấp thường được sử dụng để mua nhà, đầu tư bất động sản, đầu tư kinh doanh hoặc các mục đích khác cần một số tiền vốn lớn. Tuy nhiên, quyết định vay thế chấp cần được xem xét thận trọng, vì rủi ro tiềm ẩn nếu không có khả năng trả nợ đúng hạn.
Nguy cơ vỡ nợ là khả năng không thể hoặc không muốn trả nợ (khoản vay) đúng hạn hoặc đầy đủ. Điều này có thể xảy ra khi người vay không có khả năng thanh toán các khoản nợ một cách đủ điều kiện hoặc không đáp ứng các yêu cầu của hợp đồng vay.
Nguy cơ vỡ nợ có thể phát sinh từ nhiều nguyên nhân, bao gồm:
Khả năng tài chính: Nếu người vay không có đủ thu nhập hoặc tài sản để đáp ứng các khoản nợ, họ có thể gặp khó khăn trong việc trả nợ.
Lịch sử tín dụng: Nếu người vay có lịch sử tín dụng xấu hoặc không đáng tin cậy trong việc trả nợ trong quá khứ, tổ chức tài chính có thể xem xét hồ sơ vay của họ một cách cẩn thận hơn và chấp nhận nguy cơ vỡ nợ cao.
Thất bại trong kinh doanh: Đối với doanh nghiệp, nếu kinh doanh gặp khó khăn và không đủ lợi nhuận để thanh toán nợ, nguy cơ vỡ nợ có thể tăng lên.
Biến động thị trường: Các biến động kinh tế và thị trường tài chính có thể ảnh hưởng đến khả năng thanh toán nợ của người vay. Nếu giá cả, lãi suất hoặc tình hình kinh tế không ổn định, nguy cơ vỡ nợ có thể gia tăng.
Sự kiện bất ngờ: Các sự kiện bất ngờ như thất nghiệp, bệnh tật hoặc thảm họa tự nhiên cũng có thể làm suy yếu khả năng thanh toán nợ của người vay.
Khi nguy cơ vỡ nợ xảy ra, người vay có thể gặp hậu quả nghiêm trọng như mất tài sản thế chấp, tổn thất tín dụng và khó khăn trong việc vay vốn trong tương lai. Đối với tổ chức tài chính, hậu quả có thể là mất tiền và rủi ro về việc không thu hồi được khoản nợ.
Do đó, việc đánh giá nguy cơ vỡ nợ là rất quan trọng trong việc cấp tín dụng và vay thế chấp, và các tổ chức tài chính thường thực hiện quá trình kiểm tra kỹ lưỡng hồ sơ vay của người nộp đơn để đảm bảo tính bền vững và giảm thiểu nguy cơ vỡ nợ.
Độ tin cậy của người vay là một khái niệm đánh giá tính đáng tin cậy và khả năng thực hiện cam kết của người vay trong việc trả nợ đúng hạn và theo thỏa thuận đã định. Nó là một yếu tố quan trọng được tổ chức tài chính (ngân hàng, công ty thế chấp…) xem xét khi xem xét hồ sơ vay và quyết định cấp vốn cho người vay.
Để đánh giá độ tin cậy của người vay, các tổ chức tài chính xem xét các yếu tố sau đây:
Sự ổn định của thu nhập: Khả năng tài chính và ổn định công việc của người vay cũng ảnh hưởng đến độ tin cậy của họ. Thu nhập ổn định và đủ lớn đảm bảo khả năng trả nợ đúng hạn.
Lịch sử tín dụng: Lịch sử tín dụng của người vay là một yếu tố quan trọng trong việc đánh giá độ tin cậy. Nó bao gồm việc kiểm tra các khoản nợ, thẻ tín dụng, các khoản vay trước đây và lịch sử thanh toán của người vay. Một lịch sử tín dụng tích cực, với việc trả nợ đúng hạn và không có lừa đảo hoặc nợ xấu, thể hiện độ tin cậy cao của người vay.
Tỷ lệ nợ trên thu nhập: Tỷ lệ nợ trên thu nhập là một chỉ số quan trọng để đánh giá khả năng của người vay trong việc quản lý nợ. Tỷ lệ này thể hiện tổng số tiền nợ của người vay so với thu nhập hàng tháng của họ. Một tỷ lệ nợ trên thu nhập thấp hơn thể hiện độ tin cậy cao, vì người vay có khả năng trả nợ hơn.
Điều kiện hộ gia đình và trạng thái tài chính tổng thể: Tổ chức tài chính cũng xem xét các yếu tố khác như số lượng thành viên trong hộ gia đình, trạng thái tài chính tổng thể và các khoản nợ hiện có để đánh giá độ tin cậy của người vay.
Tỷ lệ vay vốn (loan-to-value ratio - LTV) là một chỉ số được sử dụng trong việc đánh giá mức độ tài trợ của một khoản vay so với giá trị của tài sản thế chấp. Chỉ số này thể hiện tỷ lệ phần trăm giữa số tiền vay và giá trị của tài sản được thế chấp để bảo đảm khoản vay. Tỷ lệ vay vốn thường được sử dụng trong ngành tài chính, đặc biệt là trong việc vay thế chấp bất động sản. Nghiên cứu đã thu thập thông tin về giá trị thẩm định của ngôi nhà; từ những giá trị được thẩm định này, tỷ lệ vay vốn đã được tính toán để đo lường vốn chủ sở hữu của người đi vay đối với tài sản. Tỷ lệ vay vốn là các chỉ số quan trọng tiềm ẩn về cả rủi ro vỡ nợ và mức độ tổn thất tiềm ẩn trong trường hợp bị tịch thu tài sản thế chấp. Những người vay vốn chủ sở hữu tài sản của họ, càng ít có khả năng giá trị tài sản giảm sẽ khiến họ từ bỏ ngôi nhà của mình cho người cho vay. Một tấm đệm lớn hơn cũng bảo vệ người cho vay khỏi mất mát càng nhiều.
Vì một số tổn thất liên quan đến vỡ nợ cóthể được bù đắp bởi các công ty bảo hiểm cho các khoản vay thế chấp, cuộc khảo sát đã thu thập thông tin về việc liệu những người nộp đơn đăng ký bảo hiểm thế chấp tư nhân và liệu đơn đăng ký của họ có được chấp thuận hay bị từ chối hay không. Trong phạm vi người nộp đơn đăng ký và nhận bảo hiểm thế chấp tư nhân, tổn thất tiềm ẩn đối với tổ chức cho vay sẽ giảm đi. Quan trọng hơn, thứ cấp thị trường sẽ không chấp nhận khoản vay thế chấp có tỷ lệ cho vay trên giá trị vượt quá 80 phần trăm mà không có bảo hiểm thế chấp tư nhân bảo vệ. Do đó, bất kỳ người nộp đơn nào có tỷ lệ cho vay trên giá trị cao bị từ chối thế chấp tư nhân bảo hiểm có khả năng bị từ chối khoản vay. Như sẽ được thảo luận sau, thực tế là các công ty bảo hiểm đưa ra quyết định dựa trên các yếu tố giống như người cho vay khiến việc xác định cách xử lý phù hợp đối với bảo hiểm thế chấp tư nhân trong mô hình cho vay thế chấp trở nên khó khăn. Tính ổn định của giá trị: Do có nhiều đặc điểm lân cận, bất động sản nội thành thường được cho là có rủi ro mất vốn cao hơn so với bất động sản ở các khu vực khác. Mặc dù giá trị được thẩm định phải phản ánh kỳ vọng rằng tài sản sẽ tăng hoặc giảm giá trị, nhưng nó có thể không nắm bắt được những điều không chắc chắn xung quanh những kỳ vọng này. Những người cho vay e ngại rủi ro sẽ tránh các khoản cho vay có cùng xác suất và chi phí vỡ nợ dự kiến nhưng mức độ thay đổi của các khoản lỗ tiềm ẩn cao hơn. Do đó, những người cho vay có thể có động cơ kinh tế để tránh đầu tư vào các lĩnh vực được cho là rủi ro.
Xét biến đáp ứng là biến nhị phân với hai thuộc tính: một gọi là “Thành công” và một gọi là “Thất bại”, chịu sự tác động của một tập hợp m biến 𝑋 = (\(X_1\), \(𝑋_2\), … , \(𝑋_𝑚\)) mà ta gọi là các biến giải thích.
Biến đáp ứng được đại diện, hay lượng hóa bởi biến ngẫu nhiên có phân phối 0 – 1:
𝑌 = 1 nếu đáp ứng là “Thành công” và 0 nếu đáp ứng là “Thất bại”
Mô hình logistic mô tả sự phụ thuộc của biến đáp ứng thông qua xác suất “Thành công” 𝜋(𝑥) = 𝑃(𝑌 = 1|𝑋 = 𝑥) ứng với mức 𝑥 = (\(𝑥_1\),\(𝑥_2\),…,\(𝑥_𝑚\)) của các biến giải thích phụ thuộc vào 𝑥 = (\(𝑥_1\), \(𝑥_2\), … , \(𝑥_𝑚\)) dưới dạng:
\(\log{\left(\frac{\pi\left(x\right)}{1-\pi\left(x\right)}\right)}=\beta_0+\beta_1x_1+\beta_2x_2+\ldots+\beta_mx_m\)
Trong đó các hằng số \(\beta_0\), \(\beta_1\), \(\beta_2\),\(\ldots\),\(\beta_m\) được gọi là các hệ số hồi quy. Hệ số \(\beta_j\) của biến \(x_j\) là lượng thay đổi của \(\log{\left(\frac{\pi\left(x\right)}{1-\pi\left(x\right)}\right)}\) , hay của log[Odds(x)] khi biến \(x_j\) thay đổi 1 đơn vị, trong điều kiện các biến khác không thay đổi, j = 1, 2,…, m. Nếu \(𝛽_𝑗\) > 0, 𝜋(𝑥) đồng biến theo \(x_j\), khi các biến khác không thay đổi. Nếu \(𝛽_𝑗\) < 0, 𝜋(𝑥) nghịch biến theo \(x_j\), khi các biến khác không thay đổi. Nếu \(𝛽_𝑗\) = 0, 𝜋(𝑥) không phụ thuộc \(x_j\).
Khi \(x_j\) tăng thêm 1 đơn vị, còn các biến khác không thay đổi thì tỷ lệ cược 𝑂𝑑𝑑𝑠(𝑥) được nhân lên với \(𝑒^𝛽j\).
Mô hình ước lượng cho mô hình hồi quy Logistic là:
\(\log{\left(\frac{\hat{\pi}\left(x\right)}{1-\hat{\pi}\left(x\right)}\right)}={\hat{\beta}}_0+{\hat{\beta}}_1x_1+{\hat{\beta}}_2x_2+\ldots+{\hat{\beta}}_mx_m\)
Trong đó các hệ số\(\ {\hat{\beta}}_j\) ước lượng cho hồi quy \(\beta_j\) được tìm theo phương pháp hợp lý cực đại.
Hồi quy Probit, đôi khi còn được gọi là mô hình Probit, được sử dụng để ước lượng mô hình có biến phụ thuộc dạng nhị phân. Trong hồi quy Probit, xem hàm xác suất 𝜋(𝑥) hoặc 1 − 𝜋(𝑥) là hàm phân phối xác suất của một biến ngẫu nhiên 𝑋 có phân phối chuẩn, tức là xác suất “Thành công” có dạng:
\(𝜋(𝑥) = Φ(𝛼 + 𝛽_𝑥)\)
Mô hình Probit hai biến như là một trường hợp đặc biệt của mô hình GLM.
Giả sử biến đáp ứng nhị phân với hai giá trị mà ta gọi là “Thành công” và “Thất bại”, phụ thuộc vào m biến giải thích: \(𝑋_1\), \(𝑋_2\), … , \(𝑋_𝑚\). Ký hiệu: \(𝑋 = (𝑋_1,𝑋_2,...,𝑋_𝑚)\); 𝑌 = Y = 1 nếu đáp ứng là “Thành công” và 0 nếu đáp ứng là “Thất bại”
thì xác suất “Thành công” ứng với \(𝑋_1 = 𝑥_1, 𝑋_2 = 𝑥_2,...,𝑋_𝑚 = 𝑥_𝑚 là: 𝜋(𝑥) = 𝜋(𝑥_1,𝑥_2,...,𝑥_𝑚) = 𝐸(𝑌|𝑋_1 = 𝑥_1,𝑋_2 = 𝑥_2,...,𝑋_𝑚 = 𝑥_𝑚)\)
Mô hình Probit đa biến có dạng:
\(𝜋(𝑥_1,𝑥_2,...,𝑥_𝑚)=Φ(𝛽_0 +𝛽_1𝑥_1 +𝛽_2𝑥_2 +⋯+𝛽_𝑚𝑥_𝑚)\)
hay: 𝑃𝑟𝑜𝑏𝑖𝑡\((𝜋(𝑥_1, 𝑥_2, ... , 𝑥_𝑚)) = 𝛽_0 + 𝛽_1𝑥_1 + 𝛽_2𝑥_2 + ⋯ + 𝛽_𝑚𝑥_𝑚\)
Trong đó Φ là hàm phân phối chuẩn chính tắc: \(Φ(t) = 1 ∫𝑡 𝑒−12𝑢2 𝑑𝑢 √2𝜋 −∞\) và Probit là phép lấy hàm ngược của Φ:
\(𝑃𝑟𝑜𝑏𝑖𝑡(𝜋(𝑥_1, 𝑥_2, ... , 𝑥_𝑚)) = Φ −1(𝜋(𝑥_1, 𝑥_2, ... , 𝑥_𝑚))\)
Trong trường hợp tỷ lệ cược phụ thuộc vào các biến giải thích dưới dạng hàm lũy thừa:
\(Odds(x)=\ \frac{\pi(x)}{1-\pi(x)}=\lambda.x_1^{\beta_1}.x_2^{\beta_2}....x_m^{\beta_m}\)
Ta nhận được mô hình logistic có các biến dự báo ở dạng log, gọi là mô hình logistic dạng log-log.
\(\log{\left(\frac{\pi(x)}{1-\pi(x)}\right)=\beta_0+\beta_1.logx_1+\beta_2.logx_2+...+\beta_m.logx_m}\)
AIC được đề xuất bởi Akaike Hirotugu, một nhà thống kê học người Nhật. AIC là một tiêu chí được sử dụng một cách phổ biến để đánh giá một mô hình hồi quy được ước lượng bởi phương pháp Maximum Likekihood (ML). Một cách chung chung giá trị của AIC càng nhỏ thì mô hình càng tốt. AIC được tính bằng công thức sau:
AIC=−2ln(L)+2k
Với L là giá trị cực đại của hàm hợp lý (likelihood function) và k là số tham số của mô hình.
Khi thực hiện việc ước lượng mô hình hồi quy bằng lệnh glm thì chỉ số AIC đã được tính toán và thể hiện trên bảng kết quả ( bằng lệnh summary).
Deviance cũng là một tiêu chí rất phổ biến được sử dụng để đánh giá một mô hình hồi quy được ước lượng bởi phương pháp Hợp lý cực đại (ML). Một cách tổng quá, cũng giống như chỉ tiêu AIC, giá trị của Deviance càng nhỏ thì mô hình càng tốt.
Lưu ý: Khi thực hiện việc ước lượng mô hình hồi quy bằng lệnh glm thì chỉ số AIC và Deviance đã được tính toán và thể hiện trên bảng kết quả ( bằng lệnh summary).
Là chỉ tiêu dùng để đánh giá mô hình hồi quy logistic, Brier Score được tính như sau:
\(B=1n∑i=1n(p_i−o_i)\)
Trong đó: pi,oi lần lượt là giá trị xác suất quan sát được, và giá trị xác suất tính ra từ mô hình.
Giá trị của Brier Score càng nhỏ nghĩa là chênh lệch giữa xác suất thực tế và xác suất tính từ mô hình càng nhỏ, nghĩa là mô hình càng tốt.
data("HMDA")
d<-HMDA
str(d)
## 'data.frame': 2380 obs. of 14 variables:
## $ deny : Factor w/ 2 levels "no","yes": 1 1 1 1 1 1 1 1 2 1 ...
## $ pirat : num 0.221 0.265 0.372 0.32 0.36 ...
## $ hirat : num 0.221 0.265 0.248 0.25 0.35 ...
## $ lvrat : num 0.8 0.922 0.92 0.86 0.6 ...
## $ chist : Factor w/ 6 levels "1","2","3","4",..: 5 2 1 1 1 1 1 2 2 2 ...
## $ mhist : Factor w/ 4 levels "1","2","3","4": 2 2 2 2 1 1 2 2 2 1 ...
## $ phist : Factor w/ 2 levels "no","yes": 1 1 1 1 1 1 1 1 1 1 ...
## $ unemp : num 3.9 3.2 3.2 4.3 3.2 ...
## $ selfemp : Factor w/ 2 levels "no","yes": 1 1 1 1 1 1 1 1 1 1 ...
## $ insurance: Factor w/ 2 levels "no","yes": 1 1 1 1 1 1 1 1 2 1 ...
## $ condomin : Factor w/ 2 levels "no","yes": 1 1 1 1 1 1 2 1 1 1 ...
## $ afam : Factor w/ 2 levels "no","yes": 1 1 1 1 1 1 1 1 1 1 ...
## $ single : Factor w/ 2 levels "no","yes": 1 2 1 1 1 1 2 1 1 2 ...
## $ hschool : Factor w/ 2 levels "no","yes": 2 2 2 2 2 2 2 2 2 2 ...
Dữ liệu nghiên cứu gồm 2380 quan sát với 14 biến bao gồm 10 biến định tính và 4 biến định lượng.
Biến định tính gồm:
deny: thế chấp có bị từ chối không? (yes/no)
chist: lịch sử thanh toán tiêu dùng (1/2/3/4/5/6)
mhist: lịch sử thanh toán thế chấp (1/2/3/4)
phist: hồ sơ tín dụng xấu công khai (yes/no)
selfemp: cá nhân tự làm chủ (yes/no)
insurance: cá nhân có bị từ chối bảo hiểm thế chấp không?(yes/no)
condomin: đơn vị có phải là chung cư không? (yes/no)
afam: cá nhân có phải là người Mỹ gốc Phi không?(yes/no)
single: cá nhân có độc thân không?(yes/no)
hschool: có nhân có bằng tốt nghiệp trung học không?(yes/no)
Biến định lượng gồm:
pirat: tỷ lệ thanh toán trên thu nhập
hirat: tỷ lệ chi phí nhà ở trên thu nhập
lvrat: tỷ lệ vay vốn
unemp: tỷ lệ thất nghiệp
Từ bộ dữ liệu trên, chọn:
Biến định tính gồm: deny,afam,insurance,single,hschool.
Biến định tính phụ thuộc để phân tích: deny
Chọn biến deny làm biến phụ thuộc để phân tích các yếu tố ảnh hưởng đến quyết định cho vay thế chấp.
#Tần số
table(d$deny)
##
## no yes
## 2095 285
#Tần suất
table(d$deny)/sum(table(d$deny))
##
## no yes
## 0.8802521 0.1197479
Có 2095 người không bị từ chối thế chấp chiếm khoảng 88% (tổng số người được khảo sát) và 285 người bị từ chối thế chấp chiếm khoảng 12% (tổng số người được khảo sát).
#Đồ thị cột
d |> ggplot(aes( x = deny, y = after_stat(count))) +
geom_bar(fill = 'blue') +
geom_text(aes(label = scales::percent( after_stat(count/sum(count)))), stat = 'count', color = 'black', vjust = 1.5) +
theme_classic() +
labs(x = 'deny', y = 'Số người')
#Tần số
table(d$insurance)
##
## no yes
## 2332 48
#Tần suất
table(d$insurance)/sum(table(d$insurance))
##
## no yes
## 0.97983193 0.02016807
Có 2332 người không bị từ chối bảo hiểm thế chấp chiếm khoảng 98% (tổng số người được khảo sát) và 48 người bị từ chối bảo hiểm thế chấp chiếm khoảng 2% (tổng số người được khảo sát.
#Đồ thị cột
d |> ggplot(aes( x = insurance, y = after_stat(count))) +
geom_bar(fill = 'blue') +
geom_text(aes(label = scales::percent( after_stat(count/sum(count)))), stat = 'count', color = 'black', vjust = 1.5) +
theme_classic() +
labs(x = 'insurance', y = 'Số người')
#Tần số
table(d$afam)
##
## no yes
## 2041 339
#Tần suất
table(d$afam)/sum(table(d$afam))
##
## no yes
## 0.857563 0.142437
Có 2041 người không là người Mỹ gốc Phi chiếm khoảng 86% (tổng số người được khảo sát) và 339 người là người Mỹ gốc phi chiếm khoảng 14% (tổng số người được khảo sát).
#Đồ thị cột
d |> ggplot(aes( x = afam, y = after_stat(count))) +
geom_bar(fill = 'blue') +
geom_text(aes(label = scales::percent( after_stat(count/sum(count)))), stat = 'count', color = 'black', vjust = 1.5) +
theme_classic() +
labs(x = 'afam', y = 'Số người')
#Tần số
table(d$single)
##
## no yes
## 1444 936
#Tần suất
table(d$single)/sum(table(d$single))
##
## no yes
## 0.6067227 0.3932773
Có 1444 người không là độc thân chiếm khoảng 61% (tổng số người được khảo sát) và 936 người độc thân chiếm khoảng 39% (tổng số người được khảo sát).
#Đồ thị cột
d |> ggplot(aes( x = single, y = after_stat(count))) +
geom_bar(fill = 'blue') +
geom_text(aes(label = scales::percent( after_stat(count/sum(count)))), stat = 'count', color = 'black', vjust = 1.5) +
theme_classic() +
labs(x = 'single', y = 'Số người')
#Tần số
table(d$hschool)
##
## no yes
## 39 2341
#Tần suất
table(d$hschool)/sum(table(d$hschool))
##
## no yes
## 0.01638655 0.98361345
Có 39 người không có bằng tốt nghiệp trung học chiếm khoảng 2% (tổng số người được khảo sát) và 2341 người có bằng tốt nghiệp trung học chiếm khoảng 98% (tổng số người được khảo sát).
#Đồ thị cột
d |> ggplot(aes( x = hschool, y = after_stat(count))) +
geom_bar(fill = 'blue') +
geom_text(aes(label = scales::percent( after_stat(count/sum(count)))), stat = 'count', color = 'black', vjust = 1.5) +
theme_classic() +
labs(x = 'hschool', y = 'Số người')
summary(d$pirat)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.2800 0.3300 0.3308 0.3700 3.0000
Dựa vào kết quả thống kê mô tả, ta thấy tỷ lệ thanh toán trên thu nhập dao động từ 0 đến 3 , trung bình (mean) là 0.3308. 1st Qu.(first quartile) = 0.2800 có nghĩa là 25% đối tượng nghiên cứu có tỷ lệ thanh toán trên thu nhập bằng hoặc nhỏ hơn 0.2800. Tương tự, 3rd Qu.(Third quartile) = 0.3700 có nghĩa là 75% đối tượng có tỷ lệ thanh toán trên thu nhập bằng hoặc thấp hơn 0.3700. Số trung vị (median) 0.3308 cũng có nghĩa là 50% đối tượng có tỷ lệ thanh toán trên thu nhập là 0.3308 trở xuống.
#Đồ thị
hist(d$pirat, main = "Biểu đồ thể hiện tỷ lệ thanh toán trên thu nhập ",xlab = "tỷ lệ thanh toán trên thu nhập", ylab = "số người", col = "pink")
summary(d$lvrat)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0200 0.6527 0.7795 0.7378 0.8685 1.9500
Dựa vào kết quả thống kê mô tả, ta thấy tỷ lệ vay vốn dao động từ 0.02 đến 1.95 , trung bình (mean) là 0.7378. 1st Qu.(first quartile) = 0.6527 có nghĩa là 25% đối tượng nghiên cứu có tỷ lệ vay vốn bằng hoặc nhỏ hơn 0.2800. Tương tự, 3rd Qu.(Third quartile) = 0.3700 có nghĩa là 75% đối tượng có tỷ lệ vay vốn bằng hoặc thấp hơn 0.8685. Số trung vị (median) 0.7795 cũng có nghĩa là 50% đối tượng có tỷ lệ vay vốn là 0.7795 trở xuống.
#Đồ thị
hist(d$lvrat, main = "Biểu đồ thể hiện tỷ lệ vay vốn ",xlab = "tỷ lệ vay vốn", ylab = "số người", col = "pink")
#Tần số
da<-table(d$deny,d$afam)
da
##
## no yes
## no 1852 243
## yes 189 96
da1 <- prop.table(da)
da1
##
## no yes
## no 0.77815126 0.10210084
## yes 0.07941176 0.04033613
Có 1852 cá nhân không là người Mỹ gốc Phi không bị từ chối vay thế chấp,chiếm 77.82% và có 189 cá nhân không là người Mỹ gốc Phi bị từ chối vay thế chấp, chiếm 7.94%. Có 243 cá nhân là người Mỹ gốc Phi không bị từ chối vay thế chấp, chiếm 10.21% và có 96 cá nhân là người Mỹ gốc Phi bị từ chối vay thế chấp.
#Biểu đồ
ggplot(d, aes(deny, fill = afam)) + geom_bar(position = 'dodge')
# Rủi ro tương đối
riskratio(da)
## $data
##
## no yes Total
## no 1852 243 2095
## yes 189 96 285
## Total 2041 339 2380
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## no 1.00000 NA NA
## yes 2.90405 2.374608 3.551537
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## no NA NA NA
## yes 0 2.302896e-19 1.394266e-23
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Đối với nhóm “No” tỷ lệ rủi ro được coi là cơ sở (1.000000).
Đối với nhóm “Yes” tỷ lệ rủi ro được ước tính là 2.90405 , và khoảng tin cậy 95% cho tỷ lệ rủi ro nằm trong khoảng từ 2.374608 đến 2.374608
Giá trị p-value cho nhóm “Yes” là 0 khi sử dụng phân phối midp.exact,2.302896e-19 khi sử dụng phân phối fisher.exact, và 1.394266e-23 khi sử dụng phân phối chi-square. Các giá trị này đều lớn hơn ngưỡng ý nghĩa thường được sử dụng là 0.05, cho thấy không có đủ bằng chứng thống kê để kết luận rằng tỷ lệ rủi ro giữa hai nhóm khác nhau.
#Tỷ lệ chênh
epitab(da, method = "oddsratio")
## $tab
##
## no p0 yes p1 oddsratio lower upper p.value
## no 1852 0.90739833 243 0.7168142 1.000000 NA NA NA
## yes 189 0.09260167 96 0.2831858 3.871187 2.926705 5.120464 2.302896e-19
##
## $measure
## [1] "wald"
##
## $conf.level
## [1] 0.95
##
## $pvalue
## [1] "fisher.exact"
Kết quả cho thấy tỷ lệ chênh (odds ratio) giữa hai nhóm “No” và “Yes” không bằng nhau. Tỷ lệ chênh cho nhóm “Yes” là khoảng 3.871187 lần so với nhóm “No.” Tuy nhiên, giá trị p-value (2.302896e-19) cho thấy sự khác biệt này không đáng kể thống kê, tức là không có đủ bằng chứng thống kê để kết luận rằng tỷ lệ rủi ro giữa hai nhóm khác nhau.
#Tần suất biên
di<-table(d$deny,d$insurance)
di
##
## no yes
## no 2091 4
## yes 241 44
di1 <- prop.table(di)
di1
##
## no yes
## no 0.878571429 0.001680672
## yes 0.101260504 0.018487395
Có 2091 cá nhân không bị từ chối bảo hiểm thế chấp không bị từ chối vay thế chấp, chiếm 87.86% và có 241 cá nhân không bị từ chối bảo hiểm thế chấp bị từ chối vay thế chấp, chiếm 10.13%. Có 4 cá nhân bị từ chối bảo hiểm thế chấp không bị từ chối vay thế chấp, chiếm 0.2% và có 44 cá nhân bị từ chối bảo hiểm thế chấp bị từ chối vay thế chấp, chiếm 1.85%.
#Biểu đồ
ggplot(d, aes(deny, fill = insurance)) + geom_bar(position = 'dodge')
# Rủi ro tương đối
riskratio(di)
## $data
##
## no yes Total
## no 2091 4 2095
## yes 241 44 285
## Total 2332 48 2380
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## no 1.00000 NA NA
## yes 80.85965 29.27297 223.3556
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## no NA NA NA
## yes 0 1.587383e-37 3.753633e-66
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Đối với nhóm “No” tỷ lệ rủi ro được coi là cơ sở (1.000000).
Đối với nhóm “Yes” tỷ lệ rủi ro được ước tính là 80.85965 , và khoảng tin cậy 95% cho tỷ lệ rủi ro nằm trong khoảng từ 29.27297 đến 223.3556
Giá trị p-value cho nhóm “Yes” là 0 khi sử dụng phân phối midp.exact,1.587383e-37 khi sử dụng phân phối fisher.exact, và 3.753633e-66 khi sử dụng phân phối chi-square. Các giá trị này đều lớn hơn ngưỡng ý nghĩa thường được sử dụng là 0.05, cho thấy không có đủ bằng chứng thống kê để kết luận rằng tỷ lệ rủi ro giữa hai nhóm khác nhau.
#Tỷ lệ chênh
epitab(di, method = "oddsratio")
## $tab
##
## no p0 yes p1 oddsratio lower upper p.value
## no 2091 0.8966552 4 0.08333333 1.00000 NA NA NA
## yes 241 0.1033448 44 0.91666667 95.43983 33.99763 267.9234 1.587383e-37
##
## $measure
## [1] "wald"
##
## $conf.level
## [1] 0.95
##
## $pvalue
## [1] "fisher.exact"
Kết quả cho thấy tỷ lệ chênh (odds ratio) giữa hai nhóm “No” và “Yes” không bằng nhau. Tỷ lệ chênh cho nhóm “Yes” là khoảng 95.43983 lần so với nhóm “No.” Tuy nhiên, giá trị p-value (1.587383e-37) cho thấy sự khác biệt này không đáng kể thống kê, tức là không có đủ bằng chứng thống kê để kết luận rằng tỷ lệ rủi ro giữa hai nhóm khác nhau.
#Tần số biên
ds<-table(d$deny,d$single)
ds
##
## no yes
## no 1300 795
## yes 144 141
ds1 <- prop.table(ds)
ds1
##
## no yes
## no 0.5462185 0.3340336
## yes 0.0605042 0.0592437
Có 1300 cá nhân không độc thân không bị từ chối vay thế chấp, chiếm 54.62% và có 144 cá nhân không độc thân bị từ chối vay thế chấp, chiếm 6.05%. Có 795 cá nhân độc thân không bị từ chối vay thế chấp, chiếm 33.4% và có 141 cá nhân độc thân bị từ chối vay thế chấp, chiếm 5.92%.
#Biểu đồ
ggplot(d, aes(deny, fill = single)) + geom_bar(position = 'dodge')
# Rủi ro tương đối
riskratio(ds)
## $data
##
## no yes Total
## no 1300 795 2095
## yes 144 141 285
## Total 1444 936 2380
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## no 1.00000 NA NA
## yes 1.30374 1.145409 1.483959
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## no NA NA NA
## yes 0.0002185362 0.0002236294 0.0001859483
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Đối với nhóm “No” tỷ lệ rủi ro được coi là cơ sở (1.000000).
Đối với nhóm “Yes” tỷ lệ rủi ro được ước tính là 1.30374 , và khoảng tin cậy 95% cho tỷ lệ rủi ro nằm trong khoảng từ 1.145409 đến 1.145409
Giá trị p-value cho nhóm “Yes” là 0.0002185362 khi sử dụng phân phối midp.exact,0.0002236294 khi sử dụng phân phối fisher.exact, và 0.0001859483 khi sử dụng phân phối chi-square. Các giá trị này đều lớn hơn ngưỡng ý nghĩa thường được sử dụng là 0.05, cho thấy không có đủ bằng chứng thống kê để kết luận rằng tỷ lệ rủi ro giữa hai nhóm khác nhau.
#Tỷ lệ chênh
epitab(ds, method = "oddsratio")
## $tab
##
## no p0 yes p1 oddsratio lower upper p.value
## no 1300 0.90027701 795 0.849359 1.000000 NA NA NA
## yes 144 0.09972299 141 0.150641 1.601153 1.248962 2.052658 0.0002236294
##
## $measure
## [1] "wald"
##
## $conf.level
## [1] 0.95
##
## $pvalue
## [1] "fisher.exact"
Kết quả cho thấy tỷ lệ chênh (odds ratio) giữa hai nhóm “No” và “Yes” không bằng nhau. Tỷ lệ chênh cho nhóm “Yes” là khoảng 1.601153 lần so với nhóm “No.” Tuy nhiên, giá trị p-value (0.0002236294) cho thấy sự khác biệt này không đáng kể thống kê, tức là không có đủ bằng chứng thống kê để kết luận rằng tỷ lệ rủi ro giữa hai nhóm khác nhau.
#Tần số biên
dh<-table(d$deny,d$hschool)
dh
##
## no yes
## no 28 2067
## yes 11 274
dh1 <- prop.table(dh)
dh1
##
## no yes
## no 0.011764706 0.868487395
## yes 0.004621849 0.115126050
Có 28 cá nhân không có bằng tốt nghiệp trung học không bị từ chối vay thế chấp, chiếm 1.18% và có 11 cá nhân không có bằng tốt nghiệp trung học bị từ chối vay thế chấp, chiếm 0.46%. Có 2067 cá nhân có bằng tốt nghiệp trung học không bị từ chối vay thế chấp, chiếm 86.85% và có 274 cá nhân có bằng tốt nghiệp trung học bị từ chối vay thế chấp, chiếm 11.51%.
#Biểu đồ
ggplot(d, aes(deny, fill = hschool)) + geom_bar(position = 'dodge')
# Rủi ro tương đối
riskratio(dh)
## Warning in chisq.test(xx, correct = correction): Chi-squared approximation may
## be incorrect
## $data
##
## no yes Total
## no 28 2067 2095
## yes 11 274 285
## Total 39 2341 2380
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## no 1.0000000 NA NA
## yes 0.9744269 0.9515189 0.9978863
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## no NA NA NA
## yes 0.005908764 0.004559804 0.001644918
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Đối với nhóm “No” tỷ lệ rủi ro được coi là cơ sở (1.000000).
Đối với nhóm “Yes” tỷ lệ rủi ro được ước tính là 0.9744269, và khoảng tin cậy 95% cho tỷ lệ rủi ro nằm trong khoảng từ 0.9515189 đến 0.001644918
Giá trị p-value cho nhóm “Yes” là 0.005908764 khi sử dụng phân phối midp.exact,0.004559804 khi sử dụng phân phối fisher.exact, và 0.001644918 khi sử dụng phân phối chi-square. Các giá trị này đều lớn hơn ngưỡng ý nghĩa thường được sử dụng là 0.05, cho thấy không có đủ bằng chứng thống kê để kết luận rằng tỷ lệ rủi ro giữa hai nhóm khác nhau.
#Tỷ lệ chênh
epitab(dh, method = "oddsratio")
## Warning in chisq.test(xx, correct = correction): Chi-squared approximation may
## be incorrect
## $tab
##
## no p0 yes p1 oddsratio lower upper p.value
## no 28 0.7179487 2067 0.882956 1.0000000 NA NA NA
## yes 11 0.2820513 274 0.117044 0.3374236 0.1661033 0.6854449 0.004559804
##
## $measure
## [1] "wald"
##
## $conf.level
## [1] 0.95
##
## $pvalue
## [1] "fisher.exact"
Kết quả cho thấy tỷ lệ chênh (odds ratio) giữa hai nhóm “No” và “Yes” không bằng nhau. Tỷ lệ chênh cho nhóm “Yes” là khoảng 0.3374236 lần so với nhóm “No.” Tuy nhiên, giá trị p-value (0.004559804) cho thấy sự khác biệt này không đáng kể thống kê, tức là không có đủ bằng chứng thống kê để kết luận rằng tỷ lệ rủi ro giữa hai nhóm khác nhau.
Giả thuyết \(H_0\) : deny, afam độc lập
chisq.test(table(d$deny,d$afam))
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: table(d$deny, d$afam)
## X-squared = 98.376, df = 1, p-value < 2.2e-16
Qua kết quả kiểm định cho ta p−value<2.2e−16<0.05, nên bác bỏ H_0, nghĩa là giữa việc có bị từ chối thế chấp hay không và cá nhân là người Mỹ gốc Phi là có liên quan với nhau.
-Biến deny và biến insurance
Giả thuyết \(H_0\) : deny, insurance độc lập
chisq.test(table(d$deny,d$insurance))
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: table(d$deny, d$insurance)
## X-squared = 287.48, df = 1, p-value < 2.2e-16
Qua kết quả kiểm định cho ta p−value<2.2e−16<0.05, nên bác bỏ H_0, nghĩa là giữa việc có bị từ chối thế chấp hay không và việc có bị từ chối bảo hiểm thế chấp hay không là có liên quan với nhau.
Giả thuyết \(H_0\) : deny, single độc lập
chisq.test(table(d$deny,d$single))
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: table(d$deny, d$single)
## X-squared = 13.489, df = 1, p-value = 0.0002399
Qua kết quả kiểm định cho ta p−value=0.0002399<0.05, nên bác bỏ H_0, nghĩa là giữa việc có bị từ chối thế chấp hay không và việc cá nhân có độc than hay không là có liên quan với nhau.
Giả thuyết \(H_0\) : deny, hschool độc lập
chisq.test(table(d$deny,d$hschool))
## Warning in chisq.test(table(d$deny, d$hschool)): Chi-squared approximation may
## be incorrect
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: table(d$deny, d$hschool)
## X-squared = 8.4052, df = 1, p-value = 0.003741
Qua kết quả kiểm định cho ta p−value=0.003741<0.05, nên bác bỏ H_0, nghĩa là giữa việc có bị từ chối thế chấp hay không và việc cá nhân có bằng tốt nghiệp trung học hay không là có liên quan với nhau.
y <- d[d$deny == 'yes',]
prop.test(length(y$deny), length(d$deny))
##
## 1-sample proportions test with continuity correction
##
## data: length(y$deny) out of length(d$deny), null probability 0.5
## X-squared = 1375, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.1071133 0.1336277
## sample estimates:
## p
## 0.1197479
Với độ tin cậy 95%, ta có tỷ lệ người không bị từ chối thế chấp so với tổng thể nằm trong khoảng 86.64% đến 89.29%. Hay nói cách khác, tỷ lệ người bị từ chối thế chấp so với tổng thể nằm trong khoảng 10.71% đến 13.36%.
i <- d[d$insurance == 'yes',]
prop.test(length(i$insurance), length(d$insurance))
##
## 1-sample proportions test with continuity correction
##
## data: length(i$insurance) out of length(d$insurance), null probability 0.5
## X-squared = 2190, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.01506428 0.02687526
## sample estimates:
## p
## 0.02016807
Với độ tin cậy 95%, ta có tỷ lệ người bị từ chối bảo hiểm thế chấp so với tổng thể nằm trong khoảng 1.5% đến 2.69%. Hay nói cách khác, tỷ lệ người không bị từ chối bảo hiểm thế chấp so với tổng thể nằm trong khoảng từ 97.31% đến 98.49%.
s <- d[d$single == 'yes',]
prop.test(length(s$single), length(d$single))
##
## 1-sample proportions test with continuity correction
##
## data: length(s$single) out of length(d$single), null probability 0.5
## X-squared = 108, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.3736317 0.4132706
## sample estimates:
## p
## 0.3932773
Với độ tin cậy 95%, ta có tỷ lệ người độc thân so với tổng thể nằm trong khoảng 37.36% đến 41.33%. Hay nói cách khác, tỷ lệ người không độc than so với tổng thể nằm trong khoảng 58.67% đến 62.64%.
a <- d[d$afam == 'yes',]
prop.test(length(a$afam), length(d$afam))
##
## 1-sample proportions test with continuity correction
##
## data: length(a$afam) out of length(d$afam), null probability 0.5
## X-squared = 1215.7, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.1287703 0.1572732
## sample estimates:
## p
## 0.142437
Với độ tin cậy 95%, ta có tỷ lệ cá nhân là người Mỹ gốc Phi so với tổng thể nằm trong khoảng 12.88% đến 15.73%. Hay nói cách khác, tỷ lệ cá nhân không phải là người Mỹ gốc Phi so với tổng thể nằm trong khoảng 84.27% đến 87.12%.
h <- d[d$hschool == 'yes',]
prop.test(length(h$hschool), length(d$hschool))
##
## 1-sample proportions test with continuity correction
##
## data: length(h$hschool) out of length(d$hschool), null probability 0.5
## X-squared = 2224.6, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.9774371 0.9881677
## sample estimates:
## p
## 0.9836134
Với độ tin cậy 95%, ta có tỷ lệ người có bằng tốt nghiệp trung học so với tổng thể nằm trong khoảng 97.74% đến 98.82%. Hay nói cách khác, tỷ lệ người chưa có bằng tốt nghiệp trung học so với tổng thể nằm trong khoảng 1.18% đến 2.23%.
mh1 <- glm(deny~afam + insurance + single + hschool + lvrat + pirat , family = binomial(link = 'logit'), data = d)
summary(mh1)
##
## Call:
## glm(formula = deny ~ afam + insurance + single + hschool + lvrat +
## pirat, family = binomial(link = "logit"), data = d)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -4.8800 0.6013 -8.116 4.82e-16 ***
## afamyes 1.0566 0.1602 6.594 4.28e-11 ***
## insuranceyes 4.3547 0.5409 8.051 8.18e-16 ***
## singleyes 0.3663 0.1435 2.553 0.01069 *
## hschoolyes -1.0841 0.4045 -2.680 0.00736 **
## lvrat 2.1168 0.4734 4.472 7.76e-06 ***
## pirat 5.0903 0.7628 6.673 2.51e-11 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 1744.2 on 2379 degrees of freedom
## Residual deviance: 1409.8 on 2373 degrees of freedom
## AIC: 1423.8
##
## Number of Fisher Scoring iterations: 5
# Kiểm định sự phù hợp của mô hình bằng cách tính giá trị Prob(LR statistic)
lr_test <- anova(mh1, test = "Chisq")
# Lấy giá trị Prob(LR statistic)
p_value <- lr_test$Pr[2]
p_value
## [1] 2.545699e-19
Giả thuyết \(H_0\): Mô hình không phù hợp
Với P-value = Prob(LR) < 0 bác bỏ giả thuyết \(H_0\) nên mô hình phù hợp với dữ liệu.
# Giá trị BrierScore
BrierScore(mh1)
## [1] 0.08319738
# Ma trận nhầm lẫn
confusionMatrix(table(predict(mh1, type = "response")>=0.5, mh1$data$deny == 'yes'))
## Confusion Matrix and Statistics
##
##
## FALSE TRUE
## FALSE 2084 229
## TRUE 11 56
##
## Accuracy : 0.8992
## 95% CI : (0.8864, 0.911)
## No Information Rate : 0.8803
## P-Value [Acc > NIR] : 0.002058
##
## Kappa : 0.2856
##
## Mcnemar's Test P-Value : < 2.2e-16
##
## Sensitivity : 0.9947
## Specificity : 0.1965
## Pos Pred Value : 0.9010
## Neg Pred Value : 0.8358
## Prevalence : 0.8803
## Detection Rate : 0.8756
## Detection Prevalence : 0.9718
## Balanced Accuracy : 0.5956
##
## 'Positive' Class : FALSE
##
mh2 <- glm(deny~afam + insurance + single + hschool + lvrat + pirat , family = binomial(link = 'probit'), data = d)
summary(mh2)
##
## Call:
## glm(formula = deny ~ afam + insurance + single + hschool + lvrat +
## pirat, family = binomial(link = "probit"), data = d)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -2.50818 0.31858 -7.873 3.46e-15 ***
## afamyes 0.58494 0.08924 6.555 5.58e-11 ***
## insuranceyes 2.46627 0.26977 9.142 < 2e-16 ***
## singleyes 0.20432 0.07441 2.746 0.00604 **
## hschoolyes -0.59775 0.23210 -2.575 0.01001 *
## lvrat 0.97393 0.23811 4.090 4.31e-05 ***
## pirat 2.56572 0.39850 6.438 1.21e-10 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 1744.2 on 2379 degrees of freedom
## Residual deviance: 1413.8 on 2373 degrees of freedom
## AIC: 1427.8
##
## Number of Fisher Scoring iterations: 5
# Kiểm định sự phù hợp của mô hình bằng cách tính giá trị Prob(LR statistic)
lr_test <- anova(mh2, test = "Chisq")
# Lấy giá trị Prob(LR statistic)
p_value <- lr_test$Pr[2]
p_value
## [1] 2.545699e-19
Giả thuyết \(H_0\): Mô hình không phù hợp
Với P-value = Prob(LR) < 0 bác bỏ giả thuyết \(H_0\) nên mô hình phù hợp với dữ liệu.
#Giá trị Brier Score
BrierScore(mh2)
## [1] 0.08342295
# Ma trận nhầm lẫn
confusionMatrix(table(predict(mh2, type = "response")>=0.5, mh1$data$deny == 'yes'))
## Confusion Matrix and Statistics
##
##
## FALSE TRUE
## FALSE 2088 231
## TRUE 7 54
##
## Accuracy : 0.9
## 95% CI : (0.8872, 0.9118)
## No Information Rate : 0.8803
## P-Value [Acc > NIR] : 0.001342
##
## Kappa : 0.2818
##
## Mcnemar's Test P-Value : < 2.2e-16
##
## Sensitivity : 0.9967
## Specificity : 0.1895
## Pos Pred Value : 0.9004
## Neg Pred Value : 0.8852
## Prevalence : 0.8803
## Detection Rate : 0.8773
## Detection Prevalence : 0.9744
## Balanced Accuracy : 0.5931
##
## 'Positive' Class : FALSE
##
mh3 <- glm(deny~afam + insurance + single + hschool + lvrat + pirat , family = binomial(link = 'cloglog'), data = d)
## Warning: glm.fit: algorithm did not converge
## Warning: glm.fit: fitted probabilities numerically 0 or 1 occurred
summary(mh3)
##
## Call:
## glm(formula = deny ~ afam + insurance + single + hschool + lvrat +
## pirat, family = binomial(link = "cloglog"), data = d)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -3.7766 0.4601 -8.207 2.26e-16 ***
## afamyes 0.9358 0.1400 6.685 2.30e-11 ***
## insuranceyes 2.8481 0.2196 12.971 < 2e-16 ***
## singleyes 0.3903 0.1239 3.150 0.00163 **
## hschoolyes -0.9666 0.3263 -2.962 0.00305 **
## lvrat 1.5013 0.3565 4.211 2.54e-05 ***
## pirat 2.9350 0.5752 5.102 3.35e-07 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 1744.2 on 2379 degrees of freedom
## Residual deviance: 1436.1 on 2373 degrees of freedom
## AIC: 1450.1
##
## Number of Fisher Scoring iterations: 25
# Kiểm định sự phù hợp của mô hình bằng cách tính giá trị Prob(LR statistic)
lr_test <- anova(mh3, test = "Chisq")
## Warning: glm.fit: algorithm did not converge
# Lấy giá trị Prob(LR statistic)
p_value <- lr_test$Pr[2]
p_value
## [1] 2.545699e-19
Giả thuyết \(H_0\): Mô hình không phù hợp
Với P-value = Prob(LR) < 0 bác bỏ giả thuyết \(H_0\) nên mô hình phù hợp với dữ liệu.
#Giá trị Brier Score
BrierScore(mh3)
## [1] 0.08412496
# Ma trận nhầm lẫn
confusionMatrix(table(predict(mh3, type = "response")>=0.5, mh1$data$deny == 'yes'))
## Confusion Matrix and Statistics
##
##
## FALSE TRUE
## FALSE 2088 232
## TRUE 7 53
##
## Accuracy : 0.8996
## 95% CI : (0.8868, 0.9114)
## No Information Rate : 0.8803
## P-Value [Acc > NIR] : 0.001665
##
## Kappa : 0.2771
##
## Mcnemar's Test P-Value : < 2.2e-16
##
## Sensitivity : 0.9967
## Specificity : 0.1860
## Pos Pred Value : 0.9000
## Neg Pred Value : 0.8833
## Prevalence : 0.8803
## Detection Rate : 0.8773
## Detection Prevalence : 0.9748
## Balanced Accuracy : 0.5913
##
## 'Positive' Class : FALSE
##
| Mô hình | AIC | Deviance | Brier Score | Độ chính xác | Độ nhạy | Độ đặc hiệu |
|---|---|---|---|---|---|---|
| Logit | 1423.8 | 1409.8 | 0.08319738 | 0.8992 | 0.9947 | 0.1965 |
| Probit | 1427.8 | 1413.8 | 0.08342295 | 0.9 | 0.9967 | 0.1895 |
| Cloglog | 1450.1 | 1436.1 | 0.08412496 | 0.8996 | 0.9967 | 0.1860 |
| Lựa chọn | MH1 | MH1 | MH1 | MH2 | MH2 | MH1 |
Dựa vào các tiêu chí đánh giá một mô hình bao gồm AIC, Deviance, Brier Score và độ đặc hiệu đưa ra kết quả cho thấy mô hình 1 - Mô hình sử dụng hàm logit là tốt nhất trong 3 mô hình được đề xuất. Còn về độ chính xác và độ nhạy thì mô hình 2 là mô hình có độ chính xác và độ nhạy lớn nhất nhưng chênh lệch không đáng kể so với mô hình 1, nên ta chọn mô hình 1 - mô hình logit là mô hình phù hợp nhất trong 3 mô hình.
Ta được kết quả mô hình:
\(logit(\pi)=log\left(\frac{\pi}{1-\pi}\right)=-0.83197+0.67833.afamyes+2.62368.insuranceyes+0.22048.singleyes-0.67503.hschoolyes + 2.1168lvrat + 5.0903pirat\)
Kết quả hồi quy với hàm logit cho thấy, 4 biến định tính độc lập và 2 biến định lượng độc lập đưa vào mô hình hồi quy cho kết quả hồi quy với 6 biến có ý nghĩa thống kê bao gồm:
afamyes: cá nhân là người Mỹ gôc Phi
insuranceyes: cá nhân là người bị từ chối bảo hiểm thế chấp
singleyes: cá nhân là người độc thân
hschool: cá nhân có bằng tốt nghiệp trung học
lvrat: tỷ lệ vay vốn
pirat: tỷ lệ thanh toán trên thu nhập
Với giả thuyết các yếu tố khác không đổi, ảnh hưởng của từng biến đến được diễn giải như sau:
Ở mức ý nghĩa 0.001, cá nhân là người Mỹ gốc Phi có tác động đáng kể đến quyết định cho vay thế chấp.
Ở mức ý nghĩa 0.001,cá nhân bị từ chối bảo hiểm thế chấp có tác động đáng kể đến quyết định cho vay thế chấp.
Ở mức ý nghĩa 0.05, cá nhân là người độc thân có tác động đáng kể đến quyết định cho vay thế chấp.
Ở mức ý nghĩa 0.01, cá nhân có bằng tốt nghiệp tủng học có tác động đáng kể đến quyết định cho vay thế chấp.
Ở mức ý nghĩa 0.001, tỷ lệ vay vốn có tác động đến quyết định cho vay thế chấp
Ở mức ý nghĩa 0.001, tỷ lệ thanh toán trên thu nhập có tác động đến quyết định cho vay thế chấp.
Qua các thông tin, sau kết quả phân tích, chúng em nhận thấy sự ảnh hưởng trên đến từ 6 yếu tố khách quan như sau:
Cá nhân là người Mỹ gốc Phi: có 14% trong tổng thể là người Mỹ gốc Phi. cá nhân là người Mỹ gốc Phi không bị từ chối vay thế chấp chiếm 10.21% và cá nhân là người Mỹ gốc Phi bị từ chối vay thế chấp chiếm 4.03%.
Cá nhân bị từ chối bảo hiểm thế chấp: có 2% trong tổng thể là cá nhân bị từ chối bảo hiểm thế chấp. cá nhân bị từ chối bảo hiểm thế chấp không bị từ chối vay thế chấp chiếm 0.2% và cá nhân bị từ chối bảo hiểm thế chấp bị từ chối vay thế chấp chiếm 1.85%.
Cá nhân độc thân: có 39% trong tổng thể là cá nhân độc thân. Cá nhân độc thân không bị từ chối vay thế chấp chiếm 33.4% và cá nhân độc thân bị từ chối vay thế chấp chiếm 5.92%.
Cá nhân có bằng tốt nghiệp trung học: có 98% trong tổng thể là cá nhân có bằng tốt nghiệp trung học. Cá nhân có bằng tốt nghiệp trung học không bị từ chối vay thế chấp chiếm 86.85% và cá nhân có bằng tốt nghiệp trung học bị từ chối vay thế chấp, chiếm 11.51%.
Tỷ lệ vay vốn của một cá nhân có tác động đến quyết định cho vay thế chấp.
Tỷ lệ thanh toán trên thu nhập có tác động đến quyết định cho vay thế chấp.
Như vậy, ta có thể thấy quyết định cho vay thế chấp phụ thuộc vào yếu tố cá nhân là người Mỹ gốc Phi, yếu tố bị từ chối bảo hiểm thế chấp,yếu tố có bằng tốt nghiệp trung học, yếu tố độc thân, tỷ lệ vay vốn và tỷ lệ thanh toán trên thu nhập.
[1] Munnell, A. H., Tootell, G. M., Browne, L. E., & McEneaney, J. (1996). Mortgage lending in Boston: Interpreting HMDA data. The American Economic Review, 25-53.
[2] Trần Kim Thanh, Trần Mạnh Tường, Vũ Anh Linh Duy: “Giáo trình Phân tích dữ liệu định tính”, trường Đại học Tài chính – Marketing, Thành phố Hồ Chí Minh.
datatable(d)