true

Bài tập về nhà tuần 1

Phân phối chuẩn

ppc <- rnorm(100,mean=50,sd=1)
ppc
##   [1] 50.11720 49.29545 49.44064 48.95137 48.97430 50.95756 50.98145 51.81750
##   [9] 50.57978 50.52183 49.65799 50.96078 49.20280 49.91346 49.14021 49.74732
##  [17] 48.72022 49.23655 51.49260 48.29024 50.46182 49.11637 50.78928 48.90607
##  [25] 50.29587 50.80494 48.71065 49.55909 50.63037 49.20649 49.69969 49.40617
##  [33] 50.14633 50.28949 50.71506 50.18383 51.73004 48.43802 52.79807 49.20347
##  [41] 50.38688 50.24921 49.71011 50.22944 50.01755 50.71391 49.04366 49.33823
##  [49] 50.62881 50.40450 50.05329 49.22350 50.73949 48.79504 49.27458 49.20640
##  [57] 48.49542 49.52986 50.94523 50.24547 48.24747 48.22450 50.37321 50.66876
##  [65] 48.71025 48.71871 51.48338 51.00927 48.28227 49.46874 50.86149 50.95186
##  [73] 49.73634 51.13850 50.82816 50.94479 50.14054 50.00925 49.92785 49.54111
##  [81] 50.79738 48.54258 49.99841 49.47398 50.21697 51.28362 50.33143 48.26594
##  [89] 49.97276 48.00972 49.24770 50.29393 49.74245 49.47438 51.49195 49.17549
##  [97] 48.50421 50.38118 50.80336 50.69478
hist(ppc)

summary(ppc)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   48.01   49.21   50.00   49.92   50.68   52.80

Phân Phối Poisson

Ps <- rpois(200,4.5)
Ps
##   [1]  1  1  9  0  8  4  2  3  4  4  6  5  2  2  4  3  7  3 12  3  7  7  3  8  7
##  [26]  6  3  4  9  5  6  3  5  3  7  6  6  5 10  8  5  3  2  4  7  2  7  6  2  5
##  [51]  6  8  6  0  5  6  7  7  3  4  1  5  5  6  6  7  3  4  7  1  4  3  1  5  6
##  [76]  2  8  7  8  6  7  4  3  2  3  4  3  6  6  2  6  8  5  2  4  7  4  6  4  6
## [101]  2  2  5  7 10  4  7  3  3  3  7 10  6  5  2  3  7  3  2  4  5  4 11  3  4
## [126]  2  6  6  6  3  7  4  7  4  3  2  4  1  3  7  4  1  6  2  1  2  3  7  7  2
## [151]  4  8  3  6  5  4  2  4  4  7  3  4  1  3  5  2  3  5  5  3  5  7  4  6  5
## [176]  2  5  6  3  5  3  3  6  4  8  2  3  5  1  3  2  3  6  3  4  1  6  7  5  3
hist(Ps)

summary(Ps)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00    3.00    4.00    4.56    6.00   12.00

Phân phối đều

ppd <- runif(200,min=15,max=35)
ppd
##   [1] 16.44432 17.79821 19.47818 16.90890 20.53445 34.19172 21.26793 24.02326
##   [9] 30.08878 25.36075 23.56963 29.05724 20.27019 30.53430 18.85023 18.01414
##  [17] 34.41332 19.59363 26.20824 19.62452 34.64256 28.80634 30.22988 27.11555
##  [25] 27.82939 34.93547 19.03940 22.77005 27.82830 29.47306 29.86343 20.35253
##  [33] 18.98781 22.60920 25.71730 15.40329 19.87236 16.47019 34.47481 30.00028
##  [41] 26.76434 22.89968 16.35130 29.82970 29.86623 24.89841 29.20759 24.46739
##  [49] 23.02258 29.02050 26.62419 21.24589 15.01557 33.59148 21.82895 21.14735
##  [57] 22.10648 25.81297 19.00260 27.00422 22.13957 29.91351 32.74624 19.70219
##  [65] 18.61299 32.85393 19.30947 34.82287 22.91288 23.15366 19.94428 19.08267
##  [73] 24.47473 16.15951 24.48068 23.33379 29.34356 19.18176 30.31159 33.77495
##  [81] 16.24276 31.29682 25.83709 25.49925 26.79384 23.40085 33.02227 23.08180
##  [89] 24.25798 15.55620 22.37298 26.59908 16.04970 31.00754 22.76706 31.51810
##  [97] 29.65183 30.07373 30.24277 20.11516 28.42651 21.41139 31.80687 20.58149
## [105] 28.34498 34.50349 24.52867 17.76279 25.32549 23.47184 15.55378 21.39784
## [113] 22.09727 28.43730 32.81242 32.65388 27.91888 22.79920 26.34648 34.51438
## [121] 18.90047 23.00277 15.03705 21.36951 30.38745 29.16211 20.85406 32.52600
## [129] 18.44442 30.85587 34.20076 15.87691 31.97942 20.16836 29.10892 29.75131
## [137] 34.77207 33.75383 16.63540 19.08078 23.24283 28.37946 16.75033 16.57579
## [145] 28.33847 21.23129 15.45147 15.45631 22.45395 18.82187 26.23355 34.91142
## [153] 20.39486 26.01722 34.21209 18.58697 21.55321 34.10603 29.82439 33.63766
## [161] 23.30528 33.94943 22.33279 24.25593 17.87250 30.86232 19.66710 21.34306
## [169] 15.41551 19.31095 22.68613 25.99580 31.24637 32.38782 29.61105 21.89398
## [177] 17.10628 21.57454 21.37863 31.81459 25.22576 28.21890 29.34192 21.31145
## [185] 20.21063 18.42896 33.65148 19.83680 17.85536 30.97624 16.70442 30.40011
## [193] 17.44090 20.90346 22.13889 25.83719 18.13214 18.58263 27.15387 32.19747
hist(ppd)

summary(ppd)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   15.02   19.86   23.80   24.73   29.83   34.94

Phân phối Student

St <- rt(200,5,0.5)
St
##   [1] -0.285046331  0.551546787 -5.433400452  0.314496688  3.772939384
##   [6]  0.936083429  0.287843878 -0.266509446 -1.396033575 -0.050393281
##  [11]  0.890521211 -0.465482210  1.501991888  2.963015710  2.808784422
##  [16]  0.736132358  1.307366304 -0.792169944 -0.897717517  1.232463366
##  [21]  2.899492105  1.679143346 -0.456002487  0.463587853  1.588109769
##  [26]  1.125904368  1.767669689 -2.744614216  0.560733038  0.340258184
##  [31]  0.420315407 -0.268493327  2.819700679  0.415421149  0.573840196
##  [36]  1.413424505  0.419877940  0.318410882  3.760710270  1.620152559
##  [41] -1.113373239  2.220677905  4.014436639  2.126952090  1.029549482
##  [46]  1.760448167  0.994428348  1.860518418  1.061634060  0.779624757
##  [51] -0.715464651  1.537766919  0.303264893  0.147154220  0.322657886
##  [56]  0.592782493  2.533608075  0.729269172  1.064766792 -0.030897197
##  [61]  0.571566959  5.380666313  0.289819947  0.728131609 -0.205812325
##  [66] -0.137415296  0.722730764  1.422382718  1.639780462  1.938465150
##  [71]  4.012565368  1.167703452 -1.236125570  1.178378797 -1.806561595
##  [76] -0.124469263  1.783177667  1.505999055 -1.814410411  1.777749384
##  [81]  2.560022833 -1.197598187  2.058088503 -0.169427307 -2.010924966
##  [86]  0.558204998 -0.843631507  0.350703492  1.477687940  0.576429556
##  [91]  0.347894839  0.538052271  0.336518653  0.964746261 -0.192841842
##  [96]  0.615220554  0.979651057  0.847448890 -0.125067033 -1.184011185
## [101]  0.168447765 -0.262736491  5.577621145  2.198561704  4.022980998
## [106] -0.295905149  4.985878983 -1.992485194  2.370214401  0.724882164
## [111] -1.639442598  2.569414449  1.434718594 -1.157044348 -0.560913136
## [116]  2.309338995  0.229832592  1.300214107  0.696032814  0.420426614
## [121]  2.012539315  0.994785136  1.727386390 -0.098574575 -0.020093903
## [126]  1.475767216  0.939179204 -0.407048566  1.060614352  1.081668801
## [131]  0.437530111  0.897705910 -0.418895968 -0.231031373  2.348138141
## [136]  0.307395495  0.621315842  0.475319123  0.002484269  0.242871693
## [141]  0.903556105 -0.087653797  2.186796750  0.521456938 -1.489818355
## [146]  2.416052802 -1.027568265  0.627548661  0.359420834  0.698039925
## [151] -1.460737917  0.218633724  2.276010674 -0.332746854 -0.601653528
## [156]  0.830741661  0.339480220 -0.574294879  0.942680462  0.731119710
## [161]  1.176496288 -0.678579818 -2.664570755 -0.211818198 -0.108223458
## [166] -1.500155737  0.969078483  0.959719035  3.218049243  0.038744859
## [171]  0.672255359  0.117989007 -0.363407135  0.004932332  0.188858232
## [176]  1.336610106 -0.788436093 -0.878876528  2.636563356  1.069817447
## [181]  2.942438556  1.123544010 -1.995303367  3.499548613  3.036010549
## [186]  1.106491222  0.205140667 -0.773965410 -0.912541378  1.082920091
## [191]  0.053893834  1.437666714  0.595688778  0.056877684 -0.048417875
## [196]  0.609368734  0.171055546  0.595133658  1.158260036 -0.966129916
hist(St)

summary(St)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## -5.4334 -0.1246  0.5846  0.6757  1.4157  5.5776

Phân Phối nhị thức

ppnt <- rbinom(300,50,0.3)
ppnt
##   [1] 12  9 13 16 15 16 15 21 14 16 10 12 16 15 16 10 18 12 13 18 16 18 19 26 19
##  [26] 10 21 19 11 18 21 17 13 16 16 14 11 16 19 14 19 15 15 17 13 15 12 11 18 11
##  [51] 13 18  9 14 15 12 16 15 18 21 22 18 15 16 16 16 15 16 25 17 15 23 17 12 16
##  [76] 18 15 15  9 16 13 15 15 12 14 13 16 15 13 18 18 16 12 14 17 15 16 19 17 17
## [101] 17 17 14 16 12 14 16 18 10 17 12 14 18 17 16  9 12 11 11 14 13 14 20 14 19
## [126] 17 19 14 12 16 16 16 19 18 13 15 17 12 13 17 21 18 16 13 16 12 15  9 23 14
## [151] 10 15 15 13 13 19 17 14 12 12 15 15 11 13 16 17 14 11 23 11 18 11 14 12 18
## [176] 16 21 15 20 16 15 13 19 19 11 13 21 17 17 12 20 11 14 16 19 11 15 17 18 21
## [201] 18 16 16 16 19 12 17 15 14 18 14 14 14 13 14 18 14 12 18 23 15 22 14 11 11
## [226] 16 17 13 15 13 18 19 16 18 18 11 15 19 14 11 12 13 12 15 16 17 17 11 14 16
## [251] 11 10  9 20 12 17 15  7  7 11 18 14 13 18 12 11 14 13 13  9 15 17 14 22 11
## [276] 20 13 16  8 12 13 17 16 14 15 20 17 14 16 24 11 11 14 17 16 20 19 17 13 17
hist(ppnt)

summary(ppnt)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    7.00   13.00   15.00   15.21   17.00   26.00

Tuần 1

Dữ liệu nghiên cứu có liên quan đến các chiến dịch tiếp thị trực tiếp(gọi điện thoại) của một tổ chức ngân hàng Bồ Đào Nha. Mục tiêu phân loại là khảo sát có đăng kí tài khoản tiền gửi có kì hạn hay không.

Dữ liệu bao gồm 10217 quan sát, có 8 biến (2 biến định lượng,6 biến định tính)

Giải thích các biến

Các biến định tính

Các biến định lượng

library(readxl)
datadt <- read_excel("C:/data/datadt.xlsx")
datadt
## # A tibble: 10,127 × 8
##      age job   marital default housing loan  term_deposit Total_Relationship_C…¹
##    <dbl> <chr> <chr>   <chr>   <chr>   <chr> <chr>                         <dbl>
##  1    58 mana… married no      yes     no    no                                5
##  2    44 tech… single  no      yes     no    no                                6
##  3    33 entr… married no      yes     yes   no                                4
##  4    47 blue… married no      yes     no    no                                3
##  5    33 unkn… single  no      no      no    no                                5
##  6    35 mana… married no      yes     no    no                                3
##  7    28 mana… single  no      yes     yes   no                                6
##  8    42 entr… divorc… yes     yes     no    no                                2
##  9    58 reti… married no      yes     no    no                                5
## 10    43 tech… single  no      yes     no    no                                6
## # ℹ 10,117 more rows
## # ℹ abbreviated name: ¹​Total_Relationship_Count

Tuần 2

Chọn biến định lượng làm biến phụ thuộc : biến term_deposit

Tiết kiệm có kỳ hạn là một khoảng tiền cá nhân được người gửi gửi vào tài khoản tiết kiệm trong một khoảng thời gian nhất định do ngân hàng thương mại đưa ra và định trước. Thường khi người gửi chọn phương thức gửi tiết kiệm này thì họ đã có một khoản thu nhập thường xuyên và ổn định đáp ứng đủ cho nhu cầu sinh hoạt hàng tháng của họ vì vậy đa số những khách hàng lựa chọn phương thức này vì mục đích được hưỡng lợi tức nhiều hơn và có được theo định kỳ.

Tuy đây là nghiệp vụ không mang lại lợi nhuận trức tiếp của ngân hàng nhưng nghiệp vụ này đóng vai trò rất lớn trong bộ máy hoạt động của ngân hàng thương mại. Mỗi ngân hàng thương mại kể từ được cấp phép thành lập bắt buộc phải có vốn điều lệ theo quy định của Ngân Hàng Nhà Nước. Nhưng vốn điều lệ ban đầu đó chỉ đủ để mua những tài sản cố định như trụ sở văn phòng, máy móc, trang thiết bị cần thiết cho hoạt động kinh doanh như cấp tín dụng và các dịch vụ bán lẻ ngân hàng khác. Để duy trì và cung cấp đầy đủ các hoạt động khác của ngân hàng thì việc huy động vốn từ khách hàng là một trong những hoạt động cần thiết của ngân hàng thương mại

Chọn biến định tính: biến Total_Relationship_Count

Ta tiến hành phân tích xem số lượng sản phẩm của ngân hàng mà khách hàng sở hữu có ảnh hưởng đến việc mở tài khoản tiền gửi của khách hàng hay không.

Tuần 3: Làm thống kê mô tả cho ít nhất 5 biến

Chọn 5 biến :

Giải thích và thống kê mô tả cho từng biến

Bảng tần số cho cuộc khảo sát

Trong phần này chúng ta sẽ sử dụng dữ liệu về cuộc khảo sát KH qua điện thoại về đăng kí tài khoản tiền gửi có kì hạn

datadt <- read_excel("C:/data/datadt.xlsx",sheet=1)
str(datadt)
## tibble [10,127 × 8] (S3: tbl_df/tbl/data.frame)
##  $ age                     : num [1:10127] 58 44 33 47 33 35 28 42 58 43 ...
##  $ job                     : chr [1:10127] "management" "technician" "entrepreneur" "blue-collar" ...
##  $ marital                 : chr [1:10127] "married" "single" "married" "married" ...
##  $ default                 : chr [1:10127] "no" "no" "no" "no" ...
##  $ housing                 : chr [1:10127] "yes" "yes" "yes" "yes" ...
##  $ loan                    : chr [1:10127] "no" "no" "yes" "no" ...
##  $ term_deposit            : chr [1:10127] "no" "no" "no" "no" ...
##  $ Total_Relationship_Count: num [1:10127] 5 6 4 3 5 3 6 2 5 6 ...
## *Bảng thống kê mô tả biến Total_Relationship_Count*
summary(datadt$Total_Relationship_Count)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.000   3.000   4.000   3.813   5.000   6.000

Dựa vào số liệu thống kê, ta thấy số lượng sản phẩm của Nh mà khách hàng sở hữu ít nhất là 1 sản phẩm, nhiều nhất là 6 sản phẩm. Trung bình mỗi khách hàng sẽ sở hữu khoảng 4 sản phẩm của ngân hàng và có 50% số khách hàng sở hữu 4 sản phẩm.

## *Bảng tần suất của biến Marital*
table(datadt$marital)
## 
## divorced  married   single 
##     1212     6171     2744
## *Bảng tần suất của biến Marital theo %*
table(datadt$marital)/sum(table(datadt$marital))
## 
##  divorced   married    single 
## 0.1196801 0.6093611 0.2709588

Dựa vào kết quả phân tích ta thấy % số người được gọi khảo sát cao nhất thuộc vào nhóm người đã kết hôn chiếm 60.93%, sau đó là nhóm người chưa kết hôn chiếm 27.09% và đã ly hôn chiếm 11.96%

## *Đồ thị cột biến Marital*
library(ggplot2)
datadt |> ggplot(aes(marital)) +
  geom_bar(olor = 'blue', fill = 'green')
## Warning in geom_bar(olor = "blue", fill = "green"): Ignoring unknown
## parameters: `olor`

## *Bảng tần suất biến default*
table(datadt$default)
## 
##   no  yes 
## 9904  223
## *Bảng tần suất biến default  theo %*
table(datadt$default)/sum(table(datadt$default))
## 
##         no        yes 
## 0.97797966 0.02202034

Dựa theo kết quả thống kê thì số khách hàng có khoản vỡ nợ khi sử dụng dịch vụ tín dụng của ngân hàng chiếm tỉ lệ rất thấp chỉ khoảng 2,2%.

## *Đồ thị cột biến Default*
library(ggplot2)
datadt |> ggplot(aes(default)) +
  geom_bar(olor = 'blue', fill = 'green')
## Warning in geom_bar(olor = "blue", fill = "green"): Ignoring unknown
## parameters: `olor`

## *Bảng tần suất biến loan*
table(datadt$loan)
## 
##   no  yes 
## 8638 1489
## *Bảng tần suất biến loan theo %*
table(datadt$loan)/sum(table(datadt$loan))
## 
##        no       yes 
## 0.8529673 0.1470327

Theo bảng tần suất về khoản vay cá nhân của khách hàng thì tỉ lệ khách hàng có khoản vay cá nhân chiếm khá thấp khoảng 14.7% và tỉ lệ khách hàng không có khoản vay cá nhân chiếm khá cao 85.29%

## *Đồ thị cột của biến Loan*
library(ggplot2)
datadt |> ggplot(aes(default)) +
  geom_bar(olor = 'blue', fill = 'yellow')
## Warning in geom_bar(olor = "blue", fill = "yellow"): Ignoring unknown
## parameters: `olor`

## *Bảng tần số biến term_deposit*
table(datadt$term_deposit)
## 
##   no  yes 
## 9770  357

Theo bảng tần số của biến có tài khoản tiết kiệm có kì hạn, số người chưa có tài khoản chiếm khá lớn 9770 trong 10128 người, chỉ có 357 người đã có tài khoản tiết kiệm có kì hạn.

## *Đồ thị cột của biến term_deposit
library(ggplot2)
library(ggplot2)
datadt |> ggplot(aes(default)) +
  geom_bar()

Lập bảng ngẫu nhiên hai chiều phân tích biến Loan và biến marital

tmp <-  table(datadt$loan, datadt$marital)
tmp
##      
##       divorced married single
##   no      1035    5190   2413
##   yes      177     981    331

Dựa vào bảng ta thấy:

ggplot(datadt, aes(marital, fill = loan)) + geom_bar(position = 'dodge')

Lập bảng ngẫu nhiên hai chiều phân tích biến term_deposit và Total_Relationship_Count

tmp <-  table(datadt$term_deposit, datadt$Total_Relationship_Count)
tmp
##      
##          1    2    3    4    5    6
##   no   856 1196 2234 1857 1829 1798
##   yes   54   47   71   55   62   68
ggplot(datadt, aes(Total_Relationship_Count, fill =term_deposit )) + geom_bar(position = 'dodge')