BIẾN ĐỊNH TÍNH ĐƯỢC CHỌN ĐỂ PHÂN TÍCH: Gender, University Year BIẾN ĐỊNH LƯỢNG ĐƯỢC CHỌN ĐỂ PHÂN TÍCH: Age, Sleep_Duration, Study_Hours, Screen_Time
setwd("D:/xstk")
library(readr)
student_sleep_patterns <- read_csv("student_sleep_patterns.csv")
## Rows: 500 Columns: 14
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (2): Gender, University_Year
## dbl (12): Student_ID, Age, Sleep_Duration, Study_Hours, Screen_Time, Caffein...
##
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
DLNSV <- read.csv("student_sleep_patterns.csv")
#1.Thực hiện thống kê mô tả: các bảng tần số (phân tổ dữ liệu), biểu đồ.
##1.1.Bảng tần số
###1.1.1.Bảng tần số đơn giản -Số lượng sinh viên của các năm
table(DLNSV$University_Year)
##
## 1st Year 2nd Year 3rd Year 4th Year
## 125 131 132 112
Nhận xét: Số lượng sinh viên năm thứ 3 là cao nhấ, số lương sinh viên tăng nhẹ từ năm nhất đến năm 3 và giảm mạnh ở năm cuối.
###1.1.2.Bảng tần số chéo
table(DLNSV$Gender,DLNSV$University_Year)
##
## 1st Year 2nd Year 3rd Year 4th Year
## Female 43 38 45 40
## Male 44 54 48 40
## Other 38 39 39 32
Nhận xét: Số lượng nam tăng từ năm 1 lên đỉnh điểm ở năm 2 sau đó giảm dần về năm 4. Còn về số lượng nữ tương đối ổn định qua các năm.
###1.1.3.Tần suất chéo ( tỷ lệ tổng)
prop.table(table(DLNSV$Gender,DLNSV$University_Year))
##
## 1st Year 2nd Year 3rd Year 4th Year
## Female 0.086 0.076 0.090 0.080
## Male 0.088 0.108 0.096 0.080
## Other 0.076 0.078 0.078 0.064
Nhận xét: Nhóm nam ở năm 2 chiếm tỷ lệ cao nhất trong toàn bộ dữ liệu và nhóm other ở năm 4 chiếm tỷ lệ thấp nhất. Sự phân bố giữa các ô tương đối đông đều nhưng nhóm nam có xu hướng tập chung nhẹ hơn ở năm 2 so với các nhóm và các năm khác.
###1.1.4.Tần suất chéo tỷ lệ theo hàng(gender)
prop.table(table(DLNSV$Gender,DLNSV$University_Year),margin = 1)
##
## 1st Year 2nd Year 3rd Year 4th Year
## Female 0.2590361 0.2289157 0.2710843 0.2409639
## Male 0.2365591 0.2903226 0.2580645 0.2150538
## Other 0.2567568 0.2635135 0.2635135 0.2162162
Nhận xét: nhóm nữ và nhóm other có sự phân bố tương đối ổn định cho thấy tỷ lệ duy trì học tập của hai nhóm này khá cân bằng qua các năm. Nhóm nam tập trung cao tại năm 2 và giảm mạnh ở năm cuối.
###1.1.5.Tần suất chéo tỷ lệ theo cột (Year)
prop.table(table(DLNSV$Gender,DLNSV$University_Year),margin =2)
##
## 1st Year 2nd Year 3rd Year 4th Year
## Female 0.3440000 0.2900763 0.3409091 0.3571429
## Male 0.3520000 0.4122137 0.3636364 0.3571429
## Other 0.3040000 0.2977099 0.2954545 0.2857143
Nhận xét: Sự chênh lệch giới tính lớn nhất nằm ở năm 2, Tuy nhiên, về tỷ lệ duy trì học tập, nhóm nam có vẻ giảm tỷ trọng trong tổng thể qua các năm, trong khi nhóm nữ giữ hoặc tăng nhẹ tỷ trọng của mình.
##1.2. Phân tổ dữ liệu Phân tổ dữ liệu cho Study Hours
range(DLNSV$Study_Hours)
## [1] 0.1 12.0
a=cut(DLNSV$Study_Hours,breaks = seq(0,12,1),include.lowest = T)
table(a)
## a
## [0,1] (1,2] (2,3] (3,4] (4,5] (5,6] (6,7] (7,8] (8,9] (9,10]
## 46 44 41 35 39 45 40 52 40 38
## (10,11] (11,12]
## 36 44
=> Ý nghĩa: Tổ 8: Có 52 sinh viên có thời gian học 7-8 tiếng/ngày Tổ 4: CÓ 35 sinh viên có thời gian học 3-4 tiếng một ngày
##1.3. Biểu đồ
###1.3.1. Biểu đồ tròn
pie(table(DLNSV$Gender),labels =c("Female","Male","Other"),col = terrain.colors(3),main="Biểu đồ tròn cho Gender")
=> Nhận xét: Tỷ lệ giới tính của Male, Female, Other là tương đối
bằng nhau .
###1.3.2. Biểu đồ thanh
barplot(table(DLNSV$University_Year),names.arg = c("1st Year","2nd Year","3rd Year","4th Year"),col = terrain.colors(4),main="Biểu đồ thanh về University Year",horiz=T)
=> Nhận xét: Số sinh viên đang học ở năm 3 chiếm tỉ lệ lớn nhất. Số
sinh viên học năm 4 chiếm tỉ lệ ít nhất . Biểu đồ thanh về năm học đại
học của sinh viên được chia đều vào các năm không có quá nhiều sự chênh
lệch
###1.3.3. Biểu đồ phân phối tần số
hist(DLNSV$Age,breaks = seq(0,30,5),col="lightgreen", main="Biểu đồ phân phối tần số của Age",xlab="Tuổi",ylab="Tần số")
Nhận xét: Dữ liệu phân bổ không đều ,không đối xứng,lệch trái ,tập trung
chủ yếu ở [20,25]
###1.3.4. Biểu đồ hộp và râu
boxplot(DLNSV$Age, col="lightblue", horizontal=T,main="Biểu đồ hộp và râu cho Age",xlab="Tuổi")
Nhận xét: - Age thấp nhất bằng 18, cao nhất bằng 25 - Các tứ phân vị lần
lượt: 20,21,24 - Không có giá trị ngoại biên - Hình dáng của tập dữ liệu
không đối xứng - Phân phối của tập dữ liệu không đều, tập trung bên
phải.
###1.3.5. Biểu đồ thân và lá
stem(DLNSV$Physical_Activity, scale=0.5)
##
## The decimal point is 1 digit(s) to the right of the |
##
## 0 | 000122223333344445555666667777778888999999
## 1 | 000011222222344445556666677788899
## 2 | 0000011122333334444555555666667777777778888
## 3 | 0111222333334455556666777778999
## 4 | 00000011122222333334444455555666666677888999
## 5 | 0001122222223333333334445555666666677788888889999
## 6 | 00011112344444455666667777778888999
## 7 | 00001112333444444455556666777899
## 8 | 000011123333333344555555566666667777888999999
## 9 | 000011122222222333333444455555667777778888899999999
## 10 | 00001111122233333344444455556666777777888888889
## 11 | 00000011122233333444455555566667778888899999
## 12 | 0000
Nhận xét: - Phân bố hơi lệch phải nhẹ: phần đuôi dài về phía giá trị lớn (100–120 phút). - Phần lớn sinh viên hoạt động từ 20 đến 80 phút mỗi ngày
#2. Tính toán các đại lượng thống kê mô tả
##2.1. Số đo hướng tâm - Trung bình của Sleep Duration
mean(DLNSV$Sleep_Duration)
## [1] 6.4724
=> Ý nghĩa: Thời gian ngủ trung bình của sinh viên đại học là ~ 6.47 tiếng
median(DLNSV$Sleep_Duration)
## [1] 6.5
=> Ý nghĩa: có không quá 50% số sinh viên có thời gian ít hơn 6.5 tiếng và có không quá 50% sinh viên có thời gian ngủ là nhiều hơn 6.5 tiếng.
which(table(DLNSV$Study_Hours)==max(table(DLNSV$Study_Hours)))
## 10.4
## 100
=> Ý nghĩa: Thời gian học 10.4 tiếng xuất hiện nhiều nhất ở vị trí thứ 100
##2.2. Số đo phân bổ
###2.2.1. Tứ phân vị
quantile(DLNSV$Study_Hours)
## 0% 25% 50% 75% 100%
## 0.10 2.90 6.05 8.80 12.00
=> Ý nghĩa: - Tứ phân vị thứ 1: Có không quá 25% sinh viên trong tập dữ liệu có thời gian học ít hơn 2.9 tiếng và có không quá 75% sinh viên học nhiều hơn 2.9 tiếng. - Tứ phân vị thứ 2: Có không quá 50% sinh viên trong tập dữ liệu có thời gian học ít hơn 6.05 tiếng và có không quá 50% sinh viên học nhiều hơn 6.05 tiếng. - Tứ phân vị thứ 2: Có không quá 75% sinh viên trong tập dữ liệu có thời gian học ít hơn 8.8 tiếng và có không quá 25% sinh viên học nhiều hơn 8.8 tiếng.
###2.2.2. Phân vị thứ 80 của Sleep Duration
quantile(DLNSV$Study_Hours,0.8)
## 80%
## 9.42
=> Ý nghĩa: Có không quá 40% sinh viên trong tập dữ liệu có thời gian học ít hơn 9.42 tiếng và có không quá 60% sinh viên học nhiều hơn 9.42 tiếng.
##2.3. Sơ đồ phân tán - Khoảng biến thiên
range(DLNSV$Sleep_Duration)
## [1] 4 9
quantile(DLNSV$Screen_Time)
## 0% 25% 50% 75% 100%
## 1.0 1.8 2.6 3.3 4.0
3.3-1.8
## [1] 1.5
var(DLNSV$Sleep_Duration)
## [1] 2.207493
=> Ý nghĩa: Độ biến động về số giờ ngủ của sinh viên là ~ 2.21
sd(DLNSV$Sleep_Duration)
## [1] 1.485764
=> Ý nghĩa: Độ phân tán về thời lượng ngủ của các sinh viên so với thời gian ngủ trung bình của các sinh viên là ~ 1.486 tiếng.
#3.Các bài toán ước lượng điểm, ước lượng khoảng
##3.1.Bài toán về ước lượng điểm và khoảng cho trung bình của một tổng thể: Tìm ước lượng điểm và khoảng tin cậy 95% cho thời gian học của sinh viên năm 3 là nam giới.
###3.1.1.Ước lượng điểm
mean(DLNSV$Study_Hours[DLNSV$Gender == "Male" & DLNSV$University_Year == "3rd Year"])
## [1] 6.604167
Nhận xét: Trung bình thời gian học của sinh viên năm 3 là nam được ước lượng là 6.604167 giờ
##3.1.2.Ước lượng khoảng
svnam = subset(DLNSV$Study_Hours, DLNSV$Gender=='Male' & DLNSV$University_Year=='3rd Year')
t.test(svnam, conf.level = 0.95)
##
## One Sample t-test
##
## data: svnam
## t = 13.685, df = 47, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## 5.633328 7.575005
## sample estimates:
## mean of x
## 6.604167
Nhận xét: Với mức tin cậy 95%, ta có thể khẳng định trung bình thời gian học của sinh viên nam năm 3 nằm trong khoảng 5.633328 đến 7.575005 giờ
##3.2.Bài toán ước lượng điểm và khoảng cho tỷ lệ một tổng thể: Tìm ước lượng điểm và khoảng tin cậy 90% cho tỷ lệ sinh viên trong nhóm năm hai là nữ
###3.2.1. Ước lượng điểm
38/131
## [1] 0.2900763
Nhận xét: Theo mẫu thu thập được, có khoảng 29% sinh viên năm 2 là nữ
###3.2.2. Ước lượng khoảng
sum(DLNSV$Gender=='Female'& DLNSV$University_Year=='2nd Year')
## [1] 38
sum(DLNSV$University_Year=='2nd Year')
## [1] 131
prop.test(x=38, n=131, conf.level=0.9, correct=F)
##
## 1-sample proportions test without continuity correction
##
## data: 38 out of 131, null probability 0.5
## X-squared = 23.092, df = 1, p-value = 1.545e-06
## alternative hypothesis: true p is not equal to 0.5
## 90 percent confidence interval:
## 0.2296318 0.3590165
## sample estimates:
## p
## 0.2900763
Nhận xét: Với mức độ tin cậy 90%, chúng ta có thể khẳng định rằng tỷ lệ sinh viên năm 2 là nữ trong toàn bộ quần thể nằm trong khoảng từ 22.96% đến 35.90%
##3.3.Bài toán ước lượng điểm cho độ lệch chuẩn của một tổng thể:
Tìm ước lượng điểm cho độ lệch chuẩn về thời gian ngủ của sinh viên năm 2 là nữ giới.
svnu=subset(DLNSV$Sleep_Duration, DLNSV$Gender=='Female'& DLNSV$University_Year=='2nd Year')
sd(svnu)
## [1] 1.55919
Nhận xét: Độ lệch chuẩn ước lượng được tính là 1.55919. Độ phân tán: Con số này cho thấy mức độ phân tán của thời gian ngủ của các sinh viên nữ năm 2 so với trung bình. Sự khác biệt cá nhân: Một độ lệch chuẩn lớn như vậy cho thấy có sự khác biệt đáng kể về thời gian ngủ giữa các cá nhân trong nhóm này. Có những sinh viên ngủ rất ít, trong khi những sinh viên khác lại ngủ rất nhiều. Tính đồng đều: Độ lệch chuẩn cao cho thấy dữ liệu không đồng đều, tức là thời gian ngủ của các sinh viên phân bố khá rộng.
##3.4. Bài toán ước lượng điểm cho phương sai của một tổng thể: Tìm ước lượng điểm cho phương sai về thời gian sử dụng thiết bị điện tử của sinh viên nam.
namdientu=subset(DLNSV$Screen_Time,DLNSV$Gender=='Male')
var(namdientu)
## [1] 0.8102206
Nhận xét: Phương sai ước lượng được là 0.8102206 Sự tập trung: Giá trị phương sai tương đối nhỏ cho thấy thời gian sử dụng thiết bị điện tử của các sinh viên nam có xu hướng tập trung quanh một giá trị trung bình nhất định. Tính đồng đều: Phương sai nhỏ cho thấy dữ liệu tương đối đồng đều, để tức là thời gian sử dụng thiết bị điện tử của các sinh viên nam không khác biệt nhau nhiều.
#4.Các bài toán kiểm định tham số một tổng thể
Một nhà nghiên cứu cho rằng thời gian ngủ trung bình của sinh viên đại học là 7 giờ mỗi đêm. Để kiểm tra giả thuyết này, một mẫu ngẫu nhiên gồm 500 sinh viên được khảo sát và thời gian ngủ của họ được ghi lại (đo bằng giờ). Hãy kiểm định kết quả trên với mức ý nghĩa 5%.
Gọi μ là thời gian ngủ trung bình của sinh viên đại học.. => H0 :μ=7: Thời gian ngủ trung bình của sinh viên đại học là 7 giờ. H1:μ≠7H: Thời gian ngủ trung bình của sinh viên khác 7 giờ. => Đây là bài toán kiểm định hai phía
a= summary(DLNSV$Sleep_Duration)
a
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 4.000 5.100 6.500 6.472 7.800 9.000
t.test(a,mu=7, alternative = "two.sided")
##
## One Sample t-test
##
## data: a
## t = -0.71049, df = 5, p-value = 0.5092
## alternative hypothesis: true mean is not equal to 7
## 95 percent confidence interval:
## 4.592781 8.364686
## sample estimates:
## mean of x
## 6.478733
Kết luận: Ta có p-giá trị=0.5092 > 0.05=mức ý nghĩa => Chấp nhận H0, bác bỏ H1, tức là chưa đủ cơ sở để cho rằng thời gian ngủ trung bình của sinh viên là 7 giờ.
##4.2.kiểm định tỉ lệ một tổng thể Bài toán kiểm định tỷ lệ một tổng thể: Một nhà nghiên cứu muốn kiểm tra xem tỷ lệ sinh viên đại học thực hiện hoạt động thể chất tối thiểu 30 phút mỗi ngày là 50%. Một mẫu ngẫu nhiên gồm 500 sinh viên được khảo sát để kiểm tra xem tỷ lệ sinh viên đạt được mức hoạt động này có cao hơn 50% không . Hãy kiểm định kết quả trên với mức ý nghĩa 5%
x=sum(DLNSV$Physical_Activity>=30)
x
## [1] 382
prop.test(x,n=500,p=0.50,alt="g",correct=FALSE)
##
## 1-sample proportions test without continuity correction
##
## data: x out of 500, null probability 0.5
## X-squared = 139.39, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is greater than 0.5
## 95 percent confidence interval:
## 0.7313957 1.0000000
## sample estimates:
## p
## 0.764
Kết quả: Ta thấy p_value= 2.2e-16 < 0.05 nên ta bác bỏ H0. Vậy tại mức ý nghĩa 5%, có đủ bằng chứng thống kê để kết luận rằng tỷ lệ sinh viên có hoạt động thể chất tối thiểu 30 phút mỗi ngày CAO HƠN 50% trong mẫu sinh viên điều tra.
#5. Các bài toán kiểm định tham số hai tổng thể
##5.1 Kiểm định trung bình hai tổng thể Bài toán kiểm định cho trung bình 2 tổng thể: Một nhà nghiên cứu muốn kiểm tra xem liệu thời gian ngủ trung bình của sinh viên năm nhất có khác với thời gian ngủ trung bình của sinh viên năm cuối hay không. Một mẫu ngẫu nhiên gồm các sinh viên được khảo sát và thời gian ngủ của họ được ghi nhận (đo bằng giờ). Hãy kiểm định kết quả trên với mức ý nghĩa 5% Gọi μ1 là trung bình thời gian ngủ trung bình của sinh viên năm nhất, μ2là trung bình thời gian ngủ trung bình của sinh viên năm cuối. H0: μ1 =μ2 H1: μ1 # μ2 => Bài toán hai biên
x3b=subset(DLNSV$Sleep_Duration,DLNSV$University_Year=="4th Year")
y3b=subset(DLNSV$Sleep_Duration, DLNSV$University_Year=="1st Year")
t.test(y3b, x3b,alternative = "two.sided",mu = 0,paired = FALSE,var.equal = FALSE)
##
## Welch Two Sample t-test
##
## data: y3b and x3b
## t = 0.90202, df = 233.82, p-value = 0.368
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -0.2007071 0.5396928
## sample estimates:
## mean of x mean of y
## 6.493600 6.324107
p-value = 0.368 >0.05 => bác bỏ H1 chấp nhận H0 Với mức ý nghĩa 5%, có cơ sở cho rằng thời gian ngủ trung bình của sinh viên năm nhất và năm cuối là như nhau.
##5.2. Tỉ lệ Một nhà nghiên cứu muốn kiểm tra xem tỷ lệ sinh viên năm nhất ngủ ít hơn 6 giờ mỗi đêm có khác biệt đáng kể so với tỷ lệ sinh viên năm cuối ngủ ít hơn 6 giờ mỗi đêm hay không.
sum(DLNSV$University_Year=="1st Year"&DLNSV$Sleep_Duration<6)
## [1] 50
sum(DLNSV$University_Year=="4th Year"&DLNSV$Sleep_Duration<6)
## [1] 46
sum(DLNSV$University_Year=="1st Year")
## [1] 125
prop.test(c(46,50),c(112,125),alt="t",correct=FALSE)
##
## 2-sample test for equality of proportions without continuity correction
##
## data: c(46, 50) out of c(112, 125)
## X-squared = 0.028139, df = 1, p-value = 0.8668
## alternative hypothesis: two.sided
## 95 percent confidence interval:
## -0.1144930 0.1359215
## sample estimates:
## prop 1 prop 2
## 0.4107143 0.4000000
p-value=0.86 > 0.05 => bác bỏ H1 chấp nhận H0 Tại mức ý nghĩa 5%, có thể cho rằng tỷ lệ sinh viên năm nhất và năm cuối ngủ ít hơn 6h là như nhau
##5.3. Phương sai Bài toán kiểm định cho phương sai 2 tổng thể: Một nhà nghiên cứu muốn kiểm tra xem liệu sự biến thiên (phương sai) trong thời gian ngủ của sinh viên năm nhất có khác biệt so với sinh viên năm cuối hay không. Dữ liệu thời gian ngủ (tính bằng giờ) được thu thập từ hai nhóm sinh viên này. Mức ý nghĩa 5% Gọi V1, V2 lần lượt là phương sai của thời gian ngủ của sinh viên năm nhất bằng phương sai thời gian ngủ của sinh viên năm cuối. H0: V1 = V2 H1: V1 ≠ V2
group1 = DLNSV$Sleep_Duration[DLNSV$University_Year == "1st Year"]
group2 = DLNSV$Sleep_Duration[DLNSV$University_Year == "4th Year"]
var.test(group1, group2, conf.level = 0.95)
##
## F test to compare two variances
##
## data: group1 and group2
## F = 1.0817, num df = 124, denom df = 111, p-value = 0.6743
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.7503061 1.5536878
## sample estimates:
## ratio of variances
## 1.081699
Nhận xét p-giá trị = 0.6743 < mức ý nghĩa => Không có đủ bằng chứng thống kê để khẳng định rằng phương sai thời gian ngủ của sinh viên năm nhất khác phương sai thời gian ngủ của sinh viên năm cuối.
#6. Phân tích phương sai ANOVA, phân tích sâu TukeyHSD ##6.1. ANOVA Một nhà nghiên cứu muốn kiểm tra xem thời gian ngủ trung bình của sinh viên có khác nhau giữa các năm học (năm nhất, năm hai, năm ba và năm cuối) hay không. Dữ liệu thời gian ngủ (tính bằng giờ) được thu thập từ các sinh viên thuộc 4 nhóm năm học này. Mức ý nghĩa 5% Gọi µ1, µ 2, µ 3, µ 4 lần lượt là thời gian ngủ trung bình của các sinh viên năm 1, năm 2, năm 3, năm 4. Ta có giả thuyết: H0: µ 1= µ 2= µ 3= µ 4 (Thời gian ngủ trung bình của các sinh viên năm 1, năm 2, năm 3, năm 4 như nhau) H1: Tồn tại i,j, 1 ≤ i,j ≤ 4, i≠j: µ1≠ µ2 hoặc µ1≠ µ3 hoặc µ1≠ µ4 hoặc µ2≠ µ3 hoặc µ2≠ µ4 hoặc µ3≠ µ4 (Ít nhất 2 sinh viên khác nhau giữa năm học có thời gian ngủ trung bình như nhau)
anova(lm(DLNSV$Sleep_Duration ~ DLNSV$University_Year))
## Analysis of Variance Table
##
## Response: DLNSV$Sleep_Duration
## Df Sum Sq Mean Sq F value Pr(>F)
## DLNSV$University_Year 3 3.61 1.2017 0.5429 0.6532
## Residuals 496 1097.93 2.2136
p-giá trị = 0.653 > 0.05 = mức ý nghĩa => Chấp nhận H0, bác bỏ H1 Kết luận: Tại mức ý nghĩa 5%, thời gian ngủ trung bình của các sinh viên năm 1, năm 2, năm 3, năm 4 như nhau
##6.2 Phân tích sâu
DLNSV <- student_sleep_patterns
PhanTichSau=aov(DLNSV$Sleep_Duration~DLNSV$University_Year,data = DLNSV)
TukeyHSD(PhanTichSau)
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = DLNSV$Sleep_Duration ~ DLNSV$University_Year, data = DLNSV)
##
## $`DLNSV$University_Year`
## diff lwr upr p adj
## 2nd Year-1st Year 0.068232061 -0.4113019 0.5477660 0.9831237
## 3rd Year-1st Year -0.004206061 -0.4828522 0.4744401 0.9999958
## 4th Year-1st Year -0.169492857 -0.6684924 0.3295067 0.8175203
## 3rd Year-2nd Year -0.072438122 -0.5454208 0.4005446 0.9791223
## 4th Year-2nd Year -0.237724918 -0.7312946 0.2558448 0.6006695
## 4th Year-3rd Year -0.165286797 -0.6579940 0.3274204 0.8230291
Nhận xét: 1. H0: µ1=µ2 H1: µ1≠µ2 p-giá trị = 0.9831237 > 0.05 = mức ý nghĩa => Chấp nhận H0, bác bỏ H1 => µ1=µ2
H0: µ1=µ3 H1: µ1≠µ3 p-giá trị = 0.9999958 > 0.05 = mức ý nghĩa => Chấp nhận H0, bác bỏ H1 => µ1=µ3
H0: µ1=µ4 H1: µ1≠µ4 p-giá trị = 0.8175203 > 0.05 = mức ý nghĩa => Chấp nhận H0, bác bỏ H1 => µ1=µ4
H0: µ2=µ3 H1: µ2≠µ3 p-giá trị = 0.9791223 > 0.05 = mức ý nghĩa => Chấp nhận H0, bác bỏ H1 => µ2=µ3
H0: µ2=µ4 H1: µ2≠µ4 p-giá trị = 0.6006695 > 0.05 = mức ý nghĩa => Chấp nhận H0, bác bỏ H1 => µ2=µ4
H0: µ3=µ4 H1: µ3≠µ4 p-giá trị = 0.8230291 > 0.05 = mức ý nghĩa => Chấp nhận H0, bác bỏ H1 => µ3=µ4
Kết luận: Vậy µ 1= µ 2= µ 3= µ 4. Tại mức ý nghĩa 5%, thời gian ngủ trung bình của các sinh viên năm 1, năm 2, năm 3, năm 4 như nhau
#7. Kiểm định phi tham số: kiểm định tính độc lập, kiểm định mức phù hợp ##7.1 Kiểm định tính độc lập Một nhà nghiên cứu muốn kiểm tra xem có mối liên hệ giữa giới tính (nam, nữ, khác) và việc ngủ đủ giấc (ngủ đủ hoặc thiếu ngủ) ở sinh viên đại học hay không. Dữ liệu được thu thập từ một mẫu ngẫu nhiên gồm các sinh viên, trong đó. Giới tính: được phân thành ba nhóm (nam, nữ, khác). Tình trạng giấc ngủ: được chia thành hai nhóm (ngủ đủ hoặc thiếu ngủ, với ngủ đủ là từ 6 giờ trở lên). Mức ý nghĩa 5%.
H0: Giới tính và việc ngủ đủ giấc của sinh viên là độc lập với nhau H1: Giới tính và việc ngủ đủ giấc của sinh viên có liên hệ với nhau
chisq.test(table(DLNSV$Gender,DLNSV$Sleep_Duration))
## Warning in chisq.test(table(DLNSV$Gender, DLNSV$Sleep_Duration)): Chi-squared
## approximation may be incorrect
##
## Pearson's Chi-squared test
##
## data: table(DLNSV$Gender, DLNSV$Sleep_Duration)
## X-squared = 136.59, df = 100, p-value = 0.008853
Nhận xét: p-value = 0.008<0.05 => bác bỏ H0, chấp nhận H1 Kết luận: Tại mức ý nghĩa 5% có thể cho rằng giới tính và việc ngủ đủ giấc của sinh viên là có liên hệ với nhau
##7.2 Kiểm định tính phù hợp Bài toán: Từ dữ liệu 500 sinh viên phía trên, một nhà nghiên cứu thu được bảng tần số như sau: | Năm | Năm nhất | Năm hai | Năm ba | Năm tư |Số lượng| 125 | 131 | 132 | 112 Tại mức ý nghĩa 5%, hãy kiểm định xem nếu phân chia sinh viên dựa theo năm học thì tỷ lệ sinh viên theo từng năm có đồng đều hay không.
H0: Tỷ lệ sinh viên giữa các năm là không đồng đều H1: tỷ lệ sinh viên giữa các năm là đồng đều
ts=c(125,131,132,112)
p=c(0.25,0.25,0.25,0.25)
chisq.test(ts,p=p)
##
## Chi-squared test for given probabilities
##
## data: ts
## X-squared = 2.032, df = 3, p-value = 0.5658
Nhận xét: P-value=0.5658 > 0.05 => bác bỏ H1 chấp nhận H0 Kết luận: Tại MYN 5%, có cơ sở cho rằng tỷ lệ sinh viên giữa các năm là không đồng đều nếu phân chia sinh viên theo năm học