load(file = "tcs2019.RData")
####獨立樣本T檢定####
#不同性別的每週看紙本報紙時間是否有顯著差異?
#a1 A1.性別
#c1a    C1a.請問你每週平均有幾天會看紙本報紙?

#準備資料:檢視變數型態
str(tcs2019$a1)#必須是factor型態
##  'haven_labelled' num [1:2000] 2 1 1 2 1 1 1 1 2 2 ...
##  - attr(*, "label")= chr "A1.性別"
##  - attr(*, "format.spss")= chr "F8.0"
##  - attr(*, "labels")= Named num [1:2] 1 2
##   ..- attr(*, "names")= chr [1:2] "男" "女"
summary(tcs2019$c1a)##必須是numeric型態
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.000   0.000   0.000   1.403   1.125   7.000
str(tcs2019$c1a)
##  num [1:2000] 0 5 3 0 5 0 2 7 0.5 0 ...
##  - attr(*, "label")= chr "C1a.請問你每週平均有幾天會看紙本報紙?"
##  - attr(*, "format.spss")= chr "F8.1"
#轉換格式:轉換為因子(factor)
tcs2019$a1 <- factor(tcs2019$a1, labels = c("男", "女"))
str(tcs2019$a1)
##  Factor w/ 2 levels "男","女": 2 1 1 2 1 1 1 1 2 2 ...
#先畫盒狀圖比較兩組樣本
plot(tcs2019$a1, tcs2019$c1a)#分組盒狀圖:plot(類別變數,連續變數)

# 撰寫分析步驟
# Step1:分析樣本平均數或建立交叉表
summary(tcs2019$a1)
##   男   女 
##  883 1117
summary(tcs2019$c1a)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.000   0.000   0.000   1.403   1.125   7.000
#先分組,再計算
#tapply(被分析的欄位(連續變數),分組依據欄位(類別變數),計算函數)
tapply(tcs2019$c1a, tcs2019$a1, mean)
##       男       女 
## 1.714043 1.157565
#男上網天數為1.714043天,女性上網天數為1.157565天
# Step2:決定顯著水準( 0.1, 0.05, 0.01, 0.001)
# p<0.05
# Step3:寫出虛無假設與對立假設
# H0:μ男 = μ女。不同性別的每週看紙本報紙時間"沒有顯著差異"。
# H1:μ男!= μ女。不同性別的每週看紙本報紙時間"有顯著差異"。
# Step4:決定檢定方法
# 獨立樣本T檢定
# Step5:計算檢定值。
#首先要檢定兩組樣本變異數是否相等
#var.test(依變數~自變數)
var.test(tcs2019$c1a~tcs2019$a1)# (p-value = 1.065e-07)<0.05,變異數不相等。
## 
##  F test to compare two variances
## 
## data:  tcs2019$c1a by tcs2019$a1
## F = 1.401, num df = 882, denom df = 1116, p-value = 1.065e-07
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  1.236984 1.588171
## sample estimates:
## ratio of variances 
##           1.400972
#獨立樣本T檢定(變異數相等設定為var.equal = TRUE,反之為var.equal = FALSE)
#t.test(依變數~自變數, var.equal = TRUE)
t.test(tcs2019$c1a~tcs2019$a1, var.equal = FALSE)
## 
##  Welch Two Sample t-test
## 
## data:  tcs2019$c1a by tcs2019$a1
## t = 4.8101, df = 1724.3, p-value = 1.64e-06
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  0.3295725 0.7833838
## sample estimates:
## mean in group 男 mean in group 女 
##         1.714043         1.157565
#檢定值t = 4.8101, df = 1724.3。
# Step6:計算p值
#p-value = 1.64e-06
# Step7:下決策
#因為(p-value = 1.64e-06)<0.05,所以拒絕虛無假設,對立假設成立:不同性別的每週看紙本報紙時間"有顯著差異"。