第一天

自我介紹

我大學是讀社工、諮商等助人工作相關背景的科系,當初去非營利機構進行實習時,看到實務現場會以一些簡單的KPI指標,像是服務幾次、訪視幾次等,作為檢視績效表現的依據,但過程中缺乏分析服務對象使用感受的資料。從中讓我意識到助人工作界,缺乏在使用者體驗的資料系統,而這也是我所關注,會想要進一步去改善的方向。 在我的想像中這樣的系統會包含量化與質性資料,故這次的工作坊非常符合我的需求,我會希望藉此了解如何以厚數據的方式,整理較完整的資料,並且能夠更貼近真實情境。

思考與書寫

挑戰一

請舉至少一個例子,說說你的觀察,有什麼情形是消費者的行為跟企業所預期的不一樣?
我想要舉的例子是: 外送平台為了想要推動環保,所以在選購餐點時,將不拿取一次性餐具設定為預設選項,如果沒特別注意的消費者可能就沒有餐具可以使用;原先外送平台預想這樣的改變可以漸漸改變消費者的行為,能夠進而提升環保意識,但不僅沒有,反而還引來消費者排山倒海的反對與批評。

挑戰二

有位知名大學的校長認為現在技術會愈來愈平民化,「人人都能成為資料科學家」因此,企業應鼓勵員工參與校調AI(透過學習和調整逐漸最佳化),珍視自己的公司員工,透過他們這些領域專家來嗅出無意義的推論。你覺得這樣的論點如何?  我認同前面提到資料、技術的普遍化,進入資料科學的門檻應會逐漸降低;但我認為除了一直最佳化數據的蒐集方式,其中應該也要知道自己要清楚自己想知道的現象是什麼,以及要不斷問自己,蒐集到這些關於現象的資料,那然後呢?那又怎樣?如此才能有效地運用資料,讓企業與員工往一個較適當的方向運行。

挑戰三

以下是給準備要拿中山大學110學年度第一學期「厚資料與意義探勘」課程的同學的題目,若你尚未取得並初步閱讀《演算法下的行銷優勢 》(Sensemaking: The Power of the Humanities in the Age of the Algorithm)這本書,請務必在工作坊結束後的一週內(截止於9/3 17:00) 將這題完成。你的出席佔學期得分的40%;兩天的全部作業佔60%。
為什麼非技術導向的專家在大數據時代會覺得自己使不上力?你看完這本書後給自己的定位為何?並請你指出那些觀念對你最有啟發,或你最想挑戰作者的那些觀念(評論時請加上書中的頁碼)。

我想要問老師的問題

把你來到這個工作坊心中的問題寫下,或是指明想問那位老師什麼問題,助教將會收集後先傳給老師,在工作坊進行期間回答。 聽完育呈總監的分享後,了解到很多聲量、論點,較多是由對於議題或候選人,擁有強烈正面或負面看法的人所提出,然而對於某些不表態群眾的聲音或想法,會較難蒐集,不論是從問卷上、論壇上或是從社群上,這些群眾可能不想在公眾發表、不希望表露自己的想法,針對這樣的情況,我們要如何因應?

第二天

思考與書寫

挑戰四

請點開這個連結,看看圖,然後簡要的回答以下幾個問題(圖的下方文章不必看)。 1.請簡單寫下你從圖上第一眼看到的資訊。 (1)有兩條很粗很高的橘線 (2)有不同顏色分布的線條 (3)有一些較細淺灰的線條

2.寫下你從圖中得到的第一個(想說出來的)靈感 (1)有點雜亂,若沒細看會不知道想各條線所代表的意涵 (2)圖中各建築物之間高度的關係分布很明確 (3)把各年代的重要事件標出來,可以更了解當時的背景脈絡 3.寫下你在這靈感中喜歡的部份、不喜歡的部份,以及你希望這個圖中呈現什麼你想看的? 喜歡的部分: (1)呈現的資訊很詳盡 (2)用高度的方式當縱軸,可以一目了然各個建築物之間的關係 (3)以顏色的方式區別出不同地區

不喜歡的部分: (1)資料的說明文字都擠在一起 (2)無法一眼看出圖中要介紹的建築物之特別性。

在圖中希望看到的: (1)資料可以整齊呈現 (2)特殊建築物長條圖的寬度可以再寬一點

4.寫下三個你想改變的部份並說說看為什麼。 (1) 將每個建築物的文字資料以1、2、3的方式替代,並在下面提供每個數字對應到的建築物以及其資料,這樣就可以避免讓所有文字都擠在同一個區塊。 (2)讓特別要介紹的建築物,其長條圖的寬度再寬一點,這樣可以凸顯出它與其他長條圖的區別。 (3)針對其餘沒有特別介紹的建築物長條圖,感覺可以用較淡的顏色呈現,這樣也可以凸顯出欲介紹之建築物的特別性。

5.試試看:用文字勾勒一下你想呈現什麼樣的圖像,並再試著挑出自己所勾勒圖像的缺失。 想呈現的圖象:基本上跟原圖形的分布狀況不會有太大的差異,主要著重在調整圖中特別標出建築物的呈現方式,讓它們可以被較凸顯出來。

圖像的缺失: 可能依舊會看起來有點擠,因為要呈現的建築物長條圖還是很多。

動手分析與解讀

挑戰五

有一班研究生爭論著關於中秋烤肉還流不流行。請看著這個網調資料,分析你覺得可能說的故事與意義。

探索式分析:MCA

# 在這個階段你只需要能製出這個變數關聯分析圖,並就圖上的跡象進行分析與解讀。
# 若有興趣學習這個方法,請見《民意調查資料分析的R實戰手冊》第六章細講。

load("BBQ.rda")
library(dplyr)
library(FactoMineR)
library(factoextra)

bbqMCA <- select(bbq, V44r, V18r, V20r, V21r, V23r, V27r, V45r, V48r) 
bbqMCA.nona <- na.omit(bbqMCA)
nrow(bbqMCA.nona) 
## [1] 645
names(bbqMCA.nona) 
## [1] "V44r" "V18r" "V20r" "V21r" "V23r" "V27r" "V45r" "V48r"
res<-MCA(bbqMCA.nona, ncp=10, graph= F) 
fviz_screeplot(res, ncp=10) 

# 變數類別關係圖
plot(res, axes=c(1, 2), new.plot=TRUE, 
     col.var="red", col.ind="black", col.ind.sup="black",
     col.quali.sup="darkgreen", col.quanti.sup="blue",
     label=c("var"), cex=0.8, 
     selectMod = "cos2",
     invisible=c("ind", "quali.sup"), 
     autoLab = "yes",
     title="") 

變數相關性的確認與解讀

# 接下來,我們使用卡方檢定來進一步確認變數可能的關聯。
library(sjPlot)
## Registered S3 methods overwritten by 'parameters':
##   method                           from      
##   as.double.parameters_kurtosis    datawizard
##   as.double.parameters_skewness    datawizard
##   as.double.parameters_smoothness  datawizard
##   as.numeric.parameters_kurtosis   datawizard
##   as.numeric.parameters_skewness   datawizard
##   as.numeric.parameters_smoothness datawizard
##   print.parameters_distribution    datawizard
##   print.parameters_kurtosis        datawizard
##   print.parameters_skewness        datawizard
##   summary.parameters_kurtosis      datawizard
##   summary.parameters_skewness      datawizard
sjt.xtab(bbq$V20r, bbq$V21r, 
         show.row.prc = TRUE, # 顯示列百分比
         show.col.prc = TRUE  # 顯示欄百分比
         )
## Warning in sprintf(" <td class=\"summary tdata\" colspan=\"%i\">%s=%.3f &middot;
## df=%i &middot; %s=%.3f &middot; %s=%.3f</td>", : one argument not used by format
## ' <td class="summary tdata" colspan="%i">%s=%.3f &middot; df=%i &middot; %s=%.3f
## &middot; %s=%.3f</td>'
隢<96><96>迭<82><88>€<9a>鞊∪€<82>
閬箏憭<9a><82><9a>摨瑟<9c>之敶梢嚗<9f>
撠靘牧嚗<82>祥<9a>銝銝€蝔株<93><9f> Total
<82>末<88><93><94> 鞎<93><94>
敶梢銝之<88>蔣 309
74.6 %
71.9 %
105
25.4 %
47.7 %
414
100 %
63.7 %
<9c>蔣 121
51.3 %
28.1 %
115
48.7 %
52.3 %
236
100 %
36.3 %
Total 430
66.2 %
100 %
220
33.8 %
100 %
650
100 %
100 %
χ2=35.618 · df=1 · φ=0.237 · p=0.000
# 下面的框外,請你就這個結果說出你心中的意義。
# 並請你調跟據上面的變數類別關係圖,做至少一個你要檢證的相關性並在框外說明你的發現與想法。
# 提示:將上述的sjt.xtab()語法照貼在本框內的下方,改動$後頭的變數為你有興趣的,就可以產生分析結果。

確認式分析

這個階段不一定要做到,因為工作坊重點放在潛在關聯的確認。若你已有基本的統計或計量課程的基礎,你可以操作看看,在R中如何輕易的進行建模與假設檢證。也歡迎你繼續嘗試,挑戰看看自己的直覺!

## 請你就以下例子中所使用的八個變數,試著做出你自己版本的假設,並將你的分析與解讀寫在語法框外。

# 假設一:對烤肉的新鮮感不再(V18r)會降低明年烤肉的意願(V44r)
# 假設二:覺得烤肉影響健康(V20r)便會降低明年烤肉的意願
# 假設三:覺得烤肉花費造成負擔(V21r)便會降低明年烤肉的意願
# 假設四:覺得烤肉麻煩(V23r)便會降低明年烤肉的意願
# 假設五:覺得烤肉影響環境(V27r)便會降低明年烤肉的意願
# 假設六:覺得不必要見面就能聯絡感情(V45r)會降低明年烤肉的意願
# 假設七:認為烤肉不是聯絡感情的首選(V48r)便會降低明年烤肉的意願

load("BBQ.rda")

## 二元勝算對數模型
mod.1 <- glm(V44r~ V18r+V20r+V21r+V23r+V27r+V45r+V48r, 
             data=bbq, family=binomial)
summary(mod.1) 
## 
## Call:
## glm(formula = V44r ~ V18r + V20r + V21r + V23r + V27r + V45r + 
##     V48r, family = binomial, data = bbq)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -2.1544  -0.9159   0.4547   0.8186   2.2016  
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)    
## (Intercept)  -0.1028     0.2611  -0.394 0.693684    
## V18r1        -0.9319     0.2593  -3.593 0.000327 ***
## V20r1        -0.2302     0.2035  -1.131 0.257974    
## V21r1        -0.2541     0.2046  -1.242 0.214258    
## V23r1        -0.7009     0.2325  -3.015 0.002571 ** 
## V27r1        -0.1109     0.2063  -0.538 0.590751    
## V45r1         0.5169     0.1917   2.696 0.007008 ** 
## V48r1         1.8033     0.1870   9.644  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 892.04  on 644  degrees of freedom
## Residual deviance: 710.49  on 637  degrees of freedom
##   (因為不存在,5 個觀察量被刪除了)
## AIC: 726.49
## 
## Number of Fisher Scoring iterations: 4
# 假設一、四、六、七得到支持--「對烤肉的新鮮感不再」(假設一)、「覺得烤肉麻煩」(假設四)、「覺得不必要見面就能聯絡感情」(假設六)、「認為烤肉不是聯絡感情的首選」(假設七)會影響烤肉的意願。

我的假設是… 我的解讀是…