Abstract

在現代,資料是極有價值的,然而大規模的資料收集可能對個人隱私造成威脅。作者認為要解決此威脅,需要嚴格定義隱私的意義。在這篇論文中,作者結合社會科學與實務的隱私保護技術,制定隱私的公理化定義。作者認為可以用資訊理論裡的概念來呈現實作隱私保護的困難程度。此外根據 PET 所保護的內容能夠對 PET 進行計量(quantitative reasoning),以促使社會能夠進行客觀的討論。

1. Introduction

Data Collection v.s. Protection : Zero-Sum Game ?

對於資料收集,目前有兩種對立的看法。一方面,大資料促進莫大的科學進步,例如醫學、人工智慧等等。尤其是在醫學領域,使用大資料促使醫療進步被視為一項道德使命,並受到「資料利他主義」(data altruism)的法規鼓勵。
另一方面,從個資保護和資訊自決(informational self-determination)的角度來看,這種特別是只以經濟利益為目的的資料收集(又稱為監控資本主義(surveillance capitalism))是個嚴重的議題,然而在法規尚未跟上科技的現代,這個行為在大多數國家都是合法權利。
因此,資料收集和保護通常被視為一種零和遊戲(一方的得益必然會造成另一方的損失)。

PETs : Help To Handle The Data Dilemma

然而隱私增強技術 (privacy-enhancing technologies, PETs) :結合密碼學 (cryptography)、分散式運算 (distributed computing) 和資訊理論 (information theory) 的技術,有機會在保護個資隱私同時從資料中獲取價值,使資料可用性大幅增加。

然而,PET是一個籠統的術語,包括多種功能與技術,模稜兩可將造成討論過程中產生歧義,尤其是訂定法規時通常需要更清晰的定義。畢竟當不確定做到怎樣的保護時,很難就技術實施進行辯論。因此作者認為必須對隱私一詞重新概念化以解決困境。該定義須滿足:

(1) 根據過去對「隱私」的研究成果(包含社會學、法律和哲學),但要正式且嚴格,並可以數學量化;   
(2) 易與個體關聯;   
(3) 可操作的,能夠在技術上實施;   
(4) 能夠適應未來的進步,包括試圖破壞隱私的惡意行為。  

此篇論文的主要貢獻總結如下:

• 根據資訊理論制定隱私的公理化定義;  
• 新定義與差分隱私相關,在許多情境中被認為是隱私保護的黃金標準;  

Brief Introduction of PETs

詳細內容請見下列網址,個人整理已設定為 invisible
reference:  
1. https://blog.csdn.net/yaxuan88521/article/details/123567677  
2. https://www.linuxprobe.com/privacy-enhancement.html  

2. Prior Work

Jourard [5] 或 Westin [6] 將隱私定義為 限制或控制關於自己的資訊的權利 。概念接近於一般人們在日常生活中對如何實現隱私的觀念,例如我們可以選擇拉上窗簾以阻隔視線。
Nissenbaum 關於語境完整性 (Contextual Integrity, CI) [7] 的研究認為,資訊限制不利於社會的運轉。相反, 資訊必須在規範架構內適當流動 。這個定義很廣泛,適合解釋各式社會現象,但無法對隱私量化。

Solove [8-10] 不直接定義隱私,而是將其定義為隱私問題的解決方案,即在資訊收集、處理、傳播過程中出現的挑戰。

此篇論文著重於差分隱私(differential privacy, DP),不過每一個比 DP 提供更強保護力的技術,都滿足作者所設定的定義(假設發送者和接收者相互認證並且通道是安全的)。儘管仍有所缺失,DP 依然可作為大型資料庫隱私保護的黃金標準。以下也將以 k-anonymity 技術作為不滿足定義的例子。

本篇論文所提出的架構與 Shannon 的資訊理論密切相關。除此之外也討論了更寬鬆版本的定義(semi-quantitative),使得能夠測量質性類別的信息,例如 structural(representing the number of distinguishable groups in a representation measured in logons) and metrical (representing the number of indistinguishable logical elements in a representation and measured in metrons)。

[19] quantitative information flow (QIF)概念上與本篇的架構類似;QIF 更專注於研究安全系統中的資訊洩漏(資訊洩漏的量化,與 Definition 11. implicit flow 有關)。作者則是將 QIF 推廣到更普遍的社會環境。

3. Formalism

本節主要描述支持隱私定義的架構。
以下集合皆假設非空及有限。理論以抽象實體為主,但可以將實體間的交互作用視為人類通訊交流。

Definition 1 (Entity).

實體是一個獨特且理性的 agent,能夠根據 inputs 感知環境,通過 outputs 與環境互動並做出決策。 令 ei 為 entity set E 中第i個實體。實體有記憶,因此可以對某些資料進行保存和操作。
令實體 e 持有的 dataset De 中的第 j 筆 data 為 dj。 實體可以包括:個體、公司、政府及其代表、組織、軟體系統及其管理員等。

Remark 1.

實體持有的資料可以由自己或其他實體擁有(例如,在法律意義上)。在對資料採取行動時(不包括與第三方共享),寫成,實體正在對其資料進行治理(governance)。治理形式區分成以下:

1. Conjunct governance: 實體對自己的資料採取行動(data owner and governor are conjunct)  
2. Disjunct governance: 一或多個實體正在對另一實體的資料進行操作。又分成兩種   
   {  
      (1) Delegated governance: 一個實體持有和處理另一個實體的資料  
      (2) Distributed governance:   其中超過一個實體持有某一個實體的部分資料並對其採取行動,又可分成三種   
          {  
             a. 不同的實體持有並作用於不相交子集(shards)
             b. 不同的實體共享(shares)所有資料(e.g., using secret sharing schemes)
             c. 不同的實體持有副本(copies)並對其採取行動 (e.g., the IPFS protocol) 
          }
   }

治理的過程通常被認為是資料生命週期 (data life-cycle) 的一部分。包括 safekeeping, access management, quality control, deletion 等。永久刪除將結束治理過程。

Definition 2 (Factor).

因素是影響實體行為的環境。 可以將因素簡單分為外部因素(例如,法律、其他實體的期望、激勵和威脅)和內部因素(例如,希望、信任、期望和性格)。因素間會相互調節和影響。
令 fi 為 factor set F 中第i個因素。

Definition 3 (Society).

集合 S 被稱為社會 ⇔ S 包含 > 1 個實體和 ≥ 1 個因素影響其行為。
St 表示社會在離散時間點 t 的 狀態。

Definition 4 (Communication).

通信是實體之間的資料交換。它包括任何口頭和非口頭形式的實體間資料交換。

Axiom 1.

沒有通信,社會就無法存在。因此通信在社會中自然產生。

Remark 2.

此篇論文專注於實體間的特定通信形式:信息流 (information flow)。 For a detailed treatment, compare Axiom 1 of [21].

Definition 5 (Information).

設 e 為持有 De 的實體、information I ⊆ De,並具有以下屬性:
• I 與 De 有 nomic association,即 data 與其對應的 information 間存在因果關係;
• nomic association 是唯一的,即每個 information 恰好對應一個 datum,使得一筆信息的 state ( Xn ∈ I )僅由一筆資料的 state (dn ∈ De)決定;
• I 是是可測量的,從某種意義上,信息是對加密複雜度(不確定確切意思,原文為:complexity of assembling the representation of the data)的量化測量。

根據過去的研究,信息量化 (information quantification) 的概念是信息和解密複雜度 (不確定確切意思,原文為:complexity of reassembling a representation) 之間的對應關係。
根據資訊理論,信息是關於隨機變量的不確定性減少的度量。
結合兩者概念,為了量化信息,假設信息是隨機變量,新定義如下:

Definition 6 (Information (in the Shannon sense)).

element Xn ∈ I 為一符合質量函數 pXn(x) 的隨機變量,用於求出單一資料 dn 的 uncertainty,經由 Xn 與 dn 間的 nomic association。Xn 的 information 算式如下:
I(X)=-log2pXn(x) … (1)

Definition 7 (Information flow).

信息流 F 是兩個實體之間信息的有向傳輸。sender S、receiver R、message M、channel C(假設 noiseless, sufficiently capacious, error-free)。流程如下圖所示。

Remark 3.

flows 為架構中最小單元(atomic and pairwise)。因此一個 flows 只與一筆資料有關,並發生在兩個實體之間。

Remark 4.

我們使用 message M 的信息來表示通過觀察 M 可以獲得的最大可能信息量,包括在不考慮先備知識 (prior knowledge) 情況下對 M 的任何計算獲得的信息。 意義上與在隱私保護上的 worst-case 一致(假設接收者獲得完整的 M 並嘗試對其重組或其他操作以獲得更多信息)。

Remark 5.

根據所設計的定義,一個不安全 (leaky) 的通道視為對一或多個額外的接收者產生了新的 flow (詳情於 Definition 11. Implicit flow),而由 noise 或 encoding errors 引起的信息破壞視為是信息直接減少。
因此,我們假設 state of a message 只由正在傳輸的 information 決定。
雖然 flows 是 atomic 的,但 communication 不是,通常通訊行為所傳輸的 information 不會只包含單筆 datum。因此需要一個工具來“包裹”所有 atomic flows,並命名為 flow contexts。 此外,通信也經常發生在兩個以上的實體之間(一對多或多對一)。

Definition 8 (Information flow context).

令 Ssub>t 為社會在時間點t的狀態,sender S , receiver R S ∈ sub>t
F1,…,Fn 為 flows 符合以下流程

令 collection ℭt =(S,R,F1,…,Fn) 為 information flow context

Flows 是隨機過程。給定一個社會情境,flows 發生的機率取決於許多潛在因素。根據 flow 的出現與實體決策間的因果關係,可區分成以下情況:

Definition 9 (Explicit flow).

Explicit flow 是實體 (entity) 決策所導致的結果(因果關係)。

Definition 10 (Decision).

設 e 為一實體, f=(f1,…,fn)為影響其行為的因素的集合。
令 decision process 為一隨機變量 o~Ber(p|f)。則 decision χe 為:

Ber 表示伯努利分佈,⊥ 表示不採取任何行動。
我們假設導致 explicit flow 的決策機率受到兩個因素影響。
其中最重要的可能是信任
在高度信任的人際關係中,實體更可能參與信息流。
大多數社會信息流動的原因可以收斂為,根據普世接受的規範,實體間產生的信任。例如,法庭證人→法官的信息流,最終會連結到社會對公共秩序的信任。(證人願意吐露實情、法官願意採信,可能都是因為大家相信這套社會制度能夠保障各自所在意的事情)因此,低信任水平將降低 explicit flow 出現的機率。
作者認為,信任可視為一種界線,在實體願意接受的信息量(in a flow)上作為 upper bound 的存在。

另一個主要因素可能是激勵 (incentives)
例如,更大社交圈可以激勵個體通過社交網絡參與 explicit flow。
透過網路免費服務的激勵提高個體共享個人信息的可能性(例如,允許使用 cookie)。

與所有社會因素一樣,激勵與信任互相調節。某些情況下強大的激勵行為可以降低參與流程所需的信任門檻;而某些情況下,沒有任何激勵行為比產生信任更重要。
此外,社會可以對激勵措施施加限制,或者,即使高度信任,也不允許產生 explicit flows。例如不允許沒有參與治療的醫生獲得患者信息,即使 sender 與 receiver 互相信任)。

Definition 11 (Implicit flow).

當 flow 的發生與該實體沒有因果關係,而是和另一個實體的決定有因果關係,implicit flow 發生。 因此,涉及實體 e 的 implicit flow 可以建模為隨機變量 o~Ber(p),其中 p 獨立於 影響 e 的因素,表示成以下:

關於 implicit flow 的實際案例是在公共空間中的監視器,在個體不知道的清況下對進行記錄。

Implicit flow 可稱為信息洩漏。即使是通常被認為安全的系統也有洩漏的可能,例如無記名投票,極端狀況下若全數通過,就會洩漏出所有選民的選擇。
由於 flows 是 pairwise interactions,因此需特別考慮多對一、一對多的通信。
最直覺的想法是直接將 n-to-1 的 flows 分解成 n 條 pairwise flows,但此法會產生信息的所有權 (ownership) 和治理權 (governance) 問題。
例如多對一通信中,每個 sender 都擁有 conjunct governance and ownership (Remark 1. type 1.),可以直接套用上述方法。但若是 disjunct governance (Remark 1. type 2.)或資料間有相關性時,需要“邊際化 (marginalize)”參與其中的實體的貢獻。因此多對一通信會出現 implicit flow,使得整個 information flows 變得更加複雜,在[26]中將其命名為 information bundling problem。
例如,sender 將訊息「我是同卵雙胞胎」傳給 receiver,則 receiver 對於 sender 的 sibling 的生理性別和遺傳特徵的不確定性減少。牽涉在這個 flow 的資料擁有權在 sibling 而 sender 有治理權,因此這可以看做 sibling → receiver 的 implicit flow。

根據上述定義來定義隱私:

Definition 12 (Privacy).

Let F be a flow of a message M between a sender S and a receiver R over a channel C embedded in a context ℭ.

Privacy is the ability of S to upper-bound the information content of M and of any computation on M, independent of the receiver’s prior knowledge.
隱私是 sender S 對 information (message M 提供) 設置上限的能力,與 receiver 的 先備知識(prior knowledge) 無關。

根據上述定義可以得出以下: • 隱私權規定了對「信息設限能力」的法律保護,直接影響到發送者的能力
• 可以選擇性地維護隱私(在一次的通訊中包含多個 flows,可以只針對某幾個做隱私維護)
• Privacy is contextual。情境將很大程度上決定所產生的期望和實體行為,類似於情境完整性(Contextual Integrity)。例如在法庭上作證並披露相關信息,此情況並不侵犯隱私,因為個人隱瞞信息的能力仍然存在,但個人可以選擇不行使;而竊聽個人電話是一種侵犯隱私的行為,無關乎法律是否允許。 投射到具象物再做一次解釋。定義「隱私」為「窗簾」,「保護隱私」的意思是「我有能力決定將窗簾拉得多開,揭露出自己多少比例的隱私」。在法庭作證的例子上,即使公權力規定需毫無保留地披露訊息,但「將窗簾拉得多開的決定權還是在我手上」,假設法律規定要毫無保留而我並沒有照做,我可能違反法律,但我的隱私沒有被侵犯。在竊聽的案例中,「我的窗簾被別人拉開」,被迫揭露隱私,不管是不是合法(在追蹤犯人的情境下合法),由於拉窗簾並非我主動動作,而是由他人執行,因此我的隱私被侵犯。因此,我們的框架將隱私「作為一種能力」與「可接受維護隱私的情境」分開。邊緣情況也存在。例如,在威脅(逼供、監視等等)下泄露敏感信息[被迫自己拉開窗簾],在每個隱私侵犯都被認為是可以接受的情況下[權力上合法],必須特別小心定義什麼是社會可接受和“適當”的信息流。

補充: 情境完整性(contextual integrity):作為調查隱私適用範圍的一種架構,根據情境因素來決定權限。

4. Connections to PETs

PET是包含多種技術的總稱,在資料保護的前提下,同時能夠在資料中提取價值。然而「隱私」一詞常作為日常使用,並且沒有明確的定義,保護的對象也與上述定義不符。本篇所提出的架構很適合分析該技術是否保證提供隱私。以下將討論差分隱私 (DP) 如何滿足本篇定義,以及匿名化技術如何不滿足。

4.1. Anonymization and Its Variants

匿名化技術是保護隱私的經典方案,例如匿名化、k-anonymity 等。原本以為刪除與個資相關的資訊即可保障安全,但經歷數個事件後發現,若提供輔助信息或者某些後處理技術,匿名的功能可能退化或失效。
若根據上述隱私的定義,即使對信息進行計算,或接收者擁有先備知識 (prior knowledge) 與輔助信息,信息都不應該所有增加。因此這些技術並不滿足隱私保護。

4.2. Differential Privacy

差分隱私 (DP) 只允許提取資料庫的統計特徵、而不公開個體具體的訊息以保護個人隱私。 DP 提供的保證與本篇定義的隱私兼容,以下將提及一些關於 DP 的細節。

假設實體 E持有資料 DE ,欲傳送與資料 X ∈ DE 有關的 message M。令 X 為一隨機變量。
flow

則在定義下,保護 X 的隱私是 E 對 M (關於 X 的信息部分)設置上限的能力。 假設 E 使用隨機算法 A 對 X 進行操作以產生 privatized output Y~psub>A,X(x),Y 屬於 M 的一部分內容。過程可以寫成以下的 Markov chain:

設 x, x’ 為差一筆資料的兩個資料集,則 ε-DP 公式如下:

可以發現隱私的保證是來自於演算法 A 的隨機性,並且 X 和 Y 的 mutual information 的上限是 log2eε,Y 可以理解為「X 被揭露的部分」,因此意義上,DP 可以看做能夠對 M 設置上限的機制。

Proposition 1.

若演算法 A 滿足 ε-DP,則下列公式成立:

Sh is the Shannon unit of information.
證明詳情可查詢論文第 8 頁。

Remark 6.

根據 information processing inequality,X 和 M 的 mutual information 也有上限。

(ε-)DP 在算力無限的對手的情況下仍然成立,並且資料庫是封閉的,後處理也不會透漏出額外訊息,滿足本篇對隱私的定義,保證資料庫中能夠 access 到個資的的信息是有上限的(可量化)。

雖然此篇論文對隱私的定義和 DP 有高關聯,中間還是有些許差異。
DP 主要都是處理量化資料,半定量 (semi-quantitative) 類型的 information 處理方式並沒有定義。作者在此補充,DP 是使用 statistical noise 的概念實作,而在半定量類型的信息(semantic, metric, or structural)則可以使用 communication noise 實作,例如傳送假信息,此方法在定義中也可以作為一種保護的方式。

另外作者也提到 DP 與此篇的隱私定義並不等價,滿足 DP 則隱私定義,但滿足隱私定義並不代表會滿足 DP,例如即使求出 mutual information 的界線也不代表能得到 DP 相對應的保護(其轉為輸入和輸出分佈間總變化的界限,是限制發生機率而不是限制最糟情況的上限)。
另一個不同點是隱私定義為 context-reliance,DP 並不考慮 context。這在某些情況下 DP 並不能直接應用,以公佈個人影像為例,對照片加 noise 可能滿足 DP 宣稱的強度,但對一般大眾來說可能完全不夠,而滿足大多數人可接受的保護(例如隱藏特徵),加入的 noise 可能已經多到無法使用。

雖然仍有許多待改進的地方,但開發嚴格且可量化的隱私保護依然是重要的研究方向。

5. Discussion

5.1. Why Is Privacy Difficult to Protect in Practice?

在定義下,可以發現要在現實世界中保護隱私將會遇到許多挑戰。

保護隱私的第一個挑戰是難以將 flow 分配到其源頭 (assigning a flow to its origin)。
一個好理解的例子即 implicit flows,再次以上述同卵雙胞胎為例,令 F1 為 sender S1 朝向 receiver R 的 flow,當 S1 說出自己是同卵雙胞胎時,信息開始從 S2 (sibling) 流向 R,引發出額外的 (implicit) information flow context ℭ2 以及 S2 指向 R 的 flow F2

從此例中可以發現要確定 flow 源自哪個實體是困難的,因為通信常涉及多個實體的信息,無倫是否為有意。

第二個挑戰是,試圖解決 informational representation 與其對應的資料 (datum) 及其強度的 nomic association。這個問題的困難程度相當於對 causal Bayesian graph 做精確推斷。 考慮以下因果圖:

令(A,….,X)為隨機變量,假設箭頭皆表示因果關係且已知。則 X 也包含 (A,…,G) 的信息、而在 ADE 間有分叉、G 與 E 和 X 間存在碰撞。

即使是這相對簡單的例子要達成第二個挑戰也是不容易的。要確定傳輸 M 時 每個變量都各自揭露多少信息,需將圖分解為條件機率,通常是 NP-hard。然而實際上人類在通訊交流時通常都是更複雜的圖,不僅如此,光是要確定實體間的因果關係就幾乎是不可能的。可以發現從量化意義上,比在一般通信環境,在統計資料庫(擷取單筆資料)更容易保護隱私。在現實人類通信環境如果不做假設,幾乎不可能對隱私做量化推理。

在 DP 的使用情境中,使用者可以獲取統計資訊,但無法從中獲得任何人的敏感個資,例如參與肥胖藥物研究的個人。確定個人是否超重(個人數據)並不侵犯隱私,但是知道體重數字可被視為侵犯隱私(私有數據),兩者間是有區別的。本篇隱私定義也不認為統計推論是侵犯隱私的行為,在此情境下的定義是:由於個人揭露個資而產生的額外風險,保護隱私可以被認為是限制風險的上限。

5.2. From Formal Privacy to Regulatory Implementation

本節將從法律角度討論隱私定義,並且討論本篇設計之框架與 GDPR 規定之關聯,並設計一方案使得監管機構在現實世界中採用嚴格的隱私定義。

GDPR 監管個人資料 (personal data),本篇定義為實體擁有的資料,也稱為資料主體 (data subject)。GDPR 將前面提到的治理過程 (governance) 稱為資料處理 (data processing),它由資料控制者 (data controller) 執行,對應於框架中行使治理的實體。委託治理概念 (delegated governance) 在 GDPR 中稱為資料處理者 (data processor),即第三方資料控制者會處理個人資料。而分佈式治理 (distributed governance) 在法規中沒有明確的對應。最後,如果可以輕易重新識別(i.e., de-pseudo-/anonymised),則根據 GDPR 仍將 pseudonymised (or anonymised) data 視為敏感資料。與本篇概念相符,因為可經由輔助資料或其他後處理技術還原,所以匿名化或假名化技術並不滿足隱私定義。

GDPR 第 25 條規定,必須通過設計和預設方式實施資料保護。代表系統必須考慮保護個資的方法。根據本篇的隱私定義,系統設計人員能夠在實踐中量化系統有效性。

GDPR 第 6 條列出了允許處理個資的情況,例如存在法律合約。在這種情況下,當接收端的實體違反合約,隱私定義將拒絕對消息進行事後計算,接收端無法獲得額外信息。

GDPR 第 3 章第 17 條被遺忘權並沒有直接在隱私定義的範圍內,因作者認為這屬於治理問題。

GDPR 在第 23 條中規定了對第 3 章權利的限制。例如在公共安全的考量下,對信息自決 (informational self-determination)的限制是正當的。在這種情況下本篇定義將作出以下解釋:實體因為對 GDPR 法規的信任而減少自己控制信息上限的能力,因此沒有隱私侵犯。另外,為了福利而決定某些侵犯隱私的行為是否可接受(法律或道德上)是一個社會議題。對此,本篇定義將隱私視為一種中立的能力,並授權制定隱私權。

6. Conclusions and Future Work

此篇論文藉由資訊理論的概念定義「隱私」。該定義與 PET(差分隱私)有高關聯性,也更容易地去解釋某些技術的潛在缺點(例如 k-anonymity)。 未來的研究方向是實踐 models of information flow in society,例如調查隱私對經濟的影響。此外也打算對其他 PET 的技術提出更全面的分類。

最後,作者期待這些標準術語 (data ownership, governance, privacy, etc.) 能夠促進對技術的理解、在跨領域學科中以相同的語言進行不同面向的研究、以及在政治和社會層面上能夠促成客觀討論,最終能夠被廣泛實施採用。