Yusuke Matsui

Biomedical and Health Informatics Unit (BMHI),
Department of Integrated Health Sciences,
Graduate School of Medicine,
Nagoya University, Systems Biology Division,
Integrated Glycan-Big Data Center (iGDATA),
Institute for Glycobiology Core Research (iGCORE)

統計的学習の定義

統計的学習とは、訓練データから特定のモデルを学習して、背後に仮定した母集団の振る舞いを推定したり、次に起こり得る観測値(検証データ)の中で最も可能性が高いもの予想するための技術である。

全体像から見た統計的学習の役割

統計的学習とはどのようなものかを理解するための一つの手がかりは、人類の全て営みを俯瞰して、どのような役割を有しているのかを理解することである。統計的学習は統計学から派生した学問領域であると解釈されていると思われる。現代的な文脈においては、統計的学習とはインフォマティクスを構成する技術の一つであると解釈できる。つまり、常に何かの一部となっている要素技術である。この意味は、どの文脈で用いられているのかによって、その役割はそれぞれ異なる可能性があるということである(健康科学、医療、ケアにおけるインフォマティクスは別所で論じているので興味のある人はこちらを参照

統計的学習は情報技術社会の要請に応えるための新たな統計学

統計的学習の基礎は統計学にある。しかし、対象とする問題とその文脈、そこから生じるデータは、従来の統計学が想定していたものとは大きく異なる。従来の統計学では、比較的小規模なデータセットを基に一般化や推論を行うことが主流であった。しかし、今日ではビッグデータオミックスデータといった、膨大かつ多様なデータセットが登場しており、従来の手法ではこれらを効率的かつ実用的に処理することが困難になっている。

例えばオミックスを例に考えてみよう。通常、生物学的な実験や患者の病態観察・治療から時間をかけて、ある仮説や知識が形成される。このような仮説は、限られたデータに基づくものであることが多い(例えば実験的な制約や、臨床的な制約)。従来、統計学は、そのような状況において役割を果たしてきた。すなわち、生物学者が特定の仮説を支持するための「保証」(これは正しさを保証するのではなく、あくまで観察された現象には特定の差が認められるかどうかのみについてである)を与える役割である。つまり、証拠の一部として取得されている様々なデータの一部を対象に「仮説検定」を行なって、その現象が「偶然」ではないということを主張する手助けをしてきた。

ところが、そこに技術革新によって、大規模なデータを測定できるような高スループット測定技術が現れた。例えば、次世代シークエンサーの出現は、これまで数十の遺伝子を対象にした生物学的実験を、一度に全ての遺伝子(ヒトであれば二万個程度)の定量化を可能にし、実験によって得られる情報が爆発的に増大させた。この意味するところは、部分的に得られていた知識や概念を、量的な意味で飛躍的に拡大させる可能性が与えられたということである。

しかし、従来の属人的な方法では、このような天文学的な量的データに対処することはできず、新たに、膨大な情報から、仮説を示すために有用な情報を引き出す技術が必要となる。このときに、インフォマティクスは膨大な情報を知識へ変換させることで、観察できる範囲が広げ、部分的な知識を、より一般的な知識へ昇華させるための役割を持つようになった。つまりmこれまでの仮説駆動型の実験研究、観察・介入駆動型の健康医科学研究における部分的な知識を、量的な意味で飛躍的に拡大させた(より詳しい議論はこちらを参照)。

統計的学習はこの時に、配列情報を定量化するしていく処理プロセスにおいて生じる不確実さに対して、確率的な確からしさに基づく判断を提供したり、配列から、特定の遺伝子の発現量が定量化されたのちにも、測定装置由来のバイアスや、実験・測定環境に由来するばらつきやバイアス、相対的に他の測定値の解釈に影響しうる異常値の検出と除外、興味のある因子(条件等)が偶然ではないか否かの判定や、あるいはバイオマーカーとして、疾患をどの程度まで判別しうるのかのエビデンス構築など、全体として一つのプロセスの中で複数の役割を持っている。

このような現代的問題に応える形で発展したのが統計的学習である。統計的学習は、統計学と同様に仮説の証拠となりえる量的根拠を、不確実性の中から提示するための技術であると同時に、従来の統計学が想定し得なかった膨大な変数、極めて不均質な集団、極めて量的に膨大な大規模なデータセットにも用いるための新たな技術を提供する。そのため、機械学習やAIの発展と密接に関係しているともいえる。

データとは何か?

統計学・統計的学習において議論の前提となる「データ」とは何か?ラテン語では「与えられたもの」という意味である。科学においては、対象・事象を「観察」することから始まるという意味で、観察した際の物質的な対象である。ただし、この点は必ずしも常に正しいと言いがたいかもしれない。実際には、複雑な測定プロセスを経なければ観測できないことも数多くあるためである。特に現代の科学は、ある目的を持って、高度な測定装置を開発し、それを用いて観察しているからだ。さらに、その観察のプロセスは単純ではなく、多数の装置設定の組み合わせを適切に最適化し、得られた生の情報を多数のステップからなる処理で可視化・定量化しなければならない。その意味では、「与えられたもの」というよりも「与えたもの」に限りなく近い。

そうなると、元々の意味を離れてしまったデータとは何か?その一つの解釈は「証拠」としての存在である。裁判では、無罪・有罪のどちらなのか?という結論を出すために、検察と弁護側が対立する立場に立って、どちらが正しい結論なのかを根拠を示しながら立証し、裁判官がそれらを総合して結論をくだす。このとき、根拠のよりどころが「証拠」である。無論、証拠には物的証拠や状況証拠、証人尋問など様々な種類の証拠が考えられる。

科学、医療においても、仮説が「妥当」であるという主張をするための科学的根拠が必要である。そこで用いられるのが、「データ」である。しかし、データそのものが、証拠となる場合は少ない。なぜなら、データそのものは数値や文字の羅列である。だから、その根拠として用いるためには、データがその仮説を支持しているということをあらゆる手段を用いて説明しなければならない。つまり、データとは「絶対的」な対象ではなく(表象的)、文脈や目的によってその用いられ方が変化しうる「可変的」な証拠である(関係的)。

裁判では真実は何か?ということが問われるように、科学においても絶対的真実は完全に証明することが難しい場合が常である。それは人が直接観測し得ないレベルのミクロなあるいはマクロな対象を議論する場合にはなおさらである。そこには、観測できる範囲の限界からくるバイアスや、そのデータが得られるまでのプロセスに由来するバイアス、あるいは自然界における不確実性や、人がそれを解釈する上での不確実性もある。そのようなバイアスや不確実性をもってしても、それが証拠であるという主張をするためのお墨付きを与えるのが統計学あるいは統計的学習である。

証拠における統計的学習の前提

統計的学習において重要な前提の一つが自然斉一性である。自然斉一性とは、ある時間や場所で観察された現象が、他の時間や場所でも同様に発生するという仮定を意味する。統計学では、大数の法則に見られる無限の観測値を仮定した場合に正当化される確率モデルがこの役割を持つ。世界は同じままであるという前提が成り立つ限り、その確率モデルを前提に推論や予測が可能になる。この前提のもとである仮説をもとにした統計モデルを構築し、観測されたデータでその確からしさを評価する。こうして、訓練データから学習した統計モデルは、異なる環境でも同様のパターンを予測できると考えられる。これにより、観察されたデータから未知のデータの挙動を予測することが可能となる。

この自然斉一性の前提は、科学的推論の基礎でもあり、統計的モデルが信頼できる予測を提供するための要件でもある。しかし、現実世界では必ずしもすべての条件が同じとは限らず、環境や状況が異なることで、この前提が破られる場合がある。そのため、統計的学習においては、モデルが過度に特定のデータに依存しないようにするために、正則化クロスバリデーションなどの手法が用いられる。これにより、モデルの汎用性を高め、訓練データ以外の新しいデータに対しても信頼できる予測を行うことができる。

仮説検証における自然斉一性

統計的学習は、訓練データに基づいて未来の観測を予測するだけでなく、仮説の検証にも用いられる。このとき、自然斉一性が成立していることが仮説の検証においても重要な役割を果たす。例えば、ある薬が特定の病気に効果があるとする仮説を立て、その効果を検証するために統計的学習を用いる場合、治療効果の評価には時間や場所を超えて同じ条件が適用されることが前提となる。この前提が崩れると、検証結果が限られた状況にのみ当てはまる可能性が生じ、一般化された結論を導くことが難しくなる。

データの不確実性とバイアスによる限界

しかし、実際のデータは多くの場合、不確実性やバイアスを含んでいる。観察や測定において生じる誤差や環境の違い、さらにはサンプリングの偏りなど、データの背後には様々な影響が存在する。統計的学習では、これらの不確実性を考慮した上で、モデルが正確な予測を行えるようにするための手法が重要である。例えば、ベイズ統計では、観測データに基づいて確率分布を更新し、不確実性を考慮した予測を行うことも可能である。しかし、自然斉一性に基づく推論が本質的に不適である場合、どのような統計的推論を行なっても限界があるのは明白である。それを制御するためには、研究デザインから設計する必要があるように思われる。