Research Results 研究成果

計測データの量や質に対するベイズ推定のスケーリング則を解明

~複雑現象の計測と数理モデリングをつなぐ新たな指針に~ 2022.12.07
研究成果Technology

ポイント

  • 複雑現象の理解には所与の計測データを過不足なく表す関数や方程式(数理モデル)が有用
  • データの質や量に応じて最良の数理モデルを選択するベイズ推定のスケーリング則を解明
  • データに根ざした数理モデルの簡略化や複雑現象の計測を効率化する指針につながると期待

概要

 古くは惑星の運動を司るケプラーの法則が象徴するように、単純な関数や方程式を用いて計測データを表す数理モデリングは様々な現象に対する理解を深めてきました。ベイズ情報量規準(BIC)は所与のデータを過不足なく単純に表す数理モデルを選ぶための指標であり、近年のデータ駆動科学を支える標準的なツールの一つです。IT分野などで幅広く用いられているベイズ推定※1を数学的に近似した統計学の公式として、BICは導かれます。しかし、同近似はデータの量や質による影響を無視しており、本来それらがベイズ推定にどう影響するかはBICの発見から40年以上に渡り未解決問題のままでした。
 九州大学情報基盤研究開発センターの徳田悟助教、東京大学大学院新領域創成科学研究科の岡田真人教授らの共同研究グループはベイズ推定と統計物理学の数学的な対応に着目し、理論解析を進めることで、計測データの量や質に対するベイズ推定のスケーリング則※2を初めて明らかにしました。これを元にした数値シミュレーションを行うことで、ベイズ推定が計測データの質や量に応じた複数の「状態」を取り、状態毎に異なる数理モデルを最良とみなす性質を発見しました。データの量が多く質が高い状態であるほど、より多くのパラメータを持つ複雑な数理モデルを最良とみなすこともわかりました。これらはBICでは説明がつかず、今回発見したスケーリング則によって初めて明らかになった性質です。
 今回の発見はこれまで研究者の洞察に頼ってきた数理モデルの簡略化を計測データに根ざして客観化・自動化することを可能にし、様々な複雑現象の実態を捉えるために役立つと期待されます。見方を変えれば、所与の数理モデルの妥当性を実証するために「どれくらいの量や質の計測データが必要か?」という問いに答えるものでもあり、計測の効率化の指針につながることも期待されます。
 本研究成果は米国物理学会発行の学術誌「Physical Review Research」に米国東部時間2022年12月6日(火)に掲載されました。

 

計測データの質(計測ノイズの大きさ)に応じたベイズ推定の三態

ベイズ比熱という量を新たに定義し、計測ノイズの大きさに対するスケーリング則を導きました。これを元に、2つのピーク関数(青線)の重ね合わせ(赤破線)を”正解”とする計測データ(a-cの黒点)を想定した検証を行い、計測ノイズの大きさに応じた3つの「状態」(a-c)がベイズ推定にあることを突き止めました。各状態では異なるピーク数の関数が最良とみなされました。これらは正解が当てられる状況を仮定したBICでは説明がつかない結果です。

数理モデルとしての物理法則と深層学習の比較

上段の表は太陽系惑星の軌道長半径と公転周期を記録したデータ(1618年)。当時、ケプラーはこのデータを後にケプラーの第三法則(左下)と呼ばれる単純な関数で表した。現代的には同じデータを深層学習(右下)のような複雑な関数で表すこともできるが、これを”法則”と呼ぶかは議論が分かれるであろう。この例は未知の現象に対する優れた予測性が必ずしもその現象の理解に直結しないことを示唆している。

用語解説

(※1) ベイズ推定
パラメータ推定は計測データを表す数理モデルを立て、モデルのパラメータの値をデータに合うように求めるデータ分析の一つである。特に、計測データとパラメータが共にランダムに値が決まるもの(確率変数)とみなし、計測データが与えられた下でパラメータが従う条件付き確率分布を求める手続きをベイズ推定と呼ぶ。パラメータの値だけでなく、その値の不確かさを定量化できることが一つの特徴である。ベイズ推定は条件付き確率の連鎖律(ベイズの定理)をその基礎とし、数理モデルの不確かさも定量化できる。ベイズ情報量規準(BIC)は計測データが与えられた下で数理モデルが従う条件付き確率分布(モデルの事後分布)を近似することで導出される。今回、この近似で無視される計測データの量や質に応じたモデルの事後分布の変化を明らかにした。
(※2) スケーリング則
2つ以上の興味のある量の間に成立する変換則。例えば、球の半径rと体積Vに着目すると、その間にはV=(4πr^3)⁄3という関係が成立する。つまり、これはVがr^3に比例するという変換則である。このことから、rを2倍するとVは23=8倍になることがわかる。今回、新たに定義した「ベイズ比熱」という量Cと計測データの量(計測点の個数)n、計測データの質(計測ノイズの小ささ)βの間にC=f(nβ)という関係が成立することを、それを満たす関数fの詳細と共に明らかにした。

論文情報

掲載誌:Physical Review Research
タイトル:Intrinsic regularization effect in Bayesian nonlinear regression scaled by observed data
著者名:Satoru Tokuda, Kenji Nagata, and Masato Okada
DOI:10.1103/PhysRevResearch.4.043165

研究に関するお問い合わせ先