数学的真理の追求と複雑なモデルが、いかに無駄な科学的予測をもたらすか

科学の世界では、宇宙には数学的な真理が存在するという考え方が主流である。科学者の仕事は、この数学的関係を解読することであり、いったん理解すれば、数学的モデルに変換することができると考えられている。そして、その「シリコン・リアリティ」をコンピュータで実行することで、世界がどのように機能しているのか、有用な知見が得られるかもしれない。

科学は秘密を明らかにし続けるので、モデルもどんどん大きくなっていく。そして、発見された事柄や新たに見つかった仕組みを統合し、より現実的なものとしていく。多くの学者は、より詳細なモデルはより現実に近いため、より鋭い推定とより良い予測をもたらすと信じている。しかし、『Science Advances』誌に掲載された私たちの新しい研究は、それが逆効果になる可能性を示唆している。

「詳細であればあるほど良い」という思い込みは、学問分野の垣根を越えている。その影響は極めて大きい。大学では、より大きなモデルを実行するために、より強力なコンピュータを導入し、より多くの計算能力を必要とするようになる。最近、欧州委員会は80億ユーロ（1兆1000億円）を投じて、「デジタルツイン」と呼ばれる非常に詳細な地球のシミュレーションを作成し、現在の社会的・生態的課題によりよく対処できるようにしたいと考えている。

私たちは最新の研究で、より正確な推定や予測を行うためのツールとして、これまで以上に複雑なモデルを追求することがうまくいかない可能性があることを示した。統計理論や数学的実験に基づき、様々な構成のモデルを数十万回実行し、その推定値がどの程度不確かであるかを測定した。

その結果、より複雑なモデルほど、より不確実な推定値を生み出す傾向があることがわかったのだ。これは、その複雑さの増加に伴い新しいパラメータやメカニズムが追加されるからだ。新しいパラメータ、例えば病気の蔓延に対するチューインガムの効果などは、測定する必要があり、したがって測定誤差や不確実性の対象となる。また、モデラーは、同じ現象を数学的に記述するために異なる方程式を使用することもある。

このような新たな追加要素やそれに伴う不確実性がモデルに統合されると、すでにある不確実性の上にさらに不確実性が積み重なることになる。そして不確実性はモデルのアップグレードごとに拡大し続け、たとえモデル自体がより現実に忠実なものになったとしても、モデル出力はあらゆる段階でより曖昧なものになっていくのだ。

そして、出力の正確さをチェックするための適切な検証データや訓練データがないすべてのモデルに影響する。これには、気候変動、水文学（水の流れ）、食糧生産、疫学などのグローバルモデルや、将来の影響を予測するすべてのモデルが含まれる。

ファジーな結果

2009年、エンジニアはGoogle Flu Trendsと呼ばれるアルゴリズムを作成し、全米のインフルエンザ関連医師の受診率を予測した。このモデルは、人々がGoogleに入力した5,000万件のクエリに基づいていたにもかかわらず、2009年の豚インフルエンザの発生を予測することは出来なかった。そこでエンジニアたちは、現在は稼働していないこのモデルをさらに複雑なものにした。しかし、それでも精度はそれほど高くはなかった。ドイツの心理学者Gerd Gigerenzerが率いた研究によると、2011年から2013年にかけて、このモデルは常に医師の診察を過大評価しており、場合によっては50％以上過大評価していた。

Gigerenzer氏は、もっとシンプルなモデルでより良い結果が得られることを発見した。彼のモデルは、前週に何人の患者がかかりつけ医を訪れたかという、ほんのわずかなデータに基づいて、1週間のインフルエンザ罹患率を予測したのだ。

もうひとつの例は、水がどこでどのように移動し、貯留されるかを追跡する地球規模の水文学モデルだ。このモデルは、1960年代に「蒸発散プロセス」（植物で覆われた景観から蒸発・蒸散できる水の量）に基づいて単純に始められたが、すぐに拡張され、地球規模での家庭、産業、農業の水利用が考慮されるようになった。これらのモデルの次のステップは、地球上の水需要を毎時1キロメートル単位でシミュレーションすることだ。

しかし、このような詳細な設定が、モデルをさらに複雑なものにしてしまわないか、心配になる。私たちは、8つの地球規模の水文学モデルによる灌漑用水量の推定値が、灌漑地域の面積というたった1つのパラメータで計算できることを示した。

今後の展望

なぜ、より詳細な情報がモデルを悪化させるという事実が今まで見過ごされてきたのだろうか？多くのモデラーは、モデルの不確実性や感度分析、つまり、モデルの不確実性が最終的な推定にどのような影響を与えるかを研究者に伝える手法に、自分のモデルを提出しない。多くのモデラーは、モデルのどの要素が出力の不確実性に最も影響を与えているかを解明することなく、詳細な情報を追加し続けているのだ。

モデラーはより大規模なモデルを開発することに関心があるため、このような事態は懸念される。その複雑さは部外者を脅かし、モデル内部で何が起こっているのかを理解するのを難しくするからだ。

しかし、解決策はある。私たちは、モデルが必要以上に大きくなりすぎないようにすることを提案する。たとえ科学者が不確実性や感度分析を行ったとしても、その推定値があまりにも不確実で、科学や政策立案に役立たなくなる危険性がある。推定値が全く曖昧なモデルを動かすために、計算機に多額の資金を投入することは、ほとんど意味がない。

モデラーは、その代わりに、モデルの詳細を追加するごとに不確実性がどのように拡大するかを熟考し、モデルの詳細度と推定の不確実性の間の最適なトレードオフを見出すべきだ。

このトレードオフを見つけるために、「有効次元」という概念を使うことができる。これは、最終的なアウトプットに不確実性を加えるパラメータの数の指標で、これらのパラメータが互いにどのように作用するかを考慮したものだ。

モデルの改良のたびに有効次元を計算することによって、モデラーは不確実性の増加によってモデルがまだ政策に適しているかどうか、あるいは逆にモデルの出力が不確実すぎて役に立たないものになっていないかどうかを評価することができる。これは透明性を高め、科学者が科学と社会によりよく貢献するモデルを設計するのに役立つ。

一部のモデラーは、モデルの詳細を追加することで、より正確な推定が可能になると主張するかもしれない。しかし、その立証責任は彼らにある。

本記事はThe Conversationに掲載された記事「How a quest for mathematical truth and complex models can lead to useless scientific predictions – new research」について、Creative Commonsのライセンスおよび執筆者の翻訳許諾の下、翻訳・転載しています。