統計モデリング

分寺杏介

私たちの周りには、多種多様なデータが存在しています。これに伴い、様々な意思決定や推論がデータに基づいて行われるようになりました。かつては経営者やエライ人・スゴイ人の勘と経験のみによって行われていたものに対して、データという強力なエビデンスが幅を利かせるようになったのが21世紀の大きな流れの一つだと言えるでしょう。だからこそ、近年ではEvidence-Basedナントカという言葉を見聞きする機会が増えているのだと思います。

データからエビデンスを生み出す作業では、統計学の知見が欠かせません。そして近年では、データに対して数理モデルをあてはめて推論などを行う「統計モデリング」の考え方が広まってきています。本稿では、大学学部で勉強する基本的な統計学の考え方から統計モデリングの基本を紹介したいと思います。近年では統計モデリングに関する書籍もいくつか出版されているので、以下の説明を読んで興味を持った・または読んでもさっぱりわからなかった方はぜひそちらも参照してみてください。

2022年にはサッカーワールドカップが大きな話題となりましたが、ここではペナルティキック(PK)を例に考えてみます。PKのチャンスでは、当然ながら最も成功確率の高いキッカーに任せたいところです。そこで、過去のデータをもとにして各選手のPK成功率を予測しようという問題を考えます。

PKが成功するかどうかはキッカーとキーパーの様々な要因(癖や過去の傾向、精神状態など)によって決まるものです。ですが大学学部レベルの統計学でPKの成功を扱う場合、まず初めにこれらの要因を一旦すべてひっくるめて「成功確率が一定のランダムな現象」として考えることが多いと思います。いわば、くじ引きのように完全に運によって成功が決まると考えるのです。現象を極限までに単純化しようとするこの考え方は一見乱暴にも見えますが、統計モデリングではまず初めに、このように変数を確率的なものとして扱います。「結果が成功か失敗の二値」であるPKの結果について、「毎回の成功確率が常に一定」という仮定を置くと、「n回行った時に何回成功するか」は二項分布という確率分布に従う確率変数の実現値として現れます。そして成功確率は二項分布のパラメータとして扱うことが出来ます。つまり個人ごとにこの二項分布のパラメータを推定してあげて、推定値が最大の人にPKを任せたら良い、というわけです。結果的には、単純に過去のPK成功確率が一番高い人がきっと今回も最も成功確率が高いだろうという結論が得られます。

統計モデリングの基本的な考え方は以上です。まとめると

  • ある確率変数の値が決まるメカニズムを仮定して確率分布を当てはめる
  • 確率分布のパラメータをデータから推測する
  • 推測されたパラメータをもとに推論や意思決定を行う

といった考え方です。このように考えると、データをもとにした統計的な手続きは、その大半がモデリングアプローチ的な側面を持っていると言えそうです。

…とはいえ現実的には、キーパーが誰であってもどんな状況でも成功確率が一定だと考えるのはさすがに説明不足感が否めないので、手持ちのデータを有効に使ってもう少し踏み込んだモデリングが行われます。その最もシンプルな方法として、(ロジスティック)回帰分析と呼ばれる方法があります。回帰分析では、キッカーのキック力(はやい球が打てるほど成功確率が高い)やキーパーの反射神経(良いほど成功確率が高い)など「PKの成功確率と線形の関係を持つ」変数を組み合わせて成功確率を予測します。これに加えて、比較的影響の小さな要素(気温や芝の状態、今朝食べたものなど?)はまとめてランダムな誤差として扱います。統計モデリングの視点から見ると、回帰分析では二項分布における「PK成功確率」というパラメータに対して「強い関係を持つ変数の線形和(+誤差)」で表現できるというメカニズムを仮定しているわけです。言葉で説明するならば、「PKはキッカーやキーパーによって成功確率が変わるが、成功するかは確率的に決まる現象であり、また成功確率はキッカーのキック力が高いほど高くなり、キーパーの反射神経が高いほど低くなる」といった感じになるでしょう。

統計モデリングの枠組みでは、PKの成功確率一つをとってもほかにも様々な表現が可能です。今年の結果の予測をするにしても、10年前の成績よりも昨年の成績のほうが予測には役立ちそうだと考えて時系列的な要素を取り入れてみたり、国やチームごとに個人のPK成功確率の平均値が異なっていると考えて階層的なモデルを作ってみたり…。入手可能なデータをどのように組み合わせて、どのような数理的表現をとるかは分析者の腕の見せどころと言えるでしょう。

近年では、マルコフ連鎖モンテカルロ法などコンピュータのパワーを最大限に利用した推定手法が気軽に利用できるようになったこともあり、(ベイズ)統計モデリングの敷居は格段に低くなっています。機会があれば、ぜひ試してみてください。

Copyright © 2022, 分寺杏介

前の記事

産業遺産

次の記事

エフェクチュエーション