確率的思考・統計的思考
清水玄彦
ビッグデータという言葉に接する機会が非常に多くなっている昨今、統計学の重要性がますます高まっていると考えられます。統計学は確率論を基礎としていることから、高等学校などでは「確率・統計」とひとくくりで教えられていることが多く、また書店でも同様に扱われているように見受けられます。
「確率的思考」・「統計的思考」という言葉を目にしたことがあるのではないでしょうか。これらの言葉は同じような内容を示しているように考えられがちですが、少なからぬ違いがあります。以下では、これら二つの言葉の違いについて考えてみることにしましょう。これは「確率」と「統計」の違いを考察することにもつながります。
「確率的思考」において重要な概念は「リスク」です。リスクの定義の仕方については、過去色々な変遷がありましたが、ここでは以下の二つの条件を満たすものをリスクということにしましょう。第一に「何が起こるか結果が分かっている」こと、第二に「個々の結果の確率が分かっていること」です。たとえば天気予報は、明日以降の天気の結果とそれぞれの確率とが分かっているのでリスクと言うことができます。宝くじも当選金額と当選確率が分かっているのでリスクと言えるでしょう。日本語でリスクと言うと、マイナス・イメージを持つことが多い印象を受けます。かつては「危険」と訳されることが多く、実際に統計学(統計的決定理論)では損失(loss)の期待値としてリスクが定義されています。期待値を計算するためには、確率分布を用いる必要があるので、リスクと確率とは切っても切れない関係になっています。したがって「確率的思考」はリスクを意識した場合の考え方を示していると言えるでしょう。
もう一方の「統計的思考」は、「統計」すなわち「データ」に基づいた場合の考え方と言うことができます。しばらく前から「根拠に基づいたevidence-based」という言い方をよく耳にします。根拠に該当するものとして我々に身近なものと言えば、データが考えられるでしょう。医学の世界では、EBMすなわちevidence-based medicineが重要視されており、勘や経験ではなく根拠(データ)に基づいた医療判断が求められています。一方、社会科学の世界でもEBPM(evidence-based policy making)根拠に基づく政策立案に関心が傾けられています。様々な分野で根拠(データ)に基づいた分析が求められているのが現状です。社会科学、中でも経済学は利用可能なデータが非常に豊富であり、それに適切な統計分析を駆使することで、多くの知見を得ることができます。また最近では統計的因果推論も非常に盛んに研究・応用されており、実際に行われた政策の効果を測定されることで、より客観的な評価を行うことができるようになってきています。
以上、「確率的思考=リスク」・「統計的思考=データ」という関係を説明してきましたが、この両者をバランスよく組み合わせることも重要です。基本的な統計学の教科書を紐解くと、前半では確率変数や確率分布に関する説明がなされており、後半では標本と母集団の関係、推定と仮説検定が出てきます。そして最後に回帰分析が解説されていることが多く、そこでは回帰モデルのパラメータに関する推定および検定が説明されています。
パラメータの推定はデータに基づいて行われるのに対し、パラメータの有意性検定は確率分布に基づいて行われます。とりわけ後者は間違った判断をするリスクを減らすことが主眼となっています。ここに「確率的思考」と「統計的思考」との見事な組み合わせが見て取れるのではないでしょうか。
統計学を学ぶことで、両者のものの見方を修得することが期待できます。今や現代人にとって必要不可欠とも言えるこれらの思考方法を身につけることは、様々な分野において大いに役立つとともに、複眼的(確率・統計的)思考を可能にするものであると言えるでしょう。
Copyright © 2018, 清水玄彦