データサイエンス

各務和彦

2009年8月にGoogleのチーフエコノミストであるHal Varian氏が「これからの10年で最もセクシーな職業は統計学者だ」という発言をしたことを記憶している人も多いであろう。この発言からすでに10年の月日が流れた。他方,2012年にハーバード・ビジネス・レビューにおいて,21世紀で最もセクシ−な仕事として採り上げられたのがデータサイエンスである。データサイエンスという単語はその後,衆目の認めるところとなったが,データサイエンスとは何であるのかを説明するのは非常に難しい。実際の所,データサイエンスとは何なのかの明確な定義もないままであるが,日本においては,滋賀大学や横浜市立大学においてデータサイエンス学部が設立され,データサイエンティストの育成が急務となっているし,実際,データサイエンティストは労働市場において引く手あまたのようである。

データサイエンスも統計学も,どちらもデータを分析する学問であることは想像できるが,これらの間にはどのような違いがあるのか。そして,時代の流れは統計学からデータサイエンスに取って代わったのであろうかを考える必要があるであろう。これを紐解く鍵は,この10年で大きく変わったことにあり,それらは「データ」と「コンピュータ」である。ビッグデータという言葉はすでに多くの人々にとって聞き慣れた言葉となっているが,読んで字の如く大量の複雑なデータが利用可能になった。その代表的な例は,コンビニなどのPOSデータであろう。POSデータの中には,例えば,購入者の年齢,性別といった情報とともに,いつ,どんなものを購入したかといった情報が含まれている。全国のコンビニのデータを1カ所に集積すれば,それは大量のデータとなり,Excelのような標準的な表計算ソフトでは対応しきれない。これを対応可能にしたのがコンピュータである。大量のデータから意味のある情報を抽出し,利用することが可能になったのは,情報学の発展によって,コンピュータで大量のデータが操作できるようになったからである。筆者はこの分野に関しては疎く,詳しい内容は割愛するが,これらの発展がこの10年で急激に起こったことであると言える。

同時に変わらないこともある。ビッグデータを分析可能なデータに加工することができても,統計的方法は変わっていない。ビッグデータに合わせてモデルやその推定方法に工夫は必要であるが,根本にある考え方はそのままである。つまり,データサイエンスはデータを分析するための学問であるが,統計学では学ぶことのなかったデータを扱う情報学との融合領域と見ることができるであろう。データサイエンスの技術を身につけたければ,一番の近道はデータサイエンス学部でこれらを総合的に学ぶことであろう。しかし,データサイエンス学部でなくても学べることがある。それは統計学である。統計学は多くの学部で開講されているだけでなく,セミナーが開講されていたり,書籍も大量に出版されていたりしている。データサイエンスという新しい学問においても,変わらないものは学んでいても損のないものであると言えるであろう。まだまだ,データサイエンティストの育成に対する基盤ができていない日本において,できることは正しい統計の知識を身につけることであろう。

Copyright © 2019, 各務和彦