テキストマイニング

古澄英男

最近「テキストマイニング」という言葉をよく耳にします。「テキスト」(text)は文字で書かれたデータあるいは文章のことを表し、「マイニング」(mining)は鉱山を「採掘する」という意味です。つまり、テキストマイニングとは、テキスト(文章)として保存されたデータをさまざまな観点から分析し、役に立つ知識や情報を取り出そうとする分析手法のことです。

テキストマイニングが登場したのは1990年代後半で、その背景としてテキストデータの電子化や蓄積が進んだことが挙げられます。パソコンが普及する前までは、われわれは文章の多くを紙という媒体に保存してきました。しかし最近では、文章を書くときに紙と鉛筆を使う人は少なく、ワードなどを用いて文章を作成しファイルに保存しています。また、インターネットが当たり前になった今日、電子メール、電子掲示板、ブログ、twitter、ウェブ上の書き込みなど電子化された文章が大量に存在しています。これはビジネスの場面でも同じで、消費者アンケートの自由記述、社内の日誌、コールセンターでの顧客とオペレータのやり取りの記録などは文章の形で蓄積されデータベース化されています。大量に蓄積されたテキストデータを前にしたとき、これらを分析したいと考えるのは自然な流れだと言えます。

大量のテキストデータを人の手によって分析するのはほぼ不可能ですから、コンピュータで処理する必要があります。しかし、コンピュータからテキストデータを見たとき、それは単なる記号の並びでしかありません。そこで、記号の並びから意味のある情報を抽出するために、まずコンピュータを用いて文章を単語に分解し、テキストデータを整理・集計する必要があります。人間が日常使っている言葉(自然言語)をコンピュータに処理させる一連の技術のことを自然言語処理とよびます。用いている自然言語が英語であれば、

There is only one valid definition of business purpose: to create a customer.

の例文(ドラッカー著「The Practice of Management」より引用)から分かるように、各単語がスペースなどで分かれており、文章を単語に分解することは比較的容易です。しかし日本語の場合には、これは意外と難しい作業です。先の英文の和訳(上田惇生訳「現代の経営」より引用)

事業の目的として有効な定義は一つしかない。顧客の創造である。

を考えてみましょう。この文章を、自然言語処理の一つである形態素解析によって分解すると

事業 目的 として 有効 定義 一つ しか ない
(名詞) (助詞) (名詞) (助詞) (名詞) (助動詞) (名詞) (助詞) (名詞) (助詞) (形容詞) (記号)
顧客 創造 ある
(名詞) (助詞) (名詞) (助動詞) (助動詞) (記号)

 

となり、名詞が7回、助詞が5回、助動詞が3回、形容詞が1回表れていることが分かります。このようにテキストデータを自然言語処理しそれを整理・集計することによって、テキストデータが数値データに変換され、さまざまな解析が可能となります。こうした自然言語処理に関する研究が進展したことも、テキストマイニングが注目されるようになった要因の一つです。

最近では、ChasenやMeCabといった自然言語処理を行うソフトが無料で利用できるようになり、テキストマイニングは身近な方法となっています。多くの人にテキストマイニングを活用して欲しいのですが、最後に利用する上での注意点をいくつか指摘しておきます。テキストマイニングが対象とする言葉は、常に新しい語が生まれています。これらの多くはあまり意味の無いのですが、中には流行を反映したものもあり、適切に対処しないと重要な情報を見逃してしまうことがあります。新しい言葉をどう処理するかは技術的にも難しい問題で、克服しなければならない課題の一つです。「マイニング」という言葉には、鉱山から「宝」を見つけ出すという意味が込められています。しかし、宝が無いところをいくら掘っても何も出てきません。テキストマイニングでは、その技術的側面や解析手法が強調されがちですが、宝が埋まっているデータをいかにして集めるかがより重要であると言えます。言うまでもなく、テキストマイニングは目的ではなく分析道具です。テキストマイニングによって役立つ知識や情報が得られるかどうかは、この道具を使う人次第だと言うことも忘れないで欲しいと思います。

Copyright © 2010, 古澄英男