専門用語クラスタリング理論についてのメモです



用語クラスタリングの概要
単語クラスタリングとは、単語群を機械的かつ事前の学習によらず分類する処理のことです。 目的は単語の分類ですが、この分類には大きく次の2種類があります。単語クラスタリングは、 後者を用いた単語の分類手法になります。
  1. あらかじめ人手による分類がなされたサンプルでデータを学習させておき、その学習により 作成したルールをもちいいて、新規のデータを分類する方法
  2. 学習によらず分類を行う手法。あらかじめ分類基準がはっきりしていない場合に有効。

専門用語クラスタリングは造語で、処理対象を単語から専門用語にしたものです。基本的に、 単語クラスタリングの定番の手法をなぞっています。ここでは、単語クラスタリングの手法に ついて初心者向けに解説します。
単語のクラスタリングは、おおまかに次の3つステップにより実現できます。

  1. ドキュメントから用語群を抽出
  2. 抽出した用語同士の関連性を示す行列を作成する(単語文書行列、単語行列など)
  3. その行列を、クラスタリングプログラムにかけ、グループ化する

逆のステップから考えたほうが、わかりやすそうです。

まず、最終的な結果を出すには、単語を最終的にクラスタリングプログラムにかけ分類をする必要があります。 このクラスタリングプログラムにも、いくつもの種類がありますが、知る限りでは、データとその属性値の 行列を入力にする必要があります。

データはこの場合、「単語」になります。では、属性値をどのように得ればよいのでしょうか。そのために、 ドキュメント中に、それぞれの単語がどのような形で出現していたかを使います。もっとも、わかりやすいの が単語文書行列です。これは、単語の属性として、その単語が特定の文書中に出現するか(または、その頻度 など)を使用します。これ以外にも、さまざまな属性値の与え方が提案されています。

さて、前述したとおり、単語が文書中にどのように出現しているかの情報が必要です。そこで、最初のステップ では、文書中から単語を抽出し、そのときの単語の出現情報を記録しておく必要があるということです。

以下、上記について詳しくみていきましょう。


1.用語群の抽出
単語クラスタリングですから、まず文書中から単語を抽出します。ここでは、単語を抽出するのみならず、 文書中に単語がどのように出現したていたかにも着目します。よく使われるのが、単語の出現頻度(TF)と、 それに他の文書との関連で重み付けを行った、TF*IDF があります。この頻度情報を使う場合、同じ文書に 出現する単語同士の関連を考えることになります。これを単語の共起情報と呼びます。

2.単語の属性を現す行列を作成する
単語の属性をいかに示すかが、単語クラスタリングの重要なポイントです。方法としてさまざまな提案が なれていますが、よく行われるのが同一ドキュメントでの用語の共起です。 ここでいう「共起」とは、Aという用語が存在する用語に他の(たとえばBという用語)が同時に現れるかどう かということです。同じドキュメント中にあらわれることが多い用語同士であるほど、その関連性は強いと考 えられます。

3.クラスタリングを行う
クラスタリングは統計やデータマイニングでも使われる手法です。このクラスタリングの手法にも階 層クラスタリングやファジークラスタリングなどのいくつもの手法があります。  先に単語文書行列の話をしましたが、これを単語ごとに分割してみましょう。そうすると、単語とその 属性値のベクトル(1次元の行列)の集合とみることができます。このベクトル同士がどの程度近いかどうか でクラスタ(まとまり)にわけるというわけです。このベクトル同士の距離の計算方法も、いくつもの種類が あり、選択の余地があるところです。

文責 東京大学理学部生物化学図書室 前田朗