専門用語クラスタリングは造語で、処理対象を単語から専門用語にしたものです。基本的に、
単語クラスタリングの定番の手法をなぞっています。ここでは、単語クラスタリングの手法に
ついて初心者向けに解説します。
単語のクラスタリングは、おおまかに次の3つステップにより実現できます。
逆のステップから考えたほうが、わかりやすそうです。
まず、最終的な結果を出すには、単語を最終的にクラスタリングプログラムにかけ分類をする必要があります。 このクラスタリングプログラムにも、いくつもの種類がありますが、知る限りでは、データとその属性値の 行列を入力にする必要があります。
データはこの場合、「単語」になります。では、属性値をどのように得ればよいのでしょうか。そのために、 ドキュメント中に、それぞれの単語がどのような形で出現していたかを使います。もっとも、わかりやすいの が単語文書行列です。これは、単語の属性として、その単語が特定の文書中に出現するか(または、その頻度 など)を使用します。これ以外にも、さまざまな属性値の与え方が提案されています。
さて、前述したとおり、単語が文書中にどのように出現しているかの情報が必要です。そこで、最初のステップ では、文書中から単語を抽出し、そのときの単語の出現情報を記録しておく必要があるということです。
以下、上記について詳しくみていきましょう。