”専門用語(キーワード)自動抽出システム”
2005.07 メジャーバージョンアップの内容
”専門用語(キーワード)自動抽出システム”の配布ソフト TermExtract, termex, termex_cn,
termex_lite, termmi のそれぞれをバージョンアップしました。
バージョンアップの概要は次のとおりです。これ以外にバグや利用上の問題がありましたら、 までご連絡いただれば幸いです。
- Frequency, TF, TF*IDF などの重要度計算モードを追加しました
- 学習機能がデフォルトからオプション機能になりました。学習機能をユーザプログラム中でお使いのかたはパラメータ変更が必要です。
- 茶筅 ver 2.3.3 との組み合わせにおける「未知語」のバグを修正しました。また、「記号-アルファベット」を英単語として処理するようにしました
- 茶筅 ver 2.3.3 用に、termex, termmi のインストーラーを修正しました
- BrillsTagger.pmが所有格語尾を扱えないバグを対策しました
- EnglishPlainText.pmで ' (シングルコーテーション)を語の区切りとはみなさないようにしました
専門用語抽出システムでは用語の文章中の出現頻度をいままでも使ってきました。この用語の出現
頻度のカウント方法には、Frequency と TF(Term Frequency) の2つがあります。いままでは、
Frequency のみ使ってきました。今回のバージョンから、TF もオプション指定できるようになりま
す。また、用語の連接情報をカットすることで、Frequency, TF のみで重要度計算することも可能
です。Frequency と TF の違いは次のとおりです。
- Frequency ------------ 用語が他の用語の一部として使われていた場合にカウントしません
- TF(Term Frequency) --- 用語が他の用語の一部として使われていた場合もカウントします
たとえば、「情報システムと情報」という例でみてみます。この場合、"TermExtract"
において、FrequencyとTFは次のようにカウントされます。
- Frequency の場合 --------- 「情報」が1回、「情報システム」が1回
- TF の場合 ---------------- 「情報」が2回、「情報システム」が1回
termex, termex_cn, termex_lite ではスクリプト(ex_chasen.plなど exではじまる
ファイル)を次のように修正することで、Frequency, TF のデータを出すことができます。
Frequencyの場合は、以下の行頭の#を削除
#$data->no_LR;
TFの場合は、以下の2箇所の行頭の#を削除
#$data->no_LR;
#$data->TF;
termmi ではTF*IDFも使用できます。これには使用するスクリプト(mi_chasen.plなどmiでは
じまるファイル)を次のように修正します。
(デフォルト) my $mode = 1;
(TF*IDFモード) my $mode = 2;
TF*IDF はオーソドックスな手法です。計算式は次のとおりになります。
TF*IDF =
用語の出現頻度 * (log (総文献数 / 該当の用語を含む文献数)+1)
茶筅 ver 2.3.3 の未知語を扱えないバグを修正しました。また、茶筅 ver 2.3.3 では大部分の英文が、
「未知語」ではなく「記号-アルファベット」として、一字づつ解析されます。それらを、英単語として処理
するようにしました。ただし、茶筅 ver.2.3.3 と TermExtract の組み合わせでは英単語の半角スペース空け
ができません。たとえば、"Web Technology"が"WebTechnology"として処理されてしまいます。
和布蕪か、ver 2.1 以前の「茶筅」(Windows環境では、WinCha として現在でも入手可)の利用をお勧めします。
termex, termmi とも茶筅の ver 2.1 (現在もWinChaとして配布)用にインストーラー"Configure.pl"が
作成されていました。これを、茶筅 ver 2.3.3 にも対応するよう修正しました。いままでは、茶筅
ver 2.3.3の場合、インストーラーが茶筅を見つけることができませんでしたが、今後は「茶筅」をデフォ
ルトのディレクトリにインストールした場合は自動認識します。
学習機能つきで雑多な文献を読ませすぎるとあまりに一般的な語が上位にきます。分野を特定して
する必要がありますが、あまり一般向けとはいいがたいところがあります。そこで「学習機能」を
デフォルト(バークレーDBが使える環境では自動的に動作)からオプション機能に変更しました。
いままでどおり学習機能をお使いになりたいかたは、次のモードをセットしてくださるようお願い
いたします。
$obj->use_stat;
$obj->use_storage;
これに合わせ、termmi では処理のたびに学習用データをクリアする仕様に変更しています。
BrillsTagger(英文POS Tagger版)で、所有格語尾を扱おうとするとエラーになることが判明し、
その手当てを行いました。また、所有格語尾を用語の一部とする関係で、' (シングルコーテー
ション)を用語の区切りとはみなさないように変更しました。
所有格語尾を用語の一部とするため、' (シングルコーテーション)を用語の区切りとはみな
さないように変更しました。
トップページに戻る