Windows用専門用語(キーワード)自動抽出システム

"termex lite"の解説


はじめに

 "termex lite" は特定のWebサイトや、Windows上のテキストファイルから専門用語を抽出するためのシステムです。従来の標準版の"termex"と異なり、「茶筅」や「和布蕪」といった形態素解析ソフトを利用しない方法を採用しています。これにより、形態素解析では抜き出せなかった語をと りだせるようになりました。またインストールも楽になっています。難点としては、いまのところ、どの程度の精度で用語が抽出できるかどうか、検証がなされていないことです。また、形態素解析であれば抽出できる語(ひらがな交じりの語)が逆に抽出できないケースもありえます。termexは「学習機能」も用意していましたが、今回の方式の性格上、あえて使わないほうがよいと判断しそれもはずしてあります。"termex"とはまた違った結果を出したい場合、インストール作業を楽にしたい場合などにお勧めです。
 このシステムは、いつくものフリーソフトを組み合わせて実装しています。全ての機能を使うには、インストールにに多少手間がかかりますが、使いたい機能に応じてインストール作業を省略することもできます。以下、簡単なものから順に説明していきます。

機能と使い方

  1. Windowsのテキストファイルを、"termex lite" のアイコンにドラッグ&ドロップします。
    (和文の場合は「重要度計算(和文)」アイコン
    英文の場合は「重要度計算(英文)」アイコンになります)

  2. Windowsの「メモ帳」が起動し、専門用語リストを重要度の高い順に表示します。

  3. 「メモ帳」を閉じるとプログラムが終了します。
最初の1回は、「Windows によって PC が保護されました」とのメッセージがでて中断します。「不明な発行元」であることが原因です。「詳細情報」から「実行」をクリックすることで継続できます。

インストール

  1. Perlのインストール
    お使いのパソコンにPerl(バージョン5以上)がインストールされていない場合は、次のページからPerlを入手、インストールします。
    Strawberry Perl

  2. TermExtractのインストール ( ver 2.42以上が必要です)
    次からTermExtractをダウンロードします。ファイルを解凍後、解凍したフォルダ中にある"win_install.pl"アイコンをダブルクリックするとインストールが行われます。
    "TermExtract"最新版(ZIP形式)

      もし、上記の方法でうまく動作しない場合は、Windowsのコマンドプロンプトから"win_install.pl"を実行します。cd コマンドで、win_install.plのあるディレクトリ(フォルダ)まで移動し、perl win_install.plとコマンド入力して下さい。

  3. "termex lite" のインストール
    次のファイルをダウンロードし、適当なフォルダに解凍してください。
    "termex lite" 最新版(ZIP形式)
     次に環境設定用のプログラムを起動します。"Configure.pl" アイコンをダブルクリックします。
     もし、上記の方法で動作しない場合は、コマンドプロンプト(MS-DOSプロンプト)から次のとおりコマンドを投入します。
      perl "termex lite" ディレクトリのパス\Configure.pl

      「重要度計算(和文)」、「重要度計算(英文)」アイコンが生成されます。これらをパソコンの使いやすいところに移動します。

     出力形式は3モード用意してあります。和文の場合は"ex_JPTS.pl"、を英文の場合は"ex_EPT.pl"を「メモ帳」などで開きます、プログラム中の$output_mode の値を次の3つの数値のいづれかにセットすることで、出力モードが切り替わります(デフォルトは”1”)。

    1. 「専門用語」+「重要度」(改行区切)
    2. 「専門用語」のみ    (改行区切)
    3. 「専門用語」のみ    (カンマ区切)