Windows用専門用語(キーワード)自動抽出システム
"termex"(中文版) の解説



はじめに

 "termex"(中文版)は特定のWebサイトや、Windows上のテキストファイルから専門用語を抽出するためのシステムです。なお、中文版は現在のところ、UNICODE(UTF-8)版テキストを処理にした場合のみ動作確認が行われています。ご了解ください。このシステムはもともと Webサイトを対象としたメタデータ作成補助ツールとしての役割を目的としています。ただし、それ以外にもWeb中の長文ドキュメントや、Windows上の文書から重要な概念を抽出するなどの研究目的にも使用できると思います。
 このシステムは、いつくものフリーソフトを組み合わせて実装しています。全ての機能を使うには、インストールにに多少手間がかかりますが、使いたい機能に応じてインストール作業を省略することもできます。以下、簡単なものから順に説明していきます。

機能と使い方

  1. Windowsのテキストファイルを、termexのアイコンにドラッグ&ドロップします。
    (GBコードの場合は"termex_chainesGB"
    UNICDEの場合は"termex_chainesUC"アイコンになります)

  2. Windowsの「メモ帳」が起動し、専門用語リストを重要度の高い順に表示します。

  3. 「メモ帳」を閉じるとプログラムが終了します。
最初の1回は、「Windows によって PC が保護されました」とのメッセージがでて中断します。「不明な発行元」であることが原因です。「詳細情報」から「実行」をクリックすることで継続できます。
  * 分詞ソフトICTCLASの処理結果ファイルを入力にすることもできます。その場合は"termex_ICTCLAS"アイコンをお使いください。

インストール

  1. Perlのインストール
    お使いのパソコンにPerl(バージョン5以上)がインストールされていない場合は、次のページからPerlを入手、インストールします。
    Strawberry Perl

  2. TermExtractのインストール
    次からTermExtractをダウンロードします。
    "TermExtract"最新版(ZIP形式)
     Windowsのコマンドプロンプトから"win_install.pl"をダブルクリックします。  もし、上記の方法で動作しない場合は、コマンドプロンプト(MS-DOSプロンプト)から、cd コマンドで、win_install.plのあるディレクトリ(フォルダ)まで移動し、perl win_install.plとコマンド入力して下さい。

  3. termex(中文版)のインストール
    次のファイルをダウンロードし、適当なフォルダに解凍してください。
    "termex"(中文版)最新版(ZIP形式)

     環境設定用のプログラムを起動します。"Configure.pl" をダブルクリックします。  もし、上記の方法で動作しない場合は、コマンドプロンプト(MS-DOSプロンプト)から次のとおりコマンドを投入します。
      perl termex(中文版)ディレクトリのパス\Configure.pl

     GBコードの場合は"termex_chainesGB"アイコン、UNICDEの場合は"termex_chainesUC"アイコン"アイコンをデスクトップ等の使いやすいところにおきます。これが重要度計算用のアイコンになります。

     出力モードをは3種類用意してあります。デフォルトは「専門用語」のみ(改行区切り)です。切り替えは次の方法で行います。
     UNICODE(UTF-8)版の場合には"ex_CPT_UC"に、GBコード版の場合には"ex_CPT_BG.pl"に「メモ帳」で開き、次の処理を行います。$output_mode の値を次の3つの数値のいづれかにセットすることで、出力モードが切り替わります(デフォルトは”1”)。

    1. 「専門用語」+「重要度」(改行区切)
    2. 「専門用語」のみ    (改行区切)
    3. 「専門用語」のみ    (カンマ区切)

オプション 「学習機能付」のWindowsテキストファイルからの専門用語抽出

 基本機能と使いかたは同じですが、以前に処理したデータを元に、専門用語の重要度をより正確に算出できるようになります。なお雑多な文章を学習させると、あまりに一般的な語が上位にきます。特定の分野の文献に限定してお使いくださいこの機能は「学習用」のデータベースを持つことで実現しています。

インストール

スクリプトの設定変更
 形態素解析に「茶筅」を使うなら"ex_chasen.pl" 、「和布蕪」を使うなら"ex_mecab.pl"を「メモ帳」などで開き、次の行頭の # を削除して保存します。また、英文(高速)の場合には"ex_EPT.pl"に、英文(高精度)の場合は"ex_EN-Tagger.pl"に同様の処理を行います。
#$data->use_SDBM;
#$data->use_stat;
#$data->use_storage;