Windows用専門用語(キーワード)自動抽出システム
"termex lite" の解説


はじめに
 "termex lite" は特定のWebサイトや、Windows上のテキストファイルから専門用語を
抽出するためのシステムです。
 従来の標準版の"termex"と異なり、「茶筅」や「和布蕪」といった形態素解析ソフトを
利用しない方法を採用しています。これにより、形態素解析では抜き出せなかった語をと
りだせるようになりました。またインストールも楽になっています。
 難点としては、いまのところ、どの程度の精度で用語が抽出できるかどうか、検証がな
されていないことです。また、形態素解析であれば抽出できる語(ひらがな交じりの語)
が逆に抽出できないケースもありえます。termexは「学習機能」も用意していましたが、
今回の方式の性格上、あえて使わないほうがよいと判断しそれもはずしてあります。
 "termex"とはまた違った結果を出したい場合、インストール作業を楽にしたい場合など
にお勧めです。

 このシステムは、いつくものフリーソフトを組み合わせて実装しています。全ての機能を
使うには、インストールにに多少手間がかかりますが、使いたい機能に応じてインストール
作業を省略することもできます。
 以下、簡単なものから順に説明していきます。


基本機能 Windowsテキストファイルからの専門用語抽出

機能と使い方

 1.Windowsのテキストファイルを、"termex lite" のアイコンにドラッグ&ドロップします。
     (和文の場合は「重要度計算(和文)」アイコン
       英文の場合は「重要度計算(英文)」アイコンになります)
 2.Windowsの「メモ帳」が起動し、専門用語リストを重要度の高い順に表示します。
 3.「メモ帳」を閉じるとプログラムが終了します。
インストール
  1. Perlのインストール
     お使いのパソコンにPerl(バージョン5以上)がインストールされていない場合は、
    次のページからPerlを入手、インストールします。
    
    Actice State社ホームーページ Perlダウンロード
    (Windows のMSI版を選ぶと、後のインストールが楽になります)
    
    
  2. TermExtractのインストール ( ver 2.42以上が必要です)
     次からTermExtractをダウンロードします。ファイルを解凍後、解凍したフォルダ中に
    ある"win_install.pl"アイコンをダブルクリックするとインストールが行われます。
    "TermExtract"最新版(ZIP形式)
     もし、上記の方法でうまく動作しない場合は、Windowsのコマンドプロンプトから
    "win_install.pl"を実行します。cd コマンドで、win_install.plのあるディレクトリ
    (フォルダ)まで移動し、perl win_install.plとコマンド入力して下さい。
    
  3. "termex lite" のインストール
     次のファイルをダウンロードし、適当なフォルダに解凍してください。
    "termex lite" 最新版(ZIP形式)
     次に環境設定用のプログラムを起動します。"Configure.pl"  アイコンをダブルクリック
    します。
     もし、上記の方法で動作しない場合は、コマンドプロンプト(MS-DOSプロンプト)から次
    のとおりコマンドを投入します。
     perl "termex lite" ディレクトリのパス\Configure.pl
    
     「重要度計算(和文)」、「重要度計算(英文)」アイコンが生成されます。これら
    をパソコンの使いやすいところに移動します。
    
     出力形式は3モード用意してあります。和文の場合は"ex_JPTS.pl"、を英文の場合は
    "ex_EPT.pl"を「メモ帳」などで開きます、
    プログラム中の$output_mode の値を次の3つの数値のいづれかにセットすることで、
    出力モードが切り替わります(デフォルトは”1”)。
    
     1 → 「専門用語」+「重要度」(改行区切)
     2 → 「専門用語」のみ    (改行区切)
     3 → 「専門用語」のみ    (カンマ区切)
    
    

オプション Webブラウザとの連携による専門用語抽出

機能と使い方

 基本機能に加え次のように、Webブラウザに表示されたデータを直接、専門
用語抽出にかけることができます。

 1.Webブラウザで処理対象のページを開き、マウス右ボタンのメニューから、
  「ソースの表示」を選びます。Windowsバッチファイルのウインドウが起動し、
  しばらくすると閉じます。

 2.1の操作をWebサイト内の必要なページに対して行います。

 3.重要度集計用のアイコンをダブルクリックします。Windowsの「メモ帳」が
  起動し、専門用語が重要度の高い順に表示されます。

 4.「メモ帳」を終了すると、プログラムも終了します
インストール
  1. Jcodeモジュールのインストール(Perl 5.8の場合は不要)
     Perl 5.8より前のバージョンをお使いの場合、Jcodeモジュールが必要です。
     インストールされていない場合は、次のWebページの指示に従いモジュールを
    インストールします。
    
    Jcodeモジュールの作者のページ http://www.dan.co.jp/Jcode/index-j.html
    
  2. Webブラウザのソースエディタ切り替え
     Webブラウザのソースエディタを切り替えます。ブラウザごとにソースエディタの
    変更方法は異なりますが、ここでは、Windows標準のInternet Explorerでの方法につ
    いて紹介します。
     インストール後、ソースエディタをtermexをインストールしたディレクトリにある、
    "store.bat"に切り替えてください。(以下の双方のプログラムとも、拡張子が"bat"
    のファイルをそのままでは参照できません。参照から"store.bat"を選ぶ場合は、ファ
    イル名を*.*としてからお探しください


専門用語(キーワード)自動抽出サービス「言選Web」

専門用語(キーワード)自動抽出用Perlモジュール"TermExtract" の解説

Windows用テキストマイニングツール"termmi"

Windows用専門用語(キーワード)自動抽出システム"termmx"

Windows用専門用語(キーワード)自動抽出システム"termmx"(中文版)

トップページに戻る