Windows用専門用語(キーワード)自動抽出システム
"termex" の解説


はじめに
  "termex"は特定のWebサイトや、Windows上のテキストファイルから専門用語を抽出するた
めのシステムです。
 このシステムはもともと Webサイトを対象としたメタデータ作成補助ツールとしての役割
を目的としています。ただし、それ以外にもWeb中の長文ドキュメントや、Windows上の文書
から重要な概念を抽出するなどの研究目的にも使用できると思います。
 このシステムは、いつくものフリーソフトを組み合わせて実装しています。全ての機能を
使うには、インストールにに多少手間がかかりますが、使いたい機能に応じてインストール
作業を省略することもできます。
 以下、簡単なものから順に説明していきます。


基本機能 Windowsテキストファイルからの専門用語抽出

機能と使い方

 1.Windowsのテキストファイルを、termexのアイコンにドラッグ&ドロップします。
     (和文の場合は「重要度計算(茶筅)」「重要度計算(和布舞)」アイコン、
       英文の場合は「重要度計算(英文・高速)」アイコンになります)
 2.Windowsの「メモ帳」が起動し、専門用語リストを重要度の高い順に表示します。
 3.「メモ帳」を閉じるとプログラムが終了します。
インストール
  1. Perlのインストール
     お使いのパソコンにPerl(バージョン5以上)がインストールされていない場合は、
    次のページからPerlを入手、インストールします。
    
    Actice State社ホームーページ Perlダウンロード
    (Windows のMSI版を選ぶと、後のインストールが楽になります)
    
  2. 形態素解析ソフトのインストール
     形態素解析ソフトとして「茶筅」もしくは「和布蕪」をインストールします。
     ソフトの入手先はそれぞれ次のとおりです。
    
    
  3. TermExtractのインストール
       次からTermExtractをダウンロードします。ファイルを解凍後、解凍したフォルダ中に
    ある"win_install.pl"アイコンをダブルクリックするとインストールが行われます。
    "TermExtract"最新版(ZIP形式)
     もし、上記の方法でうまく動作しない場合は、Windowsのコマンドプロンプトから
    "win_install.pl"を実行します。cd コマンドで、win_install.plのあるディレクトリ
    (フォルダ)まで移動し、perl win_install.plとコマンド入力して下さい。
    
    
  4. termexのインストール
       次のファイルをダウンロードし、適当なフォルダに解凍してください。
    "termex"最新版(ZIP形式)
    
     環境設定用のプログラムを起動します。"Configure.pl"  アイコンをダブルクリックする
    と自動的に「茶筅」や「和布蕪」のインストール場所を調査します。もし、見つからない場
    合は、インストールしたディレクトリを問い合わせてきますので、それにお答えください。
     もし、上記の方法で動作しない場合は、コマンドプロンプト(MS-DOSプロンプト)から次
    のとおりコマンドを投入します。
     perl termexディレクトリのパス\Configure.pl
     
      Strawberry Perlでも動作します。
      ただし、termexのインストール前にCPANからの"Win32::Shortcut"モジュールのインストールが必要になります。
      これはコマンドプロンプトから、次の操作にてインストールが可能です。
      perl -MCPAN -e shell
      infstall Win32::Shortcut
      
    
     形態素解析に「茶筅」を使うなら"重要度計算(茶筅)"アイコン、 「和布蕪」を使うなら
    "重要度計算(和布蕪)"アイコンをデスクトップ等の使いやすいところにおきます。これが
    重要度計算用のアイコンになります。
    
     出力形式は3モード用意してあります。形態素解析に「茶筅」を使うなら"ex_chasen.pl"、
    「和布蕪」を使うなら"ex_mecab.pl"を「メモ帳」などで開きます、プログラム中の
    $output_mode の値を次の3つの数値のいづれかにセットすることで、出力モードが切り替
    わります(デフォルトは”1”)。
    
     1 → 「専門用語」+「重要度」(改行区切)
     2 → 「専門用語」のみ    (改行区切)
     3 → 「専門用語」のみ    (カンマ区切)
    
    

オプション その1 高精度の英文専門用語抽出


インストール

  PerlモジュールLingua::EN::Taggerがインストールされていない場合は
次の手順でインストールします。なお、この手順はインターネットに接続され
ている環境が前提です。

 1.コマンドプロンプト(MS-DOSプロンプト)を起動する。
 2.ppm install Lingua-EN-Tagger とコマンドを投入する。インストールが開始される。
 3.QUIT でコマンドプロンプトに戻る
 4.EXIT でコマンドプロンプトを終了する。
 「重要度計算(英文・高精度)」アイコンに英文テキストをドラッグし、 英語の高精度な用語抽出を行えるようになります。 オプション その2 「学習機能付」のWindowsテキストファイルからの専門用語抽出

 基本機能と使いかたは同じですが、以前に処理したデータを元に、専門用語の重要度をより
正確に算出できるようになります。なお雑多な文章を学習させると、あまりに一般的な語が
上位にきます。特定の分野の文献に限定してお使いください
 この機能は「学習用」のデータベースを持つことで実現しています。

インストール 

 スクリプトの設定変更
  形態素解析に「茶筅」を使うなら"ex_chasen.pl" 、「和布蕪」を使うなら
"ex_mecab.pl"を「メモ帳」などで開き、次の行頭の # を削除して保存します。
 また、英文(高速)の場合には"ex_EPT.pl"に、英文(高精度)の場合は"ex_EN-Tagger.pl"に
 同様の処理を行います。

  #$data->use_SDBM 
  #$data->use_stat;
  #$data->use_storage;

オプション その3  Webブラウザとの連携による専門用語抽出

機能と使い方

 基本機能に加え次のように、Webブラウザに表示されたデータを直接、専門
用語抽出にかけることができます。

 1.Webブラウザで処理対象のページを開き、マウス右ボタンのメニューから、
  「ソースの表示」を選びます。Windowsバッチファイルのウインドウが起動し、
  しばらくすると閉じます。

 2.1の操作をWebサイト内の必要なページに対して行います。

 3.重要度集計用のアイコンをダブルクリックします。Windowsの「メモ帳」が
  起動し、専門用語が重要度の高い順に表示されます。

 4.「メモ帳」を終了すると、プログラムも終了します
インストール
  1. Jcodeモジュールのインストール(Perl 5.8の場合は不要)
     Perl 5.8より前のバージョンをお使いの場合、Jcodeモジュールが必要です。
     インストールされていない場合は、次のWebページの指示に従いモジュールを
    インストールします。
    
    Jcodeモジュールの作者のページ http://www.dan.co.jp/Jcode/index-j.html
    
  2. Webブラウザのソースエディタ切り替え
     Webブラウザのソースエディタを切り替えます。ブラウザごとにソースエディタの
    変更方法は異なりますが、ここでは、Windows標準のInternet Explorerでの方法につ
    いて紹介します。
     インストール後、ソースエディタをtermexをインストールしたディレクトリにある、
    "store.bat"に切り替えてください。(以下の双方のプログラムとも、拡張子が"bat"
    のファイルをそのままでは参照できません。参照から"store.bat"を選ぶ場合は、ファ
    イル名を*.*としてからお探しください


ver 2.3.3 以上の「茶筅」をお使いのかたへ
 「茶筅」のver 2.3.3 では記号-アルファベットの扱いが変更になりました。
そのため、termex では、連続する英単語が空白区切りなしで抽出される弊害が
起きています。ひとつの解決策は、旧バージョンの「茶筅」や「和布蕪」を形態
素解析ソフトとして選ぶことですが、「茶筅」自体の設定変更によっても対応が
可能です。
 その設定変更の手順は次のとおりです。

 1.「茶筅」をインストールしたディレクトリを探します
   (通常は、c:\Program files\ChaSen です)
 2.「茶筅」をインストールしたディレクトリのサブディレクトリ"dic"を開きます
 3.上記のディレクトリにあるファイル"chasenrc"を「メモ帳(Notepad)」などの
    エディタで開きます(バックアップをとった上での編集がお勧めです)
 4.設定中の以下の箇所のコメント(行頭の;を削除して、保存します。
  (変更前: 行頭に;あり)
    ;(連結品詞 ((名詞 数))
        ;  ((記号 アルファベット)))
     
  (変更後: 行頭に;なし)
    (連結品詞 ((名詞 数))
          ((記号 アルファベット)))
     

専門用語(キーワード)自動抽出サービス「言選Web」

専門用語(キーワード)自動抽出用Perlモジュール "TermExtract" の解説

Windows用専門用語(キーワード)自動抽出システム "termex lite"

Windows用テキストマイニングツール "termmi

トップページに戻る