Windows用専門用語(キーワード)自動抽出システム
"termex"の解説
はじめに
"termex"は特定のWebサイトや、Windows上のテキストファイルから専門用語を抽出するためのシステムです。このシステムはもともと Webサイトを対象としたメタデータ作成補助ツールとしての役割を目的としています。ただし、それ以外にもWeb中の長文ドキュメントや、Windows上の文書
から重要な概念を抽出するなどの研究目的にも使用できると思います。このシステムは、いつくものフリーソフトを組み合わせて実装しています。全ての機能を使うには、インストールにに多少手間がかかりますが、使いたい機能に応じてインストール
作業を省略することもできます。以下、簡単なものから順に説明していきます。
機能と使い方
- Windowsのテキストファイルを、termexのアイコンにドラッグ&ドロップします。
(和文の場合は「重要度計算(和布舞)」アイコン、
英文の場合は「重要度計算(英文・高速)」アイコンになります)
- Windowsの「メモ帳」が起動し、専門用語リストを重要度の高い順に表示します。
- 「メモ帳」を閉じるとプログラムが終了します。
最初の1回は、「Windows によって PC が保護されました」とのメッセージがでて中断します。「不明な発行元」であることが原因です。「詳細情報」から「実行」をクリックすることで継続できます。
インストール
- Perlのインストール
お使いのパソコンにPerl(バージョン5以上)がインストールされていない場合は、次のページからPerlを入手、インストールします。
Strawberry Perl
- 形態素解析ソフトのインストール
形態素解析ソフトとして「和布蕪」をインストールします。ソフトの入手先は次のとおりです。
- TermExtractのインストール
次からTermExtractをダウンロードします。ファイルを解凍後、解凍したフォルダ中にある"win_install.pl"アイコンをダブルクリックするとインストールが行われます。
"TermExtract"最新版(ZIP形式)
もし、上記の方法でうまく動作しない場合は、Windowsのコマンドプロンプトから"win_install.pl"を実行します。cd コマンドで、win_install.plのあるディレクトリ(フォルダ)まで移動し、perl win_install.plとコマンド入力して下さい。
- "Win32::Shortcut"モジュールのインストール
termexのインストール前にCPANからの"Win32::Shortcut"モジュールのインストールが必要になります。
これはコマンドプロンプトから、次の操作にてインストールが可能です。
cpan install Win32::Shortcut
- termexのインストール
次のファイルをダウンロードし、適当なフォルダに解凍してください。
"termex"最新版(ZIP形式)
環境設定用のプログラムを起動します。"Configure.pl" アイコンをダブルクリックすると自動的に「和布蕪」のインストール場所を調査します。もし、見つからない場合は、インストールしたディレクトリを問い合わせてきますので、それにお答えください。もし、上記の方法で動作しない場合は、コマンドプロンプト(MS-DOSプロンプト)から次のとおりコマンドを投入します。
perl termexディレクトリのパス\Configure.pl
"重要度計算(和布蕪)"アイコンをデスクトップ等の使いやすいところにおきます。これが重要度計算用のアイコンになります。
出力形式は3モード用意してあります。「和布蕪」を使うなら"ex_mecab.pl"を「メモ帳」などで開きます、
プログラム中の$output_mode の値を次の3つの数値のいづれかにセットすることで、出力モードが切り替わります(デフォルトは”1”)。
- 「専門用語」+「重要度」(改行区切)
- 「専門用語」のみ (改行区切)
- 「専門用語」のみ (カンマ区切)
オプション その1高精度の英文専門用語抽出
インストール
PerlモジュールLingua::EN::Taggerがインストールされていない場合は次の手順でインストールします。なお、この手順はインターネットに接続されている環境が前提です。
1.コマンドプロンプト(MS-DOSプロンプト)を起動する。
2.cpan install Lingua::EN::Tagger とコマンドを投入する。インストールが開始される。
3.EXIT でコマンドプロンプトを終了する。
「重要度計算(英文・高精度)」アイコンに英文テキストをドラッグし、英語の高精度な用語抽出を行えるようになります。
オプション その2 「学習機能付」のWindowsテキストファイルからの専門用語抽出
基本機能と使いかたは同じですが、以前に処理したデータを元に、専門用語の重要度をより正確に算出できるようになります。なお雑多な文章を学習させると、あまりに一般的な語が上位にきます。特定の分野の文献に限定してお使いくださいこの機能は「学習用」のデータベースを持つことで実現しています。
インストール
スクリプトの設定変更
「和布蕪」を使うなら"ex_mecab.pl"を「メモ帳」などで開き、次の行頭の # を削除して保存します。
また、英文(高速)の場合には"ex_EPT.pl"に、英文(高精度)の場合は"ex_EN-Tagger.pl"に同様の処理を行います。
#$data->use_SDBM;
#$data->use_stat;
#$data->use_storage;