"termex"は特定のWebサイトや、Windows上のテキストファイルから専門用語を抽出するた めのシステムです。 このシステムはもともと Webサイトを対象としたメタデータ作成補助ツールとしての役割 を目的としています。ただし、それ以外にもWeb中の長文ドキュメントや、Windows上の文書 から重要な概念を抽出するなどの研究目的にも使用できると思います。 このシステムは、いつくものフリーソフトを組み合わせて実装しています。全ての機能を 使うには、インストールにに多少手間がかかりますが、使いたい機能に応じてインストール 作業を省略することもできます。 以下、簡単なものから順に説明していきます。
機能と使い方
1.Windowsのテキストファイルを、termexのアイコンにドラッグ&ドロップします。
(和文の場合は「重要度計算(茶筅)」か「重要度計算(和布舞)」アイコン、
英文の場合は「重要度計算(英文)」アイコンになります)
2.Windowsの「メモ帳」が起動し、専門用語リストを重要度の高い順に表示します。
3.「メモ帳」を閉じるとプログラムが終了します。
インストール
お使いのパソコンにPerl(バージョン5以上)がインストールされていない場合は、 次のページからPerlを入手、インストールします。 Actice State社ホームーページ Perlダウンロード (Windows のMSI版を選ぶと、後のインストールが楽になります)
形態素解析ソフトとして「茶筅」もしくは「和布蕪」をインストールします。 ソフトの入手先はそれぞれ次のとおりです。
次からTermExtractをダウンロードします。ファイルを解凍後、解凍したフォルダ中に ある"win_install.pl"アイコンをダブルクリックするとインストールが行われます。 "TermExtract"最新版(ZIP形式) もし、上記の方法でうまく動作しない場合は、Windowsのコマンドプロンプトから "win_install.pl"を実行します。cd コマンドで、win_install.plのあるディレクトリ (フォルダ)まで移動し、perl win_install.plとコマンド入力して下さい。
次のファイルをダウンロードし、適当なフォルダに解凍してください。 "termex"最新版(ZIP形式) 環境設定用のプログラムを起動します。"Configure.pl" アイコンをダブルクリックする と自動的に「茶筅」や「和布蕪」のインストール場所を調査します。もし、見つからない場 合は、インストールしたディレクトリを問い合わせてきますので、それにお答えください。 もし、上記の方法で動作しない場合は、コマンドプロンプト(MS-DOSプロンプト)から次 のとおりコマンドを投入します。 perl termexディレクトリのパス\Configure.pl 形態素解析に「茶筅」を使うなら"重要度計算(茶筅)"アイコン、 「和布蕪」を使うなら "重要度計算(和布蕪)"アイコンをデスクトップ等の使いやすいところにおきます。これが 重要度計算用のアイコンになります。 出力形式は3モード用意してあります。形態素解析に「茶筅」を使うなら"ex_chasen.pl"、 「和布蕪」を使うなら"ex_mecab.pl"を「メモ帳」などで開きます、プログラム中の $output_mode の値を次の3つの数値のいづれかにセットすることで、出力モードが切り替 わります(デフォルトは”1”)。 1 → 「専門用語」+「重要度」(改行区切) 2 → 「専門用語」のみ (改行区切) 3 → 「専門用語」のみ (カンマ区切)
Setp 1と使いかたは同じですが、以前に処理したデータを元に、専門用語の重要度をより 正確に算出できるようになります。なお雑多な文章を学習させると、あまりに一般的な語が 上位にきます。特定の分野の文献に限定してお使いください この機能は「学習用」のデータベースを持つことで実現しており、付属のget_stat.pl を使うことで、その内容を確かめることができます。インストール
Perlがインストールされているが、DB_Fileモジュールがインストールされていない 場合は次の手順でインストールします。なお、この手順はインターネットに接続され ている環境が前提です。 1.コマンドプロンプト(MS-DOSプロンプト)を起動する。 2.PPM とコマンドを投入する。 プロンプトが PPM> に変わる。 3.install DB_File とコマンドを投入する。インストールが開始される。 4.QUIT でコマンドプロンプトに戻る 5.EXIT でコマンドプロンプトを終了する。
DB_Fileのインストールができない場合は、Perlに付属のSDBM_Fileを使うことで 動作します。学習用データベースにどのようなデータが入っているか確認が難しく なりますが(get_stat.pl)、専門用語抽出自体の機能はDB_Fileと代わりません。 形態素解析に「茶筅」を使うなら"ex_chasen.pl" 、「和布蕪」を使うなら "ex_mecab.pl"を「メモ帳」などで開き、次の行頭の # を削除して保存します。 また、英文の場合には"ex_EPT.pl"に同様の処理を行います。 #$data->use_SDBM
形態素解析に「茶筅」を使うなら"ex_chasen.pl" 、「和布蕪」を使うなら "ex_mecab.pl"を「メモ帳」などで開き、次の行頭の # を削除して保存します。 また、英文の場合には"ex_EPT.pl"に同様の処理を行います。 #$data->use_stat; #$data->use_storage;
機能と使い方
Step1,2 の機能に加え次のように、Webブラウザに表示されたデータを直接、専門 用語抽出にかけることができます。 1.Webブラウザで処理対象のページを開き、マウス右ボタンのメニューから、 「ソースの表示」を選びます。Windowsバッチファイルのウインドウが起動し、 しばらくすると閉じます。 2.1の操作をWebサイト内の必要なページに対して行います。 3.重要度集計用のアイコンをダブルクリックします。Windowsの「メモ帳」が 起動し、専門用語が重要度の高い順に表示されます。 4.「メモ帳」を終了すると、プログラムも終了しますインストール
Perl 5.8より前のバージョンをお使いの場合、Jcodeモジュールが必要です。 インストールされていない場合は、次のWebページの指示に従いモジュールを インストールします。 Jcodeモジュールの作者のページ http://www.dan.co.jp/Jcode/index-j.html
Webブラウザのソースエディタを切り替えます。ブラウザごとにソースエディタの 変更方法は異なりますが、ここでは、Windows標準のInternet Explorerでの方法につ いて2つほど紹介します。お好きなものをお使いください。 インストール後、ソースエディタをtermexをインストールしたディレクトリにある、 "store.bat"に切り替えてください。(以下の双方のプログラムとも、拡張子が"bat" のファイルをそのままでは参照できません。参照から"store.bat"を選ぶ場合は、ファ イル名を*.*としてからお探しください)
「茶筅」のver 2.3.3 では記号-アルファベットの扱いが変更になりました。
そのため、termex では、連続する英単語が空白区切りなしで抽出される弊害が
起きています。ひとつの解決策は、旧バージョンの「茶筅」や「和布蕪」を形態
素解析ソフトとして選ぶことですが、「茶筅」自体の設定変更によっても対応が
可能です。
その設定変更の手順は次のとおりです。
1.「茶筅」をインストールしたディレクトリを探します
(通常は、c:\Program files\ChaSen です)
2.「茶筅」をインストールしたディレクトリのサブディレクトリ"dic"を開きます
3.上記のディレクトリにあるファイル"chasenrc"を「メモ帳(Notepad)」などの
エディタで開きます(バックアップをとった上での編集がお勧めです)
4.設定中の以下の箇所のコメント(行頭の;を削除して、保存します。
(変更前: 行頭に;あり)
;(連結品詞 ((名詞 数))
; ((記号 アルファベット)))
(変更後: 行頭に;なし)
(連結品詞 ((名詞 数))
((記号 アルファベット)))
専門用語(キーワード)自動抽出サービス「言選Web」
専門用語(キーワード)自動抽出用Perlモジュール
"TermExtract" の解説
Windows用専門用語(キーワード)自動抽出システム
"termex lite"
Windows用テキストマイニングツール
"termmi
トップページに戻る