Windows用テキストマイニングツール
"termmi" の解説


はじめに
 "termmi"はWindows上のテキストファイルの専門用語を複数ファイル間で比較するシステムです。
Windows専門用語抽出システム"termex"を用いても複数ファイル間の比較は行えますが、重要度の比
較が行いにくいなどの問題がありました。テキストマイニング専用に作成した"termmi"を使うことに
より複数ファイル間の重要度の数値比較を有意に行えるだけではなく、各文献の共通部分などさまざ
まな比較結果を求めることができます。


機能と使い方

 1.複数のテキストファイル(Shift-JIS)を入れたフォルダを、termmiのアイコンに
ドラッグ&ドロップします。
     (和文の場合は「専門用語分析(茶筅)」「専門用語分析(和布舞)」アイコン、
       英文の場合は「専門用語分析(英文)」アイコンになります)
 2.termmiの各サブフォルダに処理結果が保存されます。内訳は次のとおりです。
    (1)outputフォルダ
    処理対象ファイルと同名のファイルに専門用語が記録されます
     (2)summaryフォルダ
    total.txt は全ドキュメントの処理結果。common.txt は各ドキュメントの共通部分です。
    (3)uniqueフォルダ
    処理対象ファイルと同名のファイルに各ファイルに固有の専門用語が記録されます。
インストール
  1. Perlのインストール
     お使いのパソコンにPerl(バージョン5以上)がインストールされていない場合は、
    次のページからPerlを入手、インストールします。
    
    Actice State社ホームーページ Perlダウンロード
    (Windows のMSI版を選ぶと、後のインストールが楽になります)
    
    Strawberry Perlでも動作します。
    ただし、termexのインストール前にCPANからの"Win32::Shortcut"モジュールのインストールが必要になります。
    これはコマンドプロンプトから、次の操作にてインストールが可能です。
    perl -MCPAN -e shell
    infstall Win32::Shortcut

  2. 形態素解析ソフトのインストール
     形態素解析ソフトとして「茶筅」もしくは「和布蕪」をインストールします。
     ソフトの入手先はそれぞれ次のとおりです。
    
    
  3. TermExtractのインストール
     次からTermExtract(ver 2.05以上)をダウンロードします。ファイルを解凍後、解凍
    したフォルダ中にある"win_install.pl"アイコンをダブルクリックするとインストール
    が行われます。
    "TermExtract"最新版(ZIP形式)
     もし、上記の方法でうまく動作しない場合は、Windowsのコマンドプロンプトから
    "win_install.pl"を実行します。cd コマンドで、win_install.plのあるディレクトリ
    (フォルダ)まで移動し、perl win_install.plとコマンド入力して下さい。
     Perl 5.6 以下のバージョンの場合は、windowsフォルダのさらに下の
     "For perl5_0 to 5_6 intall"サブフォルダにある、"win_install.pl"を実行します。
    
    
  4. termmiのインストール
     次のファイルをダウンロードし、適当なフォルダに解凍してください。
    "termmi"最新版(ZIP形式)
    
     環境設定用のプログラムを起動します。"Configure.pl"  アイコンをダブルクリックする
    と自動的に「茶筅」や「和布蕪」のインストール場所を調査します。もし、見つからない
    場合は、インストールしたディレクトリを問い合わせてきますので、それにお答えください。
     もし、上記の方法で動作しない場合は、コマンドプロンプト(MS-DOSプロンプト)から次
    のとおりコマンドを投入します。
     perl termexディレクトリのパス\Configure.pl
    
     形態素解析に「茶筅」を使うなら"専門用語分析(茶筅)"アイコン、 「和布蕪」を使うなら
    "専門用語分析(和布蕪)"アイコンをデスクトップ等の使いやすいところにおきます。これが
    専門用語分析用のアイコンになります。
    
    
  5. File::MMagicモジュールのインストール
     ActivePerlがインストールされているが、File::MMagicモジュールが
    インストールされていない場合は次の手順でインストールします。なお、この手順はインターネットに接続され
    ている環境が前提です。
    
     1.コマンドプロンプト(MS-DOSプロンプト)を起動する。
     2.ppm install File::MMagic とコマンドを投入する。インストールが開始される。
     3.EXIT でコマンドプロンプトを終了する。
    
    Strawberry Perlの場合、コマンドプロンプトから、  次の操作にてインストールが可能です。
    perl -MCPAN -e shell
    infstall File::MMagic

  6. 高度な設定
    専門用語分析用のプログラムを修正することで、さらに高度な設定ができます。
    
      「茶筅」  ------------ mi_chasen.pl
      「和布蕪」------------ mi_mecab.pl
      「英文」  ------------ mi_EPT.pl
    
     1.学習機能の有無
      デフォルトは、学習機能がONになっています。これは処理対象の全文献を1度解析し、全体につい
     ての連接語の統計データをとってから、個々の文献の解析をすることにより、重要度計算の精度を高
     めるものです。文献集合によって重要度計算値は異なります。この機能をOFFにするには、プログラム
     の1行を書き換えます。ver 0.30 から学習用データベースは毎回クリアされるようになりました。
          修正前  ----   my $mode = 1;
       修正後  ----   my $mode = 0;
    
     2.TF*IDFモード
      重要度の計算をオーソドックスなTF*IDF法で行うことができます。この機能をONにするには、プロ
     グラムの1行を書き換えます。ver 0.35以前のTF*IDFの計算値に不具合があります。0.37以上をお使いください
          修正前  ----   my $mode = 1;
       修正後  ----   my $mode = 2;
    
     3.その他の重要度計算のオプション
      プログラム中のコメント行を解除することにより設定ができます。オプションの意味については
     "TermExtract"の解説をご覧ください。
    
     4.連接情報
      学習機能を使用している場合のみ、付属の get_stat.pl により処理文献の連接語の統計データを
      得ることができます。ver 0.30 から直前の処理の統計しかとれなくなりましたので、ご注意ください
      
  7. ベクトル空間法による文献の類似度計算
       付属のvector_space.pl によりベクトル空間法による文献の類似度を計算することができます。こ
      れは、正確には次の関係を示すものです。
        文献群全体(summaryフォルダ中の"total.txt") <=> 各文献(outputフォルダ中の各ファイル
          summaryフォルダ中の"total.txt"をoutputフォルダ中の任意のファイルに置き換えることで、
          特定の文献に対しての類似度を調べることもできます(ver 3.1以上)
    
       通常であれば、類似度の計算は各語についてのTF*IDF法による重みか、頻度を用いるところです。
      "termmi"では、隣接情報に基づいた独自の重要度を出しますので、その値を用いています。プログラ
      ムの実行は"termmi"のフォルダ中にある、"vector_space.pl"をダブルクリックすることで行います。
      もし、プログラムが起動しなかった場合は次の操作を行ってください。
    
       「コマンドプロンプト」(MS-DOSプロンプト)を起動
              ↓
        cd "termmi"のあるディレクトリ
              ↓
        perl vector_space.pl
              ↓
        exit
    
      結果は"summary"フォルダの中の"sim_v.txt"にタブ区切りのテキストファイルの形で保存さ
     れます。「メモ帳」などで開いてご覧ください。類似度の高いファイル順に並べてあります。
    
      結果の見方は次のとおりです。
    
       類似度が高いファイル ----   文献群中では一般的なトピックスを扱っています。
       類似度が低いファイル ----   文献群中ではユニークなトピックスを扱っています。
    
      また、類似度が高いファイル同士は互いに似通ったトピックスを扱っていると推測されます。
      
  8. 用語・文書行列の出力
     付属の"termdocument.pl"により、termmiの処理結果をもとにした
      「用語・文書行列」を出力することができます。プログラムの実行は"termmi"のフォルダ中にある、
      "termdocument.pl"をダブルクリックすることで行います。
      もし、プログラムが起動しなかった場合は次の操作を行ってください。
    
       「コマンドプロンプト」(MS-DOSプロンプト)を起動
              ↓
        cd "termmi"のあるディレクトリ
              ↓
        perl termdocument.pl
              ↓
        exit
      
       結果は"summary"フォルダの中の"termdocument.txt"にタブ区切りのテキストファイルの形で
      保存されます。統計ソフトなどへの受け渡しにご活用ください。
       また、タグ区切りだけではなく、CSV形式での出力も可能です。"termdocument.pl"をテキストエディタで
      開いて、 $mode=1; と設定してださい。結果は"summary"フォルダの中の"termdocument.csv"と
      して出力されます。
      もし、用語数を限定したいときは、2つのオプションを利用可能です。まず、"termdocument.pl"をテキスト
     エディタで開いてください。
      (1)用語を重要度の高い語から指定した件数までに限定
         #$terms_limit = 100; の行頭のコメント指定(#)を外します。
        コメントを外した状態では、上位100件になっていますが、
        数値をご希望の値に書き換えてお使いください。
       (2)用語を重要度の値をもとに限定
        #$score_limit = 2; の行頭のコメント指定(#)を外します。
       変数$score_limitの数値が1に近いほど、上位の語に限定できます。
        数値をご希望の値に書き換えてお使いください。
    
    

ver 0.32 より、デフォルトの学習機能DBをバークレーDBから、SDBMに変更しました
これはActive Perl 5.8 用のバークレーDBの日本語対応に一部問題が見つかったことによるものです。
get_stat.pl の統計機能が一部削除されましたが、ご了解ください。


専門用語(キーワード)自動抽出サービス「言選Web」

専門用語(キーワード)自動抽出用Perlモジュール "TermExtract" の解説

Windows用専門用語(キーワード)自動抽出システム "termex"

トップページに戻る