”専門用語(キーワード)自動抽出システム”のページへようこそ


最終更新日 2004.06.16

とりあえず使ってみる方はこちらから! 「言選Web」 "Gensen-Web"(English version) 「言選Web」(中文版)
メインメニュー
1.専門用語(キーワード)自動抽出システムとは? 2.基本システム 3.応用システム 4.関連文献 5.利用統計New!

新着情報New!



  • 2004.06.16  「言選Web」の入力データにASCIIの制御文字が含まれていた場合に正しく動作しない不具合を修正しました
  • 2004.04.01  当システムの利用統計を掲載しました
  • 2004.03.09  中文版「言選Web」中文版termexを公開しました。 また、TermExtractも中文に対応しバージョンが 2.37 になりました。
      (中文版「言選Web」には別バージョンのICTCLAS版もあります。)
  • 2004.02.23 「言選Web」の処理結果に「重要度」の数値を表示するオプションを追加しました。
  • 2004.01.15 当システムをメタデータ入力補助につかった
        東京大学経済学部図書館サブジェクトゲートウエイサービス"Engel"(東京大学内限定)
       が公開されました。
  • 2004.01.13 zip形式のTermExtract ver 2.06 で学習機能をOFFにした際に出るワーニングを抑止しました。また、英文ストップワード方式のドキュメントを修正しました。
  • 2003.10.31 当システムの関連文献リストを掲載しました
  • 2003.10.19 termmi において処理するフォルダ名に2バイト目が0x5Cの文字を含む場合に動作しない不具合を対策しました
       修正版のtermmi ver 0.25をお使いください
  • 2003.10.14 termmi ver 0.23におけるsummry, uniqueの結果が出力されない不具合を修正しました。
  • 2003.10.09 Windows用テキストマイニングツール"termmi"を公開しました。


    1.専門用語(キーワード)自動抽出システムとは?

      当サイトでは、専門用語(キーワード)自動抽出システムの基本システムおよび応用システムを提供しています。

     専門用語(キーワード)自動抽出システムとは、単なる文章の単語分割ではありません。一般に文章中では複数の単語の組み合わせで複雑な概念を表す場合が多く、文章の内容が専門的な事項に特化すればその傾向はさらに顕著なものとなるでしょう。したがって文章中からキーワードを抽出する場合、単語分割機能だけでは意味を成しません。そこで、このシステムでは、(1)形態素解析プログラムによる単語分割、(2)複合語の作成、(3)文章中における重要度の計算、という3つのステップを踏むことで、複合語により複雑な概念を表すことが多い専門用語をキーワードとして文章中から抽出することに成功しました。

    ・自作の文章からキーワードを抽出したい!
    ・メタデータ作成のためにウェッブサイトからキーワードを抽出したい!
    ・言語学的な研究に利用したい!

    など様々な利用方法が考えられると思いますので、ご自由にお使いだください。

    なお、 東京大学経済学部図書館サブジェクトゲートウエイサービス"Engel"(東京大学内限定)では、当システムをメタデータ入力補助に活用しております。

    2.基本システム

    基本システムは次の方法により提供しています。なお言語は日本語と英語に対応しています

    (1)ソフトウェアを導入したい!

    1. 自分のプログラムに専門用語自動抽出機能を付加したい方→PerlモジュールTermExtract(単体で動くサンプルプログラム付き)をご利用ください。このモジュールを利用したテキストマイニングツール"termmi"も公開中です。

    2. Windows, Internet Explorer環境で楽々専門用語を抽出したい方→上記TermExtractに加えtermexをインストールしてください。

    (2)インターネット版 「言選Web」

    面倒なインストール無しで、しかも簡単な操作で専門用語自動抽出サービスを利用できます。ただしソフトウェア版に比べ、学習機能など様々なオプション機能がありません。より専門的な結果を望む場合はソフトウェア版の使用を推奨します。

  • 「言選Web」(日本語バージョン)

  • "Gensen-Web"(English version)

  • 「言選Web」(中国語バージョン・標準版) 「言選Web」(中国語バージョン・ICTCLAS版)

    3.応用システム

    応用システムは次のものを提供しています。

  • Windows用テキストマイニングツールtermmi

    PerlモジュールTermExtractを利用した最新ツールです。Windws上の複数のテキストファイル間の専門用語を比較抽出できます!

    4.関連文献

    当プロジェクトの報告や、当システムで使用している中川教授の専門用語(キーワード)抽出理論についての論文リストです

  • ”専門用語(キーワード)自動抽出システム”関連文献リスト

    5.利用統計

    当システムの月次統計です

  • ”専門用語(キーワード)自動抽出システム”利用統計

     「専門用語自動抽出システム」は東京大学情報基盤センター図書館電子化部門中川裕志教授および横浜国立大学環境情報研究院森辰則助教授が共同で開発したもの(詳しい解説および配布元はこちらをご覧下さい)です。今回提供するシステムは、主として中川教授、東京大学経済学部図書館前田朗、東京大学経済学部資料室助手小島浩之の3者で検討を重ね、この「専門用語自動抽出システム」を改良したものです。

    Copyright (C) 2003 Hiroshi Nakagawa, Akira Maeda and Hiroyuki Kojima All Rights Reserved.