”専門用語(キーワード)自動抽出システム”のページへようこそ

現在システムトラブルからの復旧中です。


最終更新日 2013.6.12

とりあえず使ってみる方はこちらから!
「言選Web」 "Gensen-Web" (Western Europe language)  「言選Web」(中文版)
メインメニュー
1.専門用語(キーワード)自動抽出システムとは? 2.基本システム 3.応用システムNew! 4.関連文献 5.利用統計

新着情報New!

過去のニュースはこちら


  • 2013.06.16 言選Webの中文版を復旧しました。これで全てのサービスを復旧しました。長らくお待たせをいたしました。
  • 2013.06.16 言選Webの多言語版を復旧しました。中文版はしばしお待ちください。
  • 2013.06.15 言選Webの日本語版を復旧しました。多言語版と中文版はしばしお待ちください。
  • 2013.06.12 言語判定器Lingua-LanguageGuesserのページを復旧しました
  • 2013.06.12 統計データのページを復旧しました
  • 2013.06.12 termex lite, terex_cnのソフトウエア配信を再開しました
  • 2013.06.12 TermExtract, termex, termmiのソフトウエア配信を再開しました
  • 2013.06.12 TermExtract, termex, termmiのソフトウエア配信を再開しました
  • 2013.06.09 システムトラブルにより言選WebのWebページがダウンしておりました。現在、機能を順次復旧中です。


    1.専門用語(キーワード)自動抽出システムとは?

      当サイトでは、専門用語(キーワード)自動抽出システムの基本システムおよび応用システムを提供しています。

     専門用語(キーワード)自動抽出システムとは、単なる文章の単語分割ではありません。一般に文章中では複数の単語の組み合わせで複雑な概念を表す場合が多く、文章の内容が専門的な事項に特化すればその傾向はさらに顕著なものとなるでしょう。したがって文章中からキーワードを抽出する場合、単語分割機能だけでは意味を成しません。そこで、このシステムでは、(1)形態素解析プログラムによる単語分割、(2)複合語の作成、(3)文章中における重要度の計算、という3つのステップを踏むことで、複合語により複雑な概念を表すことが多い専門用語をキーワードとして文章中から抽出することに成功しました。

    ・自作の文章からキーワードを抽出したい!
    ・メタデータ作成のためにウェッブサイトからキーワードを抽出したい!
    ・言語学的な研究に利用したい!

    など様々な利用方法が考えられると思いますので、ご自由にお使いだください。

    なお、 東京大学経済学部図書館サブジェクトゲートウエイサービス"Engel"(2004年7月1日より一般公開)では、当システムをメタデータ入力補助に活用しております。

    2.基本システム

    基本システムは次の方法により提供しています。なお言語は日本語と英語に対応しています

    (1)ソフトウェアを導入したい!

    1. 自分のプログラムに専門用語自動抽出機能を付加したい方→Perlモジュール TermExtract(単体で動くサンプルプログラム付き)をご利用ください。このモジュールを利用したテキストマイニングツール" termmi"も公開中です。

    2. Windows, Internet Explorer環境で楽々専門用語を抽出したい方→上記TermExtractに加え termexをインストールしてください。
      標準のtermexとは違った結果を出したい、インストールを楽に済ませたいかたにはtermex liteがお薦めです。


    (2)インターネット版 「言選Web」

    面倒なインストール無しで、しかも簡単な操作で専門用語自動抽出サービスを利用できます。ただしソフトウェア版に比べ、学習機能など様々なオプション機能がありません。より専門的な結果を望む場合はソフトウェア版の使用を推奨します。 西欧言語版(Western Europe language)の「言選Web」には、西欧言語だけでなく日本語と中国語を含めた言語の自動判定機能がありますが、これは言語自動判定Perl module Lingua::LanguageGuesserを内部で使用しています。

  • 「言選Web」(日本語バージョン)

  • "Gensen-Web"(Western Europe language)

  • 「言選Web」(中国語バージョン)

    3.応用システム

    応用システムは次のものを提供しています。

  • Windows用テキストマイニングツールtermmi
    PerlモジュールTermExtractを利用したツールです。Windws上の複数のテキストファイル間の専門用語を比較抽出できます!

  • 関連学術用語リストの提示から東京大学OPACへナビゲート「東京大学OPAC Plus "言選Web"」
    「言選Web」、
    「東京大学OPAC」「Yahoo! Webサービス」を組み合わせたシステムです!

  • 個々の学術分野に特化した日本語の関連語提示「専門用語コレ・モカモ」
    PerlモジュールTermExtractを利用したサービスです。まとまった数の文書中の用語を自動分類(クラスタリング)できます!

  • [現在サービス停止中] 用語クラスタリング試行サービス「ことわけWeb」
    PerlモジュールTermExtractを利用したサービスです。まとまった数の文書中の用語を自動分類(クラスタリング)できます!

    派生システムとして言語判定器"Lingua::LanguageGuesser"を提供しています。
    言語判定(テキストがフランス語かドイツ語であるか等の判定ができる)のWebアプリケーションのご利用と、そのコアとなるPerlモジュール"Lingua::LanguageGuesser"の入手ができます!
    なお、このツールは西欧言語版「言選Web」の言語の自動判定用にTextCatをベースに開発したものです。

    4.関連文献

    当プロジェクトの報告や、当システムで使用している中川教授の専門用語(キーワード)抽出理論についての論文リストです

  • ”専門用語(キーワード)自動抽出システム”関連文献リスト

    5.利用統計

    当システムの月次統計です

  • ”専門用語(キーワード)自動抽出システム”利用統計
    お問合せ先 (バグレポートや質問、感想などをお待ちしています)

     「専門用語自動抽出システム」は 東京大学情報基盤センター図書館電子化部門中川裕志教授および 横浜国立大学環境情報研究院森辰則助教授が共同で開発したもの(詳しい解説および配布元は こちらをご覧下さい)です。今回提供するシステムは、主として中川教授、 東京大学経済学部図書館前田朗、 東京大学経済学部資料室助手小島浩之の3者で検討を重ね、この「専門用語自動抽出システム」を改良したものです。

    Copyright (C) 2003 Hiroshi Nakagawa, Akira Maeda and Hiroyuki Kojima All Rights Reserved.