新着情報New!過去のニュースはこちら |
1.専門用語(キーワード)自動抽出システムとは? |
当サイトでは、専門用語(キーワード)自動抽出システムの基本システムおよび応用システムを提供しています。
専門用語(キーワード)自動抽出システムとは、単なる文章の単語分割ではありません。一般に文章中では複数の単語の組み合わせで複雑な概念を表す場合が多く、文章の内容が専門的な事項に特化すればその傾向はさらに顕著なものとなるでしょう。したがって文章中からキーワードを抽出する場合、単語分割機能だけでは意味を成しません。そこで、このシステムでは、(1)形態素解析プログラムによる単語分割、(2)複合語の作成、(3)文章中における重要度の計算、という3つのステップを踏むことで、複合語により複雑な概念を表すことが多い専門用語をキーワードとして文章中から抽出することに成功しました。
| ・自作の文章からキーワードを抽出したい! |
| ・メタデータ作成のためにウェッブサイトからキーワードを抽出したい! |
| ・言語学的な研究に利用したい! |
など様々な利用方法が考えられると思いますので、ご自由にお使いだください。
なお、 東京大学経済学部図書館サブジェクトゲートウエイサービス"Engel"(2004年7月1日より一般公開)では、当システムをメタデータ入力補助に活用しております。
2.基本システム |
基本システムは次の方法により提供しています。なお言語は日本語と英語に対応しています
面倒なインストール無しで、しかも簡単な操作で専門用語自動抽出サービスを利用できます。ただしソフトウェア版に比べ、学習機能など様々なオプション機能がありません。より専門的な結果を望む場合はソフトウェア版の使用を推奨します。 西欧言語版(Western Europe language)の「言選Web」には、西欧言語だけでなく日本語と中国語を含めた言語の自動判定機能がありますが、これは言語自動判定Perl module Lingua::LanguageGuesserを内部で使用しています。
3.応用システム |
応用システムは次のものを提供しています。
派生システムとして言語判定器"Lingua::LanguageGuesser"を提供しています。
言語判定(テキストがフランス語かドイツ語であるか等の判定ができる)のWebアプリケーションのご利用と、そのコアとなるPerlモジュール"Lingua::LanguageGuesser"の入手ができます!
なお、このツールは西欧言語版「言選Web」の言語の自動判定用にTextCatをベースに開発したものです。
4.関連文献 |
当プロジェクトの報告や、当システムで使用している中川教授の専門用語(キーワード)抽出理論についての論文リストです
5.利用統計 |
当システムの月次統計です
(バグレポートや質問、感想などをお待ちしています)
「専門用語自動抽出システム」は
東京大学情報基盤センター図書館電子化部門中川裕志教授および
横浜国立大学環境情報研究院森辰則助教授が共同で開発したもの(詳しい解説および配布元は
こちらをご覧下さい)です。今回提供するシステムは、主として中川教授、
東京大学経済学部図書館前田朗、
東京大学経済学部資料室助手小島浩之の3者で検討を重ね、この「専門用語自動抽出システム」を改良したものです。
Copyright (C) 2003 Hiroshi Nakagawa, Akira Maeda and Hiroyuki Kojima
All Rights Reserved.