メインメニュー
1.専門用語(キーワード)自動抽出システムとは?
2.基本システム
New!
3.応用システム
New!
4.関連文献
5.利用統計
- 2022.12.14 専門用語抽出Node.jsライブラリ termextract-nodejs のβバージョン(0.01b)をリリースしました。
- 2022.3.9 Python版TermExtractについて、Windows環境に合わせインストール手順を修正しました。python setup.py installからpip install .に変更します。ドキュメントの修正に合わせバージョンを0.02にアップしました。
- 2023.10.23 "言選Web" 静的サイト(JavaScript)版 - 和文のみ をリリースしました。
- 2023.10.23 日本語専門用語抽出Node.jsライブラリ termextract-kuromojijs のβバージョン(0.02b)をリリースしました。
- 2022.3.9 Python版TermExtractについて、Windows環境に合わせインストール手順を修正しました。python setup.py installからpip install .に変更します。ドキュメントの修正に合わせバージョンを0.02にアップしました。
- 2021.2.1 Perl版のツール termex, termex lite, termex(中文版), termmiについて、現状のWindows環境に合わせ修正しました。
主な変更点は次のとおりです。
- Windows版PerlをStrawberry Perlに絞りました
- Windows版での日本語形態素解析システムをMeCab(和布蕪)に絞りました
- IE Trapperのオプション機能を取り下げました
当サイトでは、専門用語(キーワード)自動抽出システムの基本システムおよび応用システムを提供しています。
専門用語(キーワード)自動抽出システムとは、単なる文章の単語分割ではありません。一般に文章中では複数の単語の組み合わせで複雑な概念を表す場合が多く、文章の内容が専門的な事項に特化すればその傾向はさらに顕著なものとなるでしょう。したがって文章中からキーワードを抽出する場合、単語分割機能だけでは意味を成しません。そこで、このシステムでは、(1)形態素解析プログラムによる単語分割、(2)複合語の作成、(3)文章中における重要度の計算、という3つのステップを踏むことで、複合語により複雑な概念を表すことが多い専門用語をキーワードとして文章中から抽出することに成功しました。
・自作の文章からキーワードを抽出したい! |
・メタデータ作成のためにウェッブサイトからキーワードを抽出したい! |
・言語学的な研究に利用したい! |
など様々な利用方法が考えられると思いますので、ご自由にお使いだください。
基本システムは次の方法により提供しています。なお言語は日本語と英語に対応しています
(1)ソフトウェアを導入したい!
- 自分のプログラムに専門用語自動抽出機能を付加したい方
→ 専門用語自動抽出モジュールTermExtractのPerl用とPython用のいずれかをご利用ください。それぞれ単体で動くサンプルプログラム付が例して付属しています。
後述の応用システムはPerlのみ用意しています。
- Windows, Internet Explorer環境で楽々専門用語を抽出したい方→上記TermExtractに加え
termex
をインストールしてください。
標準のtermexとは違った結果を出したい、インストールを楽に済ませたいかたには
termex liteがお薦めです。
(2)インターネット版 「言選Web」
面倒なインストール無しで、しかも簡単な操作で専門用語自動抽出サービスを利用できます。ただしソフトウェア版に比べ、学習機能など様々なオプション機能がありません。より専門的な結果を望む場合はソフトウェア版の使用を推奨します。
西欧言語版(Western Europe language)の「言選Web」には、西欧言語だけでなく日本語と中国語を含めた言語の自動判定機能がありますが、これは言語自動判定Perl module Lingua::LanguageGuesserを内部で使用しています。
「言選Web」(日本語バージョン)
"Gensen-Web"(Western Europe language)
「言選Web」(中国語バージョン)
"言選Web" 静的サイト(JavaScript)版 - 和文のみ
応用システムは次のものを提供しています。
Windows用テキストマイニングツール
termmi
PerlモジュールTermExtractを利用したツールです。Windws上の複数のテキストファイル間の専門用語を比較抽出できます!
関連学術用語リストの提示から東京大学OPACへナビゲート
「東京大学OPAC Plus "言選Web"」
「言選Web」、 「東京大学OPAC」、「Yahoo! Webサービス」を組み合わせたシステムです!
個々の学術分野に特化した日本語の関連語提示
「専門用語コレ・モカモ」
PerlモジュールTermExtractを利用したサービスです。
[現在サービス停止中] 用語クラスタリング試行サービス
「ことわけWeb」
PerlモジュールTermExtractを利用したサービスです。まとまった数の文書中の用語を自動分類(クラスタリング)できます!
派生システムとして
言語判定器"Lingua::LanguageGuesser"
を提供しています。
言語判定(テキストがフランス語かドイツ語であるか等の判定ができる)のWebアプリケーションのご利用と、そのコアとなるPerlモジュール"Lingua::LanguageGuesser"の入手ができます! なお、このツールは西欧言語版「言選Web」の言語の自動判定用にTextCatをベースに開発したものです。
当プロジェクトの報告や、当システムで使用している中川教授の専門用語(キーワード)抽出理論についての論文リストです
”専門用語(キーワード)自動抽出システム”関連文献リスト
当システムの月次統計です
”専門用語(キーワード)自動抽出システム”利用統計
お問合せ先
(バグレポートや質問、感想などをお待ちしています)
「専門用語自動抽出システム」は
東京大学情報基盤センター図書館電子化部門中川裕志教授および
横浜国立大学環境情報研究院森辰則助教授が共同で開発したものです。
今回提供するシステムは、主として中川教授、
東京大学経済学部図書館前田朗、
東京大学経済学部資料室助手小島浩之の3者で検討を重ね、この「専門用語自動抽出システム」を改良したものです。
Copyright (C) 2003 Hiroshi Nakagawa, Akira Maeda and Hiroyuki Kojima All Rights Reserved.