1.専門用語(キーワード)自動抽出システムとは?
当サイトでは、専門用語(キーワード)自動抽出システムの基本システムおよび応用システムを提供しています。 専門用語(キーワード)自動抽出システムとは、単なる文章の単語分割ではありません。一般に文章中では複数の単語の組み合わせで複雑な概念を表す場合が多く、文章の内容が専門的な事項に特化すればその傾向はさらに顕著なものとなるでしょう。したがって文章中からキーワードを抽出する場合、単語分割機能だけでは意味を成しません。そこで、このシステムでは、(1)形態素解析プログラムによる単語分割、(2)複合語の作成、(3)文章中における重要度の計算、という3つのステップを踏むことで、複合語により複雑な概念を表すことが多い専門用語をキーワードとして文章中から抽出することに成功しました。
- 自作の文章からキーワードを抽出したい!
- メタデータ作成のためにウェッブサイトからキーワードを抽出したい!
- 言語学的な研究に利用したい!
など様々な利用方法が考えられると思いますので、ご自由にお使いだください。
2.基本システム
Webアプリケーションを使いたい!
- 「言選Web」(日本語バージョン)
- "Gensen-Web"(Western Europe language)
- 「言選Web」(中国語バージョン)
- "言選Web" 静的サイト(JavaScript)版 - 和文のみ
ソフトウェアを導入したい!
- Python3モジュールtermextract
- PerlモジュールTermExtract
- Node.jsライブラリtermextract-nodejs
3.応用システム
東京大学OPAC Plus "言選Web"
関連学術用語リストの提示から東京大学OPACへのナビゲートを行います。
専門用語コレ・モカモ
個々の学術分野に特化した日本語の関連語を提示します。PerlモジュールTermExtractを利用したサービスです。
言語判定器"Lingua::LanguageGuesser"
派生システムとして言語判定器"Lingua::LanguageGuesser"を提供しています。テキストが何語であるかの判定が可能なWebアプリケーションのご利用と、そのコアとなるPerlモジュール"Lingua::LanguageGuesser"の入手ができます!なお、このツールは西欧言語版「言選Web」の言語の自動判定用にTextCatをベースに開発したものです。
4.関連文献
当プロジェクトの報告や、当システムで使用している中川名誉教授の専門用語(キーワード)抽出理論についての論文リストです”専門用語(キーワード)自動抽出システム”関連文献リスト
お知らせ
過去のニュースはこちら- 2024.7.26 トップページをリニューアルしました
- 2022.12.14 専門用語抽出Node.jsライブラリtermextract-nodejsのβバージョン(0.01b)をリリースしました。
- 2023.10.23 "言選Web" 静的サイト(JavaScript)版 - 和文のみをリリースしました。
- 2023.10.23 日本語専門用語抽出Node.jsライブラリtermextract-kuromojijsのβバージョン(0.02b)をリリースしました。