静的Webサイト上で日本語専門用語を抽出機能を組み込む
このサイトのJavaScriptコードと、kuromoji.jsを使うことで、静的Webサイト上に日本語専門用語抽出機能を組み込むことができます。
1.kuromoji.jsの用意
kuromoji.jsは
nmp install kuromojiでフルにインストールするか辞書ファイルとkuromoji.jsのみ配置してください。
このサイトでは、jsサブディレクトリにkuromoji.hsを、node_modules/kuromoj/dictサブディレクトリに辞書ファイルを配置しました。
2.gensenweb-kuromojijs.jsの用意
gensenweb-kuromojijs.jsを
ダウンロード・解凍して、jsサブディレクトリにおいてください。
このgensenweb-kuromojijs.jsは、日本語専門用語抽出Node.jsライブラリ
termextact-kuromojijsをnode.jsではないJavaScriptでも動作するようにしたものです。
3.ユーザーコード例
kuromoji.jsとgensenweb-kuromojijs.jsを連携させて日本語専門用語を抽出するコード例は次の通りです。
このサイトの index.htmlのHTMLソースも参考にしてください。
let input = "東京観光のために千葉県から電車に乗ってきた";
let response = "";
kuromoji.builder({ dicPath: "./node_modules/kuromoji/dict" }).build(function(err, tokenizer){
let tokenized_word = tokenizer.tokenize(input);
let cmp_noun_list_val = cmp_noun_list(tokenized_word);
let frequency = list2key_value(cmp_noun_list_val);
let score_lr_val = score_lr(frequency, IGNORE_WORDS, 1, 1);
let term_importance_val = term_importance(frequency, score_lr_val);
let score_lt_list = sort_by_importance(term_importance_val);
for (let data of score_lt_list) {
let word = modify_agglutinative_lang(data.cmp_noun);
response = response + word + "\t" + data.importance + "\n";
}
console.log(response);
});
仕様については予告なしに変更する可能性があります。
前のページに戻る