静的Webサイト上で日本語専門用語を抽出機能を組み込む


このサイトのJavaScriptコードと、kuromoji.jsを使うことで、静的Webサイト上に日本語専門用語抽出機能を組み込むことができます。

1.kuromoji.jsの用意

kuromoji.jsはnmp install kuromojiでフルにインストールするか辞書ファイルとkuromoji.jsのみ配置してください。
このサイトでは、jsサブディレクトリにkuromoji.hsを、node_modules/kuromoj/dictサブディレクトリに辞書ファイルを配置しました。

2.gensenweb-kuromojijs.jsの用意

gensenweb-kuromojijs.jsをダウンロード・解凍して、jsサブディレクトリにおいてください。
このgensenweb-kuromojijs.jsは、日本語専門用語抽出Node.jsライブラリtermextact-kuromojijsをnode.jsではないJavaScriptでも動作するようにしたものです。

3.ユーザーコード例

kuromoji.jsとgensenweb-kuromojijs.jsを連携させて日本語専門用語を抽出するコード例は次の通りです。
このサイトの index.htmlのHTMLソースも参考にしてください。
            let input = "東京観光のために千葉県から電車に乗ってきた";
            let response = "";
            kuromoji.builder({ dicPath: "./node_modules/kuromoji/dict" }).build(function(err, tokenizer){
                let tokenized_word = tokenizer.tokenize(input);
                let cmp_noun_list_val = cmp_noun_list(tokenized_word);
                let frequency = list2key_value(cmp_noun_list_val);
                let score_lr_val = score_lr(frequency, IGNORE_WORDS, 1, 1);
                let term_importance_val = term_importance(frequency, score_lr_val);
                let score_lt_list = sort_by_importance(term_importance_val);
                for (let data of score_lt_list) {
                    let word = modify_agglutinative_lang(data.cmp_noun);
                    response = response + word + "\t" + data.importance + "\n";
                }
                console.log(response);
            });
                


仕様については予告なしに変更する可能性があります。
前のページに戻る