TermExtract::EnglishPlainText -- 専門用語抽出モジュール(中国語UTF-8版)
use TermExtract::EnglishPlainText;
中国語のテキストデータをからそのまま専門用語を抽出するプログラム。
当モジュールの使用法については、親クラス(TermExtract::Calc_Imp)か、 以下のサンプルスクリプトを参照のこと。
#!/usr/local/bin/perl -w # # ex_CPT_UC.pl # # # 標準出力に専門用語とその重要度を返すプログラム # UNICODE(UTF-8)版 # # version 0.08 # use TermExtract::ChainesPlainTextUC; #use strict; my $data = new TermExtract::ChainesPlainTextUC; my $InputFile = "ChainesPlainText_out.txt"; # 入力ファイル指定 # プロセスの異常終了時処理 # (ロックディレクトリを使用した場合のみ) $SIG{INT} = $SIG{QUIT} = $SIG{TERM} = 'sigexit'; # 出力モードを指定 # 1 → 専門用語+重要度、2 → 専門用語のみ # 3 → カンマ区切り my $output_mode = 1; # # ドキュメント中の専門用語の頻度を重要度計算に使うかどうか選択 # (デフォルトは使用 $obj->use_frq) # #$data->no_frq; # ドキュメント中の専門用語の頻度を重要度計算に使わない #$data->use_frq; # ドキュメント中の専門用語の頻度を重要度計算に使う # # 重要度計算で連接語の"延べ数"をとるか"異なり数"をとるか選択 # (デフォルトは"延べ数"をとる $obj->use_total) # #$data->use_total; # 延べ数をとる #$data->use_uniq; # 異なり数をとる # # 重要度計算で、学習機能を使うかどうか選択 # (デフォルトは、使用する $obj->use_stat) # #$data->use_stat; # 学習機能を使う #$data->no_stat; # 学習機能を使わない # # 重要度計算で、「ドキュメント中の用語の頻度」と「連接語の重要度」 # のどちらに比重をおくかを設定する。 # デフォルト値は1 # 値が大きいほど「ドキュメント中の用語の頻度」の比重が高まる # #$data->average_rate(0.5); # # 学習機能用DBにデータを蓄積するかどうか選択 # 重要度計算で、学習機能を使うときは、セットしておいたほうが # 無難。処理対象に学習機能用DBに登録されていない語が含まれる # と正しく動作しない。 # (デフォルトは、蓄積する $obj->use_storage) # #$data->use_storage; # 蓄積する #$data->no_storage; # 蓄積しない # # 学習機能用DBに使用するDBMをSDBM_Fileに指定 # (デフォルトは、DB_FileのBTREEモード) # #$data->use_SDBM; # # 過去のドキュメントの累積統計を使う場合のデータベースの # ファイル名をセット # (デフォルトは "stat.db"と"comb.db") # #$data->stat_db("stat.db"); #$data->comb_db("comb.db"); # # データベースの排他ロックのための一時ディレクトリを指定 # ディレクトリ名が空文字列(デフォルト)の場合はロックしない # #$data->lock_dir("lock_dir"); # # データを読み込み # 専門用語リストを配列に返す # (累積統計DB使用、ドキュメント中の頻度使用にセット) # #my @noun_list = $data->get_imp_word($str, 'var'); # 入力が変数 my @noun_list = $data->get_imp_word($InputFile); # 入力がファイル # # 前回読み込んだテキストファイルを元に # モードを変えて、専門用語リストを配列に返す #$data->use_stat->no_frq; #my @noun_list2 = $data->get_imp_word(); # また、その結果を別のモードによる結果と掛け合わせる #@noun_list = $data->result_filter (\@noun_list, \@noun_list2, 30, 1000); # # 専門用語リストと計算した重要度を標準出力に出す # foreach (@noun_list) { # 数値のみは表示しない next if $_->[0] =~ /^\d+$/; # 1文字(UTF-8)のみは表示しない next if $_->[0] =~ /^[\x00-\x7F]$/; next if $_->[0] =~ /^[\xC0-\xDF][\x80-\xBF]$/; next if $_->[0] =~ /^[\xE0-\xEF][\x80-\xBF][\x80-\xBF]$/; # 結果表示($output_modeに応じて、出力様式を変更 printf "%-60s %16.2f\n", $_->[0], $_->[1] if $output_mode == 1; printf "%s\n", $_->[0] if $output_mode == 2; printf "%s,", $_->[0] if $output_mode == 3; }
このモジュールでは、get_imp_word のみ実装し、それ以外のメソッドは親 モジュール TermExtract::Calc_Imp で実装されている。 get_imp_word はストップワードにより文章を複合語の単位までに分割して いる。それ以外のメソッドについては、TermExtract::Calc_Imp のPODドキュ メントを参照すること。
中国語を次のルールにより複合語に生成する。第1引数は、処理対象のデ ータ、第2引数は第1引数の種別である。デフォルトでは、第1引数は、中 国語のテキストファイルとなる。第2引数に文字列'var'がセットされたと きには、第一引数を中国語のテキストデータが入ったスカラー変数と解釈す る。
1.中国語文を次の条件により、複合語に分割する 1)改行があった場合は、そこで複合語の区切りとする
2)指定したストップワードが出現した場合は、そこで複合語の区切り とする。ストップワードは以下のとおり。
不过难道 不知怎么 关于为了 有时候 有一天 一会儿 那么样 怎么样 这么样 十二分 以上 以下 以前 以后 以左 以右 以西 以南 以北 以内 以外 之上 之下 之前 之后 之左 之右 之西 之南 之北 之内 之外 之中 上面 下面 前面 后面 左面 右面 西面 南面 北面 内面 外面 多少 何如 若何 奈何 何以 那儿 那里 那些 那里 不知 早已 早就 正在 将要 就要 立刻 然后 常常 一再 再三 一直 一向 向来 忽然 偶然 仍旧 依然 十分 非常 格外 至于 由于 分外 更加 相当 稍微 略微 有点 有些 十足 万分 千万 一定 必定 必然 没有 不必 未必 究竟 到底 偏偏 索性 反正 大概 好在 几乎 明明 向往 沿着 自从 除非 除了 按照 以及 而且 并且 或者 不是 不但 与其 不如 但是 尽管 可是 如果 假如 即使 只有 只要 除非 所以 因此 既然 不管 况且 于是 何况 然而 只是 就是 或是 不是 就是 是故 是以 而已 那里 全部 今天 本月 昨天 上周 后天 明天 一日 他日 日日 一旦 天天 年年 好久 片刻 之间 上边 下边 前边 后边 右边 东边 西边 南边 北边 内边 外边 旁边 上面 下面 前面 后面 左面 右面 东面 西面 南面 北面 内面 外面 上头 下头 前头 后头 外头 里头 什么 哪儿 哪里 几时 怎样 怎么 多么 这儿 这里 这么 这样 那么 那样 这些 我们 咱们 你们 他们 甚么 已经 曾经 刚刚 马上 顿时 终于 常常 时常 时时 经常 始终 永远 忽然 偶然 暂时 渐渐 连忙 总共 仅仅 异常 极其 多么 比较 简直 幸亏 多亏 也许 大约 好在 难道 顺着 对于 为着 要么 宁可 虽然 倘若 即使 哪怕 纵然 因为 不论 那么 罢了 呜呼 啊呀 啊哟 这里 到处 有时 时而 时时 俄顷 须臾 以上 以下 不下 两 吨 头 间 种 页 对 边 哪 谁 连 让 为 岂 别 很 极 顶 尔 净 总 噢 哼 才 顾 为 则 过 啊 呢 吗 啦 岂 宁 长 你 她 尔 您 朝 到 在 由 并 没 而 间 边 暂 颇 极 别 还 我 他 它 吾 余 予 若 乃 而 其 之 彼 从 到 在 当 把 跟 同 按 用 将 才 就 正 在 将 准 都 全 共 只 光 很 太 挺 最 更 几 何 又 再 也 或 除 被 叫 受 比 及 既 亦 然 况 其 尚 乎 哉 也 耳 噫 呀 末 矣 已 焉 久 少 地 得 不 勿 未 莫 休 能 得 会 可 必 足 着 也 亦 又 正 竟 且 即 就 俄 可 却 倒 上 下 前 后 里 旁 甚 略 太 今 昔 先 后 久 个 只 把 因 故 就 便 但 惟 或 件 条 双 打 合 群 来 去 起 住 已 方 将 着 了 次 回 遭 声 下 口 笑 走 几 点 多 余 又 再 也 勿 的 是 已 了 有 等 于 以 、 。 ” “ , 《 》 : ; ( ) ; 〈 〉 「 」 『 』 【 】 〔 〕
2.重要度計算において次の語は無視する 和 与
TermExtract::Calc_Imp TermExtract::Chasen TermExtract::MeCab TermExtract::BrillsTagger TermExtract::EnglishPlainText TermExtract::ChainesPlainTextGB
このプログラムは、東京大学 中川裕志教授の英文専門用語抽出のアイデア を元に、東京大学 前田朗 (maeda@lib.u-tokyo.ac.jp)が作成したものである。 ストップワードの調整は、東京大学 小島浩之(kojima@e.u-tokyo.ac.jp)が 行った。
なお、本プログラムの使用において生じたいかなる結果に関しても当方では 一切責任を負わない。