import termextract.mecab
import termextract.core
from pprint import pprint # このサンプルでの処理結果の整形表示のため
import dbm
input_files = ["mecab_out_sample.txt", "mecab_out_sample2.txt", "mecab_out_sample3.txt"]
df = dbm.open("df", "n")
for file in input_files:
f = open(file, "r", encoding="utf-8")
tagged_text = f.read()
f.close
frequency = termextract.mecab.cmp_noun_dict(tagged_text)
termextract.core.store_df(frequency, dbm=df)
df.close
<bound method _Database.close of <dbm.dumb._Database object at 0x000001F7DF9C85C0>>
f = open("mecab_out_sample.txt", "r", encoding="utf-8")
tagged_text = f.read()
f.close
frequency = termextract.mecab.cmp_noun_dict(tagged_text)
pprint(frequency)
TF = termextract.core.frequency2tf(frequency)
pprint(TF)
df = dbm.open("df", "r")
IDF = termextract.core.get_idf(frequency, dbm=df)
df.close
pprint(IDF)
{'アニメ': 1.5, 'コンピュ': 1.5, 'ゴルゴ': 1.5, 'ジェイムズ P': 1.5, 'ダグラスホフスタッタ': 1.5, 'ピッツ': 1.5, 'ファランクス CIWS': 1.5, 'ブルックス': 1.5, 'ペンロ': 1.5, '一定': 1.5, '一定 規則': 1.5, '一連': 1.5, '一過 性': 1.5, '不具合': 1.5, '不安': 1.5, '不安定 化': 1.5, '不要': 1.5, '世代 コンピュ': 1.5, '世界': 1.0, '中国 語': 1.0, '主人公': 1.5, '主体': 1.5, '主張': 1.5, '主要 国': 1.5, '予測': 1.5, '事件': 1.5, '事例': 1.5, '事前': 1.5, '些細': 1.5, '人 型 ロボット': 1.5, '人工': 1.5, '人工 意識': 1.5, '人工 生命 体': 1.5, '人工 的': 1.5, '人工 知能': 1.5, '人工 知能 国際 合同 会議': 1.5, '人工 知能 学会': 1.5, '人工 知能 技術': 1.5, '人工 知能 自体': 1.5, '人工 頭脳': 1.5, '人間': 1.0, '人類': 1.5, '人類 史上 最大': 1.5, '代々木 ゼミナ': 1.5, '代表': 1.5, '仮説': 1.5, '任務': 1.5, '任務 遂行': 1.5, '企業 家': 1.5, '会議': 1.5, '作品': 1.5, '作成': 1.5, '作業': 1.0, '使用': 1.5, '価値': 1.5, '偶発 的': 1.5, '優秀': 1.5, '充分': 1.5, '先行': 1.5, '入力': 1.0, '公開 書簡': 1.5, '共同 創業 者': 1.5, '兵器': 1.5, '内在': 1.5, '処理': 1.0, '処理 能力': 1.5, '出来事': 1.5, '出版': 1.5, '分野': 1.0, '分類': 1.5, '判定': 1.5, '判断': 1.5, '利用': 1.5, '制御': 1.5, '制御 システム': 1.5, '加速': 1.5, '努力 目標': 1.5, '効率 的': 1.5, '動作': 1.5, '動作 可能': 1.5, '動物': 1.5, '勝利': 1.5, '包摂': 1.5, '区別': 1.5, '医学 的 診断': 1.5, '協議': 1.5, '単純': 1.5, '単語': 1.0, '危険 性': 1.5, '却下': 1.5, '原因': 1.5, '友人': 1.5, '反乱': 1.5, '反論': 1.5, '反逆': 1.5, '受験生': 1.5, '古来': 1.5, '可能': 1.5, '可能 性': 1.0, '各国': 1.5, '合格': 1.5, '合衆国 憲法': 1.5, '同時': 1.5, '同様': 1.0, '名前': 1.5, '否定': 1.5, '命令': 1.5, '命名': 1.5, '哨戒 機': 1.5, '哲学': 1.5, '哲学 的 意味': 1.5, '問題': 1.0, '啓蒙': 1.5, '回避': 1.5, '困難 視': 1.5, '囲碁 対戦 用 AI': 1.5, '国家': 1.5, '国家 プロジェクト': 1.5, '国立 情報 学 研究所': 1.5, '国防 高等 研究 計画 局': 1.5, '国際 人権 団体': 1.5, '圧倒的': 1.5, '地上': 1.5, '地球': 1.5, '型 兵器': 1.5, '基本': 1.5, '基準': 1.5, '基礎': 1.5, '基礎 技術': 1.0, '変革': 1.5, '大別': 1.5, '大学 入試 センタ': 1.5, '大量': 1.5, '好意 的': 1.5, '始': 1.5, '子会社 DeepMind': 1.5, '存在': 1.5, '存在 意義': 1.5, '学派': 1.5, '学習': 1.0, '学習 不足': 1.5, '学者': 1.5, '学説': 1.5, '宇宙': 1.5, '完全': 1.5, '完全 自動': 1.5, '実現': 1.5, '実用': 1.5, '実用 可能': 1.5, '実装': 1.5, '家庭 用 電気 機械 器具': 1.5, '富士通': 1.5, '富士通 研究所': 1.5, '対空 迎撃 ミサイル システム': 1.5, '専用 プログラム': 1.5, '専門 家': 1.5, '導入': 1.5, '展開': 1.5, '常識': 1.5, '幸福': 1.5, '強力': 1.5, '強化 学習': 1.5, '形式 論理': 1.5, '形式 論理 システム': 1.5, '形質': 1.5, '影響': 1.5, '役割': 1.5, '従順': 1.5, '心身 問題': 1.5, '心配 事': 1.5, '必要': 1.5, '必須': 1.5, '思考': 1.5, '思考 実験': 1.5, '急速': 1.5, '悪魔': 1.5, '情報': 1.0, '情報処理': 1.5, '情報処理 システム': 1.5, '意味': 1.0, '意思': 1.0, '意識': 1.5, '感情': 1.5, '感情 表出': 1.5, '憲法': 1.5, '成人': 1.5, '成果': 1.5, '我 思': 1.5, '戦闘': 1.5, '戦闘 妖精': 1.5, '戦闘 指揮 システム': 1.5, '戦闘 機': 1.5, '戦闘 機 操縦 用': 1.5, '所有': 1.5, '手塚 眞 総合 監修': 1.5, '手法': 1.0, '技術 的 特異 点': 1.5, '抑圧': 1.5, '投資 全額': 1.5, '拒絶': 1.5, '拡大 解釈': 1.5, '持 者': 1.5, '指揮 系統': 1.5, '指摘': 1.5, '指示': 1.5, '排除': 1.5, '採用': 1.5, '推論': 1.5, '推論 手法': 1.5, '推論 機能': 1.5, '提供': 1.5, '提唱': 1.5, '提案': 1.5, '搭載': 1.5, '摘出': 1.5, '操作': 1.5, '支援 用': 1.5, '攻 殻 機動 隊': 1.5, '政府': 1.5, '数学 原理': 1.5, '数式': 1.5, '文字 列': 1.5, '文字 通': 1.5, '方法': 1.0, '既知 情報': 1.5, '日常 語': 1.5, '日本': 1.5, '日本学士院 会員': 1.5, '映画': 1.5, '時代': 1.5, '暗殺': 1.5, '暗黙': 1.5, '暴走': 1.5, '曖昧': 1.0, '最初': 1.5, '最大': 1.5, '最後': 1.5, '最適 解': 1.5, '有益': 1.5, '未来': 1.5, '来談 者 中心 療法': 1.5, '東京大学 入試': 1.5, '東大': 1.5, '松尾 豊': 1.5, '架空': 1.5, '核兵器': 1.5, '検証': 1.5, '業者': 1.5, '概念': 1.5, '構築': 1.5, '様々': 1.5, '模倣': 1.5, '模擬 空戦': 1.5, '模擬 試験': 1.5, '機体': 1.5, '機械': 1.5, '機械 学習': 1.5, '機械 式 計算 機': 1.5, '機械 的': 1.5, '機械 論': 1.5, '機械 類': 1.5, '機能 主義': 1.5, '機関 誌': 1.5, '正確': 1.5, '正統 派 AI': 1.5, '歴史': 1.5, '民族': 1.5, '気': 1.5, '水準': 1.5, '注目': 1.5, '活発': 1.5, '深層 学習 システム': 1.5, '湾岸 戦争': 1.5, '漫画': 1.5, '火薬': 1.5, '無人 戦闘 機 UCAV': 1.5, '無人 爆撃 機': 1.5, '無人 自動車 ロボットカ': 1.5, '無機 要素': 1.5, '特定': 1.0, '特徴': 1.5, '特筆': 1.5, '状況': 1.5, '独自': 1.5, '現状': 1.5, '現行 政府': 1.5, '理論': 1.5, '環境': 1.5, '甘利 俊': 1.5, '生態 脳': 1.5, '生成': 1.5, '生成 規則': 1.5, '生物 学': 1.5, '用語': 1.5, '療法': 1.5, '発展': 1.5, '発明': 1.5, '発生': 1.5, '発表': 1.5, '登場': 1.5, '的': 1.5, '皇帝': 1.5, '目標': 1.5, '相互': 1.5, '相当': 1.5, '知性': 1.5, '知的': 1.5, '知的 システム': 1.5, '知能': 1.5, '知識': 1.0, '知識 表現': 1.5, '研究': 1.0, '破壊': 1.5, '確': 1.5, '神林 長平': 1.5, '神経 ネットワ': 1.5, '神経 活動': 1.5, '禁止': 1.5, '私立 大学': 1.5, '科学 技術': 1.5, '科学 者': 1.5, '積分 問題': 1.5, '空 飛': 1.5, '突然変異': 1.5, '立場': 1.5, '立論': 1.5, '米 シンシナティ': 1.5, '米 軍 パイロット': 1.5, '精力 的': 1.5, '精神': 1.5, '精神 哲学': 1.5, '紀': 1.5, '経験': 1.5, '結論': 1.5, '統合': 1.5, '統計 分析': 1.5, '統計 的 学習': 1.5, '練習 戦': 1.5, '群 知能': 1.5, '考': 1.5, '肉体': 1.5, '脚 戦車': 1.5, '脳': 1.5, '自動 化': 1.5, '自動 戦闘 システム': 1.5, '自動 操縦': 1.5, '自動 操縦 可能': 1.5, '自動 操縦 型 武器': 1.5, '自己 連想 記憶 理論': 1.5, '自律 的': 1.5, '自我': 1.5, '艦 ミサイル': 1.5, '英': 1.5, '著作': 1.5, '著名 人': 1.5, '著書': 1.5, '行動': 1.5, '行動 型 システム': 1.5, '表 立': 1.5, '表現': 1.0, '表現 方法': 1.5, '製作': 1.5, '複雑': 1.5, '規定': 1.5, '観点': 1.5, '解明': 1.5, '解析': 1.0, '解読': 1.5, '解釈': 1.0, '言葉 通': 1.5, '計算': 1.5, '計算 機': 1.5, '計算 知能': 1.5, '記号 処理': 1.5, '記号 的 AI': 1.5, '記号 的 推論': 1.5, '記号 的 明示 性': 1.5, '記憶': 1.5, '記述': 1.5, '試行': 1.5, '試験': 1.5, '話題': 1.5, '詳細': 1.5, '認識': 1.0, '認識 論 的': 1.5, '論争': 1.5, '論文': 1.5, '論理': 1.5, '論理 的': 1.5, '論理 的 AI': 1.5, '論理 計算': 1.5, '警告': 1.5, '警鐘': 1.5, '質問 応答 システム': 1.5, '走行': 1.5, '超越': 1.5, '足': 1.5, '身体': 1.5, '身体 性': 1.5, '軍事 利用': 1.5, '軍拡': 1.5, '軍隊': 1.5, '逆算': 1.5, '進化': 1.5, '進化 的 計算': 1.5, '進歩': 1.5, '逸脱': 1.5, '遂行': 1.5, '適用': 1.5, '選別 攻撃': 1.5, '遺伝 的 アルゴリズム': 1.5, '邪魔': 1.5, '部分 修正': 1.5, '部屋': 1.5, '重要': 1.5, '銃 夢': 1.5, '銃火 器': 1.5, '錯覚': 1.5, '長期': 1.5, '開催': 1.5, '開発': 1.5, '開発 競争': 1.5, '関係': 1.0, '関連 性': 1.5, '防空 システム': 1.5, '限界': 1.0, '障害': 1.5, '雇用': 1.5, '離脱': 1.5, '雪 風': 1.5, '非常': 1.0, '革命': 1.5, '類似': 1.0, '首脳': 1.5, '高度': 1.5, 'SF': 1.5}
term_imp = termextract.core.term_importance(TF, IDF)
pprint(term_imp)
{'アニメ': 1.5, 'コンピュ': 3.0, 'ゴルゴ': 1.5, 'ジェイムズ P': 1.5, 'ダグラスホフスタッタ': 1.5, 'ピッツ': 1.5, 'ファランクス CIWS': 1.5, 'ブルックス': 1.5, 'ペンロ': 1.5, '一定': 3.0, '一定 規則': 1.5, '一連': 1.5, '一過 性': 1.5, '不具合': 1.5, '不安': 1.5, '不安定 化': 1.5, '不要': 1.5, '世代 コンピュ': 1.5, '世界': 1.0, '中国 語': 1.0, '主人公': 1.5, '主体': 1.5, '主張': 1.5, '主要 国': 1.5, '予測': 1.5, '事件': 1.5, '事例': 1.5, '事前': 1.5, '些細': 1.5, '人 型 ロボット': 1.5, '人工': 12.0, '人工 意識': 1.5, '人工 生命 体': 1.5, '人工 的': 1.5, '人工 知能': 6.0, '人工 知能 国際 合同 会議': 1.5, '人工 知能 学会': 1.5, '人工 知能 技術': 1.5, '人工 知能 自体': 1.5, '人工 頭脳': 1.5, '人間': 1.0, '人類': 3.0, '人類 史上 最大': 1.5, '代々木 ゼミナ': 1.5, '代表': 1.5, '仮説': 1.5, '任務': 3.0, '任務 遂行': 1.5, '企業 家': 1.5, '会議': 1.5, '作品': 3.0, '作成': 1.5, '作業': 1.0, '使用': 1.5, '価値': 1.5, '偶発 的': 1.5, '優秀': 1.5, '充分': 1.5, '先行': 1.5, '入力': 1.0, '公開 書簡': 1.5, '共同 創業 者': 1.5, '兵器': 3.0, '内在': 1.5, '処理': 3.0, '処理 能力': 1.5, '出来事': 1.5, '出版': 1.5, '分野': 1.0, '分類': 1.5, '判定': 1.5, '判断': 1.5, '利用': 3.0, '制御': 3.0, '制御 システム': 1.5, '加速': 1.5, '努力 目標': 1.5, '効率 的': 1.5, '動作': 3.0, '動作 可能': 1.5, '動物': 1.5, '勝利': 1.5, '包摂': 1.5, '区別': 1.5, '医学 的 診断': 1.5, '協議': 1.5, '単純': 1.5, '単語': 1.0, '危険 性': 1.5, '却下': 1.5, '原因': 1.5, '友人': 1.5, '反乱': 1.5, '反論': 1.5, '反逆': 1.5, '受験生': 1.5, '古来': 1.5, '可能': 6.0, '可能 性': 1.0, '各国': 1.5, '合格': 1.5, '合衆国 憲法': 1.5, '同時': 1.5, '同様': 1.0, '名前': 1.5, '否定': 1.5, '命令': 1.5, '命名': 1.5, '哨戒 機': 1.5, '哲学': 4.5, '哲学 的 意味': 1.5, '問題': 3.0, '啓蒙': 1.5, '回避': 1.5, '困難 視': 1.5, '囲碁 対戦 用 AI': 1.5, '国家': 3.0, '国家 プロジェクト': 1.5, '国立 情報 学 研究所': 1.5, '国防 高等 研究 計画 局': 1.5, '国際 人権 団体': 1.5, '圧倒的': 1.5, '地上': 1.5, '地球': 1.5, '型 兵器': 1.5, '基本': 1.5, '基準': 1.5, '基礎': 3.0, '基礎 技術': 1.0, '変革': 1.5, '大別': 1.5, '大学 入試 センタ': 1.5, '大量': 1.5, '好意 的': 1.5, '始': 1.5, '子会社 DeepMind': 1.5, '存在': 3.0, '存在 意義': 1.5, '学派': 1.5, '学習': 6.0, '学習 不足': 1.5, '学者': 1.5, '学説': 1.5, '宇宙': 1.5, '完全': 3.0, '完全 自動': 1.5, '実現': 1.5, '実用': 3.0, '実用 可能': 1.5, '実装': 1.5, '家庭 用 電気 機械 器具': 1.5, '富士通': 3.0, '富士通 研究所': 1.5, '対空 迎撃 ミサイル システム': 1.5, '専用 プログラム': 1.5, '専門 家': 1.5, '導入': 1.5, '展開': 1.5, '常識': 1.5, '幸福': 1.5, '強力': 1.5, '強化 学習': 1.5, '形式 論理': 3.0, '形式 論理 システム': 1.5, '形質': 1.5, '影響': 1.5, '役割': 1.5, '従順': 1.5, '心身 問題': 1.5, '心配 事': 1.5, '必要': 1.5, '必須': 1.5, '思考': 3.0, '思考 実験': 1.5, '急速': 1.5, '悪魔': 1.5, '情報': 3.0, '情報処理': 3.0, '情報処理 システム': 1.5, '意味': 2.0, '意思': 1.0, '意識': 3.0, '感情': 3.0, '感情 表出': 1.5, '憲法': 3.0, '成人': 1.5, '成果': 1.5, '我 思': 1.5, '戦闘': 10.5, '戦闘 妖精': 1.5, '戦闘 指揮 システム': 1.5, '戦闘 機': 4.5, '戦闘 機 操縦 用': 1.5, '所有': 1.5, '手塚 眞 総合 監修': 1.5, '手法': 2.0, '技術 的 特異 点': 1.5, '抑圧': 1.5, '投資 全額': 1.5, '拒絶': 1.5, '拡大 解釈': 1.5, '持 者': 1.5, '指揮 系統': 1.5, '指摘': 1.5, '指示': 1.5, '排除': 1.5, '採用': 1.5, '推論': 6.0, '推論 手法': 1.5, '推論 機能': 1.5, '提供': 1.5, '提唱': 1.5, '提案': 1.5, '搭載': 1.5, '摘出': 1.5, '操作': 1.5, '支援 用': 1.5, '攻 殻 機動 隊': 1.5, '政府': 3.0, '数学 原理': 1.5, '数式': 1.5, '文字 列': 1.5, '文字 通': 1.5, '方法': 2.0, '既知 情報': 1.5, '日常 語': 1.5, '日本': 1.5, '日本学士院 会員': 1.5, '映画': 1.5, '時代': 1.5, '暗殺': 1.5, '暗黙': 1.5, '暴走': 3.0, '曖昧': 1.0, '最初': 1.5, '最大': 3.0, '最後': 1.5, '最適 解': 1.5, '有益': 1.5, '未来': 1.5, '来談 者 中心 療法': 1.5, '東京大学 入試': 1.5, '東大': 1.5, '松尾 豊': 1.5, '架空': 1.5, '核兵器': 1.5, '検証': 1.5, '業者': 1.5, '概念': 1.5, '構築': 1.5, '様々': 1.5, '模倣': 1.5, '模擬 空戦': 1.5, '模擬 試験': 1.5, '機体': 1.5, '機械': 10.5, '機械 学習': 1.5, '機械 式 計算 機': 1.5, '機械 的': 1.5, '機械 論': 1.5, '機械 類': 1.5, '機能 主義': 1.5, '機関 誌': 1.5, '正確': 1.5, '正統 派 AI': 1.5, '歴史': 1.5, '民族': 1.5, '気': 1.5, '水準': 1.5, '注目': 1.5, '活発': 1.5, '深層 学習 システム': 1.5, '湾岸 戦争': 1.5, '漫画': 3.0, '火薬': 1.5, '無人 戦闘 機 UCAV': 1.5, '無人 爆撃 機': 1.5, '無人 自動車 ロボットカ': 1.5, '無機 要素': 1.5, '特定': 1.0, '特徴': 1.5, '特筆': 1.5, '状況': 1.5, '独自': 1.5, '現状': 1.5, '現行 政府': 1.5, '理論': 3.0, '環境': 1.5, '甘利 俊': 1.5, '生態 脳': 1.5, '生成': 3.0, '生成 規則': 1.5, '生物 学': 1.5, '用語': 1.5, '療法': 3.0, '発展': 1.5, '発明': 1.5, '発生': 1.5, '発表': 1.5, '登場': 1.5, '的': 30.0, '皇帝': 1.5, '目標': 3.0, '相互': 1.5, '相当': 1.5, '知性': 1.5, '知的': 3.0, '知的 システム': 1.5, '知能': 12.0, '知識': 2.0, '知識 表現': 1.5, '研究': 3.0, '破壊': 1.5, '確': 1.5, '神林 長平': 1.5, '神経 ネットワ': 1.5, '神経 活動': 1.5, '禁止': 1.5, '私立 大学': 1.5, '科学 技術': 1.5, '科学 者': 1.5, '積分 問題': 1.5, '空 飛': 1.5, '突然変異': 1.5, '立場': 1.5, '立論': 1.5, '米 シンシナティ': 1.5, '米 軍 パイロット': 1.5, '精力 的': 1.5, '精神': 3.0, '精神 哲学': 1.5, '紀': 1.5, '経験': 1.5, '結論': 1.5, '統合': 1.5, '統計 分析': 1.5, '統計 的 学習': 1.5, '練習 戦': 1.5, '群 知能': 1.5, '考': 1.5, '肉体': 1.5, '脚 戦車': 1.5, '脳': 4.5, '自動 化': 1.5, '自動 戦闘 システム': 1.5, '自動 操縦': 3.0, '自動 操縦 可能': 1.5, '自動 操縦 型 武器': 1.5, '自己 連想 記憶 理論': 1.5, '自律 的': 1.5, '自我': 1.5, '艦 ミサイル': 1.5, '英': 1.5, '著作': 1.5, '著名 人': 1.5, '著書': 1.5, '行動': 3.0, '行動 型 システム': 1.5, '表 立': 1.5, '表現': 3.0, '表現 方法': 1.5, '製作': 1.5, '複雑': 1.5, '規定': 1.5, '観点': 1.5, '解明': 1.5, '解析': 1.0, '解読': 1.5, '解釈': 2.0, '言葉 通': 1.5, '計算': 9.0, '計算 機': 3.0, '計算 知能': 1.5, '記号 処理': 1.5, '記号 的 AI': 3.0, '記号 的 推論': 1.5, '記号 的 明示 性': 1.5, '記憶': 3.0, '記述': 1.5, '試行': 1.5, '試験': 3.0, '話題': 1.5, '詳細': 1.5, '認識': 2.0, '認識 論 的': 1.5, '論争': 1.5, '論文': 1.5, '論理': 9.0, '論理 的': 3.0, '論理 的 AI': 1.5, '論理 計算': 1.5, '警告': 1.5, '警鐘': 1.5, '質問 応答 システム': 1.5, '走行': 1.5, '超越': 1.5, '足': 1.5, '身体': 3.0, '身体 性': 1.5, '軍事 利用': 1.5, '軍拡': 1.5, '軍隊': 1.5, '逆算': 1.5, '進化': 3.0, '進化 的 計算': 1.5, '進歩': 1.5, '逸脱': 1.5, '遂行': 3.0, '適用': 1.5, '選別 攻撃': 1.5, '遺伝 的 アルゴリズム': 1.5, '邪魔': 1.5, '部分 修正': 1.5, '部屋': 1.5, '重要': 1.5, '銃 夢': 1.5, '銃火 器': 1.5, '錯覚': 1.5, '長期': 1.5, '開催': 1.5, '開発': 3.0, '開発 競争': 1.5, '関係': 1.0, '関連 性': 1.5, '防空 システム': 1.5, '限界': 1.0, '障害': 1.5, '雇用': 1.5, '離脱': 1.5, '雪 風': 1.5, '非常': 1.0, '革命': 1.5, '類似': 1.0, '首脳': 1.5, '高度': 1.5, 'SF': 1.5}
膠着言語の場合は、TermExtract.Core.modify_agglutinative_lang()で整形をする
import collections
data_collection = collections.Counter(term_imp)
for cmp_noun, value in data_collection.most_common():
print(termextract.core.modify_agglutinative_lang(cmp_noun), value, sep="\t")