author:张一极
date:2022年11月18日22:31:24
1.计算词频
2.计算反文档频率
3.得出TF-IDF
性质:与词汇出现频率成正比,与语料单位出现次数成反比
topk个关键词:计算所有词汇的tfidf值,降序排列,取topK
缺点:没考虑语序
定义了一个无向有权图,对句子首先进行分词,遍历分词结果,过滤掉停用词,将这些词的前后 j 个词放入共现字典,例如:
「词 1 共词 2:n」代表词 1 和词 2 共同出现 n 次,将词 1 和词 2 共同出现 的次数作为边的权重,加入无向有权图,再次遍历这个图,将所有结点的入度计 算总和,再计算出度总和,最后乘上一个阻尼系数,就可以得到一个关于共现字典的各个 key 出现频率的 Topk 个最高频组合,共现最多的即为topk个关键词。