TF-IDF与TextRank关键词抽取算法

 


author:张一极

date:2022年11月18日22:31:24

TF-IDF

1.计算词频

(1)=

2.计算反文档频率

(2)IDF=log(+1),0

3.得出TF-IDF

(3)TFIDF=TFIDF

性质:与词汇出现频率成正比,与语料单位出现次数成反比

topk个关键词:计算所有词汇的tfidf值,降序排列,取topK

缺点:没考虑语序

TextRank

定义了一个无向有权图,对句子首先进行分词,遍历分词结果,过滤掉停用词,将这些词的前后 j 个词放入共现字典,例如:

「词 1 共词 2:n」代表词 1 和词 2 共同出现 n 次,将词 1 和词 2 共同出现 的次数作为边的权重,加入无向有权图,再次遍历这个图,将所有结点的入度计 算总和,再计算出度总和,最后乘上一个阻尼系数,就可以得到一个关于共现字典的各个 key 出现频率的 Topk 个最高频组合,共现最多的即为topk个关键词。