关键词提取算法

TFIDF

想要提取文章中最的关键词,最容易想到的就是统计词频。通常在文章中出现最多的词就是文章最中心的词,但我们如果统计一下,会发现其实出现最多的是“的”、“是”等停用词。所以我们需要的关键词应该是在文章中出现多,但是在平常语境下出现少的词(转换思路就是需要让停用词的系数小于文章关键词的系数)。这就引出了TFIDF(文档逆频率)

TextRank

坚持原创技术分享,您的支持将鼓励我继续创作!