社区精华帖的热词分析(菜鸟),写了个脚本,和大家分享。
主要调用网站自带 api(地址)。
btw: 获取精华帖列表: /topics.json (),接口返回分页有问题,放弃用这个接口。
调用 requests 和 re,抓取帖子总数
获取完整的话题内容:/topics/:id.json
https://testerhome.com/api/v3/topics/3905.json
获取完整的话题内容:/topics/:id.json
https://testerhome.com/api/v3/topics/3905.json
获取某个话题的回帖列表: /topics/:id/replies.json
https://testerhome.com/api#route-/topics/3905/replies.json
jieba.analyse.extract_tags(topics_all_contents, topK=20, withWeight=True, allowPOS=())
jieba.analyse.extract_tags(topics_all_contents, topK=20, withWeight=True, allowPOS=('ns', 'n', 'vn', 'v'))
jieba.analyse.textrank(topics_all_contents, topK=20, withWeight=True, allowPOS=('ns', 'n', 'vn', 'v'))
基于 TF-IDF 算法的关键词抽取,去掉词性过滤
基于 TF-IDF 算法的关键词抽取,保留词性过滤
基于 TextRank 算法的关键词抽取