现状:
1、采集的文章统一放在“未分类”且存为草稿箱,目前需要通过手工逐个对文章进行分门别类
2、使用autotags插件,但该插件对英文的支持不是很到位,出现标签如:c、cgf、ato等无意义字符
需求:
通过xmlrpc:
(1)获取当前文章的分类、ID、标题等信息
(2)通过jieba分词获取标题(最好是文章内容)中词频高的文字,作为新的标签
(3)获取文章内容时,需要格式化HTML,即清除HTML格式,否则高词频将可能为div、style等文字;
该处可能使用bs4、正则替换方式处理
(4)通过xmlrpc接口,变更当前文章的分类
(5)通过接口,替换当前文章的标签(判断:仅限草稿箱文章)
(6)通过接口,删除不需要的文章
(7)实现自动提示功能,循环处理草稿箱文章
难点:
(1)处理词频的结果不尽人意
参考:
thulac 、jieba、PKUSeg、jieba_fast
https://www.oschina.net/project/tag/264/segment?sort=view&lang=25&os=0
分词测试:
——————————————————-
分词:jieba PKUSeg 测试:
词条:工信处女干事
pkuseg结果:
jieba结果:
词条:李立通向人大常委会提交书面报告
pkuseg结果:
jieba结果:
词条:周杰伦是歌手,不是大煞笔
pkuseg結果:
jieba结果: