微慑信息网

python深入操控wordpress之需求分析+分词模块选择(一)

现状:

1、采集的文章统一放在“未分类”且存为草稿箱,目前需要通过手工逐个对文章进行分门别类

2、使用autotags插件,但该插件对英文的支持不是很到位,出现标签如:c、cgf、ato等无意义字符

需求:

通过xmlrpc:

(1)获取当前文章的分类、ID、标题等信息

(2)通过jieba分词获取标题(最好是文章内容)中词频高的文字,作为新的标签

(3)获取文章内容时,需要格式化HTML,即清除HTML格式,否则高词频将可能为div、style等文字;

该处可能使用bs4、正则替换方式处理

(4)通过xmlrpc接口,变更当前文章的分类

(5)通过接口,替换当前文章的标签(判断:仅限草稿箱文章)

(6)通过接口,删除不需要的文章

(7)实现自动提示功能,循环处理草稿箱文章

难点:

(1)处理词频的结果不尽人意

参考:

thulac 、jieba、PKUSeg、jieba_fast

https://www.oschina.net/project/tag/264/segment?sort=view&lang=25&os=0

分词测试:

——————————————————-

分词:jieba  PKUSeg 测试:

词条:工信处女干事

pkuseg结果:

jieba结果:

词条:李立通向人大常委会提交书面报告

pkuseg结果:

jieba结果:

词条:周杰伦是歌手,不是大煞笔

pkuseg結果:

jieba结果:

赞(0) 打赏
转载请附本站链接,未经允许不得转载,,谢谢:微慑信息网-VulSee.com » python深入操控wordpress之需求分析+分词模块选择(一)

评论 抢沙发

微慑信息网 专注工匠精神

微慑信息网-VulSee.com-关注前沿安全态势,聚合网络安全漏洞信息,分享安全文档案例

访问我们联系我们

觉得文章有用就打赏一下文章作者

非常感谢你的打赏,我们将继续提供更多优质内容,让我们一起创建更加美好的网络世界!

支付宝扫一扫

微信扫一扫

登录

找回密码

注册