微慑信息网

python深入操控wordpress之需求分析+分词模块选择(一)

现状:

1、采集的文章统一放在“未分类”且存为草稿箱,目前需要通过手工逐个对文章进行分门别类

2、使用autotags插件,但该插件对英文的支持不是很到位,出现标签如:c、cgf、ato等无意义字符

需求:

通过xmlrpc:

(1)获取当前文章的分类、ID、标题等信息

(2)通过jieba分词获取标题(最好是文章内容)中词频高的文字,作为新的标签

(3)获取文章内容时,需要格式化HTML,即清除HTML格式,否则高词频将可能为div、style等文字;

该处可能使用bs4、正则替换方式处理

(4)通过xmlrpc接口,变更当前文章的分类

(5)通过接口,替换当前文章的标签(判断:仅限草稿箱文章)

(6)通过接口,删除不需要的文章

(7)实现自动提示功能,循环处理草稿箱文章

难点:

(1)处理词频的结果不尽人意

参考:

thulac 、jieba、PKUSeg、jieba_fast

https://www.oschina.net/project/tag/264/segment?sort=view&lang=25&os=0

分词测试:

——————————————————-

分词:jieba  PKUSeg 测试:

词条:工信处女干事

pkuseg结果:

jieba结果:

词条:李立通向人大常委会提交书面报告

pkuseg结果:

jieba结果:

词条:周杰伦是歌手,不是大煞笔

pkuseg結果:

jieba结果:

本文标题:python深入操控wordpress之需求分析+分词模块选择(一)
本文链接:
(转载请附上本文链接)
http://vulsee.com/archives/vulsee_2021/0422_14331.html
转载请附本站链接,未经允许不得转载,,谢谢:微慑信息网-VulSee.com » python深入操控wordpress之需求分析+分词模块选择(一)
分享到: 更多 (0)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

微慑信息网 专注工匠精神

访问我们联系我们