python深入操控wordpress之需求分析+分词模块选择（一）-微慑信息网-VulSee.com

现状：

1、采集的文章统一放在“未分类”且存为草稿箱，目前需要通过手工逐个对文章进行分门别类

2、使用autotags插件，但该插件对英文的支持不是很到位，出现标签如：c、cgf、ato等无意义字符

需求：

通过xmlrpc：

（1）获取当前文章的分类、ID、标题等信息

（2）通过jieba分词获取标题（最好是文章内容）中词频高的文字，作为新的标签

（3）获取文章内容时，需要格式化HTML，即清除HTML格式，否则高词频将可能为div、style等文字；

该处可能使用bs4、正则替换方式处理

（4）通过xmlrpc接口，变更当前文章的分类

（5）通过接口，替换当前文章的标签（判断：仅限草稿箱文章）

（6）通过接口，删除不需要的文章

（7）实现自动提示功能，循环处理草稿箱文章

难点：

（1）处理词频的结果不尽人意

参考：

thulac 、jieba、PKUSeg、jieba_fast

https://www.oschina.net/project/tag/264/segment?sort=view&lang=25&os=0

分词测试：

——————————————————-

分词：jieba PKUSeg 测试：

词条：工信处女干事

pkuseg结果：

jieba结果：

词条：李立通向人大常委会提交书面报告

pkuseg结果：

jieba结果：

词条：周杰伦是歌手，不是大煞笔

pkuseg結果：

jieba结果：

一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

python深入操控wordpress之需求分析+分词模块选择（一）

相关推荐

微慑网

最新文章

随机文章

微慑标签

热门文章

信息资源

友情链接

域名

安全站点

工具

特效

本站信息

其他操作

赞助本站

微慑信息网专注工匠精神

微慑信息网-VulSee.com-关注前沿安全态势,聚合网络安全漏洞信息,分享安全文档案例

觉得文章有用就打赏一下文章作者

非常感谢你的打赏，我们将继续提供更多优质内容，让我们一起创建更加美好的网络世界！

支付宝扫一扫

微信扫一扫

切换注册登录

切换登录注册

相关推荐

微慑网

最新文章

随机文章

微慑标签

热门文章

信息资源

友情链接

域名

安全站点

工具

特效

本站信息

其他操作

赞助本站

微慑信息网 专注工匠精神

微慑信息网-VulSee.com-关注前沿安全态势,聚合网络安全漏洞信息,分享安全文档案例

觉得文章有用就打赏一下文章作者

非常感谢你的打赏，我们将继续提供更多优质内容，让我们一起创建更加美好的网络世界！

支付宝扫一扫

微信扫一扫

切换注册登录

切换登录注册

微慑信息网专注工匠精神