现状:
1、采集的文章统一放在“未分类”且存为草稿箱,目前需要通过手工逐个对文章进行分门别类
2、使用autotags插件,但该插件对英文的支持不是很到位,出现标签如:c、cgf、ato等无意义字符
需求:
通过xmlrpc:
(1)获取当前文章的分类、ID、标题等信息
(2)通过jieba分词获取标题(最好是文章内容)中词频高的文字,作为新的标签
(3)获取文章内容时,需要格式化HTML,即清除HTML格式,否则高词频将可能为div、style等文字;
该处可能使用bs4、正则替换方式处理
(4)通过xmlrpc接口,变更当前文章的分类
(5)通过接口,替换当前文章的标签(判断:仅限草稿箱文章)
(6)通过接口,删除不需要的文章
(7)实现自动提示功能,循环处理草稿箱文章
难点:
(1)处理词频的结果不尽人意
参考:
thulac 、jieba、PKUSeg、jieba_fast
https://www.oschina.net/project/tag/264/segment?sort=view&lang=25&os=0
分词测试:
——————————————————-
分词:jieba PKUSeg 测试:
词条:工信处女干事
pkuseg结果:

jieba结果:

词条:李立通向人大常委会提交书面报告
pkuseg结果:

jieba结果:

词条:周杰伦是歌手,不是大煞笔
pkuseg結果:

jieba结果:


![[python]使用flask+gunicorn+jieba造个轮子-微慑信息网-VulSee.com](https://vulsee.com/wp-content/uploads/2022/01/ad92a4812a1e7dad39016625b4012e3f.png)
![[SQL] dedecms转wordpress 分类更新-微慑信息网-VulSee.com](https://vulsee.com/images/vulsee/vulsee-3.png)
![[lnmp+wordpress]设置http 301跳转到https - vulsee.com-微慑信息网-VulSee.com](http://vulsee.com/wp-content/uploads/2021/09/Pasted-2.png)
![[python] AES-GCM加解密函数-微慑信息网-VulSee.com](https://vulsee.com/wp-content/uploads/2024/12/4a3de68ff9eca0a01bae73a7470170f3.png)











![[八卦] 王婷婷—揭秘一个大三女生的性爱录像-微慑信息网-VulSee.com](http://free.86hy.com/crack/pic/1.jpg)
![[随笔]今天国际警察节-微慑信息网-VulSee.com](http://photo.sohu.com/20041017/Img222528326.jpg)

青云网
