微慑信息网

[python] Arc90's readability.js -vulsee.com

近期有接口需要通过获取URL内容,再根据内容获取关键字,介于不同网页的格式不同,要采用传统办法去读取内容,需要提前设定规则,

今天在群里问到fun大佬,

目前用了Arc90's readability.js 和Apple Safari阅读模式的ReaderArticleFinderJS

刚好python下有readability,直接拿来用了

pip install readability-lxml

 

#coding:utf-8
import requests
from readability import Document
response = requests.get('https://vulsee.com/archives/vulsee_2022/0107_16048.html')
doc = Document(response.text)
title = doc.title()
print (title)
content = doc.summary()
print (content)

赞(0) 打赏
转载请附本站链接,未经允许不得转载,,谢谢:微慑信息网-VulSee.com » [python] Arc90's readability.js -vulsee.com

评论 抢沙发

微慑信息网 专注工匠精神

微慑信息网-VulSee.com-关注前沿安全态势,聚合网络安全漏洞信息,分享安全文档案例

访问我们联系我们

觉得文章有用就打赏一下文章作者

非常感谢你的打赏,我们将继续提供更多优质内容,让我们一起创建更加美好的网络世界!

支付宝扫一扫

微信扫一扫

登录

找回密码

注册