近期有接口需要通过获取URL内容,再根据内容获取关键字,介于不同网页的格式不同,要采用传统办法去读取内容,需要提前设定规则,
今天在群里问到fun大佬,

目前用了Arc90's readability.js 和Apple Safari阅读模式的ReaderArticleFinderJS
刚好python下有readability,直接拿来用了
pip install readability-lxml
#coding:utf-8
import requests
from readability import Document
response = requests.get('https://vulsee.com/archives/vulsee_2022/0107_16048.html')
doc = Document(response.text)
title = doc.title()
print (title)
content = doc.summary()
print (content)





![[python]百度の翻译接口测试 - vulsee.com-微慑信息网-VulSee.com](https://vulsee.com/wp-content/uploads/2022/07/de36cc294bab4594d9cae93cbdcb7e58.png)


![[DB] sqlite转mysql-微慑信息网-VulSee.com](https://vulsee.com/wp-content/uploads/2024/03/2c594863e1da2e1d4c46e3f67a547a96.png)








![[八卦] 王婷婷—揭秘一个大三女生的性爱录像-微慑信息网-VulSee.com](http://free.86hy.com/crack/pic/1.jpg)
![[随笔]今天国际警察节-微慑信息网-VulSee.com](http://photo.sohu.com/20041017/Img222528326.jpg)

青云网
