某站tags获取 – vulsee.com-微慑信息网-VulSee.com

某站tags获取,用于语义分析

#coding:utf-8
import requests
import re
import ssl
import urllib3
from bs4 import BeautifulSoup
from concurrent.futures import ThreadPoolExecutor,as_completed

ssl._create_default_https_context = ssl._create_unverified_context
requests.packages.urllib3.disable_warnings()

def getdate(html):
	reg = (r'<span class="tags">Tags: (.*?)</a></span>')
	listre = re.compile(reg)
	mylist = re.findall(listre, html)
	mylist = mylist[0]
	return mylist

def getA(html):
	reg = (r'<a href=.*?rel="tag">(.*?)</a>')
	listre = re.compile(reg)
	mylist = re.findall(listre, html)
	mylist = mylist[0]
	return mylist

def start(aid):
	try:
		url = 'https://www.xxx.org/ar/%d.shtml' % aid
		req = requests.get(url,verify=False)
		if req.status_code==200:
			html = req.text
			res = (getdate(html))
			soup = BeautifulSoup(res,'html.parser')
			for i in  (soup.find_all('a')):
				tag = (getA(str(i)))
				tag = tag.lower()
				tagslist.append(tag)
				with open('secplus_tags_res.txt','a') as f:
					f.write(str(tag)+'\n')
		else:
			print ('id',aid,',status_code:',req.status_code)
	except Exception as e:
		print (aid,e)

def main():
	global tagslist
	tagslist=[]
	idlist = list(range(1194202))
	with ThreadPoolExecutor(max_workers=20) as pool:
		results = pool.map(start,idlist)
		for i in results:
			if (i!=None):
				print (i)

if __name__ == '__main__':
	main()

目前跑了4800多个：

后续还需要对该文本进行数据处理,排除干扰、非需求数据

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

某站tags获取 - vulsee.com

相关推荐

微慑网

最新文章

随机文章

微慑标签

热门文章

信息资源

友情链接

域名

安全站点

工具

特效

本站信息

其他操作

赞助本站

微慑信息网专注工匠精神

微慑信息网-VulSee.com-关注前沿安全态势,聚合网络安全漏洞信息,分享安全文档案例

觉得文章有用就打赏一下文章作者

非常感谢你的打赏，我们将继续提供更多优质内容，让我们一起创建更加美好的网络世界！

支付宝扫一扫

微信扫一扫

切换注册登录

切换登录注册

相关推荐

微慑网

最新文章

随机文章

微慑标签

热门文章

信息资源

友情链接

域名

安全站点

工具

特效

本站信息

其他操作

赞助本站

微慑信息网 专注工匠精神

微慑信息网-VulSee.com-关注前沿安全态势,聚合网络安全漏洞信息,分享安全文档案例

觉得文章有用就打赏一下文章作者

非常感谢你的打赏，我们将继续提供更多优质内容，让我们一起创建更加美好的网络世界！

支付宝扫一扫

微信扫一扫

切换注册登录

切换登录注册

微慑信息网专注工匠精神