shkong老大写了一个爬虫,
http://www.hostloc.com/thread-430613-1-1.html
但发现有些大爷不会配置环境, 现在把详细的基础流程写一下.
高手老大请略过.
本教程以CentOS 7为例, 环境配置不适合其他的系统.
1, 首先你需要配置好基本的服务器环境, 可以使用bt等面板.
安装方法
https://www.bt.cn/bbs/thread-1186-1-1.html
2, 再安装好WordPress和chevereto图床
https://cn.wordpress.org/wordpress-4.9.4-zh_CN.zip
https://github.com/Chevereto/Chevereto-Free/archive/1.0.9.zip
建议分开安装
如:www.free.com 安装WordPress
i.free.com chevereto图床
安装好了后先去chevereto后台关闭防洪保护, 然后再去上传参数那边根据自己的要求设置.
3, 配置好Python3.6和pip3
安装EPEL和IUS软件源
- yum install epel-release
- yum install https://centos7.iuscommunity.org/ius-release.rpm
复制代码
安装Python3.6
- yum install python36u
复制代码
创建python3连接符
- ln -s /bin/python3.6 /bin/python3
复制代码
安装pip3
- yum install python36u-pip
复制代码
创建pip3链接符
- ln -s /bin/pip3.6 /bin/pip3
复制代码
再安装requests和pymysql
- pip3 install requests
- pip3 install pymysql
复制代码
再下载爬虫
- mkdir /home/1024
- cd /home/1024
- wget https://github.com/ishkong/1024_img_spider_wordpress/blob/master/spider.py
复制代码
编辑spider.py文件
- vi spider.py
复制代码
配置参数
在12行这里填写WordPress的MySQL数据库参数
conn = pymysql.connect(host=”, port=3306, user=’MySQL用户名‘, passwd=’密码‘, db=’MySQL数据库名‘, charset=’utf8’) #数据库填这里
一般情况MySQL用户名和MySQL数据库名都是一样的
在26行这里添加图床的API
APIKey = “” #API填这里
这个API可以在chevereto后台找到
在28行这里修改你的图床地址
url = “http://你的域名/api/1/upload/?key=”+ APIKey + “&format=” + format #图床地址
如
url = “http://i.free.com/api/1/upload/?key=”+ APIKey + “&format=” + format #图床地址
退出保存spider.py
再修改文件权限
- chmod +x spider.py
复制代码
再开始运行
- python3 spider.py
复制代码
开始采集了
然后可以去查看wordpress和chevereto的数据