- 设置数据源
MysqlConfig = { 'develop': { 'host': '192.168.1.103', 'port': 3306, 'db': 'enterprise', 'username': 'root', 'password': 'root@123' } }
- 执行
db/data.sql
生成数据结构 - 配置IP代理
config/settings
# 全局代理控制 GLOBAL_PROXY = True PROXY_POOL_URL = "http://localhost:5010"
- 设置爬取关键字
qichacha
&tianyancha
keys = ['Google'] # 设置爬取列表 crawler.load_keys(keys) crawler.start()
PS:建议使用IP代理 + 随机UA,否者一定会被ban
- 随机UA推荐fake_useragent
- 代理池推荐proxy_pool