网络爬虫
这里存储一些爬虫需要注意的点
爬虫不能忘记的几个点
标签查找要使用稳定的方法
selenium设置隐式等待优于sleep
Cookie
将cookie设置另做函数是一种推荐的做法
def set_headers(cookieFileName):
"""
设置请求头,主要是cookie的设置,需要登录企查查后,进入开发者工作获取。
:param cookieFileName: 存储cookie的文件例如:'cookie.txt',str
:return: 请求头header,dict
"""
with open(cookieFileName, 'rt', encoding='utf-8') as f:
cookie = f.read().strip()
header = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.13; rv:61.0) Gecko/20100101 Firefox/61.0',
'Cookie': cookie
}
print('headers设置成功')
return header爬外网时需要注意自己的梯子
requests设置代理selenuim设置代理
最后更新于