网络爬虫

这里存储一些爬虫需要注意的点

爬虫不能忘记的几个点

  • 标签查找要使用稳定的方法

  • selenium设置隐式等待优于sleep

将cookie设置另做函数是一种推荐的做法

def set_headers(cookieFileName):
    """
    设置请求头,主要是cookie的设置,需要登录企查查后,进入开发者工作获取。
    :param cookieFileName: 存储cookie的文件例如:'cookie.txt',str
    :return: 请求头header,dict
    """
    with open(cookieFileName, 'rt', encoding='utf-8') as f:
        cookie = f.read().strip()
    header = {
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.13; rv:61.0) Gecko/20100101 Firefox/61.0',
        'Cookie': cookie
    }
    print('headers设置成功')
    return header

爬外网时需要注意自己的梯子

  • requests设置代理

  • selenuim设置代理

最后更新于