网络爬虫

这里存储一些爬虫需要注意的点

爬虫不能忘记的几个点

标签查找要使用稳定的方法
selenium设置隐式等待优于sleep

将cookie设置另做函数是一种推荐的做法

def set_headers(cookieFileName):
    """
    设置请求头，主要是cookie的设置，需要登录企查查后，进入开发者工作获取。
    :param cookieFileName: 存储cookie的文件例如：'cookie.txt',str
    :return: 请求头header,dict
    """
    with open(cookieFileName, 'rt', encoding='utf-8') as f:
        cookie = f.read().strip()
    header = {
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.13; rv:61.0) Gecko/20100101 Firefox/61.0',
        'Cookie': cookie
    }
    print('headers设置成功')
    return header

爬外网时需要注意自己的梯子

requests设置代理

import requests
#ssr配置代理，端口查看梯子软件
proxies={'http': 'http://127.0.0.1:10619', 'https': 'http://127.0.0.1:10619'}
response = requests.get(Url,proxies=proxies)
html = response.content.decode('utf-8', 'ignore')
soup = BeautifulSoup(html, features="lxml")

selenuim设置代理

from selenium.webdriver import Chrome, ChromeOptions # 导入类库
option = ChromeOptions() # 初始化类
ip = "127.0.0.1"
port = "10619"
# 设置代理
option.add_argument("--proxy-server=http://{}:{}".format(ip, port))
driver = Chrome(options=option)  # 模拟开浏览器
driver.get(Url) # 跳转网址

上一页异方差检验下一页BeautifulSoup

最后更新于2年前