Python爬虫学习
1.UA伪装
ua:请求载体的身份标识,例如Mozilla/5.0等;
服务器通过ua识别用户是以什么身份向服务器发送请求的;
如果使用浏览器向某个门户网站发起请求的话,门户网站会认为这是一个正常的请求,但是如果使用程序(例如爬虫)发送请求的话,则服务器会认为这是一个非法请求,该请求很容易被加以识别并进行拒绝访问;
所以爬虫的第一步是ua伪装,将身份伪装成一款浏览器;
# ua伪装
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36'}# 发送请求
response = requests.get(url=url, params=param,headers=headers)