【Python】【进阶篇】十、Python爬虫的Requests库

文章列表

十、Python爬虫的Requests库

Python 提供了多个用来编写爬虫程序的库，除了前面已经介绍的 urllib 库之外，还有一个很重的 Requests 库。

Requests 是 Python 的第三方库，它的安装非常简便，如下所示：

python -m pip install requests

Requests 库是基于 urllib 开发而来，它使用 Python 语言编写，并且采用了 Apache2 Licensed（一种开源协议）的 HTTP 库。与 urllib 相比，Requests 更加方便、快捷，因此在编写爬虫程序时 Requests 库使用较多。

10.1 常用请求方法

10.1.1 requests.get()

该方法: 用于 GET 请求，表示向网站发起请求，获取页面响应对象。
其语法格式如下：

res = requests.get(url,headers=headers,params,timeout)

参数说明：

url : 要抓取的 url 地址。
headers : 用于包装请求头信息。
params : 请求时携带的查询字符串参数。
timeout : 超时时间，超过时间会抛出异常。

示例如下：

import requestsurl = 'http://baidu.com'
response = requests.get(url)
print(response)

上面代码的运行结果如下 -

<Response [200]>

获取带查询字符串参数的响应对象，如下所示：

import requestsdata = {'name': '编程帮','url': "www.biancheng.net"
}
response = requests.get('http://httpbin.org/get', params=data)
# 直接拼接参数也可以
# response = requests.get(http://httpbin.org/get?name=gemey&age=22)
# 调用响应对象text属性，获取文本信息
print(response.text)

上面代码的运行结果如下 -

{"args": {"name": "\\u7f16\\u7a0b\\u5e2e", "url": "www.biancheng.net"}, "headers": {"Accept": "*/*", "Accept-Encoding": "gzip, deflate", "Host": "httpbin.org", "User-Agent": "python-requests/2.28.2", "X-Amzn-Trace-Id": "Root=1-642d7836-1ca8d68732e0229b7c315fe9"}, "origin": "112.32.133.1", "url": "http://httpbin.org/get?name=\\u7f16\\u7a0b\\u5e2e&url=www.biancheng.net"
}

10.1.2 requests.post()

该方法: 用于 POST 请求，先由用户向目标 url 提交数据，然后服务器返回一个 HttpResponse 响应对象。
其语法格式如下：

response=requests.post(url,data={请求体的字典})

参数说明：

url : 要抓取的 url 地址。
data : 用于包装请求头字典信息。

示例如下：

import requests# 百度翻译
url = 'https://fanyi.baidu.com'
# post请求体携带的参数，可通过开发者调试工具查看
# 查看步骤：NetWork选项->Headers选项->Form Data
data = {'from': 'zh','to': 'en','query': '编程帮www.python.net你好'}
response = requests.post(url, data=data)
print(response)

上面代码的运行结果如下 -

<Response [200]>

10.2 对象属性

使用 Requests 模块向一个 URL 发起请求后会返回一个 HttpResponse 响应对象。

常用属性如下：

常用属性	说明
`encoding`	查看或者指定响应字符编码
`status_code`	返回HTTP响应码
`url`	查看请求的 url 地址
`headers`	查看请求头信息
`cookies`	查看cookies 信息
`text`	以字符串形式输出
`content`	以字节流形式输出，若要保存下载图片需使用该属性。

代码如下 -

import requestsresponse = requests.get('http://www.baidu.com')
print(response.encoding)
response.encoding = "utf-8"  # 更改为utf-8编码
print(response.status_code)  # 打印状态码
print(response.url)  # 打印请求url
print(response.headers)  # 打印头信息
print(response.cookies)  # 打印cookie信息
print(response.text)  # 以字符串形式打印网页源码
print(response.content)  # 以字节流形式打印

10.3 Requests库应用

实战：使用 Requsets 库下载百度图片
首先打开百度图片，并在输入框搜索 “panda logo”，然后使用 Chrome 开发者工具查看第一张图片的源地址，即 data-imgurl 所对应的 url 地址，如下所示：

https://img2.baidu.com/it/u=1218298422,2801212254&fm=253&fmt=auto&app=138&f=JPEG?w=813&h=500

当我们确定图片地址后，就可以使用 requests 库进行编码了，代码如下：

import requestsurl = 'https://img2.baidu.com/it/u=1218298422,2801212254&fm=253&fmt=auto&app=138&f=JPEG?w=813&h=500'
# 简单定义浏览器ua信息
headers = {'User-Agent': 'Mozilla/4.0'}
# 读取图片需要使用content属性
html = requests.get(url=url, headers=headers).content
# 以二进制的方式下载图片
with open('./panda_logo.jpg', 'wb') as f:f.write(html)

在当前文件下可查看panda_logo.jpg图片。在这里插入图片描述

【Python】【进阶篇】十、Python爬虫的Requests库

目录

十、Python爬虫的Requests库

10.1 常用请求方法

10.1.1 requests.get()

10.1.2 requests.post()

10.2 对象属性

10.3 Requests库应用

公告

DeepSeek全套部署资料免费下载

免费可商用字体批量下载

标签

【Python】【进阶篇】十、Python爬虫的Requests库

目录

十、Python爬虫的Requests库

10.1 常用请求方法

10.1.1 requests.get()

10.1.2 requests.post()

10.2 对象属性

10.3 Requests库应用

相关问题

公告

DeepSeek全套部署资料免费下载

免费可商用字体批量下载

标签