> 文章列表 > python之爬虫

python之爬虫

python之爬虫

python:爬虫思路,借鉴文章

一、明确需求

  • 首先我们要明白我们爬取的具体是什么内容,比如爬取文章标题,爬取图片,爬取实时新闻

二、建立request请求

  • 1.使用的是哪一种请求方式,get post等
  • 2.获取请求URL,确定请求连接
  • 3.拼接头部信息,User-Agent,Host,Cookies等
  • 4.设置请求体,即请求时额外携带的数据,比如表单提交时的表单数据。

三、获取数据

  • 获取请求响应状态,比如200、404、301、502等;

四、解析数据

  • 1、使用json解析数据;
  • 2、使用正则表达式提取数据;
  • 3、使用BeautifulSoup库来处理数据;
  • 4、使用PyQuery来解析数据;

五、存储数据

  • 1、可使用纯文本、json、xml等存储;
  • 2、使用关系型数据库存储,如mysql、oracle等;
  • 3、使用非关系型数据库存储,如mongodb、redis等;
  • 4、图片、视频等可直接保存。