【总结】爬虫4-selenium

文章列表

【总结】爬虫4-selenium

爬虫4-selenium

1. selenium 基本操作

在使用selenium之前必须先配置浏览器对应版本的webdriver。才可以控制浏览器打开网页

【总结】爬虫4-selenium

1.1 创建浏览器对象

b = Chrome()

1.2 打开网页

（需要哪个网页数据，就打开那个网页对应的网页地址）

b.get('https://movie.douban.com/top250?start=0&filter=')

1.3 获取网页源代码（page_source：打开的页面的源代码）

注意：不管以什么方法更新了界面内容，page_source的内容也会更新

print(b.page_source)

1.4 关闭浏览器（可有可无）

input('')

任意输入可以结束

2. selenium的翻页问题

from selenium.webdriver import Chrome

selenium获取多业数据翻页方法：

2.1 翻页方法1

找到不同页的地址的变化规律，利用循环实现对也数据请求

b = Chrome()for page in range(0, 101, 25):b.get(f'https://movie.douban.com/top250?start={page}&filter=')print(b.page_source)input('')

2.2 翻页方法2

点击翻页按钮，刷新页面内容，再刷新后获取网页源代码

from selenium.webdriver.common.by import By
b = Chrome()
b.get('https://movie.douban.com/top250?start=0&filter=')for x in range(5):print(b.page_source)# 点击下一页按钮b1 = b.find_element(By.CLASS_NAME, 'next')# b.find_element(By.CSS_SELECTOR, '.next')# b.find_element(By.PARTIAL_LINK_TEXT, '.next')# 点击按钮b1.click()

涉及知识点

1）selenium 获取标签

浏览器对象.b.find_element() - 返回符合条件的第一个标签，返回的是标签对象
浏览器对象.b.find_elements() - 返回符合条件的所有标签，返回的有标签对象的列表

- 获取方式：

By.ID - 通过ID属性值获取标签
By.CLASS_NAME - 通过class属性值获取标签
By.CSS_SELECTOR - 通过css选择器属性值获取标签
By.PARTIAL_LINK_TEXT - 通过a标签的部分标签内容获取标签
By.LINK_TEXT - 通过a标签的标签内容获取标签

from selenium.webdriver.common.by import By
b = Chrome()
b.get('https://www.jd.com/')# 获取id属性值为key的标签
seach = b.find_element(By.ID, 'key')
seach.click()# 获取'便宜包邮'的a标签
a1 = b.find_element(By.LINK_TEXT, '便宜包邮')
a1.click()# 获取标签内容包含'口好'的a标签
a2 = b.find_element(By.PARTIAL_LINK_TEXT, '口好')
a2.click()

2）操作标签

输入框内容：输入框对应标签.sent_keys(输入内容)
点击标签：标签对象.click

from selenium.webdriver.common.by import By
b = Chrome()
b.get('https://www.jd.com/')
seach = b.find_element(By.ID, 'key')
seach.send_keys('电饭煲\\n')

3. 滚动问题

用代码控制浏览器滚动

from selenium.webdriver import Chrome
import time
from selenium.webdriver.common.by import Byb = Chrome()
b.get('https://search.jd.com/Search?keyword=%E7%94%B5%E9%A5%AD%E7%85%B2&enc=utf-8&wq=%E7%94%B5%E9%A5%AD%E7%85%B2&pvid=37838527b6d6410aa7fdb0fb672e91b4')
time.sleep(2)for x in range(10):b.execute_script('window.scrollBy(0, 800)')time.sleep(2)time.sleep(2)
result = b.find_elements(By.CSS_SELECTOR, '#J_goodsList>ul>li')
print(len(result))input('')

案例：知网实例

from selenium.webdriver import Chrome
from selenium.webdriver.common.by import By
import timedef zhiwang():# 1.创建浏览器b = Chrome()# 2.打开知网b.get('https://www.cnki.net/')# 3.获取输入框输入'数据分析'seach = b.find_element(By.ID, 'txt_SearchText')seach.send_keys('数据分析\\n')time.sleep(1)for i in range(5):# 4.获取所有论文的标题标签titles = b.find_elements(By.CLASS_NAME, 'fz14')# print(len(titles))for x in titles:title = x.textx.click()time.sleep(1)# print(b.page_source)# 以上还在第一个页面# 切换选项卡，让浏览器对象指向新页面b.switch_to.window(b.window_handles[-1])# print(b.page_source)author = b.find_element(By.ID, 'authorpart').textsummary = b.find_element(By.ID, 'ChDivSummary').textkeyword = b.find_element(By.CLASS_NAME, 'keywords').text# summary = b.find_element(By.ID, 'abstract_text').textprint(title, author, summary, keyword)time.sleep(2)# 关闭当前窗口b.close()# 将选项卡切回第一个页面内b.switch_to.window(b.window_handles[0])time.sleep(5)b1 = b.find_element(By.ID, 'PageNext')b1.click()time.sleep(5)input('输入')if __name__ == '__main__':zhiwang()

【总结】爬虫4-selenium

爬虫4-selenium

1. selenium 基本操作

1.1 创建浏览器对象

1.2 打开网页

1.3 获取网页源代码（page_source：打开的页面的源代码）

1.4 关闭浏览器（可有可无）

2. selenium的翻页问题

2.1 翻页方法1

2.2 翻页方法2

3. 滚动问题

相关问题

公告

标签