> 文章列表 > 爬虫Day4 selenium

爬虫Day4 selenium

爬虫Day4 selenium

爬虫Day4 selenium

一、复习Bs4

1. css选择器

1)元素选择器

a
p
div
img

2)id选择器

#p1

3)class选择器

.c1
.c1.c2
p.c1

<p class=“c1 c2 c3 c4”>我是段落</p>

4)选择器1>选择器2

5)选择器1 选择器2

2.beautifulsoup4

from bs4 import BeautifulSoup# 1)创建soup(soup对象代表整个网页)
soup = BeautifulSoup('网页源代码', 'lxml')# 2)获取标签
# soup.select(css选择器)
# soup.select_one(css选择器)
# 标签对象.select(css选择器)
# 标签对象.select_one(css选择器)# 3)获取标签内容、标签属性
# 标签对象.text
# 标签对象.attrs[属性名]

二、beiKe

import requests
from bs4 import BeautifulSoup
from re import sub, findall
import csvdef get_one_page(page):# 1.获取网页数据url = f'https://cd.zu.ke.com/zufang/pg{page}/#contentList'response = requests.get(url)# 2.解析数据soup = BeautifulSoup(response.text, 'lxml')# 获取每个房屋信息对应的divdiv_list = soup.select('.content__list--item')for div in div_list:name = div.select_one('.twoline').text.strip()info = div.select_one('.content__list--item--des').text.strip()info = sub(r'\\s+', '', info)area = findall(r'\\d+\\.\\d+㎡', info)[0]house_type = findall(r'\\d+室\\d+厅\\d+卫', info)[0]# address = findall(r'精选/(.+?-.+?)/|^(.+?)/', info)[0]# address = address[0] if address[0] else address[1]# print(address)address = div.select('.content__list--item--des>a')new_address = '-'.join([x.text for x in address])price = div.select_one('.content__list--item-price').text# print(name, new_address, price, area, house_type)w1.writerow([name, price, area, house_type, new_address])print('------------------------一页获取完成--------------------')if __name__ == '__main__':w1 = csv.writer(open('files/贝壳租房.csv', 'w', encoding='utf-8', newline=''))w1.writerow(['房屋', '价格', '面积', '户型', '地址'])for x in range(1, 11):get_one_page(x)

三、selenium基础

from selenium.webdriver import Chrome# 1.创建浏览器对象
b = Chrome()# 2.打开网页(需要爬那个页面的数据,就打开那个页面对应的网页地址)
b.get('https://movie.douban.com/top250?start=0&filter=')# 3.获取网页源代码(注意:不管以什么样的方式更新了界面内容,page_source的内容也会更新)
print(b.page_source)        # 获取豆瓣电影top250的网页源代码print('--------------------------------华丽的分割线-------------------------------------')b.get('https://www.baidu.com')print(b.page_source)input('结束:')

四、seleniumPageTurning

from selenium.webdriver import Chrome

selenium获取多页数据翻页的方法:

# ======================================方法1========================================
1.找到不同页的地址的变化规律,利用循环实现多页数据的请求
b = Chrome()for x in range(0, 76, 25):b.get(f'https://movie.douban.com/top250?start={x}&filter=')print(b.page_source)print('--------------------------------华丽的分割线-------------------------------------')input()
# ======================================方法2========================================
2.点击翻页按钮,刷新页面内容,在刷新后获取网页源代码
from selenium.webdriver.common.by import Byb = Chrome()
b.get('https://movie.douban.com/top250?start=0&filter=')for _ in range(5):print(b.page_source)# 点击下一页按钮next = b.find_element(By.CLASS_NAME, 'next')# 点击按钮next.click()

1. selenium获取标签

浏览器对象.b.find_element(获取方式, 数据) - 返回符合条件的第一个标签,结果是标签对象
浏览器对象.b.find_elements(获取方式, 数据) - 返回符合条件的所有标签,结果是列表,列表中的元素是标签对象

1)获取方式:

By.ID - 通过ID属性值获取标签
By.CLASS_NAME - 通过class属性值获取标签
By.CSS_SELECTOR - 通过css选择器获取标签
By.LINK_TEXT - 通过a标签的标签内容获取标签
By.PARTIAL_LINK_TEXT - 通过a标签的标签内容获取标签

2. 操作标签

1)输入框输入内容:输入框对应的标签.send_keys(内容)
2)点击标签:标签对象.click()

from selenium.webdriver.common.by import Byb = Chrome()
b.get('https://www.jd.com/')# 获取id属性值为key的标签
search = b.find_element(By.ID, 'key')
search.send_keys('电脑\\n')# 获取标签内容为"便宜包邮"的a标签
a1 = b.find_element(By.LINK_TEXT, '便宜包邮')
# a1.click()# 获取标签内容中包含'口好'的a标签
a2 = b.find_element(By.PARTIAL_LINK_TEXT, '口好')
# a2.click()input(':')

五、cnki

from selenium.webdriver import Chrome
from selenium.webdriver.common.by import By
import time
from bs4 import BeautifulSoupdef analysis_data(html):soup = BeautifulSoup(html, 'lxml')digest = soup.select_one('#ChDivSummary').textprint(digest)def get_net_data():# 1.创建浏览器b = Chrome()# 2.打开中国知网b.get('https://www.cnki.net/')# 3.获取输入框,输入"数据分析"search = b.find_element(By.ID, 'txt_SearchText')search.send_keys('数据分析\\n')time.sleep(1)for _ in range(3):# 4.获取搜索结果所有论文的标题标签titles = b.find_elements(By.CLASS_NAME, 'fz14')for x in titles:# 点击一个搜索结果x.click()time.sleep(1)# 切换选项卡,让浏览器对象指向详情页b.switch_to.window(b.window_handles[-1])# 获取详情页数据, 解析数据# print(b.page_source)analysis_data(b.page_source)# 关闭当前窗口b.close()# 将选项卡切换回第一个页面b.switch_to.window(b.window_handles[0])print('--------------------一页数据获取完成--------------------------')b.find_element(By.ID, 'PageNext').click()time.sleep(4)input()if __name__ == '__main__':get_net_data()

六、scoll

from selenium.webdriver import Chrome
from selenium.webdriver.common.by import By
import timeb = Chrome()
b.get('https://search.jd.com/Search?keyword=%E7%94%B5%E9%A5%AD%E9%94%85&enc=utf-8&wq=%E7%94%B5%E9%A5%AD%E9%94%85&pvid=058303d3cd58499fb8f5f3459afd4d6b')
time.sleep(2)# =====用代码控制浏览器滚动=====
# js中页面鼓动的代码:window.scrollBy(x方向的偏移量, y方向的偏移量)
# b.execute_script('window.scrollBy(0, 8000)')
for x in range(10):b.execute_script('window.scrollBy(0, 800)')time.sleep(1)time.sleep(2)
result = b.find_elements(By.CSS_SELECTOR, '#J_goodsList>ul>li')
print(len(result))input('结束:')