> 文章列表 > 分享Python采集64个PHP其他类别源码,总有一款适合您

分享Python采集64个PHP其他类别源码,总有一款适合您

分享Python采集64个PHP其他类别源码,总有一款适合您

分享Python采集64个PHP其他类别源码,总有一款适合您
 

Python采集的64个PHP其他类别源码下载链接:https://pan.baidu.com/s/1wm9V0-fQ_tMKqUUcouCi8A?pwd=3jyi 
提取码:3jyi

 

 

通用蓝色医院WAP手机网站模板 V1.0

JPrass开发框架 V1.0

DEDECMS科技频道网站模板 V1.0

百度编辑器UEditor PHP版 V1.3.5

CSS压缩格式化工具 V1.0

通用男科医院WAP网站模板 V1.0

CSS3代码在线生成生成器 V1.0

JSON格式化工具 V1.3

简单IP查询程序(非MYSQL)双版本 V1.0

XiunoPHP V1.2

网页游戏平台 V3.5.6

FramkPHP 快速易用PHP框架 V1.7.131110

Joomla 囧啦 V2.5.14 简体中文版

DWZ短网址 V3.0 Build 20131107 运营版

科威可视化导航系统 V1.0 UTF8 免费版

远程修改SERV-U帐号密码 V1.1

import os
import shutilimport requests
from bs4 import BeautifulSoupfrom framework.base.BaseFrame import BaseFrame
from sprider.access.SpriderAccess import SpriderAccess
from sprider.plugin.SpriderTools import SpriderTools
from sprider.plugin.UserAgent import UserAgentclass CNSourceCoder:base_url = "http://www.downcode.com"max_pager = 10  # 每页的数量 影响再次采集的起始位置.word_image_count = 5  # word插入图片数量 同时也是明细采集图片和描述的数量page_end_number = 0word_content_list = []haved_sprider_count = 0  # 已经采集的数量sprider_detail_index = 0  # 明细方法采集的数量 累加

夏日Php+Mysql注册登陆系统 V0.2

TbsZip(Zip处理类) V2.1.5

随风PHP分类信息程序 V9.0

Php微信公众机器人 V2.0 预览版

项目管理工具 Kis V1.0.10

Amysql PHP (AMP) V1.5

DoYouHaoBaby PHP开发框架 V2.5.2

PHPMPS微信公众平台插件 V1.0 1.2~2.3通用

Emlog文章页静态化插件 V1.0

红鸟验证码 V1.0

淘源码商城米兰购物淘宝客 V1.0

百度短网址在线生成系统 V1.0

淘源码商城搜猫搜索引擎 V9.0 Bulid0623

PHP二维码在线生成工具 本地版 V1.0

大型足球比分篮球比分系统 V3 Bulid20130315

修补跨站脚本攻击漏洞 Php版 V1.0

云推荐插件 For Discuz V2.1

Php自动天气预报程序 V1.0

在线二维码生成工具 V1.0

def sprider(self,sprider_name,sprider_count,start_number,pager_number,sprider_type,is_show_browse,root_path,first_column_name,second_column_name,is_record_db):"""http://www.downcode.com/sort/j_1_2_1.shtml:param sprider_name::return:"""self.first_folder_name=sprider_type.upper()self.base_path=root_pathself.first_column_name = first_column_nameself.second_column_name = second_column_nameself.sprider_start_count=start_numberself.is_record_db=is_record_dbBaseFrame().debug("开始采集[源码下载站]" + self.first_folder_name + "源码...")BaseFrame().right("本次采集参数:sprider_count(采集数量):" + str(sprider_count) + "")BaseFrame().right("本次采集参数:sprider_name(采集名称):" + sprider_name + "")sprider_url = self.base_url + "/{0}/{1}_1.shtml".format(self.first_column_name, self.second_column_name)# 根据栏目构建URLBaseFrame().debug("本次采集参数:sprider_url:" + sprider_url)self.second_folder_name = str(sprider_count) + "个" + sprider_name  # 二级目录也是wordTitleself.merchant = int(self.sprider_start_count) // int(self.max_pager) + 1  # 起始页码用于效率采集self.file_path = self.base_path + os.sep + self.first_folder_name + os.sep + self.second_folder_nameBaseFrame().right("本次采集参数:file_path=" + self.file_path + "")# 浏览器的下载路径self.down_path = self.base_path + os.sep + self.first_folder_name+ os.sep + self.second_folder_name+ "\\\\Temp\\\\"BaseFrame().right("本次采集参数:down_path=" + self.down_path + "")# First/PPT/88个动态PPT模板/动态PPT模板self.save_path = self.base_path + os.sep + self.first_folder_name + os.sep + self.second_folder_name + os.sep + sprider_nameBaseFrame().right("本次采集参数:save_path=" + self.save_path + "")if os.path.exists(self.down_path) is True:shutil.rmtree(self.down_path)if os.path.exists(self.down_path) is False:os.makedirs(self.down_path)if os.path.exists(self.save_path) is True:shutil.rmtree(self.save_path)if os.path.exists(self.save_path) is False:os.makedirs(self.save_path)response = requests.get(sprider_url, timeout=10, headers=UserAgent().get_random_header(self.base_url))response.encoding = 'gb2312'soup = BeautifulSoup(response.text, "html5lib")#print(soup)element_list = soup.find_all('div', attrs={"class": 'j_text_sort_a'})page_end_number = 1page_end_url = ""page_end_title = soup.find("a", attrs={"title": '最后页'})page_end_url = page_end_title.get("href")if page_end_url is None or page_end_url == "":page_end_number = 1else:page_end_number = (page_end_url.split(".shtml")[0].split("_")[3])self.page_count = self.merchantwhile self.page_count <= int(page_end_number):  # 翻完停止try:if self.page_count == 1:self.sprider_detail(element_list, page_end_number,sprider_count)passelse:if int(self.haved_sprider_count) == int(sprider_count):BaseFrame().debug("sprider采集到达数量采集停止...")BaseFrame().debug("开始写文章...")SpriderTools.builder_word(self.second_folder_name,self.word_content_list,self.file_path,self.word_image_count,self.first_folder_name)SpriderTools.copy_file(self.word_content_list,self.save_path,self.second_folder_name,self.file_path)SpriderTools.gen_passandtxt(self.second_folder_name, self.word_content_list, self.file_path)BaseFrame().debug("文件编写完毕,请到对应的磁盘查看word文件和下载文件!")breaknext_url = self.base_url + "/{0}/{1}_{2}.shtml".format(self.first_column_name,self.second_column_name,self.page_count)response = requests.get(next_url, timeout=10, headers=UserAgent().get_random_header(self.base_url))response.encoding = 'gb2312'soup = BeautifulSoup(response.text, "html5lib")element_list = soup.find_all('div', attrs={"class": 'j_text_sort_a'})self.sprider_detail(element_list, page_end_number,sprider_count)passself.page_count = self.page_count + 1  # 页码增加1except Exception as e:BaseFrame().error("sprider()执行过程出现错误:" + str(e))

PhpPgAdmin V5.1 多国语言版

PHP版防火墙 V1.1.2

红鸟Sessions类 V1.0

So700网络游戏列表 V1.2 2013版

推豆儿 相关文章插件 For Discuz V1.2.5

推豆儿 相关文章插件 For DedeCMS V1.2.5

推豆儿 相关文章插件 For WordPress V1.2.5

PhpMyFAQ 开源问答系统 V2.8.0 RC4

小型Php+Mysql注册系统 V0.1

52挂Q V1.3

电脑维修客户查询系统 V2.2

Logo234可视化网址导航 V1.0

紫墨年华挂Q网源码 V1.68

程序猿ProMonkey V2.03

长微博工具 V1.0 Beta

CakePHP(PHP框架) V2.2.7 Stable

Phpico ICO图标生成 V1.2

word_image_count = 5  # word插入图片数量 同时也是明细采集图片和描述的数量page_end_number = 0word_content_list = []haved_sprider_count = 0  # 已经采集的数量sprider_detail_index = 0  # 明细方法采集的数量 累加tempFileList=[]

IP反查域名工具

微信公众云管家 测试版 Build 2013.1.1

Phpnuke V8.2.4 简体中文汉化版

飞天桌面框架系统 V3.0

小桑TCP手机协议挂Q V1.2

微信公众平台助手 For WordPress Build 2012.12.26

Symfony 高性能Php框架 V2.1.6

MediaWiki V1.19.3

Buddypress V1.6.1 多国语言版

记事狗V3.6.5.20120817升级包 UTF-8

永久离线挂Q网站源码 V2

Sizzle V4.0.0.59

好了就写到这吧~你有时间常去我家看看,我在这里谢谢你啦~~~

我家地址:亚丁号-知识付费平台 支付后可见 扫码付费可见