美文网首页我的Python自学之路Python 运维
抓取某网页的所有链接并将链接编码后放入各个文件夹内

抓取某网页的所有链接并将链接编码后放入各个文件夹内

作者: SaveTheWorld | 来源:发表于2017-03-01 15:10 被阅读0次

# -*- coding: utf-8 -*-

#title:抓取某网页的所有链接并将链接编码后放入各个文件夹内

importre

importrequests

importsys

importos

#定义页面链接,并抓取此页面的网页代码

r = requests.get('https://www.chinabidding.cn/search/searchzbw/search2?rp=22&categoryid=1&keywords=%E8%BD%A8%E9%81%93%E4%BA%A4%E9%80%9A&page=1&areaid=&table_type=0&b_date=year');

#把代码存入一个变量中

data = r.text

#print data;

#正则匹配需要抓取的链接

link_list =re.findall(r'target="_blank" href="(.+?\.html)',data)

#定义一个参数为0,方便循环编码

i=0

#开始循环

for url in link_list:

  #循环参数

  i=i+1

  #将参数变为字符串方便拼接

  ii ='%d'%i

  #在路径下创建编码的文件夹

  os.makedirs(r'd:/pythonWorkSpace/Python27PygamePy2exe-master/Python27PygamePy2exe-master/'+ii)

  #在目标文件夹下打开一个html页面并定于可以写入

  f =file('d:/pythonWorkSpace/Python27PygamePy2exe-master/Python27PygamePy2exe-  master/'+ii+'/'+ii+".html","w")

  #定义抓取的目标页面下的子链接的html代码

  url='https://www.chinabidding.cn'+url

  printurl

  #抓取子链接代码

  r = requests.get(url)

  #编码转换,不转会报错,可以在此转,也可以用u'字符串'的形式转

  reload(sys)

  sys.setdefaultencoding('utf-8')

  #将html代码写入变量

  thisdata = r.text

  #将变量写入文件

  f.write(thisdata)

  #关闭文件

  f.close()

  #print thisdata

测试时请注意缩进。

相关文章

  • 抓取某网页的所有链接并将链接编码后放入各个文件夹内

    # -*- coding: utf-8 -*-#title:抓取某网页的所有链接并将链接编码后放入各个文件夹内im...

  • 舆情爬虫系列(一)

    主题网络爬虫 主题网络爬虫就是根据一定的网页分析算法过滤与主题无关的链接 ,保留主题相关的链接并将其放入待抓取的 ...

  • python爬虫小练习

    网页抓取 根据链接 从入口页面开始抓取出所有链接,支持proxy、支持定义深度抓取、链接去重等,尚未做并发处理 c...

  • JS相关概念

    一、CSS和JS在网页中的放置顺序是怎样的? 使用 link 标签将css文件链接放在head内,并将JS文件链接...

  • js相关概念

    CSS和JS在网页中的放置顺序是怎样的? 使用 link 标签将css文件链接放在head内,并将JS文件链接放在...

  • Python爬虫之抓取爱问知识人问题并保存至数据库

    目的: 抓取某类下面所有问题,并且获取所有答案 思路: 1,抓取某分类下面的所有问题 2,根据问题里的链接进入所有...

  • 爬虫实战

    爬虫介绍 调度器 URL管理器(用来存储待抓取的链接,已经抓取过的链接) 网页下载器(消费URL管理器中待抓取的链...

  • NLP处理

    一. 网页抓取 对于同学的创作进行文本处理首先需要通过爬虫技术得到TXT文本。 首先从链接里复制所有人的链接如下:...

  • 链接和图片

    a链接a链接的基本用法: google 。href:指所要跳转的网页链接。 :a标签内指的是显示跳转链接的文本。 ...

  • python爬虫进行Web抓取LDA主题语义数据分析报告

    原文链接:http://tecdat.cn/?p=8623 什么是网页抓取? 从网站提取数据的方法称为网络抓取。也...

网友评论

    本文标题:抓取某网页的所有链接并将链接编码后放入各个文件夹内

    本文链接:https://www.haomeiwen.com/subject/qhzqgttx.html