Python实战计划学习笔记0629

Python实战计划学习笔记0629

作者: 个十滴水 | 来源:发表于2016-06-29 01:50 被阅读0次

Python实战计划学习笔记0629
爬虫入门练习（三）爬取小猪租房网信息
Python实战
Python 实战计划作业1学习笔记
Python实战计划学习笔记（二）
Python实战计划学习笔记（一）
Python实战计划学习笔记0628
Python实战计划学习笔记0630
Python实战计划学习笔记0702
Python实战计划学习笔记0701

实战计划第一天，抓了一个本地网页。

最终成果是这样的：

Paste_Image.png

我的代码：

from bs4 import BeautifulSoup
info = []
with open('E:/PycharmProjects/homework2/homework2/1_2_homework_required/index.html','r') as data:
Soup = BeautifulSoup(data,'lxml')
images = Soup.select('body > div > div > div.col-md-9 > div > div > div > img')
titles = Soup.select('body > div > div > div.col-md-9 > div > div > div > div.caption > h4 > a')
prices = Soup.select('body > div > div > div.col-md-9 > div > div > div > div.caption > h4.pull-right')
grades = Soup.select('body > div > div > div.col-md-9 > div > div > div > div.ratings > p:nth-of-type(2)')
counts = Soup.select('body > div > div > div.col-md-9 > div > div > div > div.ratings > p.pull-right')
#  print(images,titles,grades,prices,counts)
for title,image,price,grade,count in zip(titles,images,prices,grades,counts):
data1 = {
'title' : title.get_text(),
'image' : image.get('src'),
'price' : price.get_text(),
'grade' : len(grade.find_all("span" , class_ = "glyphicon glyphicon-star" )),
'count' : count.get_text()
}
print(data1)
info.append(data1)

总结

lxml在内的三种解析方式
：nth-child(1)>img 代表具体到每一个子节点，抓所有元素时要删除或变成nth-of-type
步骤1.soup解析2.复制CSS path(注意格式要对，尤其空格等)3.筛选信息4.字典扩充info.append(data1)
（）tupple []list {}dic
grade和grades区别：抓网页时grades是父节点个数，grade是每个父节点下星星构成的list

相关文章

Python实战计划学习笔记0629
实战计划第一天，抓了一个本地网页。最终成果是这样的：我的代码：总结 lxml在内的三种解析方式：nth-c...
爬虫入门练习（三）爬取小猪租房网信息
声明：本文参考Python实战计划学习笔记2.1：将爬取的数据存入Mongodb其他参考资料：Python爬虫包 ...
Python实战
本章学习代码收录在 GitHub - jiajia154569836/Python: python实战笔记注意：...
Python 实战计划作业1学习笔记
Python 实战计划作业1学习笔记最终成果：我的源码：总结：动手操作的过程可以发现视频听讲时疏漏的细节，知...
Python实战计划学习笔记（二）
这次的任务是在自己写好的网页中提取所需要的信息。（当然网页不是我写的）中间区域是为了得到评星数量观察网页对应部分...
Python实战计划学习笔记（一）
1.1 如下图所示这时需要制成的简单网页网页界面被划分成3块区域，分别为header main-content ...
Python实战计划学习笔记0628
实战计划第一天，做了一个网页。最终成果是这样的：我的代码：总结 HTML是比较宽松的web标准，不加/也可以...
Python实战计划学习笔记0630
实战计划第三天，抓了300条数据。最终成果是这样的：我的代码：总结 format(str(i))for i ...
Python实战计划学习笔记0702
实战计划第五天，抓了58同城。最终成果是这样的：我的代码：总结和问题 list()用法 CSSpath没有>...
Python实战计划学习笔记0701
实战计划第四天，抓了100张照片。最终成果是这样的：我的代码：总结对网址的处理，很多时候网址选择错误导致报...

网友评论

本文标题：Python实战计划学习笔记0629

本文链接：https://www.haomeiwen.com/subject/neatjttx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|Python实战计划学习笔记0629|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！