（学习笔记）爬虫入门（2）

（学习笔记）爬虫入门（2）

作者: 半颗卷心菜 | 来源:发表于2018-12-20 00:15 被阅读0次

Python爬虫入门
（学习笔记）爬虫入门（2）
爬虫笔记（2）入门
Python爬虫学习系列教程
爬虫学习笔记
Python爬虫笔记一 ——爬取网页题目
webpack4入门学习笔记(一)
webpack4入门学习笔记(二)
webpack4入门学习笔记(三)--Babel的使用
scrapy笔记

本次内容学自莫烦Python2.2

这次要爬的是这个网站https://morvanzhou.github.io/static/scraping/list.html

网站首页

图1 要爬取的网站首页

源码

图2 要爬取的网站的源码

这次要爬好像也没有什么很特别的，就是比昨天的多了一些CSS代码，只是要注意一下，下面class="month"和<style>中的.month是对应起来的。看来也要多了解一下CSS了。

第一步还是和昨天的一样，先把网站的信息抓下来（剩下的电脑不够大，结果截不下了）：

图3 抓取网站信息

第二步，解析html文档

图4 解析html文档

这里的month是一个结果的集合，get_text()就不多说了。

find_all()第一个参数可以看出来是要查找的标签，第二个参数就相当于是一个字典了，那这句话就可以翻译成：找到soup中的<li>标签里‘class=month'的所有信息。但这里奇怪的是'二月'，它的class='feb month'。所以我这里把month中<li>标签的<class>都输出来看了一下：

图5 class=?

所以beautifulsoup在解析的时候就以空格为分隔符把他们分成了多个字符串，而不是一个单独的字符串。

这里的结果也是字典中的value的类型

图6 m['class']类型

图7 一般的value类型

然后就是抓取class="jan"的信息，也就是一月的信息了：

图8 抓取一月的信息

后面输出一月的文本信息的时候，视频是将jan中的<li>标签再筛选出来，做个子集：

图9 报错

不过这里我用python3.7是报错了，不知道是不是版本问题，这里说'beautifulset对象'没有'findAll'这个属性（不是我find_all写错了，用find_all一样报错，后来我发现findAll好像和find_all一样的）

不过如果只是单纯的想打印出一月中的信息的话还是简单的，这里我用了两种：

图10 打印一月份的信息

后来我没事type(jan)和type(jan[0])的时候：

图11 查看类型

我发现jan[0]是tag类型的，那么，resultset没有findAll，Tag有啊！果然：

图12 jan的子集

这里我发现一个问题，好像用findAll返回的结果都是resultset，而resultset又不可以用findAll和get_text方法。

而这里的findAll又可以以list[0]的这种方式把resultset的value（tag）取出来（好绕啊）

相关文章

Python爬虫入门
注：采转归档，自己学习查询使用 Python爬虫入门（1）：综述Python爬虫入门（2）：爬虫基础了解Pytho...
（学习笔记）爬虫入门（2）
本次内容学自莫烦Python2.2 这次要爬的是这个网站https://morvanzhou.github.io/...
爬虫笔记（2）入门
1.爬虫结构从爬虫的结构上来看，追简单的爬虫包括任务队列、页面下载和页面解析三个部分。上面代码实现了一个简单的...
Python爬虫学习系列教程
转自: 静觅»Python爬虫学习系列教程 Python爬虫学习系列教程 Python版本：2.7 一、爬虫入门 ...
爬虫学习笔记
本篇笔记主要记录学习哔站up主：IT私塾的课程《Python爬虫基础5天速成（2021全新合集）Python入门+...
Python爬虫笔记一 ——爬取网页题目
爬虫是Python十分广泛的应用，有人说不会爬虫，就像没有学过Python。这个系列的文章就是爬虫入门笔记，面向的...
webpack4入门学习笔记(一)
系列博客链接 webpack4入门学习笔记(一) webpack4入门学习笔记(二) webpack4入门学习笔记...
webpack4入门学习笔记(二)
系列博客链接 webpack4入门学习笔记(一) webpack4入门学习笔记(二) webpack4入门学习笔记...
webpack4入门学习笔记(三)--Babel的使用
系列博客链接 webpack4入门学习笔记(一) webpack4入门学习笔记(二) webpack4入门学习笔记...
scrapy笔记
1 scrapy的运行原理参考：Learning Scrapy笔记（三）- Scrapy基础Scrapy爬虫入门...

网友评论

本文标题：（学习笔记）爬虫入门（2）

本文链接：https://www.haomeiwen.com/subject/nanskqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|（学习笔记）爬虫入门（2）|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！