（学习笔记）爬虫入门（1）

（学习笔记）爬虫入门（1）

作者: 半颗卷心菜 | 来源:发表于2018-12-19 01:19 被阅读0次

Python爬虫入门
（学习笔记）爬虫入门（1）
scrapy笔记
3分钟带你了解世界第一语言Python 入门上手也这么简单！
Python爬虫入门-1.Request库入门
Python爬虫学习系列教程
GO学习笔记(24) - 爬虫(1) - 入门
爬虫学习笔记
Python爬虫笔记一 ——爬取网页题目
webpack4入门学习笔记(一)

声明：本人刚刚摸上爬虫的门槛，文中的一些内容也多是我自己学习中碰到的一些问题、解决问题的过程、对问题的一些理解和自己的一些感受，所以难免会有些错误和表达不清的地方，希望读者可以多包涵，也希望同学们可以加以指正。

今天在youtube上看到一个很不错爬虫入门教学的po主，如果有也想了解一下爬虫或者不知怎么入门的小伙伴可以先去他的教学网站上去看一看。

本次内容学自莫烦Python2.1

正则表达式

这是要爬取的第一个简单的网站

图1 要爬取的第一个网站

网页源码（看网页代码的话，chrome应该是比其他浏览器要好一些的）

图2 网页源码

首先，先读取下面这个网页的源码

"https://morvanzhou.github.io/static/scraping/basic-structure.html"

decode用于对网页中的中文元素进行解析

图3 读取网页

利用正则表达式(re)选取文本信息

利用正则表达式，可以将抓取到的网页中指定的信息读取出来（不知道什么是正则表达式的可以到廖雪峰老师的官网（正则表达式），或者莫烦python官网（莫烦python）稍做了解）

图4 选取信息

从代码中可以看出来，re读取到的信息是以list的形式返回出来的。而且爬取<a>标签中的网址时，还带有href的字符串，用起来感觉有点复杂。所以这种方法暂时只做了解。

BeautifulSoup

关于BeautifulSoul的详细用法可以看一下Beautiful的中文官网（BeautifulSoup中文官网）

这里还是爬取刚刚的 https://morvanzhou.github.io/static/scraping/basic-structure.html

图5 读取网页信息

用Beautiful解析html文档

图6 解析html文档

features在这是选取解析器，且目前支持“lxml”, “html5lib”, 和 “html.parser”，不同的解析器的功能和功效都略有不同，这个我先不深入解。

从这里就可以看出BeautifulSoup的强大之处了：解析之后，直接就可将h1，p标签中的内容输出。

然后再看一下解析后的soup和html的类型区别：

图7 html 和soup的区别

这里可以看出，虽然soup和html输出的格式一样（不过这里，如果在jupyter中不用print直接输出html的话，会输出一串没有排版的带有转义字符的字符串），但是类型是不一样的。

Beautiful.find_all

图8 选取a标签中的网站

这里find_all的返回值乍一看，看成的list。不过list中的字符串的要加引号的，type一下

图9 all_href的类型

这应该就是beautifulsoup中独有的类型吧，具体含义不是很清楚，但是通过后面的代码可以知道，它类似于一个字典，将a标签中的'href'看作key，将网站看作value。（不过里面的文字是被自动过滤了吗）

如果用for循环的方式打印出来，可以看到输出的网站是可以直接点击跳转的。

另外，如果要将标签中的文本信息打印出来的话可以用get_text()

图10 输出文本信息

而且这要用for循环的形式，如果直接用all_href.get_text()的话就会报错

图11 报错

这里应该是type的问题

图12 all_href的类型

图13 a的类型

这里的bs4.element.ResultSet我不知道叫什么类型，应该是可以翻成‘结果集’的吧，所以它是一个集合的类型，并且这个类型是没有get_text()这个attribute的。

而每次从all_href取出的对象就是一个tag类型，所以可以用get_text直接输出它的文本信息。

相关文章

Python爬虫入门
注：采转归档，自己学习查询使用 Python爬虫入门（1）：综述Python爬虫入门（2）：爬虫基础了解Pytho...
（学习笔记）爬虫入门（1）
声明：本人刚刚摸上爬虫的门槛，文中的一些内容也多是我自己学习中碰到的一些问题、解决问题的过程、对问题的一些理解和自...
scrapy笔记
1 scrapy的运行原理参考：Learning Scrapy笔记（三）- Scrapy基础Scrapy爬虫入门...
3分钟带你了解世界第一语言Python 入门上手也这么简单！
一、Python入门 1. Python爬虫入门一之综述 Python爬虫入门二之爬虫基础了解 Python爬虫入...
Python爬虫入门-1.Request库入门
《Python爬虫入门》系列为学习北理工昊天老师课程所做的笔记。 1.Request及其安装 cmd命令行下通过p...
Python爬虫学习系列教程
转自: 静觅»Python爬虫学习系列教程 Python爬虫学习系列教程 Python版本：2.7 一、爬虫入门 ...
GO学习笔记(24) - 爬虫(1) - 入门
目录爬虫的法律风险 - robots协议开源框架： Crawlab 开源框架： colly 爬虫相关知识（待补...
爬虫学习笔记
本篇笔记主要记录学习哔站up主：IT私塾的课程《Python爬虫基础5天速成（2021全新合集）Python入门+...
Python爬虫笔记一 ——爬取网页题目
爬虫是Python十分广泛的应用，有人说不会爬虫，就像没有学过Python。这个系列的文章就是爬虫入门笔记，面向的...
webpack4入门学习笔记(一)
系列博客链接 webpack4入门学习笔记(一) webpack4入门学习笔记(二) webpack4入门学习笔记...

网友评论

本文标题：（学习笔记）爬虫入门（1）

本文链接：https://www.haomeiwen.com/subject/lltdkqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|（学习笔记）爬虫入门（1）|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！