爬虫的步骤:
【解析数据】
是指:我们平时使用浏览器上网,浏览器会把服务器返回来的HTML源代码翻译为我们能看懂的样子,之后我们才能在网页上做各种操作。而在爬虫中,也要使用能读懂html的工具,才能提取到想要的数据。
【提取数据】
是指:把我们需要的数据从众多数据中挑选出来。
爬虫中用来解析和提取数据的是:Beautiful Soup,Beautiful Soup不是系统的库,是要另外安装的库。
安装Beautiful Soup:在终端输入一行代码运行:pip install BeautifulSoup4
下面上代码。
第一步:解析数据。
第二步:提取数据
提取数据分为两步:find() 和 findall()
下面上练习,如下
提取下列网站中的div
网站:https://localprod.pandateacher.com/python-manuscript/crawler-html/spder-men0.0.html
练习1:获取打印第一个div
练习2:获取打印所有的div
网友评论