基于python的批量网页爬虫

基于python的批量网页爬虫

作者: 9ba4bd5525b9 | 来源:发表于2019-06-11 15:15 被阅读86次

在各个网站，较久远的天气信息基本需要付费购买，因此为了花费更少的代价，得到完整的信息，我们经常会对一个网站进行爬虫，这篇文章是我第一次爬虫的心得，因为是第一次进行爬虫，python程序运行时间较长，若有错误，请大佬指出。

爬取网站 https://en.tutiempo.net/climate/ws-567780.html 上昆明每月的平均天气信息。以昆明1942年7月为例，观测网站https://en.tutiempo.net/cli mate/ 07 - 1942 /ws-5 67780.html，可以发现，绿色代表月份，蓝色代表年份，我们需要爬取的信息是1942年到2019年每月的信息。即https://en.tutiempo.net/climate/01-1942/ws-567780.html到https://en.tutiempo.net/climate/12-2019/ws-567780.html每个网页上图1红框内的信息。

图1

F12观测网页结构如图2，找到该红框所对应的代码（html小白可以把鼠标放在代码上，出现的蓝筐即为该代码所构成的网页模块）。

图2

发现红框对应的网页代码如图3所示：

图3

因此构造python字符匹配代码：

构造出的整体python代码如下：

运行后得到的excel表格见图5，经过ctrl+F进行字符替换和excel表的数据-分列-完成操作后，得到表格见图6，进行一些修饰，见图7表格。

图5

图6

相关文章

网友评论

本文标题：基于python的批量网页爬虫

本文链接：https://www.haomeiwen.com/subject/xlsqfctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

python社区

python

python

爬东东

蜂采

关于我们|服务条款|联系我们|基于python的批量网页爬虫|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！