美文网首页
国庆旅游数据爬虫及展示实践

国庆旅游数据爬虫及展示实践

作者: VinZZZZ | 来源:发表于2019-10-11 15:04 被阅读0次

本文是对用Python偷偷告诉你国庆8亿人都去哪儿浪? 这篇文章的实践。

具体设计思想、步骤请参考原文,这里只对核心流程及注意点做说明。

1. 思路

【从去哪儿网上抓取数据(包含地理信息及热度值)】-> 【使用pyecharts渲染数据,得到渲染结果的html】

2. 开发工具

  1. Anaconda3. 用于创建及切换Python环境。
  2. PyCharm. Python的开发IDE
    具体使用方法可以看之前总结的文章。

3. 注意点

3.1 反爬虫

从去哪儿抓包时,最好设定一个最大页数,否则单单一个类别就有好几千页,数据量太大,而且容易被反爬虫识别:


image.png

上图中302的那条出现时,说明被反爬虫系统识别了,点击url, 可以看到如下:


image.png
输入2次验证码后,可以继续抓数据了。

3.2 Charles抓取Python程序的https请求

上图使用Charles对Python程序的https请求抓包时,一开始出现了SSL握手失败,无法抓包的情况。
解决办法:
(1)从Keychain中导出Charrles的Root Certifaction为.pem类型文件到本地文件夹:

image.png

(2)在requests中,带上verify参数:


image.png

4. 结果展示

生成的html文件默认为render.html,放在Python源文件同目录下:


image.png

5. 相关代码

实践的代码放到了Github上:CrawlerPlay

其他

https://pyecharts.org/#/zh-cn/geography_charts

相关文章

  • 国庆旅游数据爬虫及展示实践

    本文是对用Python偷偷告诉你国庆8亿人都去哪儿浪? 这篇文章的实践。 具体设计思想、步骤请参考原文,这里只对核...

  • 3.爬虫原理及实践

    爬虫原理及实践 什么是爬虫? 爬虫就是用来从网络上获取数据的一种方法工具,当你缺少数据,或者发现有的网站上有你想要...

  • 1.课程总纲

    课程总纲 课程总纲 基础语法 爬虫原理及实践 Numpy与pandas 数据可视化(暂无内容) python图像学...

  • 爬虫初窥

    静态爬虫和动态爬虫 静态爬虫:页面数据的展示不依靠js等和后台的交互。动态爬虫:页面的数据需要通过js,ajax等...

  • R爬虫实践—抓取国自然基金信息【下篇】

    R爬虫实践—抓取国自然基金信息【上篇】和R爬虫实践—抓取国自然基金信息【中篇】都是对国自然数据的局部抓取,突然发现...

  • 使用爬虫爬取豆瓣电影影评数据Python版

    在 使用爬虫爬取豆瓣电影影评数据Java版 一文中已详细讲解了爬虫的实现细节,本篇仅为展示Python版本爬虫实现...

  • (五)"股票数据定向爬虫"(学习笔记)|Py

    1."股票数据定向爬虫"实例介绍2."股票数据定向爬虫"代码及显示结果3."股票数据定向爬虫"实例编写4."股票数...

  • 爬虫——Web Scraper

    1.认识爬虫 2.利用Excel抓取数据 3.爬虫入门 4.爬虫进阶 5.反爬虫及高阶玩法 6.制作新爬虫步骤 7...

  • 数据获取-爬虫实践

    爬虫入门文章 https://zhuanlan.zhihu.com/p/24669128https://zhuan...

  • 旅行的意义

    国庆黄金周走过了19个年头,用以拉动内需的黄金周被实践证明已获奇效。 根据国家旅游局公布的数据,在第一个国庆黄金周...

网友评论

      本文标题:国庆旅游数据爬虫及展示实践

      本文链接:https://www.haomeiwen.com/subject/mzsgpctx.html