如何用Web Scraper抓取巨潮资讯网全站乐视相关pdf文件

作者: 风巢 | 来源:发表于2018-02-08 21:39 被阅读111次

如何用Web Scraper抓取巨潮资讯网全站乐视相关pdf文件
Trailhead 用户信息 Web Scraper 抓取脚本
上市公司招股说明书下载网站
干货！PDF文档如何创建？
如何看财报
《手把手学财报-唐朝》2
网页抓取数据
各大财富网站
PhantomJS+Selenium+Scrapy抓取巨潮资讯网
如何下载详细的上市公司财报？

今天乐视的股价可以说是从水深火热到激情澎湃，振幅高达 19.5%，不知大家都赚到了吗？

不管赚没赚到，买股票前收集资料进行调研还是必须的。

上市公司信息发布哪里权威呢，自然是巨潮资讯，毕竟是中国证监会指定信息披露网站。

如何抓取其中乐视相关 pdf 文件呢，从网站上一个个下载多累，还未必能找全，我教你个办法，自动化抓取，一劳永逸。下面开始演示。

一、搜索

这里以从巨潮资讯网 全站乐视相关 pdf 为例，巨潮网址：

http://www.cninfo.com.cn

注意里面用了 site 和 filetype 两个操作符，这两个啥用途呢？

site 用于列出某域名下所有网页（包含文件）

filetype 用于筛选文件类型

二者结合就起到列出网站下所有搜索词相关 pdf 文件的目的。

二、抓取

现在链接有了，如何抓取呢，这里就该 Web Scraper 出场了。

1、建立 Sitemap。

2、按如下结构建立选择器。

3、抓取并导出 Excel 如下。

三、下载

链接有了，如何下载呢，迅雷上呗。

下载任务圆满完成：

四、思考

1、乐视抓完了，格力呢？巨潮会抓了，别的网站呢？

2、如果把搜索词乐视去掉又会如何？这里面有什么花头可挖？

3、filetype 后面换个别的文件类型呢，比如 ppt，doc，xls？

4、百度高级搜索 界面如下，你还能想出什么玩法？

如何用Web Scraper抓取巨潮资讯网全站乐视相关pdf文件
今天乐视的股价可以说是从水深火热到激情澎湃，振幅高达19.5%，不知大家都赚到了吗？不管赚没赚到，买股票前收集资...
Trailhead 用户信息 Web Scraper 抓取脚本
Trailhead 用户信息 Web Scraper 抓取脚本
上市公司招股说明书下载网站
巨潮资讯网
干货！PDF文档如何创建？
PDF文件如何用创建？众所周知，PDF文件不仅阅读方便，而且集约的PDF文件比原来的源文件小很多,在Web上下载文...
如何看财报
1,百度搜“巨潮资讯网” 2，巨潮资讯网搜索你想查的股票代码601199 3,点击“公号” 4，右上角有个“公告搜...
《手把手学财报-唐朝》2
首先，通过巨潮资讯网、上海证券交易所、深圳证券交易所网站可以免费下载上市公司财务报告。巨潮资讯网网址：http：...
网页抓取数据
谷歌浏览器web scraper 抓取数据使用方法：https://www.cnblogs.com/fengzh...
各大财富网站
巨潮网——查基金招募书，如果这里没有就去基金公司的官网查巨潮资讯网 http://www.cninfo.com....
PhantomJS+Selenium+Scrapy抓取巨潮资讯网
本文首发于我的博客：gongyanli.com 代码传送门：https://github.com/Gladysg...
如何下载详细的上市公司财报？
1、首先登录巨潮资讯网，以下为网址。点击网址：巨潮资讯打开网页后我们可以看到个股财务数据 2、输入代码，选择...

如何用Web Scraper抓取巨潮资讯网全站乐视相关pdf文件

一、搜索

二、抓取

三、下载

四、思考

相关文章

如何用Web Scraper抓取巨潮资讯网全站乐视相关pdf文件

Trailhead 用户信息 Web Scraper 抓取脚本

上市公司招股说明书下载网站

干货！PDF文档如何创建？

如何看财报

《手把手学财报-唐朝》2

网页抓取数据

各大财富网站

PhantomJS+Selenium+Scrapy抓取巨潮资讯网

如何下载详细的上市公司财报？

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

爬虫专题

Python 爬虫专栏

网络爬虫

大数据爬虫Python AI Sql

大数据

程序员