Python爬虫-同花顺行业历史数据及成分股

Python爬虫-同花顺行业历史数据及成分股

作者: 丨像我这样的人丨 | 来源:发表于2018-08-17 13:53 被阅读38次

Python爬虫-同花顺行业历史数据及成分股
同花顺面试谈（实习-内推）
Python爬虫-豆瓣电影Top250-各项信息爬取及xls保存
3分钟带你了解世界第一语言Python 入门上手也这么简单！
python2.7爬取数据
从Python安装到语法基础，小白都能懂的爬虫教程！（附代码）
Python网络爬虫（八） - 利用有道词典实现一个简单翻译程序
Python网络爬虫（七）- 深度爬虫CrawlSpider
Python网络爬虫（二）- urllib爬虫案例
Python网络爬虫（一）- 入门基础

所有板块

板块历史走势

成分股

行业历史数据

成分股爬取存储

1. Q:如何获取板块日线K线图中的数据？

A：图中的K线图不是flash动画，鼠标移动，是会显示每天的价格情况，因此猜测是JS动态加载生成的通过F12抓包无找到相应的js文件运气使然无意间点到K线图的+-缩放键新增了两个文件 2017.js、2018.js 里面便有想要的数据，分别是17年和18年每天的数据数据格式对应为日期、开盘价、最高价、最低价、收盘价、成交量、成交额获取即可

2. Q：2017.js和2018.js的网址打开或者requests后并无相应数据，如何解决？如半导体及元件板块的js网址是http://d.10jqka.com.cn/v4/line/bk_881121/01/2017.js 打开后是404

A:requests添加headers属性 headers属性中添加user-agent、Referer和Cookie

headers属性

3. Q：cookie容易失效没爬几个网址就失效了，该如何解决？

A：因为没有登录所以网址给的是临时cookie 极其容易失效两个解决办法：1：注册一个同花顺账号登陆后给的cookie失效更长 2.用 selenium模拟浏览器登录，获取每次的临时cookie 这样就不会失效

我选择了第二种方法第一种方法使用账号的cookie，容易被封账号，也懒得注册一个账号第二种方法的缺点就是每次都会打开一个浏览器有点耗内存不过实测没问题

4. Q:用selenium模拟登陆，每次都会弹出浏览器一闪一闪光速开始又光速关闭就像老有人在眼前晃如何解决？

A：使用无头模式即表面不看到浏览器和PhantomJS一样那为啥不用PhantomJS呢因为selenium不再支持了嘛

Chrome无头模式

5.Q:获取成分股中有的板块只有一个有的有多页如何批量处理？

不同板块的成分股

A：判断有没有“1/N”这样的标签如果有则保存N 循环每一页到N位置如图中是1/4 获取4这个数然后从1,2,3,4 循环到4 修改网页中的page即可没有标签则默认取第一页

用try except 实现判断有无标签并用yield url 保存网址

6.Q:抓取行业历史数据及成分股耗时比较长如单一个成分股先保存所有的行业代码再进入行业的主页再获取当前页成分股再点击下一页直到没有共有保存了3500多只股票及对应的成分股耗时半小时有没有办法加快爬取速度？

A：使用多线程开启pool池实测半小时缩短为15分钟还是有点效果的

相关文章

Python爬虫-同花顺行业历史数据及成分股
Github 1. Q:如何获取板块日线K线图中的数据？ A：图中的K线图不是flash动画，鼠标移动，是会显...
同花顺面试谈（实习-内推）
临近暑期，想着在暑假找一份Python爬虫的实习。刚好在一个Python群看到一个前辈发同花顺招聘信息，一来二去，...
Python爬虫-豆瓣电影Top250-各项信息爬取及xls保存
Python爬虫-豆瓣电影Top250-各项信息爬取及xls保存目的采用python爬虫爬取豆瓣电影Top25...
3分钟带你了解世界第一语言Python 入门上手也这么简单！
一、Python入门 1. Python爬虫入门一之综述 Python爬虫入门二之爬虫基础了解 Python爬虫入...
python2.7爬取数据
安装python及pycharm不再赘述目标1，学习Python爬虫2，学会用pycharm的pip安装Pytho...
从Python安装到语法基础，小白都能懂的爬虫教程！（附代码）
本文立足基础，讲解Python和PyCharm的安装，及Python最简单的语法基础和爬虫技术中所需的Python...
Python网络爬虫（八） - 利用有道词典实现一个简单翻译程序
目录： Python网络爬虫（一）- 入门基础Python网络爬虫（二）- urllib爬虫案例Python网络爬...
Python网络爬虫（七）- 深度爬虫CrawlSpider
目录： Python网络爬虫（一）- 入门基础Python网络爬虫（二）- urllib爬虫案例Python网络爬...
Python网络爬虫（二）- urllib爬虫案例
目录： Python网络爬虫（一）- 入门基础Python网络爬虫（二）- urllib爬虫案例Python网络爬...
Python网络爬虫（一）- 入门基础
目录： Python网络爬虫（一）- 入门基础Python网络爬虫（二）- urllib爬虫案例Python网络爬...

网友评论

本文标题：Python爬虫-同花顺行业历史数据及成分股

本文链接：https://www.haomeiwen.com/subject/yjezbftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

大数据爬虫Python AI Sql

Pythoner集中营

热点阅读

大数据爬虫Python AI Sql

Pythoner集中营

Python

数据分析

Python精选

关于我们|服务条款|联系我们|Python爬虫-同花顺行业历史数据及成分股|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！