深度学习与金融市场——数据

作者: Q科技 | 来源:发表于2019-02-23 16:15 被阅读2次

深度学习领域,数据无疑是最重要的要素,没有之一!无论你是使用监督学习,还是非监督学习,或者使用深度强化学习。在本文中,我们讨论什么样的数据是我们所需要,以及如何获取闭环数据。

通常来讲,很多炒股人士都会去看K线,各种各样的技术数据,比如MACD,KDJ,BOLLING等等。这些技术指标为很多高手也好,老手也好,津津乐道,因此有一种说法说炒股至少要十年经验才有可能不亏损。这个理论不无道理,当你看过很多的K线形态,看过很多的暴涨暴跌之后,你的风险意识更加强烈,对市场更加敏感。但是即便你真的炒了十年,是否你投入在其中的时间是足够的呢?在技术领域有一个一万小时理论,意思是说你要想成为一个领域相对意义上的专家,你至少需要投入在上面一万个小时。而事实上我们非职业炒股的人,每天投入在股市上能有2到3个小时就非常不错了,那意味着是至少十年。那么专业炒股的人,是否一定就能在股市上赚钱,答案是否定的。人的记忆力非常有限,你无法记住十年的K线,更别说一眼就能看出技术指标。那么量化其实是非常必要的,即便你没有什么投资经验,你也可以通过深度学习来建立一套自己的投资系统。

我们回来说数据,理论上,所有的金融市场数据都是我们所需要的,而且我们还需要其他的数据,比如时事政治新闻等等,甚至包括娱乐以及各行各业的新闻。一般来讲,目前在做深度学习结合金融的,用的比较多的无非三类:一,OHLCV数据。这个是什么呢?开盘,最高,最低,收盘,成交量。二,技术指标,大家通常知道的,可能就是十几个常用的指标,事实上,指标大概有200多个,市场上有各种指标的研判方法,以及个人自己总结出来的研判方法,甚至会有一些理论风靡一时,但其实很多人会感觉一些理论很忽悠,比如波浪理论,大家最大的困扰是,怎么才算一浪!往往复盘的时候,你发现这个理论是工作的,实操却完全不工作。又比如国内风靡一时的缠论,一千个人有一千种缠法!这些都不可靠,其实最后还是源于自己经验累积后对股市的理解。三,财经新闻头条。基本上大家会基于NLP来把财经新闻进行量化,鉴于目前NLP对语义理解的水平,目前没有很好的模型。

我们先来说说OHLCV数据。数据想必大家都很了解,但是究竟是看日线,周线,月线,分钟线,小时线,还是组合。答案是都需要,1分钟线或者5分钟线都可以,高频的数据你有了,生成低频的数据就非常简单。我们来说说,什么是闭环数据!所谓闭环,就是你建立了一个系统,它自动会获得新的数据,并喂给你的深度学习系统!那么如何获得这个数据呢?我们当然是用爬虫,做量化的如果是在专业机构做的,基本都会用专业的数据,比如wind等,个人研究者,大部分都在用tushare或者万矿等等,所谓宽客大部分都用这些数据,这里面会有一些付费数据。事实上,你能看到的量化策略,很多是基于预处理过的数据。或者说这些包装过的需要收费的数据已经被一个框给框住了,在这个基础上的研究方向已经定势!我们会需要一些收费数据,但只是一小部分!我既不用tushare,也不用其他的宽客平台提供的数据,一个爬虫搞定的事情,没有必要去借助其他的平台。也许有同学要问了,这不是不符合python的先找轮子的精神吗?我想说的是,我们有时候是有必要去用一堆轮子来造一个自己的轮子的,尤其是重要而且简单的轮子,我们不会希望我们的系统在高效的运转中已经在帮助你赚钱的时候,或者帮助你规避一个大风险的时候,某个轮子掉链子了!到时候你也许会吼一句:我分分钟几百万的!话不多说,其实新浪,腾讯都有数据,我们直接从他们那里取就好了,python爬虫的部分相对来讲比较简单,有需要的同学可以私信获取范例!如果有兴趣长期做深度学习量化的可使用文末的邀请链接加入我的知识星球!

技术指标我们可以直接用一个轮子,我这里推荐使用TA-lib!安装过python的同学,可以直接使用PIP/PIP3 install talib!

新闻数据获取仍然使用爬虫,渠道其实用百度就可以,专门的财经板块也是可以,这部分的代码也同样很简单,有需要的同学可以加入我的知识星球。

总的来说,数据获取相对来讲是很容易的,很多数据工程师会可视化来对数据进行一些处理和选择,基本上我不太用这些套路,为什么?这些图表是给老板看的!我们以最简单的例子来看,如果我使用LSTM来做预测,并且我使用日线OHLCV数据,那么我们会发现一个很明显的问题,数据不足,A股到现在才20几年,我只有几千条数据而已,大部分股票还没有这么多。数据少,最容易发生的事情就是过拟合,你发现预测的准确率很高啊!很兴奋!一实盘这模型就像条狗一样。这么容易拟合的数据,图表的意义在哪里?这是为什么github上很多人信誓旦旦自己年化收益50%甚至更高。这些人大概还没有摸到深度学习的门路! 数据分析用什么做最好,深度学习!为了装高端,去做一系列的数据分析,我们没必要去浪费时间。 那么我们怎么获得更多的数据呢?很简单,两种方法: 一, 我们使用更高频的数据!二,我们使用多只股票的数据! 终极奥义在于真实世界模型建立!本文代码可私信或者加入知识星球获取!AI量化(https://t.zsxq.com/RvfY37y)

相关文章

网友评论

    本文标题:深度学习与金融市场——数据

    本文链接:https://www.haomeiwen.com/subject/kpepyqtx.html