C13-2 通过文件操作对GAFATA股票可视化的经历

作者: sinkpink | 来源:发表于2018-01-20 12:39 被阅读0次

C13-2 通过文件操作对GAFATA股票可视化的经历
宛不大 | GAFATA股票1月股价记录月报——一个月涨幅高达2
宛不大 | GAFATA股票3个月平均涨幅24.66%，历史总是
iOS逆向（二）-系统文件层次结构介绍
我的第一次股票投资
宛不大 | GAFATA股票11月股价记录月报，回光返照，还是继
2018-01-11
共读《财富自由之路》你真的没有投资机会吗？
重读《通往财富自由之路》之做到
定投的两种策略

看到学习群中有战友自行开始研究pandas等相关库的数据分析应用，自愧不如，得抓紧脚步，只能在其基础上自己试试文件操作该如何实现。
1、实现环境python3；需要的包：os,pandas_datareader中的data,matplotlib,pandas；
2、pandas_datareader库可用于从不同财经数据平台读取需要的数据，数据全面，包含全球主要股市。我们选择雅虎财经来获取数据。将其读取的数据存储在本地，因为需要翻墙所以存储于本地方便代码调试，防止网络不稳定重复链接增加链接中断的风险。先看看其中的属性和方法都有哪些：

dir()获取属性.png

表示看不懂，具体参数使用见链接

  https://www.jianshu.com/p/ed947ada9331?utm_campaign=haruki&utm_content=note&utm_medium=reader_share&utm_source=weixin

3、将其可按照json格式存储为csv文件，但是默认会将日期列剔除，（补充:看了官方文档才知道，并不是把日期剔除人是默认按照列的名字为第一关键字columns，索引——日期为第二关键字进行的数据存储，如果要把每一天的数据一一对应，需要orient关键字指定为index，并且默认存储日期为时间戳的格式），不利于可视化；

json格式的csv文件.png

  pd.read_json()

读取文件默认是按照日期索引读取，但读取出的文件并不包括日期；文件的每一列相当于一个带关键字的列表；可通过.key或['key']方式直接调用；具体操作可见C12-3。在这里不建议用json格式读取和存储。
4、将其按照csv格式存储；

csv格式存为真正的csv文件.png

  pd.read_csv()

读取出的是标准csv格式文件,但需要对日期做额外的处理；

  dateparse1 = lambda dates: pd.datetime.strptime(dates, '%Y-%m-%d')

需要注意的是python3默认就是用utf-8方式编码，读取时对日期这样的字节格式并不需要再去定义编码方式，也就是说直接去掉python2中要用到的encoding='utf-8'就好；否则会引发“UnicodeDecodeError: 'utf-8' codec can't decode byte 0xff in position 0: invalid start byte”，这样的错误。

将日期作为索引去读取文件时，读取的数据会自动忽略日期这一关键字，相当于被覆盖;并且读取为日期格式时，以ns（纳秒）为默认转换方式。

日期为索引读取文件.png

因为我们需要得出每只股票的年增长率，所以需要很方便的得到第一个日期的收盘价和最后一个日期的收盘价，然后算出年增长率。

  def c_ratio(d_close):
"""
analyse the incresing ratio of a stock
:param d_close:
:return: a num
"""
o_price = d_close.Close[0]
c_price = d_close.Close[-1]
# 跟上述方式效果相同
# o_price = d_close['Close'][0]
# c_price = d_close['Close'][-1]
# 计算数据，通过round方法四舍五入，取小数点后四位数，在换算为百分比
ratio = '%.2f%%' % (round(((c_price - o_price) / o_price), ndigits=4) * 100)

return ratio

需要注意的是，按照指定索引去读取的数据结构，每一列相当于列表，可通过[-1]的方式轻松找到最后一个数；如果不指定日期为索引，pandas默认会为数据建立相应的索引，值得注意的是并不会对每列数据按照索引进行深加工将其转变为Series，而是ndarray。如此将不能很方便的找到最后一个数据用于计算（如果用的话）；因为按csv格式读取是按行读取，如果不事先看数据，不知道最后一行到底是多少。

不指定索引的数据.png

但通过指定索引，如果用plt.plot(data)的方式将不能自动按照日期来成图，而是按照默认索引；如果要用上述方式成图需指定日期列，会发现日期列被覆盖，将索引重新赋给日期字典，还需要对每一行都用apply方法建立关联。所以二者是一对矛盾，还未研究透。如果用别的列来建立索引，仍然不能当做Series来看待，求增长率时将不能用[0]、[-1]的方式轻松找到最后一个数。

Volume为索引的Close数据.png

所以最简便的办法就是指定日期为索引，直接使用指定数据列去绘图的方式来可视化，也就是df['key].plot(自定义设置)(补充：看文档之后，原来这种成图方式是pandas自带的成图模式，可直接用索引成图，并非pyplot中的方式），不再需要指定横坐标——日期；

  d_g['Close'].plot(label="Google" + '^' + str(c_ratio(d_g)))

最终结果.png

pandas不能直接用文件格式不匹配的方式读取相应文件，会出错，但csv和json可以通过运算方式转换；

最终结果是这样：

可视化结果.png

代码如下：

  # !/usr/bin/env python
  # -*- encoding: utf-8 -*-

  """
  Attempt to make a graph compare with some stocks
  """

  import os
  import pandas as pd
  from pandas_datareader import data
  import matplotlib.pyplot as plt

  # 对应股票名称和对应代码
  dic = {'谷歌': 'GOOG', '亚马逊': 'AMZN', '脸书': 'FB',
          '阿里巴巴': 'BABA', '腾讯': '0700.hk', '苹果': 'AAPL', }

  # Set the date
  start_date = '2017-1-1'
  end_date = '2018-1-1'

  # Attempt to check the files, if it does'n exit,try to get it.
  if (os.path.exists('./google_to.csv') and os.path.exists('./Amazon_to.csv') and      
      os.path.exists('./FB_to.csv') and os.path.exists('./ali_to.csv') and
      os.path.exists('./apple_to.csv') and os.path.exists('./tencent_to.csv')
      ):
      dateparse1 = lambda dates: pd.datetime.strptime(dates, '%Y-%m-%d')      

      d_g = pd.read_csv('./google_to.csv',skiprows=0, index_col='Date',      
                        date_parser=dateparse1, parse_dates=True,
                        )
      d_am = pd.read_csv('./Amazon_to.csv', skiprows=0, index_col='Date',      
                         date_parser=dateparse1, parse_dates=True,
                         )
      d_f = pd.read_csv('./FB_to.csv', skiprows=0, index_col='Date',      
                         date_parser=dateparse1, parse_dates=True,
                        )
      d_a = pd.read_csv('./apple_to.csv', skiprows=0, index_col='Date',      
                        date_parser=dateparse1, parse_dates=True,
                        )
      d_ten = pd.read_csv('./tencent_to.csv', skiprows=0, index_col='Date',      
                          date_parser=dateparse1, parse_dates=True,
                          )
      d_baba = pd.read_csv('./ali_to.csv', skiprows=0, index_col='Date',
                           date_parser=dateparse1, parse_dates=True,
                          )
  else:
      d_g = data.get_data_yahoo(dic['谷歌'], start_date, end_date)
      try:
          with open('./google_to.csv', 'w') as f:
              f.write(d_g.to_csv())
      except IOError:
          print ("Please check your code,dedicate space.")
      else:
          d_g.head()      #文件操作后会释放变量，这一行在执行时并不显示

      d_am = data.get_data_yahoo(dic['亚马逊'], start_date, end_date)
      try:
          with open('./Amazon_to.csv', 'w') as f:
              f.write(d_am.to_csv())
      except IOError:
          print ("Please check your code,dedicate space.")
      else:
          pass

      d_f = data.get_data_yahoo(dic['脸书'], start_date, end_date)
      try:
          with open('./FB_to.csv', 'w') as f:
              f.write(d_f.to_csv())
      except IOError:
          print ("Please check your code,dedicate space.")
      else:
          pass

      d_a = data.get_data_yahoo(dic['苹果'], start_date, end_date)
      try:
          with open('./apple_to.csv', 'w') as f:
              f.write(d_a.to_csv())
      except IOError:
          print ("Please check your code,dedicate space.")
      else:
          pass

      d_ten = data.get_data_yahoo(dic['腾讯'], start_date, end_date)
      try:
          with open('./tencent_to.csv', 'w') as f:
              f.write(d_ten.to_csv())
      except IOError:
          print ("Please check your code,dedicate space.")
      else:
          pass

      d_baba = data.get_data_yahoo(dic['阿里巴巴'], start_date, end_date)
      try:
          with open('./ali_to.csv', 'w') as f:
              f.write(d_baba.to_csv())
      except IOError:
          print ("Please check your code,dedicate space.")
      else:
          pass


  def c_ratio(d_close):
      """
      analyse the incresing ratio of a stock
      :param d_close:
      :return: a num
      """
      o_price = d_close.Close[0]      
      c_price = d_close.Close[-1]      

      # o_price = d_close['Close'][0]      
      # c_price = d_close['Close'][-1]      

      ratio = '%.2f%%' % (round(((c_price - o_price) / o_price), ndigits=4) * 100)      

      return ratio

  # print(c_ratio(d_g))      # 测试代码用
  
 # Set the font to support Chinese
  plt.rcParams['font.sans-serif'] = ['Arial Unicode MS']      
  plt.rcParams['axes.unicode_minus'] = False

  # Let's make grapha
  fig = plt.figure(dpi=128, figsize=(10, 6))
  # d_g['date'] = d_g.index
  # plt.plot(d_g['date'], d_g['Close'], color='r',
  #          label='Google'+ '^' + str(c_ratio(d_g)))
  d_g['Close'].plot(label="Google" + '^' + str(c_ratio(d_g)))
  d_am['Close'].plot(label='Amazon' + '^' + str(c_ratio(d_am)))      
  d_f['Close'].plot(label='Facebook' + '^' + str(c_ratio(d_f)))      
  d_a['Close'].plot(label='Apple' + '^' + str(c_ratio(d_a)))
  d_ten['Close'].plot(label='Tencent' + '^' + str(c_ratio(d_ten)))      
  d_baba['Close'].plot(label='Alibaba' + '^' + str(c_ratio(d_baba)))      

  plt.title('2017GAFATA组合股价年增长趋势', fontsize=20)
  plt.xlabel('日  期', fontsize=16)
  plt.ylabel('收盘价格', fontsize=16)
  plt.tick_params(axis='both', labelsize=12, which='major')
  plt.grid(True)
  plt.legend(loc=2)

  plt.show()
  # plt.savefig('GAFATA.png', bbox='tight')

编写代码过程中的不足：
1、对pandas还是不熟，需要看文档系统学习，对不同格式数据操作和优劣要有系统认知；
2、对matplotlib还是不熟，图层设置总是想不起该是哪些方法，还需要多练习；
3、文件操作要考虑很多因素，所以需要经常锻炼用try方法来写代码；如果有比较有效的内建函数可以判断，就直接用函数；
4、对python的错误类型了解不深入，还需加强；
5、利用单个股票数据首先验证想法，再去实现全部会是个不错的选择；
6、为实现某一功能的代码块编写代码注释是需要养成的习惯；
7、因为有时候偶要用python2，见C12-5，重写了一份matplotlibrc文件内容是TkAGG模式，python3中不太支持plot，移动图层会出现编码错误的警告，所以还是需要删除该文件，使用3默认的API。

C13-2 通过文件操作对GAFATA股票可视化的经历
看到学习群中有战友自行开始研究pandas等相关库的数据分析应用，自愧不如，得抓紧脚步，只能在其基础上自己试试文件...
宛不大 | GAFATA股票1月股价记录月报——一个月涨幅高达2
GAFATA股票2018年1月股价数据 GAFATA股票2019年1月股价数据看完2018年和2019年股价数据...
宛不大 | GAFATA股票3个月平均涨幅24.66%，历史总是
GAFATA股票3月股价数据 2月GAFATA股票平均股价相对1月份几乎没有涨？到了3月份集体大涨，在做完数据记录...
iOS逆向（二）-系统文件层次结构介绍
可视化方式查看iOS系统文件可视化查看app系统文件方式很多== 在iOS通过Cydia安装Apple File ...
我的第一次股票投资
缘起：第一次萌生投资股票的想法是在《财富专栏》听到笑来老师提到的“GAFATA”。它的魅力通过数据展示的淋漓尽致...
宛不大 | GAFATA股票11月股价记录月报，回光返照，还是继
GAFATA股票月报中国公司 GAFATA里面有两家美股上市公司是中国的企业，阿里巴巴和腾讯，这两家公司已经是世...
2018-01-11
今天想说说投资。今天听笑来的《通往财富自由之路》音频版，听到他推荐GAFATA的股票，而这些股票去年的增值超过了...
共读《财富自由之路》你真的没有投资机会吗？
# 共读笔记 day35，你真的没有投资机会吗？ ###2020.07.20《财富自由之路》一、Gafata股票...
重读《通往财富自由之路》之做到
一、认知差异实例少部分人通过GAFATA赚到了。埋下伏笔：因为这少部分人对GAFATA认识的更有深度、高度（认...
定投的两种策略
和许多战友一样，我第一次了解到定投的概念，是通过笑来老师的专栏了解的。找几支成长型企业的股票，比如GAFATA。每...