吐槽
最近有工作需要分析Reddit的数据。Reddit的数据好处是格式整齐,但是由于每条很小,导致数据的记录条目还是蛮大的。举个例子,我用Solr 6.0建2012到2013年的post的索引,半年的索引建了六七个小时,一年的因为超时没有建立起来。而且,我还只是针对几个特定的域建立索引。
目的
原本计划通过Solr把查询相关的文档都给找出来,建立一个相关文档创建时间的time-series data。结果一年的索引我服务器上都没搭起来,从07年到15年的ts data就更没办法通过这个方式搞定了。
东找西找发现Reddit的数据早就被人上传到了Google BigQuery上建立了表格,可以支持类SQL语句的查询,于是,只好通过这个办法聚合需要的数据的time-series data了。
Hands-on
- 首先是注册BigQuery,建立项目,给项目开启BigQuery的API。(这一步有官方文档)
- 然后对于响应的项目,生成凭证(credentials),并将凭证在.bash_profile文件中设置为默认。
GOOGLE_APPLICATION_CREDENTIALS=/$Path/key.json
export GOOGLE_APPLICATION_CREDENTIALS
- 在python代码中就可以调用了
from googleapiclient.discovery import build
from googleapiclient.errors import HttpError
from oauth2client.client import GoogleCredentials
import pandas as pd
# 从环境变量中获取默认credentials
credentials = GoogleCredentials.get_application_default()
# 构建与BigQuery API交互的服务对象
bigquery_service = build('bigquery', 'v2', credentials=credentials)
# ~~~构建query~~~
# 用pandas提供的结构直接将查询结果读入data frame中,并存入.csv文件
df = pd.io.gbq.read_gbq(query_data_string, project_id=project_id)
output_file_name = query_id + ".csv"
df.to_csv(output_file_name, sep='\t', encoding='utf-8')
print "Finished: " + output_file_name
其中,query_data_string是一个类SQL语句,关于Query的语句的支持可以参考query reference.
网友评论