今天周六,公司开展培训交流会。
早上,数据组老大讲数据集成和数据存储原理设计及实现。
主要对自己感兴趣的知识和已经了解的知识做以巩固。
1.定时数据集成ETL技术
以前做运维的时候,接触过ETL部署搭建(橘云的二次开发产品),功能算是比较强大了,电总已经使用了3年多。
ETL不支持实时,不能实时通过ftp向某台服务器取文件。
FTP是取一个文件,比如说这个小时的15点,去取上个小时14点的文件,然后把14点的文件处理入库。也可以按分钟调度。调度,跟实时定时任务一样,最多按分钟执行。
ETL的原理:Hadoop集群自动分配一台当前资源最优化的机器。
数据要怎么入库?在入库之前要做什么操作?
hive入库有两种方式:一种是把数据写到一个文件中,然后load进去,另一种就是从已有表导入到新表。hive不支持insert into 。
比如说:国双的数据要怎么才能入库带CNTV的集群里边?
他是获取json文件,然后把文件转换成响应的数据文件(以\t为分隔符),然后加载到hdfs,其实就是文件load的形式,他是通过json转换后,会生出一个文件存在临时目录,然后move到hdfs.
2.定时 (局域网、广域网、前置机)
实时(RPC模式、消息模式、交易日志模式)
3.Hadoop平台各软件版本;
hadoop 2.7.2 、hbase1.2.4 、JDK1.7 、solr
4.开发流程:
需求方----》需求---》PRD(提前线下评审)---》评审---》排期--》技术评审(前端、服务端、QA)---》项目kick off启动会(设置里程碑,输出、实现了什么功能,开发了什么等)---》输出(项目风险及规避)---》执行---》结束。
5.推荐关注搜索:google research 和 facebook research
6.用户画像基本流程:
基础数据收集(用户交易数据、用户内容偏爱数据浏览收藏、网络行为数据、服务内容)-----》行为建模 ---》构建画像(基本属性、购买能力、行为特征、兴趣爱好、心理特征、社交网络)
DEEP learning 机器学习 数据挖掘、自然语言、机器学习算法
7.用户画像,标签,key-value
网友评论