20170610-日报

作者: eosclover | 来源:发表于2017-06-10 23:32 被阅读8次

    今天周六,公司开展培训交流会。

    早上,数据组老大讲数据集成和数据存储原理设计及实现。

    主要对自己感兴趣的知识和已经了解的知识做以巩固。

    1.定时数据集成ETL技术

    以前做运维的时候,接触过ETL部署搭建(橘云的二次开发产品),功能算是比较强大了,电总已经使用了3年多。

     ETL不支持实时,不能实时通过ftp向某台服务器取文件。

    FTP是取一个文件,比如说这个小时的15点,去取上个小时14点的文件,然后把14点的文件处理入库。也可以按分钟调度。调度,跟实时定时任务一样,最多按分钟执行。

    ETL的原理:Hadoop集群自动分配一台当前资源最优化的机器。

    数据要怎么入库?在入库之前要做什么操作?
    hive入库有两种方式:一种是把数据写到一个文件中,然后load进去,另一种就是从已有表导入到新表。hive不支持insert into 。

    比如说:国双的数据要怎么才能入库带CNTV的集群里边?
    他是获取json文件,然后把文件转换成响应的数据文件(以\t为分隔符),然后加载到hdfs,其实就是文件load的形式,他是通过json转换后,会生出一个文件存在临时目录,然后move到hdfs.

    2.定时  (局域网、广域网、前置机)

    实时(RPC模式、消息模式、交易日志模式)

    3.Hadoop平台各软件版本;

    hadoop 2.7.2 、hbase1.2.4  、JDK1.7 、solr

    4.开发流程:

    需求方----》需求---》PRD(提前线下评审)---》评审---》排期--》技术评审(前端、服务端、QA)---》项目kick off启动会(设置里程碑,输出、实现了什么功能,开发了什么等)---》输出(项目风险及规避)---》执行---》结束。

    5.推荐关注搜索:google  research    和 facebook research

    6.用户画像基本流程:

    基础数据收集(用户交易数据、用户内容偏爱数据浏览收藏、网络行为数据、服务内容)-----》行为建模  ---》构建画像(基本属性、购买能力、行为特征、兴趣爱好、心理特征、社交网络)

    DEEP learning  机器学习  数据挖掘、自然语言、机器学习算法

    7.用户画像,标签,key-value

    相关文章

      网友评论

        本文标题:20170610-日报

        本文链接:https://www.haomeiwen.com/subject/oqvcqxtx.html