美文网首页
数据相关

数据相关

作者: 爱斯基摩白 | 来源:发表于2019-02-20 11:43 被阅读0次

    Spark有3种运行模式(分布式部署方式):独立集群运行模式(Standlone)、YARN运行模式、Mesos运行模式,YARN最为常见。

    熵是为消除不确定性所需要获得的信息量


    image.png

    SecondaryNameNode的目的是帮助 NameNode 合并编辑日志,减少 NameNode 启动时间,secondarynamenode一般在另外一个节点上运行,需要与namenode一样大的内存,作用就是定期合并编辑日志与命名空间镜像,以防止编辑日志过大。
    但是该辅助namenode总会滞后于namenode

    判别式模型(Discriminative Model)
    条件随机场模型
    区分度训练

    MapReduce的步骤中有partition、Sort、Combine

    人工神经网络可以没有隐层,直接输入与输出

    在hadoop2.6.0集群中的一台服务器上运行jps指令,会出现进程
    NameNode
    DataNode
    ResourceManager

    Yarn中的关键组件并简述各关键组件内部的交互原理
    1、关键组件:
    ResourceManager(RM)
    NodeManager(NM)
    ApplicationMaster(AM)
    Container
    2、交互原理:
    (1)RM调度资源并在合适的NM节点上启动对应的AM。AM向RM注册,包含二者之间的握手信息、AM侦听端口,及后续进行AM管理和监控的URL。
    (2)RM接收AM注册信息,并反馈响应给AM,包含集群资源信息。
    (3)AM向RM发起资源分配请求,包含需要使用的Container个数,同时附带归属于本AM的Container信息。
    (4)AM向RM获取资源分配进度信息,并保持与RM之间的心跳。
    (5)RM根据资源调度策略,分配容器资源给AM。
    (6)AM根据RM反馈信息,指示对应NM完成Container的拉起。一个NM上可以启动多个Container。
    (7)在Container运行过程中,AM向NM获取Container的运行状态报告。
    (8)NM将Container的运行状态信息反馈给AM。

    现有1TB文本文件words.txt,文件每行为若干个英文单词,单词间用空格分隔,文件中存在单词word1占据了总单词量的30%以上,其他单词出现频率较为平均。根据以上场景,请描述mapreduce如何统计每个单词出现的频次。
    1.map阶段
    map方法按行读取文件,每行文件按空格分隔为一个单词列表,依次读取每个单词.
    若单词为word1,则map阶段的输出为<word1_randomInt(50),1>,即"word1_"加0-50 之间的随机整数。 其他单词直接输出<单词,1>。
    注:只要答出map阶段对单词word1的输出key值进行构造,以达到将word1均分为多个不同的key输出的目的即可,具体方法可有所区别。
    2.combine阶段
    注:计算方法同reduce阶段,该步骤可省去,答出+1分。
    3.reduce阶段
    对同一key值得value进行累加,得出各个key值的出现次数。
    4.计算最终结果。
    依次逐行读取reduce阶段输出目录中的所有文件:
    a.若key不是形同"word1_XX",直接输出key和value,即得出对应单词的出现频次。
    b.若key类似"word1_XX",对所有key的value值累加,即可得出word1的出现频次。

    为了能最大程度的得到优质的信用卡客户,更精准地确定客户优劣和价值高低。考虑利用机器学习的思想在已有传统人工规则的基础上作辅助决策。针对这个场景,详细描述所需要的数据、数据的处理过程、选择的算法及原因、评价指标等过程。
    利用分类模型lr,gbdt,xgboodt,决策树等都可以。这里以lr为例子,需要数据为:客户基本信息,包括年龄,收入,性别等,客户征信信息,包括贷款,还款记录等,客户司法信息,包括是否有犯罪等。这些特效数值型与分类型均有。预处理需要缺失填补,异常值处理,归一化等,然后特征选择,基于熵或者iv,woe编译。最后拟合模型,常见模型评估用混淆矩阵,召回率,精确率,auc值等。

    相关文章

      网友评论

          本文标题:数据相关

          本文链接:https://www.haomeiwen.com/subject/rjgcyqtx.html