美文网首页
数据相关

数据相关

作者: 爱斯基摩白 | 来源:发表于2019-02-20 11:43 被阅读0次

Spark有3种运行模式(分布式部署方式):独立集群运行模式(Standlone)、YARN运行模式、Mesos运行模式,YARN最为常见。

熵是为消除不确定性所需要获得的信息量


image.png

SecondaryNameNode的目的是帮助 NameNode 合并编辑日志,减少 NameNode 启动时间,secondarynamenode一般在另外一个节点上运行,需要与namenode一样大的内存,作用就是定期合并编辑日志与命名空间镜像,以防止编辑日志过大。
但是该辅助namenode总会滞后于namenode

判别式模型(Discriminative Model)
条件随机场模型
区分度训练

MapReduce的步骤中有partition、Sort、Combine

人工神经网络可以没有隐层,直接输入与输出

在hadoop2.6.0集群中的一台服务器上运行jps指令,会出现进程
NameNode
DataNode
ResourceManager

Yarn中的关键组件并简述各关键组件内部的交互原理
1、关键组件:
ResourceManager(RM)
NodeManager(NM)
ApplicationMaster(AM)
Container
2、交互原理:
(1)RM调度资源并在合适的NM节点上启动对应的AM。AM向RM注册,包含二者之间的握手信息、AM侦听端口,及后续进行AM管理和监控的URL。
(2)RM接收AM注册信息,并反馈响应给AM,包含集群资源信息。
(3)AM向RM发起资源分配请求,包含需要使用的Container个数,同时附带归属于本AM的Container信息。
(4)AM向RM获取资源分配进度信息,并保持与RM之间的心跳。
(5)RM根据资源调度策略,分配容器资源给AM。
(6)AM根据RM反馈信息,指示对应NM完成Container的拉起。一个NM上可以启动多个Container。
(7)在Container运行过程中,AM向NM获取Container的运行状态报告。
(8)NM将Container的运行状态信息反馈给AM。

现有1TB文本文件words.txt,文件每行为若干个英文单词,单词间用空格分隔,文件中存在单词word1占据了总单词量的30%以上,其他单词出现频率较为平均。根据以上场景,请描述mapreduce如何统计每个单词出现的频次。
1.map阶段
map方法按行读取文件,每行文件按空格分隔为一个单词列表,依次读取每个单词.
若单词为word1,则map阶段的输出为<word1_randomInt(50),1>,即"word1_"加0-50 之间的随机整数。 其他单词直接输出<单词,1>。
注:只要答出map阶段对单词word1的输出key值进行构造,以达到将word1均分为多个不同的key输出的目的即可,具体方法可有所区别。
2.combine阶段
注:计算方法同reduce阶段,该步骤可省去,答出+1分。
3.reduce阶段
对同一key值得value进行累加,得出各个key值的出现次数。
4.计算最终结果。
依次逐行读取reduce阶段输出目录中的所有文件:
a.若key不是形同"word1_XX",直接输出key和value,即得出对应单词的出现频次。
b.若key类似"word1_XX",对所有key的value值累加,即可得出word1的出现频次。

为了能最大程度的得到优质的信用卡客户,更精准地确定客户优劣和价值高低。考虑利用机器学习的思想在已有传统人工规则的基础上作辅助决策。针对这个场景,详细描述所需要的数据、数据的处理过程、选择的算法及原因、评价指标等过程。
利用分类模型lr,gbdt,xgboodt,决策树等都可以。这里以lr为例子,需要数据为:客户基本信息,包括年龄,收入,性别等,客户征信信息,包括贷款,还款记录等,客户司法信息,包括是否有犯罪等。这些特效数值型与分类型均有。预处理需要缺失填补,异常值处理,归一化等,然后特征选择,基于熵或者iv,woe编译。最后拟合模型,常见模型评估用混淆矩阵,召回率,精确率,auc值等。

相关文章

  • 数据相关

    Spark有3种运行模式(分布式部署方式):独立集群运行模式(Standlone)、YARN运行模式、Mesos运...

  • 傻瓜统计学

    1、相关性比较??根据数据类型!! 数值数据与数值数据----相关系数 数值数据与分类数据----相关比 分类数据...

  • 大数据相关

    hadoop原理 spark原理 kafka原理 数据仓库部分 Hadoop原理 MapReduce的原理默认根据...

  • 数据相关总结

    echartshighcharts 前台后台配合前端展示方式 技巧 注意事项后台数据存储方式(层级、详情) 技巧 ...

  • 数据显示相关

    combox加入数据 DisplayMember 是绑定显示的数据 如:"管理员,工艺人员,视觉人员,多媒体采集人...

  • django 数据相关

    简单样例 博客类和评论类 每个评论都只能属于一个博客,一个博客可以有很多评论 blog用于储存文章,comment...

  • BOM相关数据

  • 转型大数据(一):大数据职位和就职要求的介绍

    目录: 一、大数据相关职位介绍(数据来源于拉钩、智联) (一)大数据相关职位列举 (二)每个相关职位的岗位职责与要...

  • 转型大数据(一):大数据职位和就职要求的介绍

    目录: 一、大数据相关职位介绍(数据来源于拉钩、智联) (一)大数据相关职位列举 (二)每个相关职位的岗位职责与要...

  • MYSQL入门操作及注意事项

    对数据库的操作: 数据类型: 对表的基本操作: 时间日期相关函数 字符串相关函数 数学相关函数 定义表的约束 数据...

网友评论

      本文标题:数据相关

      本文链接:https://www.haomeiwen.com/subject/rjgcyqtx.html