1、随机采集实时流数据 如何保证随机性且概率均等?
http://wenda.chinahadoop.cn/question/383
2、从左上角到右下角 每个格子权重不一 如何路径最短?
3、反转链表?
4、数组元素 最快查询个数时间?
5、离散数据 用在Wide&Deep的哪一侧?
6、LightGBM为啥快?
GBDT 准确率高 一次 二次;
XGBoost:连续型;分割点;信息增益率 信息增益 基尼系数;
普通决策树 分桶;俩桶?
XGBoost 连续 排序 唯一值 0123--100相邻中值切割点;穷举;数据集中值;
Wide 离散;LR:连续值离散化;
7、梯度下降一阶 牛顿法二阶导数;深度学习:变形;
先用梯度下降 最优 慢;Adam跑大概范围 梯度下降;
7、AUC模型训练中 迭代如何计算?ROC曲线如何形成?
卡定不同阈值-指标 训练集总样本 概率 0-1 正例 假阳性真阳性;
0.7-0.8AUC 卡定不同阈值 输出不同结果的平均;
8、ALS与ALSW2有啥区别?
9、ALS的优化方法?
10、模型评估,ctr浏览时长等价打分数据如何使用?
用户正样本;负样本;
规则 同类的 过滤;
11、两个字符串 最长子串?
12、Gini原理?交叉熵?信息熵?
不确定性 混乱程度 不纯度;分类中?分类好坏?
两个分布的差异 分类后的 与真实的;
数据间差异程度?根据某个指标 一堆-两堆; 每一堆数据各自的差异度 加权;
13、为啥用FTRL优化Wide?
14、DeepFM与WideFM哪个好 为啥?
15、随机森林与XGBoost?
Bagging并行 多个决策树 均值;
XGBoost 决策树 拟合前几轮预测残差 Boosting;残差;
LightGBM 子过程并行 但仍是Boosting;
Stacking:Bag基础上改进,投票预测结果,家模型
16、KCNN原理?这里为啥选择卷积?注意力网络;
17、对于用户行为数据如何处理?空白数据?如何提高置信?
18、LSH怎么工作?输入输出是啥?内容输入啥?用户输入哪些?
19、如何过拟合?
20、讲讲Word2Vec中 cbow与skip-gram模型?
21、深度模型训练时,初始化权重可以为0吗?为啥?
22、DropOut?还有啥?
BN:batch normolization; 每层计算后 结果分布 每层正态 前一层正态 本层正态;
23、Spark如何按照某字段groupby?如何统计TopK?
24、Kafka如何实现数据同步?Partition?参数含义要把握!
25、离线召回?排序?调用模型还是数据表?服务部署?调度逻辑顺序?
网友评论