美文网首页
《美团机器学习实践》笔记

《美团机器学习实践》笔记

作者: kingstone010148 | 来源:发表于2019-02-17 14:48 被阅读0次

https://book.douban.com/subject/30243136/

Performance Metric

  • F1 score: 2/F = 1/P + 1/R
  • Other interpretations for AUC:
    • Wilcoxon Test of Ranks
    • Gini-index: Gini+1 = 2*AUC
    • Not sensitive to predicted score

Feature Engineering and Feature Selection

Continuous Variables

  • Bucketing for continuous variables in, for example, logistic regression (by width or by percentile)
  • Missing value treatment (imputation or code dummy variables)
  • Feed RF nodes to linear models

Discrete Variables

  • Cross-interaction
  • Statistics (e.g., unique values of B for each A)

Time, Space, Text Features

Popular Models

Logistic Regression:

  • Why not OLS (outliers)
  • How to solver: GD, or stochastic GD (Google FTRL)
  • Advantage: Fast, scalable

FM

  • Motivation:
    • Feature interaction (not done manually)
    • Polynomial kernel (too many parameters, too sparse matrix)
  • Approach:
    • Instead of learning all co-occurrence of i and j, the weight w is calculated as the dot product of v_i and v_j with dimension k.
    • Here assumption is imposed on matrix W so that it can be de-composed.
    • The parameters for different combinations are no longer independent
  • Improvement:
    • FFM to map similar features into a field
  • Application:
    • Serve as embedding for NN (e.g., User and Ad similarity)
    • Outperforms GBDT for learn complicated feature interactions (due to sparse combinations)

GBDT
Compared with Linear Models: Missing value, Range difference of attributes,, outliers, interactions, non-linear decision boundary

Data Mining

相关文章

  • 《美团机器学习实践》笔记

    https://book.douban.com/subject/30243136/ Performance Met...

  • 2020-03-23

    美团设计模式在外卖营销业务中的实践-学习笔记(一) 美团设计模式在外卖营销业务中的实践-学习笔记(一)一、设计模式...

  • 美团机器学习实践

    之前为了做房源标签,单独读过这本书的第五章,受益匪浅。 最近随手翻了下,发现其他章节的内容也干货十足,堪称机器学习...

  • 2020-03-23

    美团设计模式在外卖营销业务中的实践-学习笔记(一) [TOC] 看了美团技术团队的 设计模式在外卖营销业务中的实践...

  • 读书笔记-美团机器学习实践-评价指标

    分类问题 常见的评价指标有 精确率(真正/(真正+假正))和召回率(真正/(真正+假负)) 以召回率为横轴,精确率...

  • 分布式加速深度学习

    《美团“猜你喜欢”深度学习排序模型实践》 《Angel是腾讯开源的基于参数服务器理念开发的分布式机器学习平台,支持...

  • 《美团机器学习实践》—— 思维导图

    文章发布于公号【数智物语】 (ID:decision_engine),关注公号不错过每一篇干货。 转自 | Pyt...

  • 《美团机器学习实践》—— 思维导图

    欢迎关注天善智能,我们是专注于商业智能BI,人工智能AI,大数据分析与挖掘领域的垂直社区,学习,问答、求职一站式搞...

  • 《美团机器学习实践》—— 思维导图

    分享一份对于书籍《美团机器学习实践》的思维导图总结。 第一章 问题建模 第二章 特征工程 第三章 常用模型 第四章...

  • 特征相关处理

    美团“猜你喜欢”深度学习排序模型实践

网友评论

      本文标题:《美团机器学习实践》笔记

      本文链接:https://www.haomeiwen.com/subject/qczmsqtx.html