美文网首页
[PML 6] C2S1 回归与特征工程

[PML 6] C2S1 回归与特征工程

作者: 数科每日 | 来源:发表于2022-02-26 09:23 被阅读0次

这一章介绍机器学习的一些基础知识, 这些知识将成为本书后续内容的building blocks:

  • 特征提取与特征转换, 包括连续值,离散值和时序信号。
  • 模型输出与概率的关系
  • 梯度模型,以及TensorFlow 实现
  • 如何处理 outlier,不平衡数据集,以及模型评估。

虽然我们在本章中只简单地涉及个性化,但例子用到的数据和后面相同, 都是面向用户的数据。特别是,我们将专注于涵盖诸如推荐、情绪和涉及(例如)人口统计特征的预测任务等主题的数据集。

因此,我们将在本章中对“个性化”采取的观点将包括从用户数据中提取特征,以便使用传统的机器学习框架进行预测。稍后,我们将区分2种方法:提取用户的特征每个用户建模。这将引出对上下文个性化与基于模型的个性化的讨论(正如我们在第 1.7 节中介绍的那样),我们将在第 4 章和第 5 章更准确地讨论这种区别。然而,正如我们将在本章中看到的(以及在各种本书中的示例),即使是传统的机器学习技术,只要与适当的特征提取策略相结合,也可以产生出有效的个性化预测模型。

有监督学习

本章介绍的所有技术——以及在本书中探讨的大多数个性化技术——都是有监督学习的形式。有监督学习技术假设数据集可以分为两个部分

  • label ( 记为 y) : 我们需要预测的内容。
  • feature ( 记为 X) : 用来预测 label 的数据。

例如, 对于情感分析任务, feature 是用户的评论(Amazon or Yelp) label 是与评论相关的 rate。

有监督学习,其范式可以写成:

f_{\theta}(x) \rightarrow y

在本章中 y 就是 label 向量, X 代表Feature 矩阵。 本文讨论2中有监督机器学习:

  • 回归(Regression): y 是数值型的
  • 分类(Classification): y 是离散的Categorical 变量
Linear Regression

先跳过吧, 网上讲这个太多了。

相关文章

网友评论

      本文标题:[PML 6] C2S1 回归与特征工程

      本文链接:https://www.haomeiwen.com/subject/jiuxrrtx.html