美文网首页
数据分析相关知识整理

数据分析相关知识整理

作者: JudeArcturus | 来源:发表于2019-06-02 20:26 被阅读0次

数据预处理

缺失值处理

  • 直接舍弃整条记录
  • 手动填充修正
  • 使用均值等不影响整体分布的数值填充
  • 利用余下完整的数据预测缺失值
  • 使用 NaN 表示,之后可以对于这一值做特殊处理

异常值处理

  • 手动设置上下限
  • 利用均值和标准差设置合理范围(置信区间)

归一化

Data Reduction

当数据量过大,只能对部分数据进行处理时:

  • 对整个数据集随机采样
  • 先把数据集根据一定规律划分为若干部分,对每个部分分别采样

当涉及的属性过多,需要进行降维时:

线性回归

任何非线性关系都可以通过一定的变换变成一个线性关系.
对于单变量模型:
若希望模型过原点, y=ax, 其中 a = E[XY]/E[X^2]
若存在截距, y=ax+b, a=cov(X,Y)/var(X^2), b=E[Y]-aE[X]
对于多变量模型, y=Xw, w=(XX^T)^{-1} X^Ty

梯度下降求解其实时以上方法的简化版本,本质上都是希望找到系数 w的一组值,使得模型预测结果与实际结果的差异(loss function L(X))最小, 即 \frac{dL}{dw}=0

  1. 随机生成 w的初始值 w^0
  2. 更新 w的值 : w^1=w^0-\eta \frac{dL}{dw_{|w=w_0}}
  3. 重复步骤2直到 loss function \frac{dL}{dw}=0

Linear Regression using Gradient Descent

正则化

一方面,需要控制模型的复杂度,另一方面,需要控制系数w的值使其尽可能小保证结果不会波动过大。
机器学习中常常提到的正则化到底是什么意思?
常用方法:
赤池信息量准则
Lasso算法

分类问题

常见的分类器

常见的模型性能评估方法

聚类

属于无监督学习,即在没有标注的情况下将相似的点聚合在一起。
一篇文章透彻解读聚类分析(附数据和R代码)
发表在 Science 上的一种新聚类算法

Neural Networks

神经网络为什么可以(理论上)拟合任何函数?
一文弄懂神经网络中的反向传播法——BackPropagation

可视化

常用的数据来源

  1. UCI Machine Learning Repository
  2. UCI KDD Archive
  3. DELVE datasets
  4. ChemDB
  5. Kaggle dataset
  6. London DataStore
  7. NYC city data
  8. US Healthcare
  9. Academic data
  10. News Data
  11. National open data UK
  12. National open data US
  13. fMRI data

相关文章

网友评论

      本文标题:数据分析相关知识整理

      本文链接:https://www.haomeiwen.com/subject/vfxlpqtx.html