美文网首页
数据挖掘topic

数据挖掘topic

作者: scofieldxs | 来源:发表于2017-09-15 14:36 被阅读0次

    1.机器学习算法

    常用算法公式汇总

    1. 西瓜书
    2. 神经网络: neural-networks-and-deep-learning-zh
      1. 优点:准确率高,可并行计算,逼近复杂的非线性关系,做特征提取
      2. 缺点:需要大量参数,解释性差,训练时间长
      3. 种类:CNN(卷积),RNN(循环),DNN(全连接神经元)
      4. 防止过拟合:1.正则,2.早停(当验证集误差升高时停止)
      5. 跳出局部极小值:1. 多组不同参数初始化,2.每一步以一定概率接受比现在更差的结果,3.随机梯度下降
    1. GBDTGBDT和随机森林比较
    2. xgboost
    3. 神经网络算法:owlqnSGD
    4. 激活函数
    5. logistic regressionlogistic和朴素贝叶斯的区别
    6. 多分类auc计算
    7. GeoHash核心原理解析
    8. 决策树缺失值处理
      13.dbscan聚类算法

    2.概率和线性代数

    1. 期望、方差、协方差及相关系数的基本运算
    2. 最大似然估计
    3. 梯度下降法好文章
    4. 特征值分解,奇异值分解,主成分分析有用文章原理讲解好文章
    5. EM算法
    6. 社区发现Louvain算法 , 算法讲解
    7. 概率面试题
    8. 常用概率分布
    9. 蒙特卡洛抽样

    3.自然语言处理

    1. 统计语言模型
      1. N元文法模型:《数学之美》page54
      2. 工程技巧,平滑方法:page60
    2. 分词
      1. 基于字符匹配:最长词匹配,歧义词和未登录词处理不好
      2. 基于统计:相邻的字同时出现的次数越多,就越可能构成一个词。 隐马尔科夫模型 + N-gram
    3. 文本相似度计算
      1. TF-IDF + 余弦相似度: TF-IDF余弦相似度
      2. 奇异值分解(SVD)
    4. word2vec
      1. 介绍
        2.原理公式

    4. 工程知识

    1. 特征选择

      特征选择好文章特征选择:卡方检验特征选择:信息增益特征选择:woe, IV特征选择:LR

    2. r2:方程的确定系数,表示X对Y的解释程度,取值在[0, 1]之间,越接近1表示对Y的解释程度越好
      算法具体

    3. Pearson相关系数

    4. 正则化:把额外的惩罚加到已有模型上,防止过拟合并提高泛化能力

      1. L1范数:让特征稀疏,很多w变为0
      2. L2范数:岭回归,改善过拟合,让每个w都很小
      3. 通俗易懂的好文章
    5. 规则引擎

      • 多模式匹配:dictmatch算法
      • 单模式匹配:bm(Boyer-Moore)算法 好文章
      • 数据结构:trie树
    6. 爬虫

      1. from sgmllib import SGMLParser
    7. 推荐系统
      推荐系统入门 , 推荐系统:SVD

    8. python面试题

    9. 海量数据面试题

    10. 防止过拟合

      1. 使用简单的模型 2. 降维 3. L2范数 4.算法本身(svm松弛变量,决策树剪枝)
    11. 分布式神经网络训练

    相关文章

      网友评论

          本文标题:数据挖掘topic

          本文链接:https://www.haomeiwen.com/subject/miissxtx.html