美文网首页
一些概念

一些概念

作者: 半大人 | 来源:发表于2019-09-24 20:47 被阅读0次

1.一个文本集合称为语料库(Corpus),当有几个这样的文本集合的时候,我们称之为语料库集合(Corpora)。

2.中文汉语有搜狗语料、人民日报语料。

3.数据清洗
提取对要处理数据无用或影响效果的数据。包括去停用词
常见的数据清洗方式有:人工去重、对齐、删除和标注等,或者规则提取内容、正则表达式匹配、根据词性和命名实体提取、编写脚本或者代码批处理等。

4.提取特征
词袋模型(Bag of Word, BOW),不包含文本的顺序信息,直接进行词频统计如TF-IDF
跳字模型(Skip-Gram)
连续词袋模型(Continuous Bag of Words,简称 CBOW)
Doc2Vec、WordRank 和 FastText
以及两种高效训练的方法:负采样(Negative Sampling)和层序 Softmax(Hierarchical Softmax)。

  1. 特征选择
    常见的特征选择方法主要有 DF、 MI、 IG、 CHI、WLLR、WFO 六种

6.模型选择
传统的有监督和无监督等机器学习模型, 如 KNN、SVM、Naive Bayes、决策树、GBDT、K-means 等模型;深度学习模型比如 CNN、RNN、LSTM、 Seq2Seq、FastText、TextCNN 等

6.过拟合
模型把噪声数据的特征学习到了,对训练集识别很好,对测试集却识别很差
常见的解决方法有:
增大数据的训练量;
增加正则化项,如 L1 正则和 L2 正则;
特征选取不合理,人工筛选特征和使用特征选择算法;
采用 Dropout 方法等。

7.欠拟合
就是模型不能够很好地拟合数据,表现在模型过于简单。
常见的解决方法有:
添加其他特征项;
增加模型复杂度,比如神经网络加更多的层、线性模型通过添加多项式使模型泛化能力更强;
减少正则化参数,正则化的目的是用来防止过拟合的,但是现在模型出现了欠拟合,则
需要减少正则化参数。

8.对于神经网络,注意梯度消失和梯度爆炸问题。

9.评价指标[图片上传失败...(image-9f1f07-1569328642579)]

错误率:是分类错误的样本数占样本总数的比例。
精度:是分类正确的样本数占样本总数的比例。
准确率:缩写表示用 P。准确率是针对我们预测结果而言的,它表示的是预测为正的样例中有多少是真正的正样例。
精确度:缩写表示用 A。精确度则是分类正确的样本数占样本总数的比例。
召回率:缩写表示用 R。召回率是针对我们原来的样本而言的,它表示的是样本中的正例有多少被预测正确。
F1 衡量:表达出对查准率/查全率的不同偏好。(2PR)/(P+R)

10 ROC 曲线、AUC 曲线。
ROC 曲线的意义有以下几点:
ROC 曲线能很容易的查出任意阈值对模型的泛化性能影响;
有助于选择最佳的阈值;
可以对不同的模型比较性能,在同一坐标中,靠近左上角的 ROC 曲所代表的学习器准确性最高。

相关文章

  • 一些概念

    【什么是大数据、大数据技术】 大数据,又称巨量资料,指的是所涉及的数据资料量规模巨大到无法在合理时间内通过传统的应...

  • 一些概念

    TCP,三次握手,传递包 TCP与UDP TCP(Transmission Control Protocol,传输...

  • 一些概念

    高斯核函数 径向基函数的一种,所谓径向基函数 (Radial Basis Function 简称 RBF),就是某...

  • 一些概念

    在开始正文之前,有必要对关于网络文学的一些基本概念做一下我自己的诠释,这些诠释很可能与文学理论或者别人的诠释不同,...

  • 一些概念

    iOS 2007 年 1 月 9 日苹果公司在 Macworld 展览会上公布,随后于同年的 6 月发布第一版 i...

  • 一些概念

    Epoch:原意为时代、纪元,在神经网络的训练过程中指的是对所有的训练数据完成一次forward pass和一次b...

  • 一些概念

    数位:一个数字123,1是百位,2是十位,3是个位,百位十位个位这些就是数位 二进制权重:就是以2为底的指数,比如...

  • 一些概念

    信念:绝大多数信念存在潜意思里,当一个人坚持一个信念时,是会看不到也听不见不符合信念的东西。 形成信念的途径: 1...

  • 一些概念

    在实际使用项目中总会遇到各种各样的问题,这里是纪录一些常见的技巧 关于SEO SEO即Search Engine ...

  • 一些概念

    1.一个文本集合称为语料库(Corpus),当有几个这样的文本集合的时候,我们称之为语料库集合(Corpora)。...

网友评论

      本文标题:一些概念

      本文链接:https://www.haomeiwen.com/subject/ntpbuctx.html