美文网首页
项目理解

项目理解

作者: Going小智 | 来源:发表于2018-11-02 19:38 被阅读0次

sklearn.feature_extraction.text.CountVectorizer 将搜集到的文本文档数据集转化为单词矩阵的。

aspell -a 表示的是检查单个单词的错误形式的

hasattr 对应的对象中是否含有的属性

re.sub(pattern, repl, text) 用于替换字符的

需要额外下载安装的内容有:
nltk.download('stopwords')
nltk.download('wordnet')
nltk.download('punkt')

python 运行原理
python将.py文件看作为一个module,其中有一个主module作为程序运行的入口的,执行 python demo.py 后,将会启动 Python 的解释器,然后将 demo.py 编译成一个字节码对象 PyCodeObject。这个对象只会存在于内存中的,当模块中的python代码执行完之后就会把编译结果保存到pyc文件中去的,下次就不用编译直接加载到内存中去的,

http://www.cnblogs.com/restran/p/4903056.html

对于aspell出现问题
no word lists can be found for the language "en_US"
从下面网址下载
ftp://ftp.gnu.org/gnu/aspell/dict/en/
tar -xjvf a.tar.bz2来解压缩文件
解压缩并且使用接下来的命令的
./configure
make
make install

zip解压缩
使用 unzip a.zip newDir/

代码错误: essay_set ->util.functions.get_wordnet_sync
ss.lemma_names() 返回的是一个列表的,对应的为一个函数的。


CountVectorizer

三种文本特征提取方法:
tf-idf
word2vec
CountVectorizer: 通过计数来将一个文档转化为向量的
根据语料库中的词频排序选出前n个词的,然后

http://sklearn.apachecn.org/cn/stable/modules/ensemble.html
集成学习:
Gradient Tree Boosting梯度提升回归树是对于任意的可微损失函数的提升算法的优化。

弱分类器的数量是由参数n_estimator来控制的,每个树的大小是由max_depth来设置深度的,
对于拥有大量类别的数据集则使用RandomForestClassifier来替代的而不是GradientBoostingClassifer的
对于回归问题GradientBoostingRegressor是通过默认的最小二乘损失函数的
使用固定大小的决策树作为弱分类器,能在提升过程中变得有价值的,即能处理混合类型和构建具有复杂功能模型的能力

解释一个模型的时候,需要确定重要的特征内容以及如何在预测目标方面产生的积极影响的
在树的分割点钟使用的特征越是频繁的话特征也就是越重要的

对于一个训练好的模型其对应的特征重要性分数是可以通过属性 feature_importances_来进行查看的
确实是会有着很多的分类器的,但同时每个分类器中也是针对这不同的特征来进行的选择的,这些可能会很重要的特征可能会在预测结果上具有着很大的优势的

部分依赖图PDP是 目标响应和一系列目标特征的依赖关系,同时边缘化其他所有的特征值的

fisher中的pvalue使用:
接受4个值是2*2的表返回left_tail, right_tail, two_tail
P值是一种在原假设为真的条件下出现观察样本更极端情况下的概率的
https://blog.csdn.net/wenyusuran/article/details/43406795
显著性检验使得满足刚好是落在这段空间内的,由小到大取得较小值的

相关文章

  • 项目理解

    项目步骤:使用git软件 1.没有安装cnpm,先安装cnpm(搜索淘宝镜像) 2.安装webpack 3.安装v...

  • 项目理解

    sklearn.feature_extraction.text.CountVectorizer 将搜集到的文本文档...

  • 图说敏捷项目管理中的价值

    与传统的项目管理不同,敏捷项目管理关注价值。 要理解价值,我们先要理解项目的目标是什么,无外乎包括以下几个方面: ...

  • 项目管理解剖

    大家知道,世界上比较知名的跟项目管理相关的流派有三个,一个是美国的项目管理协会PMI,它的主要资质是PMP;另外一...

  • HWFC项目包理解

  • Ulord项目--个人理解

    我是如何了解到Ulord项目的呢? 作为一名开发人员(Android开发),接触区块链的概念还是从比特币开始的,然...

  • 如何理解项目运营?

    高端运营的定义:制定策略、独立推进项目、通过数据分析和目标拆解发现问题并解决问题、对业务结果负责到底。 项目运营:...

  • 《敏捷项目管理》读书笔记-2018.7.27

    第一部分 理解敏捷 第1章 项目管理现代化 1.理解为何项目管理需要变革 在敏捷项目管理方式之前的瀑布式项目管理因...

  • pygame 快速入门

    目标 项目准备 使用 pygame 创建图形窗口 理解 图像 并实现图像绘制 理解 游戏循环 和 游戏时钟 理解 ...

  • 关于设计,内部沟通的思考

    在项目当中,内部沟通并给下级设计师布置任务时,尽量能够说明对项目的理解与对客户情况的了解。对项目的理解包括:能够说...

网友评论

      本文标题:项目理解

      本文链接:https://www.haomeiwen.com/subject/nuacxqtx.html