SKLEARN

SKLEARN

作者: Rainysong | 来源:发表于2018-12-19 16:20 被阅读0次

一、NLP：sklearn中fit、fit_transform、transform的区别

fit原义指的是安装、使适合的意思，其实有点train的含义但是和train不同的是，它并不是一个训练的过程，而是一个适配的过程，过程都是定死的，最后只是得到了一个统一的转换的规则模型。

transform：是将数据进行转换，比如数据的归一化和标准化，将测试数据按照训练数据同样的模型进行转换，得到特征向量。

fit_transform：可以看做是fit和transform的结合，如果训练阶段使用fit_transform，则在测试阶段只需要对测试样本进行transform就行了。

例如：

训练阶段：
corpus = _readbunchobj(wordbag_path).contents
tf_vectorizer = CountVectorizer(max_df=0.95,min_df=2,stop_words=stpwrdlst)
tf = tf_vectorizer.fit_transform(corpus)
测试阶段：
contents = _readfile(file_name)
tf = tf_vectorizer.transform([contents])

fit/transform/fit_transform.png

fit/transform/fit_transform.png

这个很清楚！！！.png

参考：https://blog.csdn.net/quiet_girl/article/details/72517053
https://blog.csdn.net/blmoistawinde/article/details/80816179

二、SKLEARN数据挖掘

数据挖掘流程（sklearn为红框里的）.png

参考：https://www.cnblogs.com/jasonfreak/p/5448462.html

三、TfidfVectorizer()的参数max_df 和 min_df的意思： frequency para.png

vacabulary参数

示例.png

fit_transform怎么输出词汇表和词向量矩阵

tfidf_vec.vocabulary_ & tfidf_matrix_toarray().png

四、kmeans聚类

https://blog.csdn.net/z747795161/article/details/77253254

五、层次聚类（hierarchical cluster）

http://howiedlut.top/Clustering-in-python/

https://stackabuse.com/hierarchical-clustering-with-python-and-scikit-learn/

相关文章

网友评论

本文标题：SKLEARN

本文链接：https://www.haomeiwen.com/subject/cmbjkqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|SKLEARN|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！