SKLEARN

作者: Rainysong | 来源:发表于2018-12-19 16:20 被阅读0次

    一、NLP:sklearn中fit、fit_transform、transform的区别

    fit原义指的是安装、使适合的意思,其实有点train的含义但是和train不同的是,它并不是一个训练的过程,而是一个适配的过程,过程都是定死的,最后只是得到了一个统一的转换的规则模型。

    transform:是将数据进行转换,比如数据的归一化和标准化,将测试数据按照训练数据同样的模型进行转换,得到特征向量。

    fit_transform:可以看做是fit和transform的结合,如果训练阶段使用fit_transform,则在测试阶段只需要对测试样本进行transform就行了。

    例如:

    训练阶段:
    corpus = _readbunchobj(wordbag_path).contents
    tf_vectorizer = CountVectorizer(max_df=0.95,min_df=2,stop_words=stpwrdlst)
    tf = tf_vectorizer.fit_transform(corpus)
    测试阶段:
    contents = _readfile(file_name)
    tf = tf_vectorizer.transform([contents])


    fit/transform/fit_transform.png fit/transform/fit_transform.png 这个很清楚!!!.png

    参考:https://blog.csdn.net/quiet_girl/article/details/72517053
    https://blog.csdn.net/blmoistawinde/article/details/80816179

    二、SKLEARN数据挖掘

    数据挖掘流程(sklearn为红框里的).png

    参考:https://www.cnblogs.com/jasonfreak/p/5448462.html

    三、TfidfVectorizer()的参数max_df 和 min_df的意思: frequency para.png

    vacabulary参数

    示例.png

    fit_transform怎么输出词汇表和词向量矩阵

    tfidf_vec.vocabulary_ & tfidf_matrix_toarray().png

    四、kmeans聚类

    https://blog.csdn.net/z747795161/article/details/77253254

    五、层次聚类(hierarchical cluster)

    http://howiedlut.top/Clustering-in-python/

    https://stackabuse.com/hierarchical-clustering-with-python-and-scikit-learn/

    相关文章

      网友评论

          本文标题:SKLEARN

          本文链接:https://www.haomeiwen.com/subject/cmbjkqtx.html