美文网首页机器学习
scikit-learn 子模块简要(v0.21)

scikit-learn 子模块简要(v0.21)

作者: 爱折腾的大懒猪 | 来源:发表于2019-07-03 02:15 被阅读16次

    以下是sklearn内含的模块(可import, 0.21.2):

    • datasets : 加载和获取数据集的模块, 也可以产生一些人工数据.
    • 数据处理和评分相关模块:
      • model_selection : 模型选择模块. 数据集处理, 交叉验证, 网格搜索, 验证曲线, 学习曲线等.
      • preprocessing : 预处理数据模块. 提供变换器和实用功能, 将原始特征向量转为适合机器学习. 包括缩放, 中心化, 归一化, 离散化, 非线性变换, 类别特征编码, 二值化, 缺失值补全, 等.
      • metrics : 指标模块, 模型评估. 各种打分, 指标, 表现指标, pairwise指标, 距离计算等. 混淆矩阵, 分类报告, 精确度分数等.
      • feature_extraction : 特征提取模块.
      • pipeline : 链式评估器(管道). 还包含FeatureUnion(特征联合). 单文件.
      • impute : 缺失值插补的转换器. 包括SimpleImputer, IterativeImputer, MissingIndicator(标记)
      • random_projection : 随机投影, 减少维度. 单文件.
      • kernel_approximation : 内核近似模块. 包括 Nystroem, RBF采样器, 加性卡方盒等. 单文件.
      • inspection : 模型检查. 主要是一个部分依赖图(partial_dependence).
      • compose : Meta-estimators for building composite models with transformers. 包含TransformedTargetRegressor,ColumnTransformer等.
      • dummy : Dummy评估器.
    • 监督学习/无监督学习:
      • linear_model : 线性模型模块, 最小二乘法, 逻辑回归, 随机梯度下降SGD等.
      • discriminant_analysis : 线性和二次判别分析. LDA和QDA. 单文件.
      • kernel_ridge : 内核岭回归模块.
      • svm : 支持向量机模块.
      • neighbors : 包含最近邻算法, KDTree, BallTree, 最近邻分类(无监督学习), 最近邻回归.
      • gaussian_process : 高斯过程模块, 高斯过程回归GPR, 高斯过程分类GPC.
      • cross_decomposition : 交叉分解模块, 包含 偏最小二乘法(PLS)和典型相关分析(CCA).
      • naive_bayes : 朴素贝叶斯, 单文件.
      • tree : 决策树模块.
      • ensemble : 系综模块(集成模块), Bagging, Boosting, 随机森林.
      • multiclass : 多类和多标签分类算法. 单文件.
      • feature_selection : 特征选择算法模块. 方差阈值, 单变量特征选择, 递归性特征消除等.
      • semi_supervised : 半监督学习模块, 标签传播等.
      • isotonic : 等式回归模块. 单文件.
      • calibration : 概率校正模块. 单文件.
      • neural_network : 神经网络模块, 多层感知器(MLP), 限制玻尔兹曼机等.
      • mixture : 混合模型算法. 包括高斯混合和变分贝叶斯高斯混合.
      • manifold : 流形学习. 包括等距映射(Isomap), 局部线性嵌入(LLE), MLLE, 黑塞特征映射(HE), 谱嵌入, 局部切空间对齐(LTSA), 多维尺度分析(MDS), t分布随机邻域嵌入(t-SNE)等.
      • cluster : 聚类. K-Mean, DBSCAN, 谱聚类, 层次聚类, OPTICS, 高斯混合, Birch等.
        • bicluster (双聚类) 是cluster下属的一个子模块.
      • decomposition : 成分分解模块(矩阵分解), 包括主成分分析PCA, 截断奇异值分解, 稀疏编码, 因子分析等.
      • covariance : 协方差估计模块.

        新奇和异常值检测, 密度估计 分布在别的模块.
        - multioutput : 多输出回归和分类的模块, 单文件.

    • utils : 包含一些工具(一些功能性的函数等)
    • externals : 一些外部模块. 典型的是joblib(模型持久化).
    • exceptions : warning, error, exceptions类. 单文件.
    • experimental : 实验性的特征和评估器.
    • base : Base classes for all estimators. 估计器的一些基础类. 单文件, 一般不用.
    • 以下模块是引入的标准模块, 可忽略: os, sys, re, warnings, logging.
    • show_versions()函数可以显示各种依赖的版本.
    • loggerlogging构造的记录器, get_config, set_config, config_context_config.py引入的, clonebase.py引入的, setup_module是一个定义的函数.
    • 旧的有模块叫cross_validation,grid_search,learning_curve 现已弃用(0.18), 所有的包和方法都在model_selection中.

    相关文章

      网友评论

        本文标题:scikit-learn 子模块简要(v0.21)

        本文链接:https://www.haomeiwen.com/subject/occfhctx.html