以下是sklearn
内含的模块(可import, 0.21.2):
-
datasets
: 加载和获取数据集的模块, 也可以产生一些人工数据. - 数据处理和评分相关模块:
-
model_selection
: 模型选择模块. 数据集处理, 交叉验证, 网格搜索, 验证曲线, 学习曲线等. -
preprocessing
: 预处理数据模块. 提供变换器和实用功能, 将原始特征向量转为适合机器学习. 包括缩放, 中心化, 归一化, 离散化, 非线性变换, 类别特征编码, 二值化, 缺失值补全, 等. -
metrics
: 指标模块, 模型评估. 各种打分, 指标, 表现指标, pairwise指标, 距离计算等. 混淆矩阵, 分类报告, 精确度分数等. -
feature_extraction
: 特征提取模块. -
pipeline
: 链式评估器(管道). 还包含FeatureUnion
(特征联合). 单文件. -
impute
: 缺失值插补的转换器. 包括SimpleImputer
,IterativeImputer
,MissingIndicator
(标记) -
random_projection
: 随机投影, 减少维度. 单文件. -
kernel_approximation
: 内核近似模块. 包括 Nystroem, RBF采样器, 加性卡方盒等. 单文件. -
inspection
: 模型检查. 主要是一个部分依赖图(partial_dependence
). -
compose
: Meta-estimators for building composite models with transformers. 包含TransformedTargetRegressor
,ColumnTransformer
等. -
dummy
: Dummy评估器.
-
- 监督学习/无监督学习:
-
linear_model
: 线性模型模块, 最小二乘法, 逻辑回归, 随机梯度下降SGD等. -
discriminant_analysis
: 线性和二次判别分析. LDA和QDA. 单文件. -
kernel_ridge
: 内核岭回归模块. -
svm
: 支持向量机模块. -
neighbors
: 包含最近邻算法, KDTree, BallTree, 最近邻分类(无监督学习), 最近邻回归. -
gaussian_process
: 高斯过程模块, 高斯过程回归GPR, 高斯过程分类GPC. -
cross_decomposition
: 交叉分解模块, 包含 偏最小二乘法(PLS)和典型相关分析(CCA). -
naive_bayes
: 朴素贝叶斯, 单文件. -
tree
: 决策树模块. -
ensemble
: 系综模块(集成模块), Bagging, Boosting, 随机森林. -
multiclass
: 多类和多标签分类算法. 单文件. -
feature_selection
: 特征选择算法模块. 方差阈值, 单变量特征选择, 递归性特征消除等. -
semi_supervised
: 半监督学习模块, 标签传播等. -
isotonic
: 等式回归模块. 单文件. -
calibration
: 概率校正模块. 单文件. -
neural_network
: 神经网络模块, 多层感知器(MLP), 限制玻尔兹曼机等. -
mixture
: 混合模型算法. 包括高斯混合和变分贝叶斯高斯混合. -
manifold
: 流形学习. 包括等距映射(Isomap), 局部线性嵌入(LLE), MLLE, 黑塞特征映射(HE), 谱嵌入, 局部切空间对齐(LTSA), 多维尺度分析(MDS), t分布随机邻域嵌入(t-SNE)等. -
cluster
: 聚类. K-Mean, DBSCAN, 谱聚类, 层次聚类, OPTICS, 高斯混合, Birch等.-
bicluster
(双聚类) 是cluster下属的一个子模块.
-
-
decomposition
: 成分分解模块(矩阵分解), 包括主成分分析PCA, 截断奇异值分解, 稀疏编码, 因子分析等. -
covariance
: 协方差估计模块.新奇和异常值检测, 密度估计 分布在别的模块.
-multioutput
: 多输出回归和分类的模块, 单文件.
-
-
utils
: 包含一些工具(一些功能性的函数等) -
externals
: 一些外部模块. 典型的是joblib
(模型持久化). -
exceptions
: warning, error, exceptions类. 单文件. -
experimental
: 实验性的特征和评估器. -
base
: Base classes for all estimators. 估计器的一些基础类. 单文件, 一般不用.
- 以下模块是引入的标准模块, 可忽略:
os
,sys
,re
,warnings
,logging
.show_versions()
函数可以显示各种依赖的版本.logger
是logging
构造的记录器,get_config, set_config, config_context
是_config.py
引入的,clone
是base.py
引入的,setup_module
是一个定义的函数.- 旧的有模块叫
cross_validation
,grid_search
,learning_curve
现已弃用(0.18), 所有的包和方法都在model_selection
中.
网友评论