美文网首页
机器学习 sklearn - python笔记

机器学习 sklearn - python笔记

作者: 自走炮 | 来源:发表于2020-08-17 00:00 被阅读0次
    • 监督:数据 x 已知结果(标签 y)
      • 连续标签为回归,离散标签为分类
      • 训练 fit(x_train,y_train)
      • 预测 y_pred=predict(x_test)
      • 准确率 score(x_test,y_test)
    • 无监督:数据 x 未知结果(标签 y)
      • 训练并预测 fit_predict(x)
      • 训练并转换 fit_transform(x)
    • sklearn.linear_model
      • LinearRegression() 线性回归,即多项式拟合
        • 系数 coef_
        • 截距 intercept_
      • LogisticRegression(solver='lbfgs, multi_class='auto') 逻辑回归,即 Sigmoid 函数拟合,二分类
    • sklearn.naive_bayes 朴素贝叶斯概率分类
      • 先验概率 class_prior_
      • 样本数 class_count_
      • 均值 theta_
      • 方差 sigma_
      • 返回预测概率 predict_proba(x)
      • 返回增量训练 partial_fit(x, y, classes=[], sample_weight=np.array([]))
      • GaussianNB() 高斯朴素贝叶斯
      • MultinomialNB() 多项式朴素贝叶斯,以次数为特征
      • BernoulliNB() 伯努利朴素贝叶斯,以二进制或布尔为特征
    • sklearn.neighbors.KNeighborsClassifier() K 近邻距离分类
      • 距离和下标 kneighbors(x)
    • sklearn.svm.SVC() 向量机分类
    • sklearn.tree.DecisionTreeClassifier() 决策树分类
    • sklearn.cluster.KMeans(n_clusters=3) K 聚类
    • sklearn.decomposition
      • PCA(n_components=2) 降维
      • LatentDirichletAllocation(n_topics=3, max_iter=100, random_state=1) 潜在主题分配,训练词频矩阵
        • 主题词频 topic_word_
        • 内容词频矩阵(主题数 x 关键词数) components_
        • 困惑度 perplexity(x)
    • sklearn.feature_extraction.text 特征提取文字,训练分词转换为词频矩阵
      • 特征词表 get_feature_names()
      • CountVectorizer() 计数向量化,统计特征词个数
      • TfidfVectorizer(strip_accents='unicode', max_features=100, stop_words=[], max_df=.99, min_df=.01) TF-IDF 向量化,统计特征词概率
      • TfidfTransformer() TF-IDE 值,训练计数词频转换为概率词频
    • sklearn.model_selection(estimator=lr, cv=4, random_state=1, train_size=.8) 模型选择
      • 最佳模型 best_estimator_
      • 最佳参数 best_params_
      • 最佳评分 best_score_
      • 训练记录 cv_results_
      • 训练 fit(x, y)
      • GridSearchCV(param_grid={weights:[]}) 网格搜索
      • RandomizedSearchCV(param_distributions={weights:[]}, n_iter=3) 随机搜索
      • learning_curve() 学习曲线,检查拟合情况
      • validation_curve() 验证曲线,检查模型情况
      • train_test_split(x, y) 随机划分,返回 x 训练 x 测试 y 训练 y 测试 4 个数组
      • StratifiedShuffleSplit(n_splits=3) 分层洗牌划分
        • 划分下标 split(x, y)
    • sklearn.pipeline.Pipeline([('sc',StandardScaler()), ('pca',PCA(n_components=2)), ('clf',LogisticRegression())]) 管线
    • sklearn.preprocessing
      • StandardScaler() 标准化,缩放到标准正态分布
      • Normalizer() 归一化,缩放到 01 区间
      • Binarizer(threshold=2) 二值化
      • LabelBinarizer() 标签二进制编码,文字二进制化
      • LabelEncoder() 标签编码,文字数值化
      • OneHotEncoder(sparse=False) 独热编码,数值二进制化
      • Imputer(missing_values='NaN', strategy='mean') 缺失值
      • PolynomialFeatures(degree=2) 多项式计算
    • sklearn.cross_validation.cross_val_score(x, y, lr, cv=4) 交叉验证
    • sklearn.metrics(y_test, y_pred)
      • mean_absolute_error() 方差,测回归
      • mean_squared_error() 标准差,测回归
      • r2_score() R 评分,测回归,趋于 1 好趋于 0 差
      • accuracy_score() 准确率,测分类
      • classification_report() 分类统计,测分类
      • confusion_matrix() 混淆矩阵,测分类
      • adjusted_rand_score() 调整系数,测聚类,趋于 1 好趋于-1 差
      • homogeneity_score() 同质性,测聚类,单样本群集概率,相反完整性单群集概率
      • v_measure_score() V 评分,测聚类,同质性与完整性的均值

    相关文章

      网友评论

          本文标题:机器学习 sklearn - python笔记

          本文链接:https://www.haomeiwen.com/subject/qdsgrktx.html