深入浅出Python机器学习_学习笔记
第一章 概述
- 有监督学习: 通过训练集数据建模, 对新的数据样本进行分类或者回归分析. 数据集包含样品特征变量及分类标签.
- 分类: 对类标签进行预测, 判断样本属于哪一个分类, 结果往往是离散的数值.
- 回归分析: 目标是预测一个连续的数值或范围.
- 无监督学习: 没有训练数据集的情况下, 对没有标签的数据进行分析并建立合适的模型. 两种任务类型: 数据转换和聚类分析.
- 数据转换: 把非常复杂的数据集通过非监督学习进行转换, 常见方法如数据降维.
- 聚类: 把样本划归到不同分组的算法, 每个分组的元素具有比较接近的特征.
- 模型的泛化 (Generalization): 在训练数据集上建立一个模型, 之后将这个模型用于新的没见过的数据中的过程.
- 过拟合(Overfitting) : 在拟合训练数据时表现良好, 测试数据集表现非常差. 欠拟合(Underfitting) 是在训练集合测试集中得分都较差, 如特征不充分.
第二章 基于Python语言的环境配置
- 前两节主要讲述了Python的安装, Jupyter Notebook的安装和基本使用.
- 第三节简要介绍了numpy, scipy, matplotlib, pandas 和 scikit-learn的功能.
该书主要依赖库为 numpy,scipy, matplotlib, pandas, ipython, scikit-learn.
pandas使用小示例(包括过滤数据)
#%%
import pandas
#先创建一个小数据集
data = {"Name":["小芋","小菡","小榆","小梒"],
"City":["北京","上海","广州","深圳"],
"Age":["18","20","22","24"],
"Height":["162","161","165","166"]}
data_frame = pandas.DataFrame(data)
display(data_frame)
#%%
display(data_frame[data_frame.City != "北京"])
#显示所有不在北京的同学信息
pandas使用小示例
利用scipy产生稀疏矩阵
import numpy as np
from scipy import sparse
# 构造6*6对角矩阵, 对角1,其余0
matrix = np.eye(6)
# 将矩阵转为CSR 格式的系数矩阵.
sparse_matrix = sparse.csc_matrix(matrix)
print(sparse_matrix)
稀疏矩阵示例
等差数列变量和曲线
import matplotlib.pyplot as plt
%matplotlib inline
# 生成-20到20, 共10个元素的等差数列
x = np.linspace(-20, 20, 10)
# y函数构造
y = x**3 + 2*x**2 + 6*x + 5
# 画出曲线
plt.plot(x, y, marker="o")
等差数列变量和曲线
网友评论