美文网首页
Python机器学习中的DictVectorizer(特征向量化

Python机器学习中的DictVectorizer(特征向量化

作者: 小丹丹的梦想后花园 | 来源:发表于2019-11-27 15:56 被阅读0次

特征转换

最近在看《PYTHON机器学习及实践+从零开始通往KAGGLE竞赛之路》这本书,

书中采用最简单直接的方式介绍了机器学习的入门实践语句,简单介绍原理以后,就开始代码实现了。

刚好看到一个例子,关于DictVectorizer的使用,很是喜欢这种操作方式,代码如下:

from sklearn.feature_extraction import DictVectorizer

dict_vec = DictVectorizer(sparse=False)# #sparse=False意思是不产生稀疏矩阵

X_train = dict_vec.fit_transform(X_train.to_dict(orient='record'))

X_test = dict_vec.transform(X_test.to_dict(orient='record'))

print(dict_vec.feature_names_)#查看转换后的列名

print(X_train)#查看转换后的训练集

['age','pclass=1st', 'pclass=2nd', 'pclass=3rd', 'sex=female', 'sex=male']

[[31.19418104  0.          0.          1.          0.          1.        ]

[31.19418104  1.          0.          0.          1.          0.        ]

[31.19418104  0.          0.          1.          0.          1.        ]

...

[12.          0.          1.          0.          1.          0.        ]

[18.          0.          1.          0.          0.          1.        ]

[31.19418104  0.          0.          1.          1.          0.        ]]

原pclass和sex列如下:

full[['Pclass','Sex']].head()

Pclass Sex

0 3 male

1 1 female

2 3 female

3 1 female

4 3 male

即pclass和sex两列分类变量转换为了数值型变量(只有0和1),age列数值型保持不变,达到了机器学习的识别目的。

该方法可用pandas中的get_dummies实现(同样可以实现one-hot编码),操作会复杂一些,代码如下:

Pclassdf = pd.DataFrame()

Pclassdf = pd.get_dummies(full['Pclass'],prefix='Pclass')

Pclassdf.head()

Pclass_1 Pclass_2 Pclass_3

0 0 0 1

1 1 0 0

2 0 0 1

3 1 0 0

4 0 0 1

有多少特征,就会新创建多少列,在之后用pd.concat连接即可,并且需要把原Pclass给drop掉。

————————————————

版权声明:本文为CSDN博主「极恶都市」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。

原文链接:https://blog.csdn.net/Jon_Sheng/article/details/79693971

相关文章

  • Python机器学习中的DictVectorizer(特征向量化

    特征转换 最近在看《PYTHON机器学习及实践+从零开始通往KAGGLE竞赛之路》这本书, 书中采用最简单直接的方...

  • 特征提升

    特征提取 目的:将数字化的信号数据、符号化的文本转化成特征向量。 字典储存的数据,用DictVectorizer进...

  • 基于sklearn的文本特征抽取

    理论 机器学习的样本一般都是特征向量,但是除了特征向量以外经常有非特征化的数据,最常见的就是文本 结构化数据 当某...

  • TensorFlow工具快速入门教程7 TensorFlow基础

    在机器学习中,模型被提供称为特征向量的对象列表。特征向量可以是任何数据类型。特征向量通常是填充张量的主要输入。这些...

  • TensorFlow工具快速入门教程7 TensorFlow基础

    在机器学习中,模型被提供称为特征向量的对象列表。特征向量可以是任何数据类型。特征向量通常是填充张量的主要输入。这些...

  • 朴素贝叶斯

    转自微信公众号:机器学习算法与Python学习 朴素贝叶斯: 注意点: 1. 如果给出的特征向量长度可能不同,需要...

  • 机器学习实战

    机器学习实战 [tag]人工智能,机器学习,可视化,数据分析,k近邻,python,监督机器学习算法, [cont...

  • 机器学习系列 之 matplotlib plt作图

    Matplotlib Story: Matplotlib 是一款python内嵌的数据可视化绘图库. 在机器学习中...

  • 机器学习

    Spark中的MLlib包可以做机器学习; Python中的sklearn也可以做机器学习;

  • playground

    在机器学习中,描述实体的数字的组合就是这个实体的特征向量 特征向量是神经网络的输入 神经网络是分层的结构,第一层为...

网友评论

      本文标题:Python机器学习中的DictVectorizer(特征向量化

      本文链接:https://www.haomeiwen.com/subject/knwpwctx.html