美文网首页我爱编程
Python 基本操作- 类别变量转化

Python 基本操作- 类别变量转化

作者: Python_Franklin | 来源:发表于2018-05-19 15:33 被阅读0次

一、类别变量中“有序”和“无序”的区分

类别变量转化为数字,需要区分是否是有序类别,如 male和female,就是无序的,应该转化成(1,0)和(0,1),但衣服大小,M,L,XL,则应转化为1,2,3
若将无序属性连续化,则会不恰当的引入序关系,对后续处理如距离计算等造成误导,具体参加9.3。(待补充)

二、类别变量转化的Python实现

1、有序的类别变量

有序的类别变量转化,一般直接采用赋值、映射的方法即可,可以采用Python带的map函数。
比如size:[X,XL,XXL],使用数值的映射{X:1,XL:2,XXL:3}。

2、无序的类别变量

无序的类别变量转化,一般对应的转码方式为 one-hot编码,采用pd.get_dummies(df) 就可以。

具体代码如下
(1)有序:

import pandas as pd  
df = pd.DataFrame([  
            ['green', 'M', 10.1, 'class1'],   
            ['red', 'L', 13.5, 'class2'],   
            ['blue', 'XL', 15.3, 'class1']],
            )  
df.columns = ['color', 'size', 'prize', 'class label']  
# DataFrame相当于一个数据表,DataFrame(data,columns=['a','b','c'],index=['one','two','three']) ,有这些参数
#上面的代码可以写成,data = [  
            ['green', 'M', 10.1, 'class1'],   
            ['red', 'L', 13.5, 'class2'],   
            ['blue', 'XL', 15.3, 'class1']]
# df = pd.DataFrame (data,columns = ['color', 'size', 'prize', 'class label'])


size_mapping = { 'XL': 3, 'L': 2,'M': 1}  #建立一个字典,构建键值对,即数据映射。
df['size'] = df['size'].map(size_mapping)  # map函数的使用

将 M,L,XL转化成了1,2,3

(2)无序

pd.get_dummies(df)  

将color和class两列,转化成了one_hot编码。

参考资料

相关文章

  • Python 基本操作- 类别变量转化

    一、类别变量中“有序”和“无序”的区分 类别变量转化为数字,需要区分是否是有序类别,如 male和female,就...

  • Python、Java、matlab、C多种语言基础语法对比

    通篇说明:‘★’表示代码中另起一行,'<类别>'表示变量的类别(正在建设) 变量特点 变量操作 读取输入 输出写入...

  • Python类别变量处理

    Categorical Encoding Methods   categorical feature(类别变量)是...

  • python类别变量编码

    在调查问卷中,经常要将文字类别编码成数字,如果想指定某个文字对应哪个数字使用下边代码最方便,但是按照字母顺序进行编码

  • Python基础(十四): 函数作用域

    一、基本概念 1、变量的作用域 变量的作用范围: 可操作范围 Python是静态作用域, 也就是说在Python中...

  • 【基础篇】2-Python基础

    Python基础 本章我们将实际学习Python的基础知识,介绍Python的基本操作符、变量的命名与使用、Pyt...

  • python的进修之路

    python基础篇(一)【变量,赋值,输入,输出和导入,运算符,数据类型,文件基本操作】 python基础篇(二)...

  • Python起步——列表

    python列表的常用操作 1. list函数 将元组和字符串转化为列表。 2. 基本列表操作 2.1 元素赋值 ...

  • 基于Python的数值型与字符型类别变量独热编码One-hot

      在数据处理与分析领域,数值型与字符型类别变量的编码是不可或缺的预处理操作。本文基于Python下OneHotE...

  • Matlab基础知识

    基本操作和技巧 matlab 大小写敏感,变量和python一样不用提前申明。 matlab变量的默认类型是dou...

网友评论

    本文标题:Python 基本操作- 类别变量转化

    本文链接:https://www.haomeiwen.com/subject/mujndftx.html