美文网首页
机器学习中的常用编码方式(二)

机器学习中的常用编码方式(二)

作者: 生信编程日常 | 来源:发表于2020-10-02 18:42 被阅读0次

1). Count Encoding
Count encoding是将分类特征替换为它们的出现次数,比如某个分类中'Peking'出现了10次,那么'Peking'就会被替换为10. 我们可以用categorical-encodings包中的CountEncoder实现。

import category_encoders as ce
features = ['Peking', 'Peking', 'Shanghai', 'Peking', 'Guangzhou', 'Shanghai']
count_enc = ce.CountEncoder()
count_enc.fit_transform(features)

返回(第一列是索引):
0 3
1 3
2 2
3 3
4 1
5 2

2). Target Encoding
target encoding其实就是将分类特征替换为对应目标值的后验概率。比如以下例子:



第三列编码值的计算过程其实很简单,比如说cat出现次数是5次,5次中target是1的次数有2次,因为编码值为0.4 。


import pandas as pd
from category_encoders import TargetEncoder

encoder = TargetEncoder()
df['Encoded Animal '] = encoder.fit_transform(df['Animal'], df['Target'])

参考:https://medium.com/analytics-vidhya/target-encoding-vs-one-hot-encoding-with-simple-examples-276a7e7b3e64

相关文章

  • 机器学习中的常用编码方式(二)

    1). Count EncodingCount encoding是将分类特征替换为它们的出现次数,比如某个分类中'...

  • 机器学习中的常用编码方式(一)

    在建模的时候,有时各个feature不是数值型或者连续数值分类,这种情况下需要对这些特征值进行编码,sklearn...

  • 用Numpy快速实现one_hot编码标签

    机器学习的分类问题,常用one_hot编码方式做为标签;经常会需要将连续的整型标签值转化为one_hot编码标签,...

  • ROS机器人底盘(5)-编码器基础

    对机器人实现位置和速度的控制需要使用传感器获取机器人运动的信息,编码器是常用的方式。常见的编码器有增量式编码器和绝...

  • BASE64编码简介

      BASE64是一种编码方式,通常用于把二进制数据编码为可写的字符形式的数据。这是一种可逆的编码方式。  编码后...

  • 数字证书

    数字证书 一、 知识储备 编码方式 DER 和 PEM 为文件编码方式! 文件格式 二、常用命令 1. 创建数字...

  • BASE64

    BASE64 是一种编码方式,通常用于把二进制数据编码为可写的字符形式的数据。这是一种可逆的编码方式。编码后的数据...

  • Laravel项目中使用mysql存储emoji表情乱码的问题

    在mysql中存储中文时通常用UTF8的编码方式,而用此编码方式存储emoji表情时,会出现乱码或插入失败,原因是...

  • 独热编码(One-Hot Encoding)

    机器学习 数据预处理之独热编码(One-Hot Encoding) 问题由来 在很多机器学习任务中,特征并不总是连...

  • 2019-03-31

    《机器学习》-自编码器

网友评论

      本文标题:机器学习中的常用编码方式(二)

      本文链接:https://www.haomeiwen.com/subject/nusbuktx.html