美文网首页
one-hot编码小例子

one-hot编码小例子

作者: 涓涓自然卷 | 来源:发表于2021-03-29 15:12 被阅读0次

一、例子:将词汇列表{"周杰伦","陈奕迅","王力宏","李宗盛","吴亦凡","鹿晗"}进行onehot编码并保存:

1、编写脚本:vim one-hot-test.py

# 导入用于对象保存和加载的包
from sklearn.externals import joblib
# 导入keras中的词汇映射器Tokenizer
from keras.preprocessing.text import Tokenizer

# 初始化一个词汇表
vocab = {"周杰伦","陈奕迅","王力宏","李宗盛","吴亦凡","鹿晗"}

# 实例化一个词汇映射器
t = Tokenizer(num_words=None, char_level=False)

# 在映射器上你和现有的词汇表
t.fit_on_texts(vocab)

# 循环遍历词汇表,将每一个单词映射为one-hot张量表示
for token in vocab:
    # 初始化一个全零向量
    zero_list = [0] * len(vocab)
    # 使用映射器转化文本数据,每个词汇对应从1开始
    token_index = t.texts_to_sequences([token])[0][0] -1
    # 将对应的位置复制为1
    zero_list[token_index] = 1
    print(token, "的one-hot编码为:", zero_list)

# 将拟合好的词汇映射器保存起来
tokenizer_path = "./Tokenizer"
joblib.dump(t, tokenizer_path)

2、python one-hot-test.py 命令执行脚本:

python one-hot-test.py

3、运行结果:

➜ untitled2 python one-hot-test.py
周杰伦 的one-hot编码为: [1, 0, 0, 0, 0, 0]
王力宏 的one-hot编码为: [0, 1, 0, 0, 0, 0]
鹿晗 的one-hot编码为: [0, 0, 1, 0, 0, 0]
吴亦凡 的one-hot编码为: [0, 0, 0, 1, 0, 0]
陈奕迅 的one-hot编码为: [0, 0, 0, 0, 1, 0]
李宗盛 的one-hot编码为: [0, 0, 0, 0, 0, 1]

二、将上一步的保存结果加载应用:

1、编写脚本:vim demo2.py

# 导入用于对象保存于加载的包
from sklearn.externals import joblib
# 将之前已经训练好的词汇映射器加载进来
t = joblib.load("./Tokenizer")

token = "李宗盛"
# 从词汇映射器中得到李宗盛的index
token_index = t.texts_to_sequences([token])[0][0] - 1
# 初始化一个全零的向量
zero_list = [0] * 6
zero_list[token_index] = 1
print(token, "的one-hot编码为:", zero_list)

2、输出结果:

李宗盛 的one-hot编码为: [0, 0, 0, 0, 0, 1]

相关文章

  • one-hot编码小例子

    一、例子:将词汇列表{"周杰伦","陈奕迅","王力宏","李宗盛","吴亦凡","鹿晗"}进行onehot编码并...

  • One-hot与Word2Vec

    one-hot是文本向量化最常用的方法之一。 1.1 one-hot编码 什么是one-hot编码?one-hot...

  • One-Hot编码

    对离散型特征进行one-hot编码是为了让距离的计算显得更加合理。 离散特征进行one-hot编码后,编码后的特征...

  • one hot编码

    一、什么是one-hot编码? One-Hot编码,又称为一位有效编码,主要是采用N位状态寄存器来对N个状态进行编...

  • 多类分割One-hot 编码实现方式(转)

    原链接:数据预处理 One-hot 编码的两种实现方式 1. 什么是 One-hot 编码 最直观的理解就是,比如...

  • 准备数据、构建网络、编译模型

    准备数据 标签向量化 标签向量化有两种方法:1、将标签列表转换为整数张量;2、one-hot 编码。上述例子即为 ...

  • one-hot encoding

    我是搬运工 One-Hot Encoding One-Hot编码,又称为一位有效编码,主要是采用N位状态寄存器来对...

  • one-hot encoding 与dummy encoding

    One-Hot编码和哑变量应该怎么用 考虑一个具有三个类别的离散型特征,采用One-Hot 编码后: 其中 因此有...

  • 特征提取之pd.get_dummies()

    跳转链接 pandas提供对one-hot编码的函数是:pd.get_dummies() one-hot的基本思想...

  • one-hot编码

    原文链接:one-hot编码 微信公众号:机器学习养成记 搜索添加微信公众号:chenchenwings 与上一...

网友评论

      本文标题:one-hot编码小例子

      本文链接:https://www.haomeiwen.com/subject/hosbhltx.html