机器学习很神秘，入门Python神经机器翻译！这篇最适合新手学习

机器学习很神秘，入门Python神经机器翻译！这篇最适合新手学习

作者: 919b0c54458f | 来源:发表于2018-07-09 14:59 被阅读3次

机器学习很神秘，入门Python神经机器翻译！这篇最适合新手学习
神经机器翻译概览：基准模型与改进（上）
不能运行premade_estimator.py文件
通过学习对齐翻译的神经机器翻译
[机器学习入门] 李宏毅机器学习笔记-11（Convolutio
搭建python机器学习环境以及一个机器学习例子
最全python学习资料手册，总计200多页，上海交大整理
第四次打卡-2020-02-17
智联Python相关职位的数据分析及可视化-Excel篇
Python基础（一）

加载库

作者使用 help.py 加载数据，同时使用 project_test.py 测试函数。

数据

该数据集包含一个相对较小的词汇表，其中 small_vocab_en 文件包含英文语句，small_vocab_fr 包含对应的法文翻译。

预处理

我们将使用以下预处理方法将文本转化为整数序列：

1. 将词转化为 id 表达；

2. 加入 padding 使得每个序列一样长。

Padding

通过使用 Keras 的 pad_sequences 函数在每个序列最后添加零以使得所有英文序列具有相同长度，所有法文序列具有相同长度。

预处理流程

实现预处理函数：

模型

在本节中，我们将尝试各种神经网络结构。我们将训练 4 个相对简单的结构作为开始：

模型 1 是一个简单的 RNN；

模型 2 是一个带词嵌入的 RNN；

模型 3 是一个双向 RNN；

模型 4 是两个 RNN 组成的编码器—解码器架构。

模型 1：RNN

我们构建一个基础的 RNN 模型，该模型是将英文翻译成法文序列的良好基准。

基础 RNN 模型的验证集准确度是 0.6039。

模型 2：词嵌入

词嵌入是在 n 维空间中近义词距离相近的向量表示，其中 n 表示嵌入向量的大小。我们将使用词嵌入来构建一个 RNN 模型。

嵌入式模型的验证集准确度是 0.8401。

模型 3：双向 RNN

双向 RNN 模型的验证集准确度是 0.5992。

模型 4：编码器—解码器框架

编码器构建一个语句的矩阵表示，而解码器将该矩阵作为输入并输出预测的翻译。

编码器—解码器模型的验证集准确度是 0.6406。

模型 5：自定义深度模型

构建一个将词嵌入和双向 RNN 合并到一个模型中的 model_final。

预测

def final_predictions(x, y, x_tk, y_tk):

tmp_X = pad(preproc_english_sentences)

model = model_final(tmp_X.shape,

preproc_french_sentences.shape[1],

len(english_tokenizer.word_index)+1,

len(french_tokenizer.word_index)+1)

model.fit(tmp_X, preproc_french_sentences, batch_size = 1024, epochs = 17, validation_split = 0.2)

y_id_to_word = {value: key for key, value in y_tk.word_index.items()}

y_id_to_word[0] = ''

sentence = 'he saw a old yellow truck'

sentence = [x_tk.word_index[word] for word in sentence.split()]

sentence = pad_sequences([sentence], maxlen=x.shape[-1], padding='post')

sentences = np.array([sentence[0], x[0]])

predictions = model.predict(sentences, len(sentences))

print('Sample 1:')

print(' '.join([y_id_to_word[np.argmax(x)] for x in predictions[0]]))

print('Il a vu un vieux camion jaune')

print('Sample 2:')

print(' '.join([y_id_to_word[np.argmax(x)] for x in predictions[1]]))

print(' '.join([y_id_to_word[np.max(x)] for x in y[0]]))

final_predictions(preproc_english_sentences, preproc_french_sentences, english_tokenizer, french_to

我们得到了语句完美的翻译同时验证集准确度是 0.9776！

进群：125240963 即可获取数十套PDF哦！

相关文章

机器学习很神秘，入门Python神经机器翻译！这篇最适合新手学习
加载库作者使用 help.py 加载数据，同时使用 project_test.py 测试函数。数据该数据集包...
神经机器翻译概览：基准模型与改进（上）
下篇：神经机器翻译概览：基准模型与改进（下）介绍一下当前机器翻译领域很火的神经机器翻译(Neural Machi...
不能运行premade_estimator.py文件
按照机器学习新手使用入门运行示例程序：错误： python: can't open file 'premade_...
通过学习对齐翻译的神经机器翻译
神经机器翻译是最近提出的机器翻译方法。与传统的统计机器翻译不同，神经机器翻译的目的是建立一个单一的神经网络，可以联...
[机器学习入门] 李宏毅机器学习笔记-11（Convolutio
[机器学习入门] 李宏毅机器学习笔记-11（Convolutional Neural Network；卷积神经网络...
搭建python机器学习环境以及一个机器学习例子
搭建python机器学习环境以及一个机器学习例子这篇文章介绍了Python机器学习环境的搭建，我用的机器学习开源...
最全python学习资料手册，总计200多页，上海交大整理
这是入门学习Python之前的学习资料，非常全面，从Python基础、到web开发、数据分析、机器学习、深度学习、...
第四次打卡-2020-02-17
学习笔记一、机器翻译及相关技术机器翻译（MT）将一段文本从一种语言自动翻译为另一种语言，用神经网络解决这个问...
智联Python相关职位的数据分析及可视化-Excel篇
碎碎念：数据分析、数据挖掘、机器学习、神经网络、深度学习，这些五花八门的名词貌似逼格满满，初入门的新手（譬如我...
Python基础（一）
随着机器学习、神经网络的大火，Python语言也进入新的发展阶段。这篇主要介绍Python使用中最基本的语法元...

网友评论

大数据爬虫Python AI Sql

本文标题：机器学习很神秘，入门Python神经机器翻译！这篇最适合新手学习

本文链接：https://www.haomeiwen.com/subject/fyftpftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

大数据爬虫Python AI Sql

热点阅读

大数据爬虫Python AI Sql

关于我们|服务条款|联系我们|机器学习很神秘，入门Python神经机器翻译！这篇最适合新手学习|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！