聊天机器人-表示学习

作者: 魏鹏飞 | 来源:发表于2019-10-19 21:29 被阅读0次

聊天机器人-表示学习
Python微信公众号后台开发<005>：集成智能聊天机器人
聊天机器人分类
使用TensorFlow实现Sequence to Sequen
用 TensorFlow 做个聊天机器人
可汗精读《自然语言处理实践》01聊天机器人概述
什么是聊天机器人
学习笔记：《如何打造你自己的聊天机器人》系列课程1/2讲
七种功能强大的聊天机器人平台
聊天机器人入门篇

1. 文本表示

1.1 Word Representation
词典：[我们，去，爬山，今天，你们，昨天，跑步]

每个单词的表示：(One-Hot Representation)

我们：(1,0,0,0,0,0,0) --> 7维 = |词典|
爬三：(0,0,1,0,0,0,0) --> 7维 = |词典|
跑步：(0,0,0,0,0,0,1) --> 7维 = |词典|
昨天：(0,0,0,0,0,1,0) --> 7维 = |词典|

1.2 Sentence Representation (boolean)
词典：[我们，又，去，爬山，今天，你们，昨天，跑步]

每个句子的表示

我们今天去爬山：(1,0,1,1,1,0,0,0) --> 8维 = |词典|
你们昨天跑步：(0,0,0,0,0,1,1,1) --> 8维 = |词典|
你们又去爬山又去跑步：(0,1,1,1,0,1,0,1) --> 8维 = |词典|

1.3 Sentence Representation (count)
词典：[我们，又，去，爬山，今天，你们，昨天，跑步]

每个句子的表示

我们今天去爬山：(1,0,1,1,1,0,0,0) --> 8维 = |词典|
你们昨天跑步：(0,0,0,0,0,1,1,1) --> 8维 = |词典|
你们又去爬山又去跑步：(0,2,2,1,0,1,0,1) --> 8维 = |词典|

2. 文本相似度

2.1 计算距离（欧氏距离）: d = |s1 - s2|
S1：“我们今天去爬山” = (1,0,1,1,0,0,0,0)
S2：“你们昨天跑步” = (0,0,0,0,0,1,1,1)
S3：“你们又去爬山又去跑步” = (0,2,2,1,0,1,0,1)

计算：
$d(S1,S2)=\sqrt{1^2+1^2+1^2+1^2+1^2+1^2}=\sqrt{6}$
$d(S1,S3)=\sqrt{1^2+2^2+1^2+1^2+1^2}=\sqrt{8}$
$d(S2,S3)=\sqrt{2^2+2^2+1^2+1^2}=\sqrt{10}$

结论：
sim(S1,S2)>sim(S1,S3)>sim(S2,S3)

2.2 计算相似度（余弦相似度）: d = (s1 * s2) / (|s1| * |s2|)
S1：“我们今天去爬山” = (1,0,1,1,0,0,0,0)
S2：“你们昨天跑步” = (0,0,0,0,0,1,1,1)
S3：“你们又去爬山又去跑步” = (0,2,2,1,0,1,0,1)

计算：
$d(S1,S2)=0/A = 0$
$d(S1,S3)=\frac{2+1}{\sqrt{3}*\sqrt{11}}=\frac{3}{\sqrt{33}}$
$d(S2,S3)=\frac{2}{\sqrt{3}*\sqrt{11}}=\frac{2}{\sqrt{33}}$

结论：
sim(S1,S3)>sim(S2,S3)>sim(S1,S2)

2.3 句子相似度思考

句子1：He is going from Beijing to Shanghai
句子2：He denied my request, but he actually lied
句子3：Mike lost the phone, and phone was in the car
句子1：(0,0,1,0,0,0,1,1,1,0,1,0,0,0,0,0,0,1,0,1,0)
句子2：(1,0,0,1,0,`1`,0,0,`2`,0,0,1,0,0,1,0,1,0,0,0,0)
句子3：(0,1,0,0,1,0,0,0,0,1,0,0,1,1,0,2,0,0,2,0,1)
并不是出现的越多就越重要!
并不是出现的越少越不重要!

3. Tf-idf Representation

tfidf(w) = tf(d,w) * idf(w)
tf(d,w)：文档d中w的词频。
idf(w)： $log\frac{N}{N(w)}$ 考虑单词的重要性。

N：语料库中的文档总数
N(w)：词语w出现在多少个文档？

词典：[今天,上,NLP,课程,的,有,意思,数据,也] \|词典\|=9
句子1：今天上 NLP 课程
句子1：( $\frac{1}{4}log\frac{3}{2},\frac{1}{4}log\frac{3}{1},\frac{1}{4}log\frac{3}{1},\frac{1}{4}log\frac{3}{3},0,0,0,0,0$ )
句子2：今天的课程有意思
句子2：( $\frac{1}{5}log\frac{3}{2},0,0,\frac{1}{5}log\frac{3}{3},\frac{1}{5}log\frac{3}{1},\frac{1}{5}log\frac{3}{2},\frac{1}{5}log\frac{3}{2},0,0$ )
句子3：数据课程也有意思
句子3：( $0,0,0,\frac{1}{5}log\frac{3}{3},0,\frac{1}{5}log\frac{3}{2},\frac{1}{5}log\frac{3}{2},\frac{1}{5}log\frac{3}{1},\frac{1}{5}log\frac{3}{1}$ )

上面的单词表示与句子表示的语义相似度有什么问题呢？

one-hot表示法无法表示单词相似度。
都是稀疏的(Sparsity)。

4. 分布式表示(Distributed Representation)

One-Hot表示 vs 分布式表示

4.1 两个问题
Q: 100维的One-Hot表示法最多可以表达多少个不同的单词？

答案：100个单词！

Q：100维的分布式表示法最多可以表达多少个不同的单词？

答案： $+\infty$ 个不同的单词！

4.2 如何学习分布式(词向量)表示呢？

学习分布式表示

4.3 Essence of Word Embedding
向量表示语义。

词向量

4.4 From Word Embedding to Sentence Embedding

单词向量求句子向量

每个单词向量加起来求平均；
每个单词向量(100dim)连接起来(30*100dim)；
......等。

5. 倒排表

5.1 思考

复杂度高

核心思路：“层次过滤思想”

N非常大时

应用过滤器时

过滤器实现：可使用倒排表技术

倒排表实例

参考文献

自然语言处理实战
数学之美（第二版）
智能问答与深度学习

聊天机器人-表示学习
1. 文本表示 1.1 Word Representation词典：[我们，去，爬山，今天，你们，昨天，跑步] 每...
Python微信公众号后台开发<005>：集成智能聊天机器人
给公众号集成一个智能聊天机器人一、前述 ChatterBot是一个基于机器学习的聊天机器人引擎，构建在pyth...
聊天机器人分类
从聊天机器人是否智能来分的话，可以分为脚本型聊天机器人和智能聊天机器人。脚本型聊天机器人它们其实也被称为快速回...
使用TensorFlow实现Sequence to Sequen
聊天机器人我们说的聊天机器人是指智能聊天机器人。现在主要用在对话系统(Dialogue Systems)，问答系...
用 TensorFlow 做个聊天机器人
上一次提到了不错的学习聊天机器人的资源，不知道小伙伴们有没有去学习呢。自己动手做聊天机器人教程我最近每天都会学一点...
可汗精读《自然语言处理实践》01聊天机器人概述
聊天机器人概述聊天机器人的发展历史通过自然语言模拟人类，进而与人进行对话的程序聊天机器人溯源及发展 1950...
什么是聊天机器人
什么是聊天机器人？What is ChatBoot？聊天机器人的应用目前机器人还是存在于固定领域，业务型的机器...
学习笔记：《如何打造你自己的聊天机器人》系列课程1/2讲
以下笔记整理自《如何打造你自己的聊天机器人》系列课程之第一讲《聊天机器人的前世今生》第二讲《聊天机器人的关键技...
七种功能强大的聊天机器人平台
摘要：本文主要介绍了七种功能强大的聊天机器人开发平台的特点与优点。聊天机器人发布平台是用户访问和使用聊天机器人的...
聊天机器人入门篇
分享几个介绍聊天机器人的相关文章，链接如下： 1.干货篇：一文看懂聊天机器人所有猫腻 2.多轮对话聊天机器人开发也...