LiveBot 和 Response to LiveBot：弹幕

作者: 第一个读书笔记 | 来源:发表于2021-06-10 11:42 被阅读0次

LiveBot 和 Response to LiveBot：弹幕
9月，你好
python-requests模块
JavaWeb——Request&Response&am
response入门
Scrapy爬虫框架(八) ------ 模拟登录
请求
2019-06-24—XPATH
Request和Response
Responsability和Response

LiveBot

LiveBot: Generating Live Video Comments Based on Visual and Textual Contexts
LiveBot code: https://github.com/lancopku/livebot

Response to LiveBot: Generating Live Video Comments Based
on Visual and Textual Contexts
OpenNMT-Livebot code: https://github.com/fireflyHunter/OpenNMT-Livebot

LiveBot是微软亚洲研究院2019的文章，2020读过，觉得蛮有趣。前段时间，因缘巧合看了Response to LiveBot [看标题时候，还没意识到是给livebot找bug]，一瞬间又想起了这篇文章。因此放在一起，记录下，便于后面工作应用。

现在很多视频网站都有弹幕功能，方便观看者进行信息交互。LiveBot，俗称弹幕机器人，是基于b站数据，根据视频帧信息及对应的弹幕信息，再生产新弹幕的模型。

LiveBot 4种文本生成任务

图示四种文本生成任务：

image captioning：图文描述，输入视觉信息，输出文本信息；
vision question answering：视觉qa问答，输入视觉信息和文本信息，输出文本信息；
machine translation：机器翻译，输入和输出都是文本信息；
live commenting：LiveBot，输入视觉信息，以及依赖视觉信息的文本信息，输出文本信息。

4和2的最大区别，就是输入文本是否依赖视觉信息，更精确的说，2的输入视觉和文本信息是对齐的，而4的文本信息不仅与当前帧信息对齐，还可能是视频帧之前or之后【比如“前方高能预警”】的信息，或者是对之前弹幕信息的再反馈【比如弹幕的battle】，从逻辑上看更加复杂。

LiveBot的主要贡献

首个做弹幕机器人任务的；
构建了弹幕数据Live Comment Dataset，包含2361个视频及对应的895929条评论信息；
提供了2种融合视频和文本信息的模型方案，fusion RNN和unified transformer model；
提出了检索式retrieval-based的评估方案。

数据构造

数据收集
基于b站的搜索排行，爬取前10页的视频结果。搜索的信息包含宠物，体育，娱乐等19个类目。经过视频去重，过滤短视频，低质视频，以及弹幕少的视频的预处理后，共得到2361个视频。

对每个视频，抓取弹幕，及弹幕出现的时间戳。经过结巴分词后，一共得到895929条【弹幕，对应视频，弹幕出现视频时间戳】信息。

如下图所示，abc为三个时间对应的视觉信息，下面列表为每个弹幕出现的视频时间。比如，48s时，有弹幕“橘猫是短腿吗”。

LiveBot 数据集案例

训练测试数据
为避免过拟合，训练和测试数据中的视频是不重叠的。

LiveBot 训练数据详情

和其他数据集对比

LiveBot 常见文本生成数据集
YouCook和TACos-M-L：厨艺领域的数据集，针对行为描述；
M-VAD和MPII-MD：电影领域的数据集。
表格中的数据集，大部分数据量不大，且都是专有领域的数据，本文收集的数据从数据量，内容多样性，复杂度上，都有优越性。

数据分析

LiveBot 弹幕相似度分析

LiveBot 弹幕长度分布

弹幕文本长度都偏低，大部分都低于5个词or10个字，这个长度的中文满足用户快速传递简短的信息的需求，符合弹幕的特性；
相邻弹幕的相关性分析，对每个评论，选择相邻的20条弹幕，计算他们之间的tfidf，编辑距离，以及人工打分。同时，还对不同时间间隔[小于1s,1-3s, 3-5s,5~10s,大于10s]的评论对进行相关性打分，结果显而易见，时间间隔短的[相邻弹幕]，相关性强于非相邻弹幕。

模型结构

前文提到，LiveBot的弹幕，不仅仅和视频内容有关，还可能和其他弹幕内容有关。当前的弹幕，可以是对当前帧的内容理解，也可能是对之前或者之后视频内容的理解，还可以是和其他弹幕的互动。
对上述复杂的依赖关系，文中提出2种模型架构。

基本定义

type	concept
V	视频
f	视频的一帧
t	对应帧的时间戳
C	围绕这个时间戳的评论集
I	围绕这个时间戳的帧集合

对长视频来说，如果将一整个视频和所有弹幕信息作为输入，不是很合理。因此，文中对一个视频，只输入m个帧信息，以及时间t时的n个评论作为输入。具体可表示为：
视频帧集合： $I = \lbrace{ I_1,I_2,...,I_m\rbrace }$ ，时间间隔为1s
弹幕集合： $C = \lbrace{ C_1,C_2,..,C_n \rbrace }$
输出弹幕token集合： $y = \lbrace { y_1,y_2,..,y_k\rbrace}$
输出的弹幕，时间戳和输入时间戳相近，内容可能和视频相关，或和弹幕相关。

Model1: Fusional RNN Model

LiveBot Fusional RNN Model

Fusional RNN Model由video encoder, text encoder和comment decoder组成。

Video Encoder

m个连续帧信息经过CNN编码后，经过双向LSTM，得到视频信息。

每帧 $I_i$ 经过CNN得到向量 $v_i$ ： $v_i = CNN(I_i)$ ；
m个帧信息视为序列，经过LSTM，得到向量 $h_i$ ： $h_i = LSTM(v_i,h_{i-1})$

Text Encoder

对每个弹幕进行词级别的编码，再进行句子级别的编码。

对弹幕 $C_i$ 分词，经过word-level LSTM： $r_i^j = LSTM(C_i^j,r_i^{j-1})$ ，得到的 $r_i^{L(i)}$ 就是该弹幕的语义信息 $x_i$ ；
将所有的弹幕信息经过sentence-level LSTM后，和视频信息做attention，得到融合文本和视频信息的表达：
$\hat g_i = LSTM(x_i,g_{i-1})$
$g_i = attention(\hat g_i,h)$

Comment Decoder

生成的评论和周围的弹幕及相关的视频信息可以表示为：
$p(y_0,..,y_T|h,g) = \Pi_t p(y_t|y_0,...,y_{t-1},h,g)$

生成的每个词可以表示为：
$\hat s_i = LSTM(y_{i-1},s_{i-1})$
$s_i = Attention(\hat s_i,h,g)$
$p(w_i|w_0,...,w_{i-1},h) = Softmax(Ws_i)$