美文网首页
这是我的影评,你猜我喜不喜欢这部电影(二)

这是我的影评,你猜我喜不喜欢这部电影(二)

作者: 401a26360366 | 来源:发表于2018-01-24 21:08 被阅读0次

在写完上一篇文章之后,我了解到了Word Embeddings。出于好奇,我试着用一份已经训练好的GloVe word vectors给XGBoost加入了新特征,看看加入这些特征之后模型的预测效果会不会提升。

这篇文章简单记录一下这次尝试的结果。

这些新特征,具体是这样计算的:

  1. 给文本做tokenization
  2. 基于这个现有的(50维的)word vectors,将每一份文本向量化(50维)
  3. 用SVD将维度降至10维,把这10维数据加入到原有训练集中进行训练

也就是说,和上一次相比,这一次我的训练集多了10个新特征。

在没有进行精细调参的情况下,(测试集)结果相当感人:

  • LogLoss:0.41(原本为0.43)
  • AUC of ROC curve:0.896(原本为0.88)

ROC曲线对比图如下:

001 - 两个模型的ROC曲线对比图

新模型(橙色)明显优于旧模型(蓝色)。

再来看看XGBoost返回的特征重要程度排名:

002 - 新模型下的特征重要程度排名

排在前4位的,有2个是这次新加入的特征。

最后在来看一下新模型下的confusion matrix(threshold = 0.48):

003 - 新模型下的confusion matrix

测试集中共有300份影评,其中正面影评共有161份,负面影评共139份。在这些正面的影评中,有80.7%份影评被正确识别(TPR);在这些负面的影评中,有81.3%份影评被正确识别(TNR)。换句话说,在TNR相似的情况下,TPR显著提升了。

被word vectors惊艳到了。

以上。

相关文章

  • 这是我的影评,你猜我喜不喜欢这部电影(二)

    在写完上一篇文章之后,我了解到了Word Embeddings。出于好奇,我试着用一份已经训练好的GloVe wo...

  • 这是我的影评,你猜我喜不喜欢这部电影

    前言 最近拿了一份IMDb影评数据做练习,对(英文的)自然语言处理(Natural Language Proces...

  • 请以你的名字呼唤我

    如果你看过这部电影,希望我的影评能够带给你一些思考。如果你没看过这部电影,希望看过影评后能激起你看这部电影的兴趣。...

  • 我家的《小妇人》

    看《小妇人》这部电影是很娱乐的,情绪波澜不惊,在写影评时,定义它为“喜大普奔”的电影,这是我的情绪点,因为也只是做...

  • 傲慢与偏见观后感

    这是我第二次看完电影过来写影评的,因为第一次看这部电影时,我没有看懂,觉得电影的节奏很快,自己跟不上,当看...

  • 《半个喜剧》:孙同才是真正的渣男

    1 我拿你当兄弟,你把我当跳板 因为疫情的原因,看了很多没看过的电影,想写影评的,感触最深的,也就是这部《半个喜...

  • 你的名字

    对于这部电影,我反反复复刷了好几遍,也看了豆瓣上的影评。 豆瓣热门影评似乎对这部电影评价不太高,但这部作品在我的心...

  • 在电影中寻找绝美自然之《无主之作》

    其实我是不爱写影评的,每个人看电影的关注点都是不一样。可能我没有认识写到影评的价值在哪里。我不喜欢写影评就像我不喜...

  • 从《驴得水》看人性

    用了两个小时的时间,看完了《驴得水》这部电影。在看这部电影之前,我特意看了些关于这部电影的影评,毕竟这是一部评价非...

  • 安心

    不知道你喜不喜欢我的时候,我总是要去猜你喜不喜欢我,知道你不喜欢我以后,就安心多了,因为再也没有那么多不确定啦,不...

网友评论

      本文标题:这是我的影评,你猜我喜不喜欢这部电影(二)

      本文链接:https://www.haomeiwen.com/subject/yqkpaxtx.html