美文网首页
用户输入语料——>用户商业兴趣

用户输入语料——>用户商业兴趣

作者: 东方清fly | 来源:发表于2018-07-26 20:43 被阅读15次

    对于用户和广告、用户和新闻、是如何联系起来的,现在的网友们应该都不陌生,毕竟互联网现在到处弥漫着个性化推荐的味嘛!那么它们之间究竟是怎么联系的呢?白话说,就是词与词的关系,A用户输入了一个“去哪儿”,“去哪儿”是做旅游的,那么我们就可以定位A对“旅游”有兴趣,且喜欢用“去哪儿”。

    什么是输入语料呢?

    所谓“商业兴趣”,就是指用户对广告类别的兴趣,通过定位用户的商业兴趣,去给用户推送他感兴趣的广告,就可以等着money进口袋了。但是用户那么多,兴趣分散且各异,我们如何给兴趣归类是个问题,所以我们得首先有个兴趣标签库呀!

    NO.1 建立商业兴趣标签库:

    DF结合自家产品情况,整理了覆盖20个商业兴趣类别的标签库,格式大致如下:

    商业标签结构示意

    NO.2 机器计算用户的商业兴趣

    ①计算语料关键词与种子词的向量分

    DF将***商业兴趣结构提供给技术后,技术结合原有词库(机器从众多用户输入语料和新闻语义中学习,从而判断词与词之间的相关性)中,词与词之间的相关性,给从用户语料中提取出的关键词打向量分。

    机器给语料关键词打分流程

    ②计算二级标签综合得分

    二级标签得分 = A种子词的向量分*次数 + B种子词的向量分*次数+……

    关键词与种子词向量分截图

    ③验证机器计算商业标签的准确性

    为了方便人工进行评测,经过观察,我们敲定,选取每个用户的top 10二级标签、每个二级标签下种子词直接向量分top 10。

    通过人工对多个语料的分析,制定评测标准,结合用户语料中表现的商业兴趣取向,评测机器商业标签的准确性。(评测标准暂时不在此处上传,后期时机合适再上传)。

    如机器的top10二级标签中,有3个是在用户输入语料中能看出来的,则机器商业标签准确率为40%。

    大致流程就是这样了,写的比较粗,后续再完善。

    相关文章

      网友评论

          本文标题:用户输入语料——>用户商业兴趣

          本文链接:https://www.haomeiwen.com/subject/ldtimftx.html