美文网首页
机器学习的一个简单实际应用场景

机器学习的一个简单实际应用场景

作者: 姚小白少校 | 来源:发表于2017-10-30 23:29 被阅读40次

文件推荐:让外部渠道过来的用户通过推荐算法浏览更多文件,放大导流效果。

模块1:记录行为数据

从浏览器过来的流量,每一个都要按照算法计算一个独立的id,以便区用户。

未登录情况:记录独立id,设备码,浏览器

已登录或来访后登录:合并uid和独立id

对流量做好标记后,详细记录用户访问行为数据。

包括:浏览时间,浏览设备,浏览项目,跳转项目,跳转次数,访问时长等

模块二:处理文件

将库内所有可解析的文件转化成TXT,这是预处理(称:向量化),将所有TXT变成一个大集合。

同一分类下的文件集合,词语会有非常高的重合度。

预先将重合度高的文件分到不同集合内,相当于对文件进行一次聚类。

1、当进来一个新文件,预处理过后,进行词语拟合;可以初步判定文件归属于哪一类。

2、当用户访问一个文件,我们可以在集合内调取相似度最高的几个文件,实时展示给用户,提高接受度。

这个模块的弊端是,很可能会针对用户的某一个兴趣反复推荐同一批文件给用户。

1、这里是否可以通过其他推荐方法,推荐除了这个兴趣以外的文件以保证结果多样性,从而探索用户的新兴趣?

2、对这个模块筛选出来的结果,应针对浏览行为进行排重,不用让用户阅读他已经看过的内容。

模块三:从用户到文件

模块一记录了用户的访问数据。可以认为,用户的“口味”在一定时间内是保持统一的。

那么,通过用户浏览行为可以智能补充模块二计算不出来的文件。

假设用户1和用户2浏览了8个相似文件,用户2额外浏览了2个文件。

此时,可以把用户2额外浏览的,推荐给用户1。

具体数值和规则都需要要测算和调整。

另外还要注意模块二和模块三之间的数据排重,用户浏览记录的排重。

数据量越大推荐结果越权威。

补充:以上模块中可参考的文本处理方法

局部敏感哈希(Locality-Sensitive Hashing, LSH)

TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术

H5 FingerprintJS 浏览器指纹

Word2Vector  句子相似度

相关文章

  • 机器学习的一个简单实际应用场景

    文件推荐:让外部渠道过来的用户通过推荐算法浏览更多文件,放大导流效果。 模块1:记录行为数据 从浏览器过来的流量,...

  • 机器学习问题

    应用机器学习来解决实际场景的问题,通常要把实际应用场景的需求,转化为对一个可微函数的梯度下降求最优解的数学问题。 ...

  • python数据分析与机器学习(Numpy,Pandas,Mat

    机器学习怎么学? 机器学习包含数学原理推导和实际应用技巧,所以需要清楚算法的推导过程和如何应用。 深度学习是机器学...

  • RDD

    1.RDD设计背景 在实际应用中,存在许多迭代式算法(比如机器学习、图算法等)和交互式数据挖掘工具,这些应用场景的...

  • 一个完整机器学习项目流程总结

    现在机器学习应用越来越流行,了解机器学习项目的流程,能帮助我们更好的使用机器学习工具来处理实际问题。 1 理解实际...

  • 浅谈机器学习分类算法

    目前随着人工智能的发展,机器学习的应用领域日益宽泛,各种机器学习适应不同的应用场景,而机器学习差别的关键点之一就在...

  • 机器学习的发展史

    关于机器学习的详细内容:机器学习入门:概念原理及常用算法 (本课程主要讲解机器学习的概念、原理和应用场景,以及机器...

  • Logistic Regression 模型简介(美团点评)

    逻辑回归(Logistic Regression)是机器学习中的一种分类模型,由于算法的简单和高效,在实际中应用非...

  • 【ML】机器学习算法应用场景实例六十则

    本文整理了60个机器学习算法应用场景实例,含分类算法应用场景20个、回归算法应用场景20个、聚类算法应用场景10个...

  • 机器学习模型迭代方法(总结)

    模型迭代方法 机器学习模型在实际应用的场景,通常要根据新增的数据下进行模型的迭代,常见的模型迭代方法有以下几种: ...

网友评论

      本文标题:机器学习的一个简单实际应用场景

      本文链接:https://www.haomeiwen.com/subject/jhcvpxtx.html