美文网首页
技术支持业务的机器学习算法实践

技术支持业务的机器学习算法实践

作者: 小小小小小台 | 来源:发表于2018-10-03 11:56 被阅读0次

业务背景:

    随着技术业务的产品化,用户对技术产品的使用过程中存在很多疑问,我们组织应运而生,主要负责技术产品日常过程中的答疑;在答疑过程中会遇到很多对产品有抱怨的用户,这些用户比较大的特征是在会话语料、咨询频次、满意度方面;其他数据层还好,在语料层机器比较难识别,在我所处的案例过程中,我一开始用的是开源的NLP包,snownlp,但是snownlp的切词不够强大,而我们业务过程中又会存在很多的专有名词,仅凭市场上的词典无法很好的做切词处理,需要自己建立词典,所以我这边整合了jieba的切词,和snownlp所用到的贝叶斯分类器对文本进行分类。

数据链路:

    文本切词 -> 去stop word -> 用bag of word模型映射成为词向量 -> 基于朴素贝叶斯的句子分类计算

原理似乎很简单。。。但是在此之前我干了啥。。。因为我是冷场王,发起语料收集之后没人鸟我。。。

    1.不断地从语料里找专有名词

    2.不断地在语料里找各个分类的句子,直到形成每个库都有上千行的语料。。。

成果:

有点小成绩,之前没白干,耶~(以防你们认为我不开心)

技术点:

    · 切词 ---- 一个反复而又繁琐的过程

    这个基本是调用jieba的接口就ok,jieba库支持自己定制词语,然后程序启动的时候load进来就好。

    词典有三列,自己定义的名词,权重,词性

    然后调用jieba的cut方法即可

mvn 100 n

git 100 n

    · 训练贝叶斯分类器

        这个训练过程干了什么事情:1.生成词语图谱向量 2.把切好的词映射成词向量 3.生成分类向量和各个大类的概率 p0V, p1V, pAb(这三个东西组成了分类器的核心)

    解释一下这三个变量背后所代表的意义:

        p1V、p0V(词典里的每个词属于某个类的概率向量)

        pAb(词典里某个类出现的概率)        

    · 朴素贝叶斯分类预测

        有了各个分类向量和分类概率,在加上词典,就可以进行分类预测了嘿嘿

        基于贝叶斯条件概率,加上朴素假设(每个词都是独立变量,这个是简化计算)

def classifyNB(self, vec2Classify):

    if sum(vec2Classify) < 2: # 这里我基于业务做了过滤,因为用户如果只说了一句话,一般不足以构成abusive,当然也会出现用户爆粗的时候只说了一句话,这样的话他前后也会提供了一些abusive的词,所以也不影响预测,这个只是经验处理

        return 0

# 这两行就是基于条件概率的预测,取log是对概率预测做了平滑处理,以防概率为0和概率太小导致的算法预测失效的情况

    p1 = sum(vec2Classify * self.p1Vec) + log(self.pClass1)

    p0 = sum(vec2Classify * self.p0Vec) + log(1.0 - self.pClass1)

    if p1 > p0:

        return 1

    else:

        return 0

相关文章

  • 技术支持业务的机器学习算法实践

    业务背景: 随着技术业务的产品化,用户对技术产品的使用过程中存在很多疑问,我们组织应运而生,主要负责技术产品日...

  • 黑马头条推荐系统

    定位 课程是机器学习(包含推荐算法)算法原理在推荐系统的实践 深入推荐系统的业务流场景、工具使用 作为人工智能的数...

  • 无标题文章

    机器学习实践-K邻近算法 本章内容 - K- 邻近算法概述 -

  • 机器学习 -- 绪论(一)人工智能定义

    课程内容安排 机器学习绪论 Python语言基础 分类算法及应用实践 回归算法及应用实践 聚类算法与关联分析 深度...

  • kaggle博客

    数据挖掘完整流程机器学习基础与实践(一)----数据清洗 10 种机器学习算法的要点(附 Python 和 R 代...

  • 【机器学习实践】kmeans算法实践

    kmeans算法 kmeans算法是一种聚类算法,用于无标签数据的自行归类。讲kmeans的原理有很多,个人参考的...

  • Python K-Means简单实践

    机器学习算法与Python实践这个系列主要是参考《机器学习实战》这本书。因为自己想学习Python,然后也想对一些...

  • Python实践之逻辑回归(Logistic Regressio

    机器学习算法与Python实践这个系列主要是参考《机器学习实战》这本书。因为自己想学习Python,然后也想对一些...

  • 秋招笔记--推荐算法岗

    目录 一、数据结构与算法 二、机器学习基础 三、深度学习基础 四、推荐系统 五、实践经历

  • 机器学习算法收藏

    LeftNotEasy - Wangda Tan//机器学习优秀博客(5.13)朴素贝叶斯分类算法原理与实践(20...

网友评论

      本文标题:技术支持业务的机器学习算法实践

      本文链接:https://www.haomeiwen.com/subject/cnszoftx.html