朴素贝叶斯算法进行NLP初试

作者: fred_33c7 | 来源:发表于2019-07-25 21:07 被阅读0次

朴素贝叶斯算法进行NLP初试
朴素贝叶斯算法介绍及优化
算法笔记（7）-朴素贝叶斯算法及Python代码实现
基于Spark的机器学习实践 (八) - 分类算法
04 贝叶斯算法 - 贝叶斯网络
《机器学习实战》读书笔记4
朴素贝叶斯算法
从头开始实现朴素贝叶斯算法
从头开始实现朴素贝叶斯算法
一文学会朴素贝叶斯并且从头开始用 Python 实现朴素贝叶斯算

朴素贝叶斯算法是NLP领域常用的一种算法模型，这里我们用一个简单的例子来看看怎么样用他来进行一个NLP的分类例子。(偏向实用，如果要想了解算法原理的话，另外搜索学习)

跟常见的模型建立一样，主要有一下几个步骤：

数据的预处理
数据集分类标记
特征提取与建立模型并训练
进行测试

这次我用了sklearn来进行这个简单的小例子，有两个文本集，hotel和travel，一个文本集全是各种宾馆，一个文本集都是旅游信息

具体的代码如下：

import os
import jieba
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.externals import joblib
import time

"""
1.数据的预处理
"""


def preprocess(path):
    text_with_space = ""
    textfile = open(path, "r", encoding="utf8").read()
    textcute = jieba.cut(textfile)
    for word in textcute:
        text_with_space += word + " "
    return text_with_space


"""
2. 数据集分类标记
"""


def loadtrainset(path, classtag):
    allfiles = os.listdir(path)
    processed_textset = []
    allclasstags = []
    for thisfile in allfiles:
        # print(thisfile)
        path_name = path + "/" + thisfile
        processed_textset.append(preprocess(path_name))
        allclasstags.append(classtag)
    return processed_textset, allclasstags


processed_textdata1, class1 = loadtrainset("/Users/fengyang/PycharmProjects/NLP/dataset/train/hotel", "宾馆")
processed_textdata2, class2 = loadtrainset("/Users/fengyang/PycharmProjects/NLP/dataset/train/travel", "旅游")

train_data = processed_textdata1 + processed_textdata2
classtags_list = class1 + class2
# 对文本中的词语转换
count_vector = CountVectorizer()
vecot_matrix = count_vector.fit_transform(train_data)

"""
3. 特征提取与训练
"""
# TFIDF
# 提取特征
train_tfidf = TfidfTransformer(use_idf=False).fit_transform(vecot_matrix)
# 特征训练
clf = MultinomialNB().fit(train_tfidf, classtags_list)
"""
4. 测试
"""
testset = []

path = "/Users/fengyang/PycharmProjects/NLP/dataset/test/hotel"
allfiles = os.listdir(path)

hotel = 0
travel = 0

for thisfile in allfiles:
    path_name = path + "/" + thisfile
    new_count_vector = count_vector.transform([preprocess(path_name)])
    new_tfidf = TfidfTransformer(use_idf=False).fit_transform(new_count_vector)
    predict_result = clf.predict(new_tfidf)
    print(predict_result)
    print(thisfile)

    if (predict_result == "宾馆"):
        hotel += 1
    if (predict_result == "旅游"):
        travel += 1

print("宾馆" + str(hotel))
print("旅游" + str(travel))

结果：

['宾馆']
三亚市春节宾馆房价不乱涨价违者将受到严处_seg_pos.txt
['宾馆']
住宿-宾馆名录_seg_pos.txt
['宾馆']
nj7_seg_pos.txt
['宾馆']
dali09_seg_pos.txt
['宾馆']
bj6_seg_pos.txt
['宾馆']
xm7_seg_pos.txt
['宾馆']
dujiangyan09_seg_pos.txt
['宾馆']
wuyishan12_seg_pos.txt
['宾馆']
zhuhai06_seg_pos.txt
['宾馆']
kuerle01_seg_pos.txt
['宾馆']
xm3_seg_pos.txt
宾馆11
旅游0

通过结果我们看到，所有的测试本文，一种11个，全部正确。

具体代码和数据集地址：https://github.com/fredfeng0326/NLP/tree/master/nb_test

朴素贝叶斯算法进行NLP初试
朴素贝叶斯算法是NLP领域常用的一种算法模型，这里我们用一个简单的例子来看看怎么样用他来进行一个NLP的分类例子。...
朴素贝叶斯算法介绍及优化
朴素贝叶斯（Naive Bayes）贝叶斯公式朴素贝叶斯算法其实原理很简单，要理解朴素贝叶斯算法我们首先得知道...
算法笔记（7）-朴素贝叶斯算法及Python代码实现
朴素贝叶斯算法有三种类型，分别是贝努利朴素贝叶斯、高斯贝叶斯、多项式朴素贝叶斯。贝叶斯公式贝努利朴素贝叶斯适...
基于Spark的机器学习实践 (八) - 分类算法
0 相关源码 1 朴素贝叶斯算法及原理概述 1.1 朴素贝叶斯简介 ◆ 朴素贝叶斯算法是基于贝叶斯定理和特征条件...
04 贝叶斯算法 - 贝叶斯网络
01 贝叶斯算法 - 朴素贝叶斯02 贝叶斯算法 - 案例一 - 鸢尾花数据分类03 贝叶斯算法 - 案例二 - ...
《机器学习实战》读书笔记4
朴素贝叶斯算法概述简单的说，朴素贝叶斯算法是基于概率论的分类方法。有时候，使用概率进行分类比使用硬规则进行分类更...
朴素贝叶斯算法
问题 1. 什么是朴素贝叶斯 2. 怎么理解贝叶斯公式和朴素贝叶斯公式 3. 朴素贝叶斯算法流程是怎样...
从头开始实现朴素贝叶斯算法
一文学会朴素贝叶斯并且从头开始用 Python 实现朴素贝叶斯算法朴素贝叶斯算法是简单并且有效的算法，而且应该是...
从头开始实现朴素贝叶斯算法
一文学会朴素贝叶斯并且从头开始用 Python 实现朴素贝叶斯算法朴素贝叶斯算法是简单并且有效的算法，而且应该是...
一文学会朴素贝叶斯并且从头开始用 Python 实现朴素贝叶斯算
一文学会朴素贝叶斯并且从头开始用 Python 实现朴素贝叶斯算法朴素贝叶斯算法是简单并且有效的算法，而且应该是...

朴素贝叶斯算法进行NLP初试

具体代码和数据集地址：https://github.com/fredfeng0326/NLP/tree/master/nb_test

相关文章

朴素贝叶斯算法进行NLP初试

朴素贝叶斯算法介绍及优化

算法笔记（7）-朴素贝叶斯算法及Python代码实现

基于Spark的机器学习实践 (八) - 分类算法

04 贝叶斯算法 - 贝叶斯网络

《机器学习实战》读书笔记4

朴素贝叶斯算法

从头开始实现朴素贝叶斯算法

从头开始实现朴素贝叶斯算法

一文学会朴素贝叶斯并且从头开始用 Python 实现朴素贝叶斯算

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

深度学习-推荐系统-CV-NLP

机器学习笔记

大数据，机器学习，人工智能

机器学习与数据挖掘

Python建模与NLP

自然语言处理（NLP）