情感分析
算法大体步骤见:https://github.com/chaoming0625/FineGrainedOpinionMining
现在大致介绍一下代码:
代码结构
代码结构如上图所示:
code:存放所有的代码
init.py:python 初始化文件,不用管;
common_lib.py:提供项目中常用的方法,如公共文件路径、分词等;
corpus.py:提供语料处理方法,其中GetToTagCorpus用于对原始需要进行人工标记的语料进行处理,输出数据用于人工标记;GetTaggedCorpus对人工标记的数据进行处理,得到用于后续处理的数据,即将人工标记为 E、P、N的数据处理为标记为I-E、B-E、M-E的数据;BootstrappingMaster用于扩充语料;
标签对照表
HMM.py:训练隐马尔可夫模型,得到模型所需的各种概率,并写入数据文件hmm_data中;
main.py:入口程序,analysis_sentence:对句子进行情感判别;first_use_function:首次使用模型时,需要先训练模型,然后再使用模型进行情感分析;not_first_use_function:非首次使用模型时,可以直接用训练好的模型进行情感分析;
pre_process.py:预处理操作
sentiment_analysis.py:句子情感分类
data:存放数据
corpus:语料数据
bootstrapping_corpus.txt:用于采用 bootstrapping 算法扩充预料时的数据集;
train_corpus.txt:训练数据集;
user_dict.txt:用户词典
hmm_data:HMM 模型训练得到的数据
tags:训练得到的标签数据
网友评论