导入jieba库提取字词特征，使用分类模型解决多新闻分类

作者: 追风少年1899 | 来源:发表于2017-06-28 20:57 被阅读0次

导入jieba库提取字词特征，使用分类模型解决多新闻分类
Arxiv网络科学论文摘要10篇(2019-05-27)
用深度学习模型提取特征
TAGS与分类
分类算法-朴素贝叶斯分类器
IOS直接使用美工给的16位制颜色代码
李航统计学习--第二章感知机perception
利用神经网络进行文本分类算法综述（持续更新中）
编程作业（三）
高光谱遥感笔记2022.4.18

导入jieba库提取字词特征，使用xgboost模型解决多新闻分类

新闻总体分成了8类：结构大致如下：

news.png

导入训练、测试数据

train = pd.read_csv("true_train.csv",encoding="utf-8",sep="\t",header=None)
tset = pd.read_csv("true_test.csv",encoding="utf-8",sep="\t",header=None)
train=train.iloc[:,1:].copy()
test=test.iloc[:,1:].copy()

将一段话切开
jieba教程点这里

def get_words(n,train):
    ttt = train.iloc[n-1:n,:]
    #list(set(train[0]))
    t = ttt[1].values
    t =list(t)[0]
    seg_list = jieba.cut(t,cut_all=True)#全模式
    #seg_list = jieba.cut_for_search(t) #搜索引擎模式s
    z= list(seg_list)
    z= list(set(z))
    return z
def get_words_line(n,train):
    ttt = train.iloc[n-1:n,:]
    #list(set(train[0]))
    t = ttt[1].values
    t =list(t)[0]
    return str(t)

将字典转化为列表：

def dict2list(dic:dict):
    ''' 将字典转化为列表 '''
    keys = dic.keys()
    vals = dic.values()
    lst = [(key, val) for key, val in zip(keys, vals)]
    return lst

数据处理：

class line_word():
    kind_list = ['体育', '汽车', '军事', '科技', '娱乐', '财经', '旅游', '社会']
    def __init__(self,data):
        self.data =data
    def get_1(self):
        t1 = self.data.loc[self.data[0]==line_word.kind_list[0]]
        t1.index=[x for x in range(len(t1))]
        kong1=[]
        for i in range(1,len(t1)+1):
            kong1.extend(get_words(i,t1))
        kong11 = Counter(kong1)
        return sorted(dict2list(kong11), key=lambda x:x[1], reverse=True)
    def get_11(self):
        t1 = self.data.loc[self.data[0]==line_word.kind_list[0]]
        t1.index=[x for x in range(len(t1))]
        kong1=""
        kong11=[]
        for i in range(1,len(t1)+1):
            d = get_words_line(i,t1)
            kong1 = kong1+d
            kong11.append(int(len(d)))
        return len(kong1)/len(t1),kong11

    def get_2(self):
        t1 = self.data.loc[self.data[0]==line_word.kind_list[1]]
        t1.index=[x for x in range(len(t1))]
        kong1=[]
        for i in range(1,len(t1)+1):
            kong1.extend(get_words(i,t1))
        kong11 = Counter(kong1)
        return sorted(dict2list(kong11), key=lambda x:x[1], reverse=True)
    def get_22(self):
        t1 = self.data.loc[self.data[0]==line_word.kind_list[1]]
        t1.index=[x for x in range(len(t1))]
        kong1=""
        kong11=[]
        for i in range(1,len(t1)+1):
            d = get_words_line(i,t1)
            kong1 = kong1+d
            kong11.append(int(len(d)))
        return len(kong1)/len(t1),kong11
    
    
    
    def get_3(self):
        t1 = self.data.loc[self.data[0]==line_word.kind_list[2]]
        t1.index=[x for x in range(len(t1))]
        kong1=[]
        for i in range(1,len(t1)+1):
            kong1.extend(get_words(i,t1))
        kong11 = Counter(kong1)
        return sorted(dict2list(kong11), key=lambda x:x[1], reverse=True)
    def get_33(self):
        t1 = self.data.loc[self.data[0]==line_word.kind_list[2]]
        t1.index=[x for x in range(len(t1))]
        kong1=""
        kong11=[]
        for i in range(1,len(t1)+1):
            d = get_words_line(i,t1)
            kong1 = kong1+d
            kong11.append(int(len(d)))
        return len(kong1)/len(t1),kong11
    
    
    def get_4(self):
        t1 = self.data.loc[self.data[0]==line_word.kind_list[3]]
        t1.index=[x for x in range(len(t1))]
        kong1=[]
        for i in range(1,len(t1)+1):
            kong1.extend(get_words(i,t1))
        kong11 = Counter(kong1)
        return sorted(dict2list(kong11), key=lambda x:x[1], reverse=True)
    def get_44(self):
        t1 = self.data.loc[self.data[0]==line_word.kind_list[3]]
        t1.index=[x for x in range(len(t1))]
        kong1=""
        kong11=[]
        for i in range(1,len(t1)+1):
            d = get_words_line(i,t1)
            kong1 = kong1+d
            kong11.append(int(len(d)))
        return len(kong1)/len(t1),kong11
    
    
    def get_5(self):
        t1 = self.data.loc[self.data[0]==line_word.kind_list[4]]
        t1.index=[x for x in range(len(t1))]
        kong1=[]
        for i in range(1,len(t1)+1):
            kong1.extend(get_words(i,t1))
        kong11 = Counter(kong1)
        return sorted(dict2list(kong11), key=lambda x:x[1], reverse=True)
    def get_55(self):
        t1 = self.data.loc[self.data[0]==line_word.kind_list[4]]
        t1.index=[x for x in range(len(t1))]
        kong1=""
        kong11=[]
        for i in range(1,len(t1)+1):
            d = get_words_line(i,t1)
            kong1 = kong1+d
            kong11.append(int(len(d)))
        return len(kong1)/len(t1),kong11
    
    
    def get_6(self):
        t1 = self.data.loc[self.data[0]==line_word.kind_list[5]]
        t1.index=[x for x in range(len(t1))]
        kong1=[]
        for i in range(1,len(t1)+1):
            kong1.extend(get_words(i,t1))
        kong11 = Counter(kong1)
        return sorted(dict2list(kong11), key=lambda x:x[1], reverse=True)
    def get_66(self):
        t1 = self.data.loc[self.data[0]==line_word.kind_list[5]]
        t1.index=[x for x in range(len(t1))]
        kong1=""
        kong11=[]
        for i in range(1,len(t1)+1):
            d = get_words_line(i,t1)
            kong1 = kong1+d
            kong11.append(int(len(d)))
        return len(kong1)/len(t1),kong11
    
    
    def get_7(self):
        t1 = self.data.loc[self.data[0]==line_word.kind_list[6]]
        t1.index=[x for x in range(len(t1))]
        kong1=[]
        for i in range(1,len(t1)+1):
            kong1.extend(get_words(i,t1))
        kong11 = Counter(kong1)
        return sorted(dict2list(kong11), key=lambda x:x[1], reverse=True)
    def get_77(self):
        t1 = self.data.loc[self.data[0]==line_word.kind_list[6]]
        t1.index=[x for x in range(len(t1))]
        kong1=""
        kong11=[]
        for i in range(1,len(t1)+1):
            d = get_words_line(i,t1)
            kong1 = kong1+d
            kong11.append(int(len(d)))
        return len(kong1)/len(t1),kong11
    
    
    def get_8(self):
        t1 = self.data.loc[self.data[0]==line_word.kind_list[7]]
        t1.index=[x for x in range(len(t1))]
        kong1=[]
        for i in range(1,len(t1)+1):
            kong1.extend(get_words(i,t1))
        kong11 = Counter(kong1)
        return sorted(dict2list(kong11), key=lambda x:x[1], reverse=True)
    def get_88(self):
        t1 = self.data.loc[self.data[0]==line_word.kind_list[7]]
        t1.index=[x for x in range(len(t1))]
        kong1=""
        kong11=[]
        for i in range(1,len(t1)+1):
            d = get_words_line(i,t1)
            kong1 = kong1+d
            kong11.append(int(len(d)))
        return len(kong1)/len(t1),kong11

得到数据：

def deal_1(dic):
    num=0
    for i in range(len(dic)):#.remove(dic[0])
        if len(dic[i-num][0])<=1:
            dic.remove(dic[i-num])
            num+=1
    return dic
def give_power(f1,f2,f3,f4,f5,f6,f7,f8):
    f_list1= [f1,f2,f3,f4,f5,f6,f7,f8]
    #f_list =[f1%(f1-1),f2%(f2-1),f3%(f3-1),f4%(f4-1),f5%(f5-1),f6%(f6-1),f7%(f7-1),f8%(f8-1)]
    f_np = np.array(f_list1,dtype=np.float64)
    #f_sum = f_np.sum()
    #for i in range(8):
     #   f_np[i] =  f_np[i]/f_sum 
    return f_np
    
    
def get_word_power():
    dic1 = deal_1(line_word(train).get_1())
    dic2 = deal_1(line_word(train).get_2())
    dic3 = deal_1(line_word(train).get_3())
    dic4 = deal_1(line_word(train).get_4())
    dic5 = deal_1(line_word(train).get_5())
    dic6 = deal_1(line_word(train).get_6())
    dic7 = deal_1(line_word(train).get_7())
    dic8 = deal_1(line_word(train).get_8())
    dic1_key = [dic1[x][0] for x in range(len(dic1))]
    dic1_values = [dic1[x][1] for x in range(len(dic1))]  
    dic2_key = [dic2[x][0] for x in range(len(dic2))]
    dic2_values = [dic2[x][1] for x in range(len(dic2))]
    dic3_key = [dic3[x][0] for x in range(len(dic3))]
    dic3_values = [dic3[x][1] for x in range(len(dic3))]
    dic4_key = [dic4[x][0] for x in range(len(dic4))]
    dic4_values = [dic4[x][1] for x in range(len(dic4))]
    dic5_key = [dic5[x][0] for x in range(len(dic5))]
    dic5_values = [dic5[x][1] for x in range(len(dic5))]
    dic6_key = [dic6[x][0] for x in range(len(dic6))]
    dic6_values = [dic6[x][1] for x in range(len(dic6))]
    dic7_key = [dic7[x][0] for x in range(len(dic7))]
    dic7_values = [dic7[x][1] for x in range(len(dic7))]
    dic8_key = [dic8[x][0] for x in range(len(dic8))]
    dic8_values = [dic8[x][1] for x in range(len(dic8))]
    all_key =[]
    all_values =[]
    all_kind =[]
    all_key.extend(dic1_key)
    all_key.extend(dic2_key)
    all_key.extend(dic3_key)
    all_key.extend(dic4_key)
    all_key.extend(dic5_key)
    all_key.extend(dic6_key)
    all_key.extend(dic7_key)
    all_key.extend(dic8_key)
    all_values.extend(dic1_values)
    all_values.extend(dic2_values)
    all_values.extend(dic3_values)
    all_values.extend(dic4_values)
    all_values.extend(dic5_values)
    all_values.extend(dic6_values)
    all_values.extend(dic7_values)
    all_values.extend(dic8_values)
    dic1_kind = [0 for x in range(len(dic1))]
    dic2_kind = [1 for x in range(len(dic2))]
    dic3_kind = [2 for x in range(len(dic3))]
    dic4_kind = [3 for x in range(len(dic4))]
    dic5_kind = [4 for x in range(len(dic5))]
    dic6_kind = [5 for x in range(len(dic6))]
    dic7_kind = [6 for x in range(len(dic7))]
    dic8_kind = [7 for x in range(len(dic8))]
    all_kind.extend(dic1_kind)
    all_kind.extend(dic2_kind)
    all_kind.extend(dic3_kind)
    all_kind.extend(dic4_kind)
    all_kind.extend(dic5_kind)
    all_kind.extend(dic6_kind)
    all_kind.extend(dic7_kind)
    all_kind.extend(dic8_kind)
    all_word_list = pd.DataFrame({"words": all_key,"values": all_values,"kind": all_kind})

    return all_word_list
    
def hanshu_1(df):
    df1 = df.iloc[:,:8].copy()
    #df1 = df.values[:3].copy()
    df1 = np.array(df1,dtype=np.float32)
    #print(df1)
    
    return np.var(df1)
def hanshu_2(df):
    df1 = df.iloc[:,12:].copy()
    #df1 = df.values[:3].copy()
    df1 = np.array(df1,dtype=np.float32)
    #print(df1)
    
    return np.var(df1)
    
def get_word_Data():
    all_word_list1 = get_word_power()
    t =all_word_list1.groupby(["words","kind"],as_index=True).sum().unstack()
    t_VALES = t.values
    t_index = t.index
    all_all_all = pd.DataFrame(t_VALES)
    all_all_all["words"] = t_index
    all_all_all = all_all_all.fillna(0)
    all_all_all["sum_values"] = all_all_all.iloc[:,:8].sum(1)
    all_all_all["mean_values"] = all_all_all.iloc[:,:8].mean(1)
    all_all_all.sort_values(["sum_values"],ascending=False,inplace=True)
    t_var = all_all_all.groupby(["words"]).apply(hanshu_1)
    all_all_all = pd.merge(all_all_all,pd.DataFrame({"words": t_var.index.tolist(),"var": t_var.tolist()}),how="left",on=["words"])
    all_all_all.sort_values(["var"],ascending=False,inplace=True)
    for i in range(8):
        all_all_all[line_word.kind_list[i]+str("比例")] = all_all_all[i]/all_all_all["sum_values"]
    g_var = all_all_all.groupby(["words"]).apply(hanshu_2)
    all_all_all = pd.merge(all_all_all,pd.DataFrame({"words": g_var.index.tolist(),"p_var": g_var.tolist()}),how="left",on=["words"])
    all_all_all.sort_values(["var"],ascending=False,inplace=True)
    all_all_all["var*p"] = all_all_all["var"] * all_all_all.p_var
    all_all_all.index =[x for x in range(len(all_all_all))]
    return all_all_all
all_all_all = get_word_Data()

word_power.png

得到每个词语的特征

提取特征

得到每篇信息的前30个出现频率最高的词的特征：8各类的数量以及比例的。数量的方差，比例的方差等等。

class analysis_text_one():
    def __init__(self,data,i,all_data):
        self.data = data.iloc[i:i+1,:][1].values[0]
        self.target = data.iloc[i:i+1,:][0].values[0]
        self.all_all_all = all_data
    def deal_line(self):
        seg_list = jieba.cut(self.data,cut_all=True)#全模式
        z= list(seg_list)
        zz = Counter(z)
        zzz = sorted(dict2list(zz), key=lambda x:x[1], reverse=True)
        zzzz = deal_1(zzz)
        zzzzz = zzzz[:30]
        ttt = zzzzz[0][0] 
        gg = self.all_all_all.loc[self.all_all_all["words"]==zzzzz[0][0]].loc[:,self.all_all_all.columns[10:].tolist()]
        gg_v = gg.values
        for i in range(1,30):
            if i<len(zzzz):
                ttt = zzzzz[i][0]
                gg2 = self.all_all_all.loc[self.all_all_all["words"]==ttt].loc[:,self.all_all_all.columns[10:].tolist()]
                gg_v = np.row_stack((gg_v,gg2.values))
            else:
                gg_v = np.row_stack((gg_v,np.array([0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0])))
        gg_v = gg_v.flatten()
        return gg_v
class analysis_text_test_one():
    def __init__(self,data,i,all_data):
        self.data = data.iloc[i:i+1,:][1].values[0]
        self.target = data.iloc[i:i+1,:][0].values[0]
        self.all_all_all = all_data
    def deal_line(self):
        seg_list = jieba.cut(self.data,cut_all=True)#全模式
        z= list(seg_list)
        zz = Counter(z)
        zzz = sorted(dict2list(zz), key=lambda x:x[1], reverse=True)
        zzzz = deal_1(zzz)
        zzzzz = zzzz[:30]
        #print(zzzzz)
        ttt = zzzzz[0][0] 
        gg = self.all_all_all.loc[self.all_all_all["words"]==zzzzz[0][0]].loc[:,self.all_all_all.columns[10:].tolist()]
        gg_v = gg.values
        for i in range(1,30):
            if i<len(zzzz):
                ttt = zzzzz[i][0]
                gg2 = self.all_all_all.loc[self.all_all_all["words"]==ttt].loc[:,self.all_all_all.columns[10:].tolist()]
                if len(gg2.values)==0:
                    gg_v = np.row_stack((gg_v,np.array([0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0])))
                else:
                    gg_v = np.row_stack((gg_v,gg2.values))
            else:
                gg_v = np.row_stack((gg_v,np.array([0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0])))
        n=0
        if len(gg_v.flatten())!=360:
            n = (360-len(gg_v.flatten()))/12
            print(n)
        for k in range(int(n)):
            gg_v = np.row_stack((gg_v,np.array([0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0])))
        gg_v = gg_v.flatten()
        return gg_v
train_feature = analysis_text_one(train,0,all_all_all).deal_line()
for i in  range(1,len(train)):
    train_feature = np.row_stack((train_feature ,analysis_text_one(train,i,all_all_all).deal_line()))
train_lables = train_feature_all.iloc[:,360:]
train_lables = train_lables["target"].apply(lambda x : line_word.kind_list.index(x)).values
train_feature = train_feature.iloc[:,:360].values
test_feature = analysis_text_test_one(test,0,all_all_all).deal_line()

for i in  range(1,len(test)):
    #test_feature = analysis_text_test_one(test,i,all_all_all).deal_line()
    test_feature = np.row_stack((test_feature ,analysis_text_test_one(test,i,all_all_all).deal_line()))
    if i%50==1:
        print(i,len(test_feature))
test_feature

使用xgboost模型分类

#-*- coding=utf-8 -*-
import pandas as pd
import numpy as np
import datetime
import xgboost as xgb
from sklearn.cross_validation import train_test_split
import os
params={
'booster':'gbtree',
# 这里手写数字是0-9，是一个多类的问题，因此采用了multisoft多分类器，
'objective': 'multi:softmax', 
'num_class':8, # 类数，与 multisoftmax 并用
'gamma':0.05,  # 在树的叶子节点下一个分区的最小损失，越大算法模型越保守 。[0:]
'max_depth':12, # 构建树的深度 [1:]
#'lambda':450,  # L2 正则项权重
'subsample':0.4, # 采样训练数据，设置为0.5，随机选择一般的数据实例 (0:1]
'colsample_bytree':0.7, # 构建树树时的采样比率 (0:1]
#'min_child_weight':12, # 节点的最少特征数
'silent':1 ,
'eta': 0.01, # 如同学习率
'seed':710,
'nthread':4,# cpu 线程数,根据自己U的个数适当调整
}

plst = list(params.items())

#Using 10000 rows for early stopping. 
offset1 = 8000  # 训练集中数据12000，划分10000用作训练，2000用作验证
offset2 = 10000
num_rounds = 368 # 迭代次数
xgtest = xgb.DMatrix(train_feature[offset2:])
# 划分训练集与验证集 
xgtrain = xgb.DMatrix(train_feature[:offset1,:], label=train_lables[:offset1])
xgval = xgb.DMatrix(train_feature[offset1:offset2,:], label=train_lables[offset1:offset2])
# return 训练和验证的错误率
watchlist = [(xgtrain, 'train'),(xgval, 'val')]
# training model 
# early_stopping_rounds 当设置的迭代次数较大时，early_stopping_rounds 可在一定的迭代次数内准确率没有提升就停止训练
model = xgb.train(plst, xgtrain, num_rounds, watchlist,early_stopping_rounds=100)
#model.save_model('./model/xgb.model') # 用于存储训练出的模型
preds = model.predict(xgtest,ntree_limit=model.best_iteration)
print(preds)

最终大概准确率只有87%左右这并不是个很好的结果。等下我们打算只用TF-IDF模型解决信息问题。

导入jieba库提取字词特征，使用分类模型解决多新闻分类
导入jieba库提取字词特征，使用xgboost模型解决多新闻分类新闻总体分成了8类：结构大致如下：导入训练、...
Arxiv网络科学论文摘要10篇(2019-05-27)
forgeNet：使用基于树的集合分类器进行特征提取的图深度神经网络模型; 基于超网络的用户创新知识集成模型; 多...
用深度学习模型提取特征
用途有时候需要从图片（或文本）中提取出数值型特征，供各种模型使用。深度学习模型不仅可以用于分类回归，还能用于提取...
TAGS与分类
分类树形结构 TAGS 强调更贴近使用用Python ,jieba分词，通过TF-IDF算法，提取文章中的高频...
分类算法-朴素贝叶斯分类器
前言此程序基于新闻文本分类实验使用朴素贝叶斯（Naive Bayes Classifier)模型实现分类任务。...
IOS直接使用美工给的16位制颜色代码
加入一个分类：导入这个分类，然后直接使用：
李航统计学习--第二章感知机perception
二类分类（+1，-1）的线性分类模型，判别模型。求出将训练数据进行线性划分的分离超平面，导入基于误分类的损失函数...
利用神经网络进行文本分类算法综述（持续更新中）
传统的文本分类一般都是使用词袋模型/Tf-idf作为特征+机器学习分类器来进行分类的。随着深度学习的发展，越来越多...
编程作业（三）
多类别分类问题该部分使用之前的逻辑回归模型对手写数字0~9的识别。手写数字使用20*20像素的灰度图片，因此特征...
高光谱遥感笔记2022.4.18
光谱特征选择与特征提取光谱数据库与光谱分析光谱数据库的意义作为标准参考光谱或训练样本，为定量、定性识别分类模...