美文网首页
基于Tensorflow使用CRF(条件随机场)解决词性标注问题

基于Tensorflow使用CRF(条件随机场)解决词性标注问题

作者: 雍珑庚 | 来源:发表于2020-06-28 16:37 被阅读0次

    前几天看到了概率图模型这一块,讲到了贝叶斯网络和马尔可夫网络等;其中后者主要讲到了马尔可夫随机场和条件随机场,于是今天就动手敲了一遍书中给的代码,讲真,代码有点乱,对于小白来说看着可能会生无可恋,咱们出发吧~~

    关于词性标注稍微说明一下,比如给你一个句子:You are beautiful。标准的“主系表”结构,大家都知道系动词不能单独作谓语,其后必须跟表语,其实这就是一种规则,可以称之为一个特征函数,当然这其中还有很多规则,比如动词后边不能跟动词,这也是一个特征函数,我们就可以定义一个特征函数的集合,用来评判一个标注的序列是否正确,这一块的基础知识大家可以自行查阅一下,我们就不一一介绍了,咱们今天主要还是用代码实现它~~

    进入正题吧:

    设置参数

    num_exam=10
    num_words=20
    num_feat=100
    num_tags=5
    

    咱们设置了10个样本,每个样本20个单词(不是20的后边统一为20),100个特征函数和5组标注序列,当然这个值可以随意设置,只要合理就ok

    构建随机特征和随机标注

    #构建随机特征
    x=np.random.rand(num_exam,num_words,num_feat).astype(np.float32)
    #构建随机tag
    y=np.random.randint(num_tags,size=[num_exam,num_words]).astype(np.int32)
    

    然后获取样本句长,因为每个句子的长度不一,我们统一为20,即num_words,进行填充:

    length_se=np.full(num_exam,num_words,dtype=np.int32)
    

    然后获取样本句长,因为每个句子的长度不一,我们统一为20,即num_words,进行填充:

    length_se=np.full(num_exam,num_words,dtype=np.int32)
    

    构建模型

    将x、y和length_se转换为常量:

    x_t=tf.constant(x)
    y_t=tf.constant(y)
    length_se_t=tf.constant(length_se)
    

    增加一个无偏置线性层:

    weights=tf.get_variable("weights",[num_feat,num_tags])
    x_t_matr=tf.reshape(x_t,[-1,num_feat])
    unary_scores_matr=tf.matmul(x_t_matr,weights)
    unary_scores=tf.reshape(unary_scores_matr,[num_exam,num_words,num_tags])
    

    创建一个新的变量weights,并指定其形状为特征函数量×标注序列量;reshape函数中的-1表示新的形状不确定有多少行,列数为特征函数量,也就是行自适应;这四行代码其实就是最基本的矩阵点乘和转换的应用,我们可以带入具体的数值,这样更便于理解,空间想象一下~~~

    然后就可以计算序列的的log-likelihood并获得转移概率:

    log_likelihood,tran_params=tf.contrib.crf.crf_log_likelihood(unary_scores,y_t,length_se)
    

    上述tf.contrib.crf.crf_log_likelihood函数用于在一个条件随机场中计算标签序列的log-likelihood,其格式为:

    crf_log_likelihood(inputs,tag_indices,sequence_lengths,transition_params=None)
    

    解码

    viterbi_sequence,viterbi_score=tf.contrib.crf.crf_decode(unary_scores,tran_params,length_se_t)
    loss=tf.reduce_mean(-log_likelihood)
    train_op=tf.train.GradientDescentOptimizer(0.01).minimize(loss)
    session.run(tf.global_variables_initializer())
    mask=(np.expand_dims(np.arange(num_words),axis=0)<np.expand_dims(length_se,axis=1))
    

    第一行出现的函数用于在tensorflow内部解码,后边的代码就是标准的损失函数系列操作,使用随机梯度下降来求最优,学习率为0.01,当然这个值也可以更改,大家可以尝试一下不同的学习率

    训练模型

    #获取总标签数
    total_labels=np.sum(length_se)
    #开始训练
    for i in range(500):
        tf_viterbi_sequence,_=session.run([viterbi_sequence,train_op])
        if i%100==0:
             correct_lables=np.sum((y==tf_viterbi_sequence)*mask)
             accuracy=100.0*correct_lables/float(total_labels)
             print("Accuracy-NO.%d:%.2f%%" % (i,accuracy))
    

    我们最后输出一下精确度,训练5000次,每100次输出一下,看下结果:

    完整代码你可以在这里看到

    相关文章

      网友评论

          本文标题:基于Tensorflow使用CRF(条件随机场)解决词性标注问题

          本文链接:https://www.haomeiwen.com/subject/muywfktx.html