美文网首页
训练集的调整_doc文档的读取_2018.9.5

训练集的调整_doc文档的读取_2018.9.5

作者: 我闭上眼睛就是天黑 | 来源:发表于2018-09-11 14:37 被阅读0次

    早上来到公司,本想改一下doc文档的读取,结果临时需要fasttext训练模型。

    昨天才做好的训练集还没有添加进去,就重新跑了一遍模型。

    准确率91

    不过感觉没有什么用,数据都是使用简单扩充的方法,改改说法,把几十组数据扩充到1000多组,再扩也没什么意义。如果后面还要用的话,最好可以拿业务那边的现实数据来跑训练。

    模型给了之后,说只有安卓的模型。又重新跑了苹果的模型,把数据集换一下就行了,也就是之前数据集标签不一样而已。

    今天服务器跑模型跑得是真的慢,跑了一个上午。

    下午写了doc的读取模块。

    装了python-docx库。但只能读取docx文档,读取doc文档会报错。

    #读取docx中的文本代码示例import docx
    #获取文档对象
    file=docx.Document("addr")
    for para in file.paragraphs:
        print(para.text)
    

    读取docx也有乱码,先这样吧。接下来要写把所有doc文章转换成docx的代码了,可真是麻烦。

    相关文章

      网友评论

          本文标题:训练集的调整_doc文档的读取_2018.9.5

          本文链接:https://www.haomeiwen.com/subject/azlugftx.html