早上来到公司,本想改一下doc文档的读取,结果临时需要fasttext训练模型。
昨天才做好的训练集还没有添加进去,就重新跑了一遍模型。
准确率91
不过感觉没有什么用,数据都是使用简单扩充的方法,改改说法,把几十组数据扩充到1000多组,再扩也没什么意义。如果后面还要用的话,最好可以拿业务那边的现实数据来跑训练。
模型给了之后,说只有安卓的模型。又重新跑了苹果的模型,把数据集换一下就行了,也就是之前数据集标签不一样而已。
今天服务器跑模型跑得是真的慢,跑了一个上午。
下午写了doc的读取模块。
装了python-docx库。但只能读取docx文档,读取doc文档会报错。
#读取docx中的文本代码示例import docx
#获取文档对象
file=docx.Document("addr")
for para in file.paragraphs:
print(para.text)
读取docx也有乱码,先这样吧。接下来要写把所有doc文章转换成docx的代码了,可真是麻烦。
网友评论