编码问题绝对是我学Python这一两个月最大的问题,直接秒杀装环境、改算法之类的。
好希望有一天能都用英语啊,可以我的英语实在是太差了。
什么utf-8 gbk傻傻分布清楚,明明print是个中文,写到列表中又是//xx的编码。
上午突然要交随心查的版本,上次重构的数据还没跑,把数据扔进去跑了一遍又有问题,Python和Java的分词不一样,我真的是服了,又把数据扔到Java分词中重新分词。
大家都说IDEA好用,我怎么不会用呢。用了Eclipse跑了分词,我的第一个Java程序居然不是Hello world。不对,在学校跑过Java的Hello world,刚跑完小姐姐就来我学校了,之前都没和我说,嘻嘻。
跑完分词又去改程序,乱七八糟的数据名字改的头大,然后发现读一个数据集居然一直是空的,改了半天代码也不知道错在哪里,喊了小师傅来也弄了半天,最后发现数据集是空的。玛德,codecs.open(“w”),我居然写了个w,把数据集给清了。
看来上午是写不好了。
下午好不容易改好了,Java分词的准确率只有70,Python都有95的,也不知道哪里有问题,晚上想把每个训练样本都拉出来跑一遍,看看哪些有问题,就像开头说的,拉出来都是编码,头疼。
不过下午还忙里偷闲的把专利设计思路给写了,虽然只有几十个字,也超开心咯,我是不是也要有发明专利了呢!
加油!
现在什么都不想干了,就想发呆~
网友评论