GoldMap项目笔记（四）

作者: titainium | 来源:发表于2017-01-17 13:34 被阅读0次

目前的进度是爬虫系统刚刚完成了雏形，正在进行代码的优化。之后需要做的事情就是学习、学习，学习！
在早先的项目设计中，第二个子系统会用于将搜集来的文本做情感分析，然后根据分析的结果再做一定的运算。在Python的各个库中，除了nltk以外，使用起来比较简单的库我找到了两个，一个是针对中文的snownlp，还有一个是textblob。
这两个库使用起来都比较简单。而文档方面，snownlp比较简单，只知道没有使用nltk，自己设计了算法，而且由于是针对购买商品的评价做分析，用于其他方面的话，用作者自己的话来说就是准确率可能不是很理想。textblob的稍微详尽一点，这个库使用了nltk，或许准确率会更高一点。但是一方面不是针对中文，另一方面文档中也没有提及如何进行训练，从而提高准确率。或许是我还没有找到更详细的说明使用文档吧。
不过相比较而言，我可能更加中意的是参考snownlp，然后自己来设计更合适的算法吧。不过这条路走起来，或许学习曲线会比较陡峭。现在正在看think bayes，机器学习实战，还有spark快速大数据分析，这些书上面也有一些现成的示例代码可以供参考。希望可以降低一点学习的难度。
当然，在一开始的阶段，整个项目还不需要使用spark的更多功能，目前已知会涉及到的库也就是spark其中的mllib。后面更复杂部署、调度、管理等等功能，我想，针对一台单独的小机器还是用不上的吧，当然，做为知识储备，进行一定的了解和学习，也是未尝不可的。只是，这种学习可能暂时不会投入太多的精力，今天有大致浏览了spark的官方文档，仅仅部署方式就有好几种：mesos，yarn，一时之间也不知道如何取舍。希望新买的书里面可以提供一些指导和线索吧。
说起来，新买的《程序员的数学》也刚刚看了开头，一套三本书也不知道要看多久，希望可以加快一点点速度吧。

网友评论

本文标题：GoldMap项目笔记（四）

本文链接：https://www.haomeiwen.com/subject/equmbttx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

GoldMap项目笔记（四）

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

机器学习与数据挖掘

GoldMap项目笔记