美文网首页
Tools for Text Analysis

Tools for Text Analysis

作者: 博士伦2014 | 来源:发表于2020-05-20 16:56 被阅读0次

由于文本分析技术主要使用机器学习,因此具有丰富的科学和数字计算库是必需的。在用于在文本上执行机器学习的工具方面,Python具有强大的套件,其中包括 Scikit-Learn,NLTK,Gensim,spaCy,NetworkX 和 Yellowbrick。

  • Scikit-Learn是SciPy(Scientific Python)的扩展,它提供了用于通用机器学习的API。 Scikit-Learn建立在Cython之上,以包含诸如LAPACK,LibSVM,Boost等其他高性能C库,Scikit-Learn结合了高性能和易用性来分析中小型数据集。它是开源的,可在商业上使用,它为许多回归,分类,聚类和降维模型以及用于交叉验证和超参数调整的实用程序提供了一个单一接口。

  • NLTK(自然语言工具包)是学术界专家用Python编写的NLP的“batteries included”资源。它最初是一个用于教授NLP的教学工具,它包含语料库,词汇资源,语法,语言处理算法和预先训练的模型,这些使Python程序员可以快速开始使用各种语言处理文本数据。

  • Gensim是一个健壮,高效且无忧的库,专注于文本的无监督语义建模。最初旨在查找文档之间的相似性(生成相似性),现在它公开了潜在语义技术的主题建模方法,并包括其他无监督的库,如word2vec。

  • spaCy通过将学术最先进的技术实施到简单易用的API中来提供生产级语言处理。特别是,spaCy专注于预处理文本以进行深度学习,或在大量文本上构建信息提取或自然语言理解系统。

  • NetworkX是一个全面的图形分析包,用于生成,序列化,分析和操作复杂的网络。尽管不是专门用于机器学习或文本分析的库,但是图形数据结构能够编码图形算法可以遍历或在其中找到含义的复杂关系,因此是文本分析工具箱的关键部分。

  • Yellowbrick是一套视觉诊断工具,用于分析和解释机器学习工作流程。通过扩展Scikit-Learn API,Yellowbrick提供了直观,可理解的可视化功能选择,建模和超参数调整视图,指导模型选择过程以查找最有效的文本数据模型。

相关文章

网友评论

      本文标题:Tools for Text Analysis

      本文链接:https://www.haomeiwen.com/subject/jxunohtx.html