1.（可下载）康奈尔大学(Cornell)提供的影评数据集(http://www.cs.cornell.edu/people/pabo/movie-review-data/):由电影评论组成,其中持肯定和否定态度的各1,000 篇;另外还有标注了褒贬极性的句子各5,331 句,标注了主客观标签的句子各5,000 句.目前影评库被广泛应用于各种粒度的,如词语、句子和篇章级情感分析研究中.

2. 伊利诺伊大学芝加哥分校(UIC)的Hu 和Liu 提供的产品领域的评论语料:主要包括从亚马逊和Cnet 下

载的五种电子产品的网络评论(包括两个品牌的数码相机,手机,MP3 和DVD 播放器).其中他们将这些语料按句

子为单元详细标注了评价对象,情感句的极性及强度等信息.因此,该语料适合于评价对象抽取和句子级主客观

识别,以及情感分类方法的研究.此外,Liu 还贡献了比较句研究[74]方面的语料.

3. （可下载）Janyce Wiebe 等人所开发的MPQA(Multiple-Perspective QA)库:包含535 篇不同视角的新闻评论,它是一个进行了深度标注的语料库.其中标注者为每个子句手工标注出一些情感信息,如观点持有者,评价对象,主观表达式以及其极性与强度.文献[75]描述了整个的标注流程.MPQA 语料适合于新闻评论领域任务的研究.

4. 麻省理工学院(MIT)的Barzilay 等人构建的多角度餐馆评论语料:共4,488 篇,每篇语料分别按照五个角

度(饭菜,环境,服务,价钱,整体体验)分别标注上1~5 个等级.这组语料为单文档的基于产品属性的情感文摘提供

了研究平台.

5. 国内的中科院计算所的谭松波博士提供的较大规模的中文酒店评论语料:约有10,000 篇,并标注了褒贬

类别,可以为中文的篇章级的情感分类提供一定的平台.

4.2.2 情感分析的词典资源

情感分析发展到现在,有不少前人总结出来的情感资源,大多数表现为评价词词典资源.

1. GI(General Inquirer)评价词词典(英文,http://www.wjh.harvard.edu/～inquirer/).该词典收集了1,914 个褒义词和2,293 个贬义词,并为每个词语按照极性,强度,词性等打上不同的标签,便于情感分析任务中的灵活应用.

2. NTU 评价词词典(繁体中文).该词典由台湾大学收集,含有2,812 个褒义词与8,276 个贬义词[76].

3.（可下载）主观词词典(英文,http://www.cs.pitt.edu/mpqa/).该词典的主观词语来自OpinionFinder 系统,该词典含有8,221 个主观词,并为每个词语标注了词性,词性还原以及情感极性.

4. （可下载）HowNet 评价词词典(简体中文、英文,http://www.keenage.com/html/e_index.html).该词典包含9,193 个中文评价词语/短语, 9,142 个英文评价词语/短语,并被分为褒贬两类.其中,该词典提供了评价短语,为情感分析提供了更丰富的情感资源.

还有一个sentimen的提取的一个库， pattern

http://blog.csdn.net/artemisrj/article/details/41556449

另外nltk也是有工具的。http://www.nltk.org/api/nltk.sentiment.html#module-nltk.sentiment

地理有关的信息？？

http://www.datasciencetoolkit.org/

知乎上推荐的包，改天试试看，

http://www.zhihu.com/question/19929473

52npl上面整理的资料。

http://www.52nlp.cn/resources

这个也可以看看哇。

http://www.oschina.net/project/tag/305/nlp

porter stemmer 处理词语的失态问题 create created之类的？？

隐马尔可夫模型 (Hidden Markov Model，HMM) 的介绍

http://blog.csdn.net/likelet/article/details/7056068

条件随机场的一篇介绍

http://download.csdn.net/download/zh515858237/2182521

【论文+(申请)下载:基于SentiWordNet的高准确率/覆盖率新情感词典SentiWords(155,286 words)】《SentiWords: Deriving a High Precision and High Coverage Lexicon for Sentiment Analysis》L Gatti, M Guerini, M Turchi (2015)http://t.cn/RUxgfXwproject page:http://t.cn/RUxgVjT

named entity recognizers LingPipe

LingPipe is tool kit for processing text using computational linguistics. LingPipe is used to do tasks like:

Find the names of people, organizations or locations in news

Automatically classify Twitter search results into categories

Suggest correct spellings of queries

http://alias-i.com/lingpipe/

1.NLTK

NLTK 在用 Python 处理自然语言的工具中处于领先的地位。它提供了 WordNet 这种方便处理词汇资源的借口，还有分类、分词、除茎、标注、语法分析、语义推理等类库。

网站

http://www.nltk.org/

安装

安装 NLTK:

sudo pip install -U nltk

安装 Numpy (可选):

sudo pip install -U numpy

安装测试:

python then type import nltk

体验过它加的nlp，

2.Pattern

Pattern 的自然语言处理工具有词性标注工具(Part-Of-Speech Tagger)，N元搜索(n-gram search)，情感分析(sentiment analysis)，WordNet。支持机器学习的向量空间模型，聚类，向量机。

网站:

https://github.com/clips/pattern

安装:

pip install pattern

3.TextBlob

TextBlob 是一个处理文本数据的 Python 库。提供了一些简单的api解决一些自然语言处理的任务，例如词性标注、名词短语抽取、情感分析、分类、翻译等等。

网站：

http://textblob.readthedocs.org/en/dev/

安装：

pip install -U textblob

4.Gensim

Gensim 提供了对大型语料库的主题建模、文件索引、相似度检索的功能。它可以处理大于RAM内存的数据。作者说它是“实现无干预从纯文本语义建模的最强大、最高效、最无障碍的软件。”

网站：

https://github.com/piskvorky/gensim

安装：

pip install -U gensim

5.PyNLPI

它的全称是：Python自然语言处理库（Python Natural Language Processing Library，音发作: pineapple）这是一个各种自然语言处理任务的集合，PyNLPI可以用来处理N元搜索，计算频率表和分布，建立语言模型。他还可以处理向优先队列这种更加复杂的数据结构，或者像 Beam 搜索这种更加复杂的算法。

安装：

LInux:

sudo apt-get install pymol

Fedora:

yum install pymol

6.spaCy

这是一个商业的开源软件。结合Python和Cython，它的自然语言处理能力达到了工业强度。是速度最快，领域内最先进的自然语言处理工具。

网站：

https://github.com/proycon/pynlpl

安装：

pip install spacy

7.Polyglot

Polyglot 支持对海量文本和多语言的处理。它支持对165种语言的分词，对196中语言的辨识，40种语言的专有名词识别，16种语言的词性标注，136种语言的情感分析，137种语言的嵌入，135种语言的形态分析，以及69中语言的翻译。

网站：

https://pypi.python.org/pypi/polyglot

安装

pip install polyglot

8.MontyLingua

MontyLingua 是一个自由的、训练有素的、端到端的英文处理工具。输入原始英文文本到 MontyLingua ，就会得到这段文本的语义解释。适合用来进行信息检索和提取，问题处理，回答问题等任务。从英文文本中，它能提取出主动宾元组，形容词、名词和动词短语，人名、地名、事件，日期和时间，等语义信息。

网站：

http://web.media.mit.edu/~hugo/montylingua/

9.BLLIP Parser

BLLIP Parser（也叫做Charniak-Johnson parser）是一个集成了产生成分分析和最大熵排序的统计自然语言工具。包括命令行和 python接口。

10.Quepy

Quepy是一个Python框架，提供将自然语言转换成为数据库查询语言。可以轻松地实现不同类型的自然语言和数据库查询语言的转化。所以，通过Quepy，仅仅修改几行代码，就可以实现你自己的自然语言查询数据库系统。

网站W

https://github.com/machinalis/quepy

http://quepy.machinalis.com/

还有一个sentimen的提取的一个库， pattern

http://blog.csdn.net/artemisrj/article/details/41556449

自然语言处理的一些工具及网站
斯坦福的corenlp,可以用来entities的提取。 http://nlp.stanford.edu/soft...
自然语言处理之路：工具——七种兵器
自然语言处理之路：工具——七种兵器一个自然语言处理炼丹师的自白往期：自然语言处理之路：前提——英文自然语言处理之...
自然语言处理工具集 nltk (1)
首先我们要明确 nltk 是一个处理自然语言的处理工具集，而不是分析自然语言，处理自然语言整理出适合机器学习框架使...
NER----pythonNLP工具包
使用python进行自然语言处理，有一些第三方库供大家使用： ·NLTK（Python自然语言工具包）用于诸如标记...
资源|开发 NLP | ML | DM 的Java工具包汇总
文章来源：GitHub 自然语言处理 CoreNLP：斯坦福大学的CoreNLP提供一系列的自然语言处理工具，输入...
Python自然语言处理学习笔记
1. 用Python处理自然语言 1.1. 安装nltk nltk是一个基于Python的自然语言处理工具集，主要...
Python自然语言工具库NLTK快速入门教程1简介
python测试开发项目实战-目录 python工具书籍下载-持续更新什么是自然语言处理？自然语言处理是指通过...
16套免费的NLP课程及经典教材
16套免费的NLP课程及经典教材分享 1、自然语言处理圣经《自然语言处理综述第三版》 Dan Jurafsky ...
中文分词工具及中文语料资源
关键词：中文分词；分词；自然语言处理；中文语料最近要做中文自然语言处理相关任务，牵涉到使用中文分词工具和相关算...
快文自然语言处理工具箱（QuickNLP）正式发布[0.0.2]
快文自然语言处理工具箱（QuickNLP）正式发布[0.0.2]版本