一、什么是语料库?
语料库:现代的语料库是指存放在计算机的原始语料文本经过加工后带有语言学信息标注的语料文本的汇集。
个人认为可以将语料认为是文本的集合。库则可以认为是存放这些文本集合的仓库。# 这个集合可以是存放在句子、段落、篇章等。
二、语料库的基本特征
A.必须是实际使用中真实出现过的语言材料;
B.须以计算机为必要载体;
C.语料需要加工(分析和处理)后才有用。
三、语料库的分类
语料库的分类四、语料库的设计
语料库的设计五、如何建立一个语料库?
在建立语料库之前我们先需要知道语料库的标准:
1、研究目的
不论是建立还是选择一个语料库,都应该明确自己的研究目的,才能知道自己应该往哪个方向进行语料的收集。
2、规模和内容
规模:由于语言的动态性,所建设或选择的语料库应当是能不断扩充的。
内容:真实性,收集实际使用中的文本,而不是研究者杜撰的;收集符合条件的文本。
3、代表性
语料库代表性这方面,乔姆斯基曾经进行了批评语料库不过是试图用很小的样本代表巨量的甚至无限的实际语言材料,结果必然存在偏差,缺乏代表性。
无可厚非。当前,计算机是通过控制抽样的过程和语料比例的关系来缩小这种偏差,增强语料的代表性。
4、可存储性:
机器可读的方式进行存储,例如电脑上的TXT文件。
5、语言信息标记
语言信息标记主要分为两类:
语料库的标识:
1.对文本的性质和特征进行标识:这可以用来对文本进行必要的分类,为灵活提取文本进行各类的研究提供便利。同时可以标注在文本开头或者作为另一个文件进行保存,丝毫不破坏语料的完整性和原始性。
2.对文本的符号、格式等进行标识。这视研究和应用的目的而定。
赋码:
1.词类码(语法码):对每一个词标注词类属性,这在传统语法对词类的划分的基础上进行的。
2.句法码:对文本中的每一个句子进行标注。
词类赋码和句法赋码为语言的量化研究创造了条件,为进一步研究自然语言的概率特征提供了方便,为进一步的语义、语法、语用分析等打下了基础。
建立语料库一般分为以下五个步骤:
搭建语料库流程1、语料库设计
语料库分为三个方面,这里可以先看语料本身,旨在确定总体架构,明确研究对象和服务内容。
如:建立语料库的目的是什么,语料库的搭建规模多大,需要在哪些领域收集材料等…
2、语料采集
采集语料是构建语料库的基础工作,可以根据研究目的确定语料来源(专业新闻网站等)
3、数据标注
为了确保语料格式的统一,需要对数据进行加工,即进行语言信息标记。
4、数据存储
数据存储可以是文本形式、数据库形式等。
5、数据更新和维护
前面提到,因为语言的动态性,所以语料库也应当具有动态性。因此还需不断补充完善语料素材, 填充数量, 提高质量, 来校正 知识对象之间的关系, 使之更加符合逻辑性。
六、国内外金融数据提供商
经过对语料库的基本概念分享,我们对语料库有了个基本的认识,这里最后列举一些关于国内外的一些金融数据提供商的信息。如果有补充或者有误的地方,欢迎各位进行指正,感谢。
1、国内:
Wind资讯:高端金融机构。数据内容包括股票、基金、债券、外汇、保险、期货、金融衍生品、现货交易、宏观经济、财经新闻等领域,涵盖了很细致的财经新闻和实时股票信息。同时支持API接口和模板定制化输出数据。
国泰安 CSMAR:面向学术机构,包括股票、公司、基金、债券、经济、货币市场、科技金融等,可以实现与SAS、SPSS等统计软件的无缝对接。
财汇:现被大智慧收购,提供覆盖面广泛的财经资讯和基本面数据以及专业金融分析工具。
聚源、朝阳永续、今日投资、稀有资源等
2、国外
彭博:全球大型金融机构,金融市场实时数据覆盖全面,新闻咨询实时更新。数据终端系统可帮助客户查阅好分析实时的金融市场数据。
道琼斯:数据内容涵盖大众传媒产品、财经新闻、信息产品、通讯社、指数产品等,致力于拓展财经资讯传播的广度。
路透社:提供财经实时信息、交易系统与解决方案,致力于传播速度。
网友评论