在实际的数据需求分析场景中
我们需要结合实际的需求诉求来确定数据获取的方式
以及考虑如何做数据处理
才可以保证数据的分析结果的准确性和实用性
一 简介
数据分析的获取来源可以分成两大类,一类是企业内部数据的抽取,另一类是外部数据的获取
内部数据往往基于企业内部的日常经营而产生,这类数据会涉及到内部数据库的存储。
外部数据一般涉及到市场行业动态或者竞品相关信息,这类信息需要考虑从外部网页获取信息,因此获取数据使用的工具和获取方式都会有一定的差异。
二 外部数据获取
外部数据获取主要方式有三种,包含外部平台数据获取、爬虫数据获取以及外部API接口获取数据。
2.1 外部平台数据
外部交易的数据开放,其目的用于产业链各个环节的企业交易数据相互了解,促进行业的良性发展。
基于大数据技术的广泛普及,这些数据交换和交易的场景也逐渐被政府鼓励和推动。
第三方平台的数据交易很少提供免费的服务,需要考虑数据获取时,做数据的购买使用,可参考的数据交易平台有数多多,数据堂,发源地等。
政府的公开数据库也可查询,这些数据用于国家和政府的宏观经济数据统计,其数据提供的目的,一方面是为提高政府透明度和工作效率,其次可用于社会企业的消费使用,从而节省各自采集和存储的成本,提高生活质量,这类数据在日常需求分析中,也可以用作行业数据的参考分析和统计。可以参考的数据平台有国家统计局、工业和信息化部、中国互联网信息中心、中国互联网数据平台等。
行业数据也可以在不同行业新闻和行业分析报告中收集查看,这些数据由于数据分散,展示和存储方式复杂,甚至数据比较隐蔽难以提取,需要数据收集人员花费比较多的精力做提取和整理。通常可以考虑的渠道有各类新闻、企业年报、行业统计平台、行业分析报告、行业交流网站等。
2.2 爬虫数据获取
爬虫主要的结构包括:下载模块、网页分析模块、URL去重模块、URL分配模块
爬虫的主要工作流程为:
1)首先选择种子URL
2)将种子URL放入待抓取URL队列
3)从待抓取的URL队列中获取对应网页信息,然后将对应网页的里的URL网页下载下来,存储到已下载的网页库存中,并将新下载的网页URL放入已抓取的URL队列里
3)分析已抓取URL队列中的URL,从中抽取新的URL种子,并将其放入待抓取URL队列中,进入下一循环
爬虫的相关爬取策略和工作细节,这里不多做展开描述。
爬虫工作流程.png
2.3 外部API接口
外部的OpenAPI接口,通常为一些服务型网站的应用,网站的服务商将自己的服务封装成一些列的API(Application Programming Interface)开放出去,用于开发者使用。
OpenAPI的开放,使得开放网站的数据信息获取带来了方便,用户可以通过简单的编程就可以获取该信息。但是有些OpenAPI是有相关的收费要求,因此在使用时,可以根据实际情况做数据的对接获取。
网友评论