一简介

数据分析的获取来源可以分成两大类，一类是企业内部数据的抽取，另一类是外部数据的获取

内部数据往往基于企业内部的日常经营而产生，这类数据会涉及到内部数据库的存储。

外部数据一般涉及到市场行业动态或者竞品相关信息，这类信息需要考虑从外部网页获取信息，因此获取数据使用的工具和获取方式都会有一定的差异。

二外部数据获取

外部数据获取主要方式有三种，包含外部平台数据获取、爬虫数据获取以及外部API接口获取数据。

2.1 外部平台数据

外部交易的数据开放，其目的用于产业链各个环节的企业交易数据相互了解，促进行业的良性发展。
基于大数据技术的广泛普及，这些数据交换和交易的场景也逐渐被政府鼓励和推动。
第三方平台的数据交易很少提供免费的服务，需要考虑数据获取时，做数据的购买使用，可参考的数据交易平台有数多多，数据堂，发源地等。
政府的公开数据库也可查询，这些数据用于国家和政府的宏观经济数据统计，其数据提供的目的，一方面是为提高政府透明度和工作效率，其次可用于社会企业的消费使用，从而节省各自采集和存储的成本，提高生活质量，这类数据在日常需求分析中，也可以用作行业数据的参考分析和统计。可以参考的数据平台有国家统计局、工业和信息化部、中国互联网信息中心、中国互联网数据平台等。
行业数据也可以在不同行业新闻和行业分析报告中收集查看，这些数据由于数据分散，展示和存储方式复杂，甚至数据比较隐蔽难以提取，需要数据收集人员花费比较多的精力做提取和整理。通常可以考虑的渠道有各类新闻、企业年报、行业统计平台、行业分析报告、行业交流网站等。

2.2 爬虫数据获取

爬虫主要的结构包括：下载模块、网页分析模块、URL去重模块、URL分配模块
爬虫的主要工作流程为：
1）首先选择种子URL
2）将种子URL放入待抓取URL队列
3）从待抓取的URL队列中获取对应网页信息，然后将对应网页的里的URL网页下载下来，存储到已下载的网页库存中，并将新下载的网页URL放入已抓取的URL队列里
3）分析已抓取URL队列中的URL，从中抽取新的URL种子，并将其放入待抓取URL队列中，进入下一循环
爬虫的相关爬取策略和工作细节，这里不多做展开描述。

爬虫工作流程.png

2.3 外部API接口

外部的OpenAPI接口，通常为一些服务型网站的应用，网站的服务商将自己的服务封装成一些列的API（Application Programming Interface）开放出去，用于开发者使用。
OpenAPI的开放，使得开放网站的数据信息获取带来了方便，用户可以通过简单的编程就可以获取该信息。但是有些OpenAPI是有相关的收费要求，因此在使用时，可以根据实际情况做数据的对接获取。

网友评论

本文标题：外部数据获取方式

本文链接：https://www.haomeiwen.com/subject/kkwxbdtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

外部数据获取方式

一简介