美文网首页
外部数据获取方式

外部数据获取方式

作者: 八克牙 | 来源:发表于2023-09-23 17:30 被阅读0次

在实际的数据需求分析场景中
我们需要结合实际的需求诉求来确定数据获取的方式
以及考虑如何做数据处理
才可以保证数据的分析结果的准确性和实用性

一 简介

数据分析的获取来源可以分成两大类,一类是企业内部数据的抽取,另一类是外部数据的获取

内部数据往往基于企业内部的日常经营而产生,这类数据会涉及到内部数据库的存储。

外部数据一般涉及到市场行业动态或者竞品相关信息,这类信息需要考虑从外部网页获取信息,因此获取数据使用的工具和获取方式都会有一定的差异。

二 外部数据获取

外部数据获取主要方式有三种,包含外部平台数据获取、爬虫数据获取以及外部API接口获取数据。

2.1 外部平台数据

外部交易的数据开放,其目的用于产业链各个环节的企业交易数据相互了解,促进行业的良性发展。
基于大数据技术的广泛普及,这些数据交换和交易的场景也逐渐被政府鼓励和推动。
第三方平台的数据交易很少提供免费的服务,需要考虑数据获取时,做数据的购买使用,可参考的数据交易平台有数多多,数据堂,发源地等。
政府的公开数据库也可查询,这些数据用于国家和政府的宏观经济数据统计,其数据提供的目的,一方面是为提高政府透明度和工作效率,其次可用于社会企业的消费使用,从而节省各自采集和存储的成本,提高生活质量,这类数据在日常需求分析中,也可以用作行业数据的参考分析和统计。可以参考的数据平台有国家统计局、工业和信息化部、中国互联网信息中心、中国互联网数据平台等。
行业数据也可以在不同行业新闻和行业分析报告中收集查看,这些数据由于数据分散,展示和存储方式复杂,甚至数据比较隐蔽难以提取,需要数据收集人员花费比较多的精力做提取和整理。通常可以考虑的渠道有各类新闻、企业年报、行业统计平台、行业分析报告、行业交流网站等。

2.2 爬虫数据获取

爬虫主要的结构包括:下载模块、网页分析模块、URL去重模块、URL分配模块
爬虫的主要工作流程为:
1)首先选择种子URL
2)将种子URL放入待抓取URL队列
3)从待抓取的URL队列中获取对应网页信息,然后将对应网页的里的URL网页下载下来,存储到已下载的网页库存中,并将新下载的网页URL放入已抓取的URL队列里
3)分析已抓取URL队列中的URL,从中抽取新的URL种子,并将其放入待抓取URL队列中,进入下一循环
爬虫的相关爬取策略和工作细节,这里不多做展开描述。


爬虫工作流程.png

2.3 外部API接口

外部的OpenAPI接口,通常为一些服务型网站的应用,网站的服务商将自己的服务封装成一些列的API(Application Programming Interface)开放出去,用于开发者使用。
OpenAPI的开放,使得开放网站的数据信息获取带来了方便,用户可以通过简单的编程就可以获取该信息。但是有些OpenAPI是有相关的收费要求,因此在使用时,可以根据实际情况做数据的对接获取。

相关文章

  • python数据分析入门手册-具体学什么,怎么学

    - ❶ - 数据获取:公开数据、Python爬虫 外部数据的获取方式主要有以下两种。 第一种是获取外部的公开数据集...

  • spark入门

    1. RDD(弹性分布式数据集): 1.1 构造方式: 从定义的集合获取 外部获取的数据集合 1.2 操作算子 t...

  • .sync 修饰符

    应用场景:组件获取 props 外部数据后,需要修改数据。 Vue 规定:组件不能修改 props 外部数据;$e...

  • 印度分账执行流程

    分账## PayU外部数据获取application/commands/PayU/PayUExternal.php...

  • Excel的基础用法备忘

    导入外部数据 使用数据标签页的获取外部数据功能,可以导入不同类型数据源,以文本类型为例: 例如,导入来自文本的数据...

  • Robot Framework 获取外部数据

    领导要求删除这个文件,在用例执行的时候,直接从外部的excel读取变量文件,于是用python+xlrd写了下,记...

  • R 语言-文件操作

    1、获取数据 (1)利用键盘来输入数据(2)通过读取存储在外部文件上的数据(3)通过访问数据库系统来获取数据 2、...

  • 数据获取方式

    在这个用数据说话的时代,能够打动人的往往是用数据说话的理性分析,无论是对于混迹职场的小年轻,还是需要数据进行分析和...

  • 一些需要补充的点

    如何从Kafka中获取数据? 基于Receiver的方式 这种方式使用Receiver来获取数据。Receiver...

  • 需求获取与需求分析

    1、需求获取 需求获取主要分为三部分:获取需求渠道、获取需求方式、需求记录 1.1需求获取渠道 分为内部渠道和外部...

网友评论

      本文标题:外部数据获取方式

      本文链接:https://www.haomeiwen.com/subject/kkwxbdtx.html