由于业务需要和系统整合(并购)。多源,异构数据的自动化处理以及分发,入库。还有在这之上的大数据分析和人工智能的运用变得愈加紧迫。
1 首先提升业务流程的自动化率,减轻业务人员的工作量。提高整体的数据处理效率和准确度。是我们首要解决的问题。
2 由于之前使用zeppelin的过程中了解到NiFi这个开源的apache项目, 似乎很适合现在的业务场景。所以首先在单机上试着安装NiFi1.4.0. 经过一些research工作,发现hortonworks已经买下NiFi研发团队并且把NiFi集成到了它的HDF平台。随后我在3台VM(centos6.5)成功上搭建了HDF Cluster环境。并试着开发了几套流程用于测试。
下面就这一过程(2),做一详述
I. NiFi Introduction
ApacheNiFi is an easy to use, powerful, and reliable system to process and distribute data(https://nifi.apache.org/)
NiFi Atchitecture(Hosted)NiFi Features
–Web-based user interface
–Highly configurable
–Data Provenance
–Designed for extension
–Secure
II. Standalone NiFi 安装与配置:
从官方网站下载nifi, https://nifi.apache.org/download.html. Binary package is fine. nifi-1.4.0-bin.tar.gz
解压缩到/opt: tar xvf nifi-1.4.0-bin.tar.gz
启动/停止nifi: /opt/nifi-1.4.0/bin/nifi.sh start/stop/status/restart
配置:open /opt/nifi-1.4.0/conf/nifi.properties. Setup configuration as below link:https://nifi.apache.org/docs.html -- Configuration Best Practices
III. Standard Processor introduction:
Data ingest from different souce Data Transform(replace/split/merge/route)
网友评论