1.数据仓库简介 数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对...[作者空间]
使用Flink处理数据时,可以基于Flink提供的批式处理(Batch Processing)和流式处理(Stre...[作者空间]
作为工业级的流计算框架,Flink 被设计为可以每天处理 TB 甚至 PB 级别的数据,所以如何高吞吐低延迟并且可...[作者空间]
简介 Druid 是一个开源的,分布式的,列存储的,适用于实时数据分析的存储系统,能够快速聚合、灵活过滤、毫秒级查...[作者空间]
Kafka Kafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(...[作者空间]
1. 简介 Kafka 是由 LinkedIn 开发的一个基于发布/订阅的消息系统,具有高性能、持久化、多副本备份...[作者空间]
01 需求背景 在建立分布式生产环境的过程中,相对于传统的生产环境,我们会面临更多的挑战: 分布式集群维护困难:搭...[作者空间]
背景 最近要把原来在BB做的那套集中式日志监控系统迁移到Mobojoy这边,原来的实现方案是: Log Agent...[作者空间]
文章目录 一、理论知识 1.Hadoop的整体印象 2.Hadoop的优势 3.Hadoop可以做什么 4.Had...[作者空间]
由于近期在公司内部做了一次 Elasticsearch 的分享,所以本篇主要是做一个总结,希望通过这篇文章能让读者...[作者空间]
Elasticsearch是什么? 简称ES,是一个基于Apache Lucene(TM)的开源搜索引擎,Elas...[作者空间]
生活中的数据 搜索引擎是对数据的检索,所以我们先从生活中的数据说起。我们生活中的数据总体分为两种: 结构化数据 非...[作者空间]
数据仓库作为全行数据中心能高效支持全行或全公司的统计 、数据分析工作,除了稳定的ETL架构、高效的数据处理能力,流...[作者空间]
前言 本人使用的KAFKA的安装版本为kafka_2.11-1.1.0,其他版本的配置不保证完全一致,谨防入坑,但...[作者空间]
引言 服务端问题排查(服务稳定性/基础设施异常/业务数据不符合预期等)对于开发而言是家常便饭,问题并不可怕,但是每...[作者空间]
Kafka内部提供了许多管理脚本,这些脚本都放在$KAFKA_HOME/bin目录下,CDH版本放在/opt/cl...[作者空间]
mongoDB 是一个典型的NoSQL。文档形数据库(schema free),基于二进制JSON存储文档。其高性...[作者空间]
ELK即Elasticsearch + Logstash + Kibana是一套开源日志管理方案,之前在写AOP做...[作者空间]
一、写在前面 这篇文章我们来看看,世界上最优秀的分布式文件系统HDFS,是如何对超大文件的上传做性能优化的? 首先...[作者空间]
发展 离线大数据架构数据仓库概念是Inmon于1990年提出并给出了完整的建设方法。随着互联网时代来临,数据量暴增...[作者空间]