读书笔记-《大数据架构商业之路》

作者: neo_ng | 来源:发表于2018-12-15 22:18 被阅读36次

读书笔记-《大数据架构商业之路》
MySQL InnoDB 锁学习笔记
深入大数据架构师之路，问鼎40万年薪视频教程网盘下载
架构之路
你认真考虑过自己的商业模式吗？——《财富自由之路读书笔记》
《财富自由之路》李笑来 | 读书笔记：你的个人商业模式
大规模日志数据企业级分布式平台架构面临的问题与挑战
有感：阿里、小米、京东、美团的战略变迁
Android 架构师之路目录
2020-11-10

本文是《大数据架构商业之路:从业务需求到技术方案》的读书笔记
该书涵盖了大数据领域的各个方面。
本书还有一本"姊妹篇"--《大数据架构和算法实现之路》，本书几乎每一章都是一个很大的主题，但显然，本书的目标是求全不求精，力求使大家对于大数据的技术全貌有所了解！

Outline

数据收集
数据存储
数据处理
信息检索

数据收集

互联网数据收集（外部数据收集）

Web Crawler/Spider
爬虫策略

深度优先
广度优先
最佳优先

网络图-Web Graph

PageRank算法
HITS算法

网络爬虫的基本架构和工作流程

Nutch

Nutch衍生了Hadoop，Tika，Gora和Crawler Commoms四个Java开源项目
主要组成部分：

Crawler
Index
Searcher

Nutch在Lucene的基础上做了进一步封装和拓展，增加了爬虫功能

Heritrix

Java
开源

内部数据收集

内部数据的收集主要分为推送和两大类

PUSH
PULL

Flume

同时采用推送和拉取两种模式
支持对数据进行简单处理
集群化管理

Flume工作的基本流程

层次型的Flume集群架构

支持的源头:

Spooling Directory
HTTP
JMS
嵌套实现代理的多级嵌套

支持的沉淀器：

HDFS
HBase
Morphine Solr
Elasticsearch
嵌套
Morphine是一个高度拓展的ETL框架

通道类型：

内存通道
文件通道

Scribe

Logstash

Scribe和Logstash采用推送模式

数据存储

Entity Relationship Diagram -- ER图

持久化存储

HDFS
相关内容可参考该文:Hadoop基础
Hbase
相关内容可参考该文:数据存储-Hbase基础
MongoDB
面向文档，查询语言很强大
支持对任意字段建立多级索引，包括地理空间索引

关系型，Hbase和mongodb的数据模型对比

非持久化存储

缓存和散列

将缓存定义为数据交换的缓冲区，它的读取速度远远高于普通介质，作用是帮助系统更快地运行
缓存的普遍规律是以高速读取介质来充当相对低速的介质的缓存
策略:

LFU Least Frequently Used
LRU Least Recently Used
散列(或散列函数):通过一定的算法将原始的数据转换为一个唯一（或者尽可能唯一）的数值，这个数值被称为散列值

常见的缓存系统：

Memcached
Berkeley DB
支持持久化
Redis -- REmote DIctionary Server
远程字典服务器
kv生命周期(Time To Live, TTL)
支持持久化：AOF日志/RDB镜像

Redis3.0--> 集群
支持水平拓展

数据处理

按及时性分类：

离线

MapReduce
Spark
Hive
相关内容可参考该文:数据查询-Hive基础
其它相关工具：Pig/Impala/Spark SQL

提升数据处理的及时性

消息传递的两种基本模型：

P2P Point to Point
Publish/Subscribe

P2P模式

发布订阅模式

JMS

JMS定义一套通用的接口和相关语义，提供了持久，验证和事务等消息服务。
JMS(Java Message Service) - 需要沉重的消息头
提供事务性消息传输
Exactly Once: 消息只会发送一次，与关系数据库中的事务概念相一致

常见消息机制（系统）：

ActiveMQ
遵循JMS规范
消息传输有且只有一次
Kafka
为减少额外的消耗，不遵循JMS规范
相关内容可参考该文:消息队列-kafka基础

在线实时处理

storm
从错误恢复过来时，允许出现重复记录
Spark Streaming

信息检索

现代信息检索的一般定义：从大规模非结构化数据的集合中找出满足用户信息需求的资料的过程

信息检索的基本构成

预处理文本信息
构建倒排索引
匹配查询关键词
计算相关性

核心要素：

相关性
及时性

搜索引擎的结果处理必须是秒级的，通常不能超过3秒

及时性

本章主要介绍了倒排索引的相关内容
可参考这两篇文章：
搜索-Elasticsearch基础
 elasticsearch-进阶2

搜索与数据库查询的对比

数据库完成的任务时通过精确的ID，查找关联的关系数据
“正向索引”
相比数据库，检索引擎的查询实时性要求更高
搜索系统采用“倒排索引”/“逆向索引”，更新索引的开销要高于数据库

搜索引擎

Web搜索中的链接分析

电子商务中的商品排序

文本模型
反作弊模型

多因子和基于学习的排序

搜索系统框架

预处理文本信息
中文分词
词干和归一化
停用词
同义词和拓展词
构建倒排索引
匹配查询关键词
计算相关性

搜索引擎常见的系统架构

Lucene简介

离线
分析器(Analyzer):分词，增加词义/拓展词，过滤停用词
分词器也能在在线查询时使用
索引器
在线
查询解析器(QueryParser)
搜索器(IndexSearcher)

Solr简介

DIH(Data Import Handler)
Solr -- Search On Lucne w/Replication
Master-Slave
即使在索引生成后，其分片也可以添加或再次分片，是一个更为灵活的分布式配置方案

Elasticsearch简介

Elasticsearch的副本时不包含主分片的
数据镜像服务

本文标题：读书笔记-《大数据架构商业之路》

本文链接：https://www.haomeiwen.com/subject/pnjzhqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

读书笔记-《大数据架构商业之路》

Outline

数据收集

互联网数据收集（外部数据收集）

Nutch

Heritrix

内部数据收集

Flume

Scribe

Logstash

数据存储

持久化存储

非持久化存储

缓存和散列

数据处理

离线

提升数据处理的及时性

JMS

在线实时处理

信息检索

相关性

及时性

搜索与数据库查询的对比

搜索引擎

Web搜索中的链接分析

电子商务中的商品排序

多因子和基于学习的排序

搜索系统框架

Lucene简介

Solr简介

Elasticsearch简介

推荐

推荐系统分类

推荐系统框架

Mahout

在线广告

广告投放机制

广告系统架构

数据挖掘

数据预处理

效能评估

效果评估

性能评估

本书涉及到的主要技术点和相互关系：

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读