1.正排索引 2.倒排索引 通过内容搜索出id 2.词频/位置[作者空间]
一、数据 数据是指未經過處理的原始記錄。 数据的本质是利用数学观察、记录、理解世界;数据分析的过程就是人类从定性到...[作者空间]
大数据采集 01 — 概览 02 — 相关延展 系统日志数据的采集 Scribe是Facebook开源的日志收集系...[作者空间]
https://mp.weixin.qq.com/s/xkyCz7KkgeT9TBdch1vz5g 本文为PMCA...[作者空间]
我们这次重点谈一下用户标签。 对于市场层面,用户标签能帮助我们什么? 1、完善数据仓 之前我们讲过,企业或市场要有...[作者空间]
本文为 AI 研习社编译的技术博客,原标题 :Data Pre-processing and Visualizat...[作者空间]
【摘要】 关键词:集算器、SPL、数据脱敏、报表 1)、数据脱敏是“指对某些敏感信息通过脱敏规则进行数据的变形,实...[作者空间]
在上一篇文章中我们提到的数据预处理的数据清洗,数据清洗就是对于肮脏数据的清除,而肮脏数据主要有异常值和缺失值,我们...[作者空间]
数据分析中,需要先挖掘数据,然后对数据进行处理。数据预处理的字面意思就是对于数据的预先处理,数据预处理的作用就是为...[作者空间]
大数据培训一定要知道的知识点:由于数据源的多样性,数据集由于干扰、冗余和一致性因素的影响具有不同的质量。从需求的角...[作者空间]
在做数据分析时,我想许多数据分析师会像《R语言实战第二版》的作者卡巴科弗那样发出感叹:“数据分析师在数据预处理上花...[作者空间]
Kakfa介绍 Kafka是什么 Kafka最初是LinkedIn的内部内部基础设施系统。它被认为是一个流平台,在...[作者空间]
ETL定义 字面含义:ETL是抽取、转换、加载的缩写。 简单定义:将数据从OLTP系统中转移到数据仓库中的一系列操...[作者空间]
大数据平台通过将所有数据整合起来,充分分析与挖掘数据的内在价值,为业务部门提供数据平台,数据产品与数据服务。大数据...[作者空间]
什么是消息系统? 早期两个应用程序间进行消息传递需要保证两个应用程序同时在线,并且耦合度很高。为了解决应用程序不在...[作者空间]
day07.HDFS学习【大数据教程】 ******HDFS基本概念篇****** 1. HDFS前言 设计思想 ...[作者空间]
一、Kafka简介 Kafka (科技术语)。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规...[作者空间]
Hive on Mapreduce Hive的原理大家可以参考这篇大数据时代的技术hive:hive介绍,实际的一...[作者空间]
macOS Sierra 10.12.4 Spark 1.6.2 Python 2.7 转载请注明出处:http:...[作者空间]
漏斗模型作为数据分析的一种常用方法,主要作用于流程的分布分析,比如用户的登录注册流程、电商的下单支付流程。漏斗模型...[作者空间]