美文网首页
《数据之巅》读书笔记

《数据之巅》读书笔记

作者: sly61 | 来源:发表于2017-12-11 16:46 被阅读84次

什么是大数据?

数据,对客观世界测量结果的记录,信息的载体和代名词,数字文本图片视频的统称【测量记录:28】数据三大来源,测量,记录,计算。
信息,有背景的数据【赋予背景:今天气温28度】
知识,呈现规律的信息【提炼规律:7月某市平均气温28度】
智能,机器通过大量数据获得知识,自动完成任务

大数据的大,是指宽量大和价值大。
大数据=传统小数据(源于测量)+现代大记录(源于记录)
大数据三大成因:
摩尔定律,数据存储能力增强
社交媒体,产生数据能力增强
数据挖掘,使用数据能力增强

有数据,还要有计算!

什么是大数据思维?

《大数据时代》维克托·迈尔-舍恩伯格认为:
1. 需要全部数据样本,而不是抽样
2. 关注效率而不是精确度
3. 关注相关性而不是因果关系

大数据的真正价值在于创造(非改进改善),在于填补无数个还未实现过的空白

案例:
Target 超市以20多种怀孕期间孕妇可能会购买的商品为基础,将所有用户的购买记录作为数据来源,通过构建模型分析购买者的行为相关性,能准确的推断出孕妇的具体临盆时间,这样Target的销售部门就可以有针对的在每个怀孕顾客的不同阶段寄送相应的产品优惠卷。通过找出一个关联物并监控它,就可以预测未来。

大数据特征4个“V”

1. 量Volume,体量大,计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T);
2. 多样Variety,类型多,比如,网络日志、视频、图片、地理位置信息等等。
3. 价值Value,价值密度低,商业价值高。
4. 速Velocity,处理速度快。与传统的数据挖掘技术有着本质的不同。

故事:
1948年辽沈战役期间,司令员林彪要求每天要进行例常的“每日军情汇报”,由值班参谋读出下属各个纵队、师、团用电台报告的当日战况和缴获情况。那几乎是重复着千篇一律枯燥无味的数据:每支部队歼敌多少、俘虏多少;缴获的火炮、车辆多少,枪支、物资多少……有一天,参谋照例汇报当日的战况,林彪突然打断他:“刚才念的在胡家窝棚那个战斗的缴获,你们听到了吗?”大家都很茫然,因为如此战斗每天都有几十起,不都是差不多一模一样的枯燥数字吗?林彪扫视一周,见无人回答,便接连问了三句:“为什么那里缴获的短枪与长枪的比例比其它战斗略高?”“为什么那里缴获和击毁的小车与大车的比例比其它战斗略高?”“为什么在那里俘虏和击毙的军官与士兵的比例比其它战斗略高?”林彪司令员大步走向挂满军用地图的墙壁,指着地图上的那个点说:“我猜想,不,我断定!敌人的指挥所就在这里!”果然,部队很快就抓住了敌方的指挥官廖耀湘,并取得这场重要战役的胜利。

摘录:

几何平均(N个数相乘,再开N次方)数更适于算增长率

人口重心与其经济中心距离过远,就会产生交通拥堵

所谓模型,是对现实世界的一种简化和抽象,任何模型都是错的,但并不是说我们不需要设计模型,恰恰相反,我们需要多个模型,进而从不同视角来观察经较理解同一个问题,以期获得更接近真实情况的结果。
质量控制,戴明《质量、生产力和竞争地位》,鱼骨图,《日本行,为什么我们不行》记录片令美反省改进。

统计一词,来源日本,翻译横山雅南《统计讲义录》

2020,1太硬盘价格将下降到3美元,相当于一杯咖啡,美国国会图书馆是全世界最大的图书馆,其藏量约为15太,一所普通大学图书馆,馆藏量也就1-2太。信息保存如此方便,成本如此低廉,史无前例。

一切科学的本质都是测量。

问卷调查:
盖洛普为《乱世佳人》设计调查问题
关于有多少人读过这本书,分别设计了以下三个问题:
1. 你读过《乱世佳人》这本书吗?
2. 你有阅读《乱世佳人》这本书的计划吗?
3. 你最喜欢的书是哪一本?
之所以问三次,因为第一个问题会引起数据失真:大众普遍存在自夸心理。
而问阅读计划,结果会更加真实。
而开放式问题,可从另一个侧面印证《乱世佳人》的流行程度

诱导式提问,会得出不客观的结论:
如,苏联切尔诺贝利核电站爆炸造成几十万无辜人员死亡,你是否赞成我们修建核电站?

相关文章

  • 《数据之巅》读书笔记

    什么是大数据? 数据,对客观世界测量结果的记录,信息的载体和代名词,数字文本图片视频的统称【测量记录:28】数据三...

  • 【读书笔记】数据之巅

    统计部门不仅发表原始的调查数据,还尝试发布各种复杂计算产生的指标,例如失业率、生活成本指数、工资指数等; 作为改革...

  • 数据之巅

    今天读了部分徐子沛的《数据之巅》,这本书最让我佩服的是作者庞大的知识体系,旁征博引,从古至今,中西结合,娓娓道来。...

  • 数据之巅

    《数据之巅》这本书是公司 VP 在一次开会的时候推荐我们看的,当时各种原因一直没看。最近突然想起,用了不到一周的时...

  • 《数据之巅》

    很多关于这本书的解构,关于这本书的说明,还有一些寥寥数语的“读后感”。可见,这本书,大多是作为理工科的同学们作为工...

  • 读书笔记丨数据之巅

    读书笔记丨数据之巅 数据视角的美国历史概览。第一部分以美国1787年立宪会议为起点,将美国200多年的历史划分为7...

  • 2020读书笔记

    2020读书笔记 持续更新...... 目录: 一,《硅谷之谜》--- 吴军 二,《浪潮之巅》--- 吴军 三,《...

  • 【书】数据之巅

  • 我的读书笔记之社科人文(一)《未来简史》等

    我的读书笔记之社科人文(一)《未来简史》等目录:《未来简史》《浪潮之巅》《智能时代》《人类简史》《枪炮、病菌与钢铁...

  • 读书笔记:数据之巅(涂子沛)

    汉德公式在审判是运用类似银行资本计算中的预期损失。

网友评论

      本文标题:《数据之巅》读书笔记

      本文链接:https://www.haomeiwen.com/subject/skziixtx.html