R/Python在大数据中的运用策略

R/Python在大数据中的运用策略

作者: 大圣哔哔 | 来源:发表于2019-08-20 17:10 被阅读0次

R/Python在大数据中的运用策略
让Python和R共舞
迪士尼策略在团队教练中的试运用 ——培训方案尝试设计
将Python和R整合进一个数据分析流程
读书笔记《善战者说》 21
11.7设计模式-策略模式-详解
学习小组Day5笔记--小明
对不同DISC特质学员的辅导转换策略
R语言简介和基本操作
入门数据科学，编程语言Python和R怎么选择？成都大数据分析师

作者：阿乐

无论是R用户还是Python用户，您很希望将喜欢的工具用于大数据上，但有时候用的并不多。事实上，许多人（错误地）认为R/Python对大数据的效果不佳。

默认情况下，R/Python仅适合运行单计算机内存中处理数据，同理Python也是如此。硬件的进步使这对许多用户来说不再是一个问题，因为大多数笔记本电脑至少配备了4-8Gb的内存，你也可以在任何主要的云提供商上获得具有大内存的实例。但这点内存对于几乎所有可以真正称为大数据的数据集来说，这仍然是一个真正的问题。

使用R或者Python处理大数据时遇到的最大问题是它们是基于内存运算的。数据大小必须和您机器上的内存匹配，而且不是1：1。因为您实际上正在使用数据，所以一个过往经验则是您的机器内存需要是数据大小的2-3倍。

在R/Python中进行大数据工作的另一个大问题是数据传输速度。因为空间的差距会造成时间的缓慢，数据传输的速度也是影响数据处理的一大因素。

然而，不必悲观，在R/Python中使用大数据还是有一些有效的方法和策略思路。

01 样本和模型

如果要进行抽样和建模，您需要将数据进行抽样处理，直到可以轻松下载的大小，并在样本上创建模型。抽样的数据大小可以使模型运行时间缩短，同时保持统计有效性。

如果需要保持类平衡（或者一个类需要过度/欠量采样），则在抽样期间对数据集进行分层是相当简单的。

这种策略优点是提高了运行速度，方便原型设计，制作常用的数据包，缺点无法满足常见的商业报表需求，例如汇总统计等，以及可能因抽样的不合理导致数据失效。

02 块处理

在该策略中，数据被分块成可分离的单元，并且每个块被单独拉出并且串行，并行或在重新组合之后操作。该策略在概念上类似于MapReduce的算法。根据手头的任务，块可能是时间段，地理单位，或逻辑如单独的业务，部门，产品或客户群。

在此策略中，好处是获得了完整的数据以及选择合适的并行方法缩短数据处理的时间，但缺点是你要合理地划分块。

03 数据库预处理

在此策略中，数据预先在数据库上进行处理，只有将经过处理的数据集从数据库读到到R或者Python的机器中。在将数据导入之前就在数据库中进行汇总或过滤来可以获得显着的加速。

这种策略的好处是，使用熟悉的SQL处理数据，更少的数据意味着更快的传输速度和内存处理速度，从而减少运行时间。缺点是某些操作无法在数据库完成，数据库的处理速度成了数据分析的处理数据的影响因素。

04 数据接口

目前大数据处理几乎是数据仓库，直接进行联机分析处理。无论是Hive还是Spark，都有R和Python的接口。如果需要使用R或者Python,可以直接使用丰富的各种接口，进行数据处理操作。

这种策略的好处是搭建起了处理大数据的通道，缺点是要提前部署好需要的环境。

05 结尾

无论使用哪种工具，都需要与本身的环境、诉求、条件匹配。如果你仅仅是对大量的数据进行报表式的指标统计汇总，那使用数据库、数据仓库进行原生的操作完全可以满足需求。在一些你不得不配合相关的数据分析工具R或者Python进行操作时，你可能就会寻找一个合适的方案。

在此向大家征集数据故事，你的人生也许有你很中意的人和事，我希望用精确的数字和可视化映射平凡人的美好故事。期待您的私信！

感谢您的耐心阅读，请顺手点个「在看」，谢谢。

『延伸阅读』

技术

有意思 | 七夕用代码地写封优雅的情书

上新 | 数据分析师用什么姿势学？

技术公司怎么用R和shiny赋能业务？

数据运营 | 数据平台实践流程

生活

精选 | 四面楚喵

相关文章

R/Python在大数据中的运用策略
作者：阿乐无论是R用户还是Python用户，您很希望将喜欢的工具用于大数据上，但有时候用的并不多。事实上，许多人...
让Python和R共舞
Python和R已经成为数据分析中两大利器，两者各有所长，相互借鉴。Python 的 pandas 从 R 中偷师...
迪士尼策略在团队教练中的试运用 ——培训方案尝试设计
迪士尼策略在团队教练中的试运用 —...
将Python和R整合进一个数据分析流程
摘要：◆ ◆ ◆ 序言在Python中调用R或在R中调用Python，为什么是“和”而不是“或”？在互联网中，...
读书笔记《善战者说》 21
R十行采集：《诡道：竞争策略的运用》 1.通过策略的运用来引导对手、操纵对手、调动对手、抑制和剥夺对手优势，从而为...
11.7设计模式-策略模式-详解
设计模式-策略模式策略模式详解策略模式在android中的实际运用 1.策略模式详解 2.策略模式在andro...
学习小组Day5笔记--小明
R语言数据结构数据类型 -向量-矩阵-数组-数据框-列表知识点，与python相比 1.注意赋值方式2.r中同...
对不同DISC特质学员的辅导转换策略
《导师辅导技术》中，针对不同DISC特质学员的转化策略如下: 针对D特质学员的转换策略运用大量的事实、数据和生活...
R语言简介和基本操作
课程简介大数据背景介绍； R语言和Python语言在数据分析中的地位；以R语言为蓝本讲解数据分析的基本步骤和技...
入门数据科学，编程语言Python和R怎么选择？成都大数据分析师
Python和R语言，二者都是数据科学领域最佳的编程语言，入门学习数据分析，选择Python还是R编程语言？...

网友评论

本文标题：R/Python在大数据中的运用策略

本文链接：https://www.haomeiwen.com/subject/fvapsctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|R/Python在大数据中的运用策略|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！