美文网首页程序员大数据玩转大数据
数据太大爆内存怎么办?

数据太大爆内存怎么办?

作者: 丨程序之道丨 | 来源:发表于2019-03-11 19:57 被阅读12次

在研究、应用机器学习算法的经历中,相信大伙儿经常遇到数据集太大、内存不够用的情况。这引出一系列问题:怎么加载十几、几十 GB 的数据文件?运行数据集的时候算法崩溃了,怎么办?怎么处理内存不足导致的错误?本文将讨论一些常用的解决办法,供大家参考。

处理大型 ML 数据文件的七种思路

1. 分配更多内存

有的机器学习工具/库有默认内存设置,比如 Weka。这便是一个限制因素。你需要检查一下:是否能重新设置该工具/库,分配更多内存。对于 Weka,你可以在打开应用时,把内存当作一个参数进行调整。

2. 用更小的样本

你真的需要用到全部数据吗?可以采集一个数据的随机样本,比如前 1,000 或 100,000 行。在全部数据上训练最终模型之前(使用渐进式的数据加载技巧),先试着用这个小样本解决问题。总的来说,对算法做快速地抽查、看到结果在前后的变化,在机器学习领域是一个很好的习惯。

你还可以考虑:相对于模型技巧,做一个数据大小的敏感性分析。或许,对于你的随机小样本,有一个天然的边际效应递减分水岭。越过这个关口,继续增加的数据规模带来的好处微乎其微。

3. 更多内存

你必须要用 PC 吗?

你可以考虑内存、性能高一个量级的计算设备。比如,租用 AWS 这样的云服务。租用云端有数十 GB 内存的机器,最低价格每小时不到一美元。我个人觉得这是非常实际的选择。在此我向大家推荐一个大数据技术交流圈: 658558542  突破技术瓶颈,提升思维能力 。

4. 转换数据格式

你是否把数据存为原始的 ASCII 文本,比如 CSV 文件?或许,使用其它格式能加速数据载入并且降低内存占用。好的选择包括像 GRIB、NetCDF、HDF 这样的二进制格式。有很多命令行工具能帮你转换数据格式,而且不需要把整个数据集载入内存里。换一种格式,可能帮助你以更紧凑的形式存储数据,节省内存空间;比如 2-byte 整数,或者 4-byte 浮点。

5. 流式处理数据,或渐进式的数据加载

你的所有数据,需要同时出现在内存里吗?

或许,你可以用代码或库,随时把需要的数据做流式处理或渐进式加载,导入内存里训练模型。

这可能需要算法使用优化技术迭代学习,比如使用随机梯度下降。那些需要内存里有所有数据、以进行矩阵运算的算法,比如某些对线性回归和逻辑回归的实现,就不适用了。比如,Keras 深度学习 API 就提供了渐进式加载图像文件的功能,名为 flow_from_directory另一个例子式 Pandas 库,可批量载入大型 CSV 文件。

6. 使用关系数据库(Relational database)

关系数据库为存储、访问大型数据集提供了标准化的方法。在内部,数据存在硬盘中,能渐进式地 in batch 批量加载,并使用标准检索语言 SQL 检索。像 MySQL、Postgres 这样的开源数据库工具,支持绝大多数的(全部?)编程语言。许多机器学习工具,都能直接与关系数据库连通。你也可以用 SQLite 这样更轻量的方法。我发现,这种方法对大型表格式数据集非常有效率。

雷锋网提醒,你需要用能迭代学习的算法。

7. 使用大数据平台

有的情况下,你可能必须要使用大数据平台,即为处理超大型数据集而开发的平台。它们能让你进行数据转换,并在其上开发机器学习算法。

两个很好的例子是 hadoop 与机器学习库 Mahout,以及 Spark 与 MLLib 库。我认为,这是用尽上述办法仍无法解决的情况下,才需要采用的最后手段。单纯是这为你的机器学习项目所带来的额外硬件、软件复杂情况,就会消耗许多精力。即便如此,有的任务确实数据太过庞大,前面的选项都无法奏效。

相关文章

  • 数据太大爆内存怎么办?

    在研究、应用机器学习算法的经历中,相信大伙儿经常遇到数据集太大、内存不够用的情况。这引出一系列问题:怎么加载十几、...

  • Matlab 操作 HDF5文件

    HDF5文件 在使用Matlab对数据进行预处理时,遇到了内存不足的问题,因为数据量太大,在处理完成以前内存已经爆...

  • 海量数据处理1

    What is 海量数据? 数据量太大,导致要么是无法在较短时间内迅速解决,要么由于数据量太大,无法一次性装入内存...

  • 坦白讲吧,Redis内存回收策略和key失效机制,搞不懂就别去面

    Redis是基于内存的key-value数据库,内存的大小是有限制的,如果内存满了,Redis会怎么办呢,另外,我...

  • WKWebView加载显示问题

    因为项目数据要求,加载的html数据量太大,用原始的UIWebView加载,导致内存暴涨————崩溃 改用WKWe...

  • sparksql读parquet表执行报错

    集群内存:1024G(数据量:400G) 报错信息: 原因: Driver端发送的数据太大导致超过spark默认的...

  • PHP 内存溢出常见解决方案

    产生的原因大致可以分为两种: 1.常驻内存的PHP脚本长时间执行,未释放内存。 2.数据查询过大,导致内存撑爆。 ...

  • 数据结构与算法--优先队列和堆排序

    数据结构与算法--优先队列和堆排序 在某些数据处理的例子中,总数据量太大,无法排序(甚至无法全部装进内存)。例如,...

  • Redis内存爆了怎么办?

    一、场景 Redis在高并发系统中是不可或缺的中间件,由于它本身的高性能特性可以帮助我们解决很多业务场景。同时Re...

  • R 与 Sqlite3

    我的使用场景 数据太大,直接用R读取到内存太占地方,又想让用户快速检索到数据。那就把数据导入到数据库,存储到硬盘,...

网友评论

    本文标题:数据太大爆内存怎么办?

    本文链接:https://www.haomeiwen.com/subject/kukipqtx.html