美文网首页
百万数据处理踩坑指南

百万数据处理踩坑指南

作者: lasia961 | 来源:发表于2020-09-07 11:02 被阅读0次

以前谁要说excel不好用,暴躁老姐立刻上线,头给你打掉

今天心里骂了无数遍

还是在找各种方法处理190万行的数据

一开始并不知道有多少万行数据,大约127MB的CSV文件,加载到excel里面约104万,我以为只有104万开始对这104万数据处理,这都是上周的事了,今天领导问我进度,咋样啦那些数据。我吞吞吐吐,领导觉得我处理这事对接客户怎么这么不积极,我那心里气的我是,104万就我这破电脑你知道多费劲吗,搞啥搞,没办法作为职场人只好再搞。生气的是接下来我把处理的数据弄丢了,啊,差点砸键盘。

数据为什么丢了?好问题。

因为下载下来是CSV格式,可以用exce打开,但是会提示你不保存为xlsx格式是会丢失的哦,我点了是,就丢失了,这时候应该点击否,改一下文件后缀即可保存

然后我想,那我得把这玩意重新再弄啊,可是excel这么难用一个操作等好久,我换个处理快的,我选择了power query。好家伙,加载很快,使用很流畅,可是等等,怎么乱码了呢??我这csv里面有德文,法文,英文,同一编码转换的时候就乱码了。

想想数据库,sql,access,我直接用项目的sql会不会引起环境崩溃,我直接pass掉了,access我手头也没有这工具啊。然后安静下来,想了想,目前网上这些方法是用手头的工具处理,以前觉得会一样就行,看他们的运行效率承载行数是比较虚的,没想到这些很重要,在某些问题上选择工具直接决定着你结果的正确与错误。

在商业数据分析群里问了超过excel行数的数据怎么处理,有人建议分割excel,有这个工具但是我用亲身经历告诉你别尝试。比如这个是130MB的数据,想要运行快,还能分割那肯定越小越好,如果我每个文件4万行,我也得几十个文件,所以分割文件一步就是把人逼到死的第一步。

这个方法不行,最后我再次安静,目前市面上处理数据的工具一一在脑海里过了下。

excel,常用,小剂量数据处理,使用面广

powerquery,数据处理,200万一样受制约与运行电脑效率极其自身运行效率

powerpviot我也不做图啊

powerbi这个也不行,我也不可视化

那那就只能看看人家大数据用什么软件处理了,python这个行不行??写代码估计很灵活咯,可是我没环境,搭环境也很费劲呢,先看行不行,查了下来是可以的。先把数据给朋友处理,然后找我们组的开发给我搭环境,我说我是小白,你给我写个简单的脚本,我看下python怎么用。

最后选择用python处理就可以啦~比excel优秀很多倍

开发估计是想锻炼我,脚本写的很糙,虽然我也不会py,奈何我会百度,一步步,把他的粗糙的脚本改了改,变成我想要的数据,每天只要在外网下载最新的文件,放到固定位置上,然后运行脚本,就OK了。

相关文章

  • 百万数据处理踩坑指南

    以前谁要说excel不好用,暴躁老姐立刻上线,头给你打掉 今天心里骂了无数遍 还是在找各种方法处理190万行的数据...

  • JavaScrip-StepPitGuide《JavaScrip

    《JavaScript踩坑指南》JavaScrip-StepPitGuide? 《JavaScript踩坑指南》 ...

  • 前端学习安利

    前端面试题nuxt踩坑指南WebGLes6flexboxasync/awaitwebDocsVue keep-al...

  • 源码编译安装TensorFlow

    Ubuntu16.04 编译安装TensorFlow踩坑指南,参考官方文档 使用pip安装TensorFlow在运...

  • AWS踩坑指南

    1.nones and free tier EC2 just like a computer with only ...

  • Vue踩坑指南

    在v-for渲染的时候, 如果遇到中途删除某一节点的情况触发重新渲染, 此时data里面的数据不刷新, 例如:对于...

  • mpvue“踩坑”指南

    mpvue是一个使用 Vue.js 开发小程序的前端框架。框架基于 Vue.js 核心,框架整体和vue语法保持一...

  • Robolectric踩坑指南

    一、介绍 自己百度去吧。 二、项目配置 1、针对Android Studio在build.gradle中添加: 2...

  • Mockito踩坑指南

    由于Spring/Spring Boot中支持Mockito框架,所以我们的注解可以直接使用@RunWith(Sp...

  • PowerMock踩坑指南

    单元测试踩过无数的坑,都源于源代码写的不好,但是如何在不修改源代码的同时把单元测试写好,是我这个实习生应该摸索的,...

网友评论

      本文标题:百万数据处理踩坑指南

      本文链接:https://www.haomeiwen.com/subject/avukektx.html