大数据和机器学习固废行业商业价值

作者: freedomme | 来源:发表于2018-03-08 12:45 被阅读0次

大数据和机器学习固废行业商业价值
数据清洗&预处理入门完整指南
终极算法 by domingos(一)
知名公司怎样测试机器学习模型？
商业分析中的“洞察”，应该看到什么？
机器学习中比较活跃的四大领域
从人肉到智能，阿里运维体系经历了哪些变迁？
小米唐沐等大咖精心挑选的100个年度研发案例实践
TOP100summit 2017：小米唐沐等大咖精心挑选的10
机器学习—路线图

一、大数据和机器学习的基本概念，历史渊源。综述当前大数据和机器学习应用领域。我的判断是，这两个概念现在已经不是出炒作，已经走向实用领域。

大数据这个概念兴起，我感觉是在2012年。这一年，大数据这个概念在计算机这个领域经常被提取。普通的媒体也开始常常有报道，当然普通媒体对大数据这个概念并没有什么实质性了解，他们只是在炒一些大数据表面含义，例如大数据就是大量的数据，究竟多大量数据就是大数据，我想当时的媒体多是答不上来，就算是现在，我想他们也是答不上来的。或者有些媒体留意到计算机领域一些引用到的观点，就是说几百个G的数据量就可以称为大数据。其实这是对大数据概念非常肤浅的理解。我认为大数据更重要的是指大量数据时，系统的处理方法和数据应用能力。这才是大数据核心的价值所在。

大数据处理的技术早就在技术先锋的公司得到广泛的应用，例如Google 搜索引擎。现在广泛使用到的大数据技术，就是开源社区从Google在2004年发表的GFS论文，实现论文中的大数据存储和处理技术。大数据概念兴起，这和另外一项技术在大量数据处理能力有关，这项技术就是关系型数据库。因为关系型数据库在面对大量数据时，由于本身技术架构和理论，在处理大量数据时显得力不从心，例如在几十亿笔交易记录里求平均值（在这里不讨论抽样方式，抽样在很多场景也不适合）。因为现在每天，都有很多场合会产生大量要记录的内容（进一步描述）。所以就要有新的技术来处理这种情况。这就是大数据技术诞生的背景。

其实在08-12年左右，像电信公司这样的企业，每天用户产生的数据量就很大。我参加一个技术会议了解到的，像广州和佛山的移动公司，每天他们的业务系统生产数据，就是上百个G，在12年-15年左右，多数的传统企业，他们的信息部门有认识到大数据重要性，由于对大数据处理技术和数据应用能力有限，多半是做数据收集，看着硬盘的数据在膨胀。由于数据应用能力不强，所以数据收集方向也不大明确，这些企业信息部门只有尽可能的收集存储数据，等到以后有条件了，再进行数据处理和分析。这些场景算是比较好的，比较糟糕的情况，连收集数据意识也没有。

下面进行简要的分析，企业为什么要收集大量数据。接着要解释大数据处理有哪些技术难点和数据应用难点。

收集大数据原因：1、在现代社会的任何一项有意义研究，大多离不开数据的支持。当然，如果是爱因斯坦，乔某某这一类的，另当别论。有很多研究，要得到比较准确的结果和预测，往往需要大量的样本数据作为支撑。例如，在研究人的很多行为喜好（行业术语，用户画像），往往要从多个角度进行描述，这样关联的数据就很多（常常会关联到音频和视频）。在商业上面对的，多是大量用户。事实上，每个人每天发生的很多我们不大留意的行为，都被网络很巧妙的收集起来，只是我们不知道。这些数据量都是非常大的，并且还在不断增加和更新。2、大数据处理，导致在上世纪90年代兴起，本世纪初趋向沉滞的技术重新兴起。特别是在这两年，几乎就是IT界讨论的全部内容，那就机器学习，以及由其演化的深度学习和迁移学习。机器学习在处理数据时，有个特点，即通过给机器“喂取”大量的数据，让机器可以像人一样通过学习逐步自我改善提高。这个反过来，需要大量数据。机器学习在我们公司业务中的应用，就是我本文要讨论的重点。3、科学研究例如基因技术，天文学，分析对象，多就是海量数据。4、多媒体数据。还有很多很多收集大数据原因，这里不再举例。

大数据处理难点：1、技术复杂。大数据量太大了，一般都是进行分布式存储和计算，也就是用分布式系统进行处理。分布式计算技术是比较复杂的，理论也比较抽象。现在用的比较多的大数据处理计算，就是hadoop。这个组件实施难度大。其数据计算组件，一般Map-Reduce。这个组件在编程上，还是不太友好。虽然现在有不少替代分布式计算组件，例如Spark，Hbase等等。但是入门的门槛还是比较高的。2、关联的技术太多了。大数据存储和计算，不单单是一个hadoop，hadoop只是大数据处理的核心组件之一。还有很多相关的技术，Spark、Hbase、zookeeper、linux操作系统技术（最好会shell编程）、Python编程、java编程、机器学习、函数式编程、数据挖掘算法（理解原理）。深厚数学背景，高等数学、线性代数、概率统计。神经网络理论等等。这些技术水平往往会决定大数据项目质量。

数据应用难点：由于存在很高的门槛，这一类大数据专家现在缺口是很大的，薪水也比较高，年薪大多在30-50W。并且大数据项目建设周期也比较长，通过网络了解到的，一个不算很大的项目，很多在2-3年（先驱项目）。导致现在的数据比较难得到处理和应用。投入的资金也不是一笔小数目，中小型企业是负担不起的，除非项目起到立竿见影效果。

二、公司投资的必要性，案例和案例分析，公司可能要用到的场景

我到公司时间不是很长，大约半年时间，公司组织和公司业务都比较多和复杂。根据自己了解到公司业务和大数据应用知识，设想公司可能用到的机器学习以下一些场景。

2.1垃圾识别后分类

2.2垃圾信息识别，估计附件地理的消费人群喜好

2.3餐厨垃圾，识别后，评估市场农场品价格走向

2.4 公司危废品处理中，危废品识别。

2.5关联分析中，多变量交叉相关分析，数据挖掘前处理

下面就上面所列的场景进行详细说明，以期公司能投入资源开展项目。

垃圾识别分类。垃圾分类，我国官方给出的标准是四类（公司宣传画），国外一般分成两类。我到过不少城市，在公共场合见到的垃圾箱，只有两种，公司也只有两种。不过，实际上，根据我的观察，很少人按照分类，投入不同垃圾箱。原因其实也很清楚，就算有环保意识的人，也不大容易分辨哪些是可以回收，哪些是不可以回收。就算投到垃圾箱的垃圾分类正确了，其实结果也是一样的，我见到的垃圾收集人，很多都是将这两种垃圾混在一起。人多少图方便，如果指望通过宣传来改善人的行为，我认为不大可靠。其实，国外情况也差不多。针对这种情况，特别是机器学习重新兴起，国外有些创业公司做一些垃圾自动分类产品。见下面链接http://digi.tech.qq.com/a/20170902/026000.htm。其背后实现关键技术，毫无疑问，就是机器学习。http://tech.163.com/17/0827/14/CSRR2E3G00098IEO.html这个报道更加直白，就是使用机器学习，自动实现垃圾分类，无疑更具有环保意义。

垃圾信息识别。通过大量数据，训练好模型后，可以准确的识别出垃圾信息。当然要做到百度和淘宝通过图片就可以识别到该图片的物品名称，是有难度。不过实现的技术原理是一样的，那就是有监督机器学习。淘宝和百度这些互联网公司，已经积累了大量图片数据，并且这些数据还在不断的积累，这些新增数据又为训练更准确模型提供数据源泉。我们也要拥有这样的技术，这技术不但可以直接应用到公司实际生产中，更重要的是，还可也能提供重要的商业价值。准确的识别出垃圾的信息后，我们就可以做这样的数据分析，按地理分析消费倾向，哪些零食比较受欢迎，哪些地方的人比较喜欢养宠物等等。总之有了这些收集的数据，经过数据挖掘和相关分析处理后，我们可能会找到新的商业模式，或者为各种改进方案提供数据支持。在线上，用户的信息和行为喜好几乎都被大的互联网公司扒的干干净净，这些公司所有收入，坦白的说，最终都是依赖他们收集到的用户信息。至于使用的商业手段，各家都有不同。在线下，各个大超市，大卖场，通过会员卡方式，也是事无巨细收集，尽量做到点滴不漏。我们作为环保企业，要通过我们的渠道建立和用户之间的关联。

餐厨垃圾，识别后，评估市场农场品价格走向。同上类似，具体的商业模型建立，有待公司的市场专家做进一步研究。当然，现在也可以经过检测等手段，大致对餐厨成分做出大致判断。不过在细度上，很难跟机器学习相匹比。

公司危废品处理中，危废品识别，中转站和三厂的应用。这也是在公司很好应用点，生活垃圾里，经常有参入工业垃圾这种情况发生。有些工业垃圾还是比较危险的，例如油漆桶，中转站的同事就算再细心，还是挡不住这些危险品进入中转车。这就留下很大的安全隐患。机器学习这些技术的应用，虽然不能说杜绝，但我就能在很大程度降低风险。有了垃圾物理上分类和垃圾识别信息后，我们垃圾处理手段也有可能发生变化，这些可以改善我们处理垃圾的生产工艺。

关联分析中，多变量交叉相关分析，数据挖掘前处理现在公司运行的业务支撑信息系统有10多个，如果到集团的层面就更多了。这些年来，系统生产了不少数据。公司的业务也比较多和复杂，据我了解，在不同的业务间做交叉分析的，还没有。可能是技术限制。其实现在很有必要做这样分析了，利用机器学习这些手段，处理这些系统数据，看看能不能产生新的资源，这些都是值得我们去探究的。有点要注意的是，大数据和机器学习这两个紧密关联的技术和传统的BI技术是不能混为一谈的。BI技术也是在大量数据情况下，探索业务之间的关系，但是使用的是传统上的关系数据库间的算法，这些算法原理都比较简单。而机器学习，使用更加复杂和智能算法。智能化和自动化的程度是不一样的，BI技术更多是依赖于业务分析人员的经验。机器学习不依赖这个，所以适应的范围更加广。更重要的是，基于机器学习的大数据分析，其分析结果无疑要比传统BI分析结果要准确。因为传统BI分析，在大量分析时，无疑是要用到抽样技术的。我认为，经过一系列的误差积累后，对结果影响是比较大的。有一项研究表明重新分析数据，研究结论可能完全不同，并且比例高达三分之一。见https://www.guokr.com/article/439139/?f=wx

国内大数据在固废应用论文比较少，并且内容非常非常的一般这我的推断是，开展大数据在固废应用研究还不多，或者是项目还是没有实质性进展。这些应用不同企业信息化。其实到现在，大家都明白，企业信息化，这是没有什么技术含量了。大数据应用，这是实打实玩技术的（看看前面我提到的大数据相关技术），并且还有很多未知内容要探索。单单在机器学习的调参数，就可以发表很多篇论文了。

三、总结，当然做任何事情，都要进行利弊分析的。前面都是说大数据和机器学习好的一面，我们很有必要从反向的角度看看。1、成功落地大数据项目不多，或者这样说，达到预期结果的不多。成功的比例我没有去查，不过很明显的是，如果能达到预期，大数据投资会更加普及。2、技术实在是比较复杂，当前这个方向技术人才紧缺，项目周期长（中小的项目2-3年是比较普遍的）。3、投入比较大，硬件上的用于大数据运算的GPU还是比较昂贵的。一个小的大数据项目，一开始投入几十万去购买硬件是很正常的。人员成本也是非常大的。即使有这样多的不利，我想公司还是要去尝试的，毕竟要试过，我们才明白实现目标的正确方向。

大数据和机器学习固废行业商业价值
一、大数据和机器学习的基本概念，历史渊源。综述当前大数据和机器学习应用领域。我的判断是，这两个概念现在已经不是出炒...
数据清洗&预处理入门完整指南
凡事预则立，不预则废，训练机器学习模型也是如此。数据清洗和预处理是模型训练之前的必要过程，否则模型可能就「废」了。...
终极算法 by domingos(一)
第一章机器学习革命算法：输入数据和算法，输出结果。机器学习：输入数据和结果，输出算法。在机器学习中，知识往...
知名公司怎样测试机器学习模型？
尽管机器学习行业在开发帮助数据团队和从业人员操作其机器学习模型的解决方案方面取得了进展，但测试这些模型以确保它们能...
商业分析中的“洞察”，应该看到什么？
纯粹而孤立的数据，没有商业价值。数据商业价值的体现，依赖于具体的场景，而场景依赖于具体的业务，业务来源于不同的行业...
机器学习中比较活跃的四大领域
机器学习中比较活跃的四大应用领域数据挖掘用机器学习方法，发现数据之间的关系计算机视觉用机器学习方法，让计算...
从人肉到智能，阿里运维体系经历了哪些变迁？
机器智能的前提是需要有数据，AIOps的数据从哪里来？如何利用数据代替机器决策、分析？如何利用机器学习算法与基于大...
小米唐沐等大咖精心挑选的100个年度研发案例实践
2017年，机器学习、大数据、人工智能等词汇成为软件研发行业的主流，大前端、DevOps、区块链等技术方式成为热点...
TOP100summit 2017：小米唐沐等大咖精心挑选的10
2017年，机器学习、大数据、人工智能等词汇成为软件研发行业的主流，大前端、DevOps、区块链等技术方式成为热点...
机器学习—路线图
机器学习数据处理步骤：机器学习基础与实践（一）----数据清洗机器学习基础与实践（二）----数据转换机器学...