美文网首页
群内2018_5月讨论整理

群内2018_5月讨论整理

作者: 喵_十八 | 来源:发表于2018-07-03 00:14 被阅读0次

    归档至github

    说明

    以下内容来自群中出现的问题,大家讨论的结果

    Q群:432600958

    微信群:加微信w3aboutyun,附上about云铁粉

    部分内容整理时,已经注明出处,但很多内容,较为零碎,也无暇整理,如有不妥,请联系我,谢谢。
    五月一直在加班,整理的东西有限

    如何从小白快速蜕变为大佬

    时间

    2018.05.03

    内容

    这是一些经验,主要有两点
    1、 培养自己的阅读习惯
    2、 提高对新技术的敏感力
    文章末附了很多公众号

    ref

    Spark 读取本地文件

    时间

    2018.05.03

    讨论内容

    Spark 作为一个分布式系统,如果读取本地文件,则要求该文件在所有节点都存在,并且目录都要求一致。

    • 解决方法1:分发到所有节点(麻烦)
    • 解决方法2:将文件传到hdfs,读取hdfs路径
    • 解决方法3:使用addfile方法

    扩展

    Spark中函数addFile 和 addJar函数介绍

    机器学习优化算法讨论 -- by 木东居士 ref

    时间

    2018.05.03

    讨论内容

    机器学习的算法其实比运筹算法要简单,更偏重应用场景,更多的时间在做特征工程

    机器学习算法里基本都有用到二阶特性(牛顿法要求hessian矩阵),都是一阶的(如梯度下降)

    大规模学习来说,障碍往往在于算法的计算能力不足,而不是数据不够,所以也可以说传统额统计学习方法都不适合大规模数据处理

    在样本量比较多的时候,线性分类方法的劣势小很多,例如可以通过手工拆分/离散化特征来模拟非线性关系。而且有个经验是,在数据量大的时候,一些看起来粗暴无脑的方法反而有令人惊奇的效果。

    SVM 计算复杂度O(n^2),存在两个超参数,只能通过穷举实验来求,计算时间要高于不少非线性分类器
    随机森林 计算复杂度O(nlogn)

    资源分享

    时间

    2018.05.08

    内容

    经典算法大全 密码 ce85

    算法导论中文版.pdf 密码 2ygr

    python资源分享 密码:ll7q

    内容包括:《Python 2.7 Tutorial 中文版》《Python3程序开发指南(第二版)》《Python高级编程》《python核心笔记》《python核心编程第二版笔记》《Python技术手册(第2版)》《Python源码剖析》《quantsp研究计划书》《笨办法学Python》
    by 小青年

    工作感悟

    时间

    2018.05.12

    内容

    工作的意义

    最近在思考一个问题,工作的意义,一份工作最终目的究竟不该是一份简单的工资,而是这个公司能赋予你的资源,另一个是这份资源的成果转换对于市场的冲击力,对人,对社会的贡献度,人终究是需要处理社会活动的。

    职业背景和职业活动的限制,换句话说,工作本身是用来解决社会问题的,个人可能觉得只是天天码代码,做工作量,但它的成效简直太小了,一眼可以看到他的发展和未来。但如果说直面社会问题,去为解决问题而去选择走向,我个人理解人是会不去换不同的工作和行业,最终形成一套解决方案的,另一个角度,如果是为了盈利,这个解决方案的出发点一开始就是针对购买力的问题,你做的是服务和解决方案的路子。触手伸的越广,收益越大。

    即使是办企业也一样,仔细去看每个企业的基本描述类似,但核心针对点不一样,不管是个人也好,企业也罢,需要求同存异,找出自己的突破点,这个时代不是靠努力,而是靠挖掘力,执行力。

    by 道友 枫柚master

    Spark persist(DISK_ONLY)产生的问题

    时间

    2018.05.30

    内容

    在Spark 的代码中增加persist(DISK_ONLY) 之后,会出现多个task failed,错误原因为container memoryOverhead

    去掉persist(DISK_ONLY) 就不再报这个错误,没有task failed, 并且运行速度提升。
    此外,对比每个stage的IO,发现DISK_ONLY的有部分stage的IO是去掉persist的两倍。

    猜想原因

    DISK_ONLY 是将不做序列化的对象直接存入DISK,这部分产生大量IO,会占用内存。

    Spark中cache和persist的作用以及存储级别

    Spark 代码优化

    • 使用更高效的数据结构 BitSet、OpenHashSet、OpenHashMap
    • inline
    • 一些汉字字符串,做维表映射之后,变成数字编号

    Spark 高效数据结构

    人工智能主要三块 大数据、NLP、CV

    分布式发号器选择方案

    • UUID
    • DB
    • SnowFlake

    相关文章

      网友评论

          本文标题:群内2018_5月讨论整理

          本文链接:https://www.haomeiwen.com/subject/zxwruftx.html