概论

作者: 爱修仙的道友 | 来源:发表于2019-04-18 14:02 被阅读0次

    数据科学概要
    https://coggle.it/diagram/WypjBWlbpEHkyhcg/t/data-science-for�managers/c0083ef2d003b849535618df0b84e6dad73e301910c45e7eab5b72ff12f016e0

    本质
    针对数据本身做ETL
    E- 抽取,清洗
    T- 转置,按照某个格式存储到分布式系统中
    L- 加载,放到分布式环境上跑

    核心内容
    可视化

    自身需求
    快速学习能力
    本科数学能力

    技术栈
    高级语言 C++
    脚本语言 python
    前端 ios 安卓 ( 看的懂,会迁移即可)

    python基础环节
    numpy - 对数据本身进行计算
    pandas - 表格的存储
    matplotlib - 数据可视化

    大数据环节
    数据流计算

    • spark
    • Flink

    可视化方面

    • numpy
    • pandas
    • matplotlib
    • seaborn

    核心算法方面

    • sklearn
    • xgboost

    相关文章

      网友评论

          本文标题:概论

          本文链接:https://www.haomeiwen.com/subject/ytuzwqtx.html