BI浪潮

作者: chaaffff | 来源:发表于2017-09-20 00:05 被阅读0次

    基本功

    Python 开发

    控制语句(if, for, while, pass, assert, with, yield, import, in)

    类型(object, list, tuple, dict, set)

    表达式(lambda, 列表推导式)

    函数(map, reduce, filter, zip, sort, enumrate, isinstance)

    面向对象(类成员、实例化、构造函数、析构函数、继承、派生、多态、super)

    数值计算(numpy、scipy、pandas、sklearn、gensim)

    数据可视化(matplotlib、moviepy)

    爬虫(scrapy、beautifulsoup、urllib、requests、selenium)

    推荐阅读:《Python手册》、官方文档、《Head First Python》

    Git

    commit

    config

    push

    pull

    diff

    checkout

    merge

    stash

    merge request

    推荐阅读:《踏潮 Git 使用规范》

    传统算法和数据结构

    枚举(8皇后问题)

    递归(汉诺塔问题、树的前中后序遍历)

    分治(求中位数、快排)

    贪婪(Dijkstra 求最短路、Prim 最小生成树)

    动态规划(背包问题、Floyd 求最短路)

    链表(增删改查、循环链表、判环)

    栈(用队列模拟栈、售货员卖棒冰找零问题)

    队列(用栈模拟队列,双向队列、优先队列)

    二叉树(BST、平衡树、线段树)

    堆(最小/最大堆、堆排序)

    排序(冒泡、选择、插入、快速、归并、堆、桶)

    图论(DFS、BFS、最小生成树、最短路、关键路径、流网络)

    字符串(KMP、字典树、AC自动机)

    计算几何(线性规划、凸包)

    推荐阅读:微软 —《编程之美》、《算法导论》

    完成 Leetcode 中所有 easy / medium 难度的习题,编程语言 Python / C++ 自选。

    数学基础

    线性代数(矩阵、特征值、特征向量、秩)

    微积分(极限、导数、拉格朗日中值、泰勒级数展开、傅里叶变换)

    推荐阅读:吴军 —《数学之美》、大学相关课程教材

    统计学基础

    相关性分析(相关系数r、皮尔逊相关系数、余弦相似度、互信息)

    回归分析(线性回归、L1/L2正则、PCA/LDA降维)

    聚类分析(KNN、K-Means)

    分布(正态分布、t分布、密度函数)

    指标(协方差、ROC曲线、AUC、变异系数、F1-Score)

    显著性检验(t检验、z检验、卡方检验)

    A/B测试

    推荐阅读:李航 —《统计学习方法》

    机器学习基础

    关联规则(Apriori、FP-Growth)

    回归(Linear Regression、Logistics Regression)

    决策树(ID3、C4.5、CART、GBDT、RandomForest)

    SVM(各种核函数)

    推荐(User-CF、Item-CF)

    推荐阅读:《集体智慧编程》、Andrew Ng — Machine Learning Coursera from Stanford

    广告业务知识

    了解各角色(Ad Exchange、DSP、SSP、DMP、监测)

    了解广告数据维度

    了解部门算法架构

    推荐阅读:《踏潮算法培训》

    基本功大考核:自主选题完成某一类数据抓取(如淘宝、携程、大众点评、58同城、百度竞价广告、世纪佳缘、链家等),对其进行统计分析并做 Presentation。

    参考:

    chenqin 答过的问题

    小龙虾是怎么火遍全国的? - 数据冰山 - 知乎专栏

    黄焖鸡米饭是怎么火起来的? - 何明科的回答

    RIO是如何席卷大江南北的? - 数据冰山 - 知乎专栏

    统一出品的调味茶饮料“小茗同学”能热卖有哪些因素? - 何明科的回答

    特定岗位所需

    系统工程师

    Linux 基本命令及 Bash Shell

    推荐阅读:《鸟哥的Linux私房菜》

    C/C++

    代码规范

    C++11新特性

    推荐阅读:《踏潮C++代码规范》、《Effective C++/STL》

    RPC框架

    Thrift

    Protobuf

    Web框架

    Nginx with FastCGI

    Apache

    Django

    数据存储

    MySQL

    MongoDB

    Redis

    Hadoop

    HBase

    Kafka

    网络编程

    多线程同步

    进程通信

    流处理

    分布式

    数据同步

    Master-Slave

    竞选机制

    算法工程师

    Linux 基本命令及 Bash Shell

    C/C++

    代码规范

    C++11新特性

    推荐阅读:《踏潮C++代码规范》、《Effective C++/STL》

    回归计算

    最大似然估计

    随机梯度下降

    分布式计算

    MapReduce

    并行计算

    加速比评测

    可扩放性标准

    PRAM模型

    POSIX Threads

    CUDA基础

    数据挖掘工程师

    数据转换

    无量纲化

    归一化

    哑编码

    数据清洗

    判断异常值

    缺失值计算

    特征工程

    可用性评估

    采样

    PCA/LDA

    衍生变量

    L1/L2正则

    SVD分解

    提升

    Adaboost

    加法模型

    xgboost

    SVM

    软间隔

    损失函数

    核函数

    SMO算法

    libSVM

    聚类

    K-Means

    并查集

    K-Medoids

    KNN

    聚谱类SC

    EM算法

    Jensen不等式

    混合高斯分布

    pLSA

    主题模型

    共轭先验分布

    贝叶斯

    停止词和高频词

    TF-IDF

    词向量

    word2vec

    n-gram

    HMM

    前向/后向算法

    Baum-Welch

    Viterbi

    中文分词

    数据计算平台

    Spark

    Caffe

    Tensorflow

    推荐阅读:周志华——《机器学习》

    相关文章

      网友评论

          本文标题:BI浪潮

          本文链接:https://www.haomeiwen.com/subject/gbcnsxtx.html