GPU:对矩阵运行的并行优化
数据标注需要大量人工
数据科学,以后更重要!
未来的机器学习将会前端化,装在ROM,手机上
二、人工智能的Pipeline
人工智能-基于数学框架的算法方法论
数学架构:
微积分——梯度下降、牛顿法——模型优化的理论依据
概率论——拟合与预测之间的关系——归纳和总结之间的关系——机器学习的基础方法论——极大似然估计
线性代数——求解概率关键参数
的工具——矩阵运算——矩阵乘法和求逆运算——若干矩阵的乘法——BP算法——
人工智能=人工+智能 -> 没有人工就没有智能
人工标注是人工智能的教材,工程师是老师
数据标注—标注平台—众包人员
数据工程/大数据
输入来源:市场/产品
- 训练集哪里来?
数据工作:爬虫-scrapy, phatomjs, AirFlow|Oozie数据处理 - 数据如何变成训练集?
数据清洗- Spark。。。MR-HDFS/Ceph/Cluster
数据仓库- Hive+DFS/Postgress+DFS
数据挖掘- Spark, Scala, python-分析数据(准确性验证:我们距离要去训练的目标有多远?)
数据短缺-填充-`数据科学`
特征不充分-特征工程
EDA-探索性数据分析
Kaggle 做的最好的,都是做挖掘数据的
少几个Feature怎么也不行,教材要接近真实数据
数据标注
数据集市- 各种不同需求的产生的训练集
模型训练-(各种算法)
模型评测
模型工程- 模型的压缩、剪枝、蒸馏、转换
应用层- AIaaS- Flask+Keras/Flask+Pytorch-QPS- 1块**显卡,每秒最多有多少张运算
数据回流- 应用层处理后的数据— 回流到数据采集层
网友评论