美文网首页
datawhale(2019暑期)组队学习资源汇总

datawhale(2019暑期)组队学习资源汇总

作者: AndrewLioWu | 来源:发表于2019-07-29 17:43 被阅读0次

基础知识

Python基础

设计人 简介 面向对象 周期 难度 时间需求
马晶敏,叶梁 python基础知识 python小白 10天 2~4 h/d

学习路线
基础知识 → 函数 → 第三方模块 → 类和对象 → 基础爬虫

任务安排

ID Content Days
1 环境搭建 + python初体验 + python基础讲解 + python数值基本知识 2
2 列表 + 元组 + string字符串 + 字符串格式化问题 2
3 数组 + 集合 + 判断语句 + 三目表达式 + 循环语句 2
4 数组 + 集合 + 判断语句 + 三目表达式 + 循环语句 2
5 函数 + file + os模块 + datetime模块 2

参考链接

Leetcode(算法)

设计人 简介 面向对象 周期 难度 时间需求
老表、于鸿飞、杨皓博 Leetcode刷题 语言基础的同学 50天 2~3 h/d

学习路线
选取腾讯精选练习(50 题)解答,每天一道算法题。

任务安排(无)

参考链接
leetcode 解题思路图解(github)(文字+图片)
leetcode 题解最高星(github)(代码+文字)
leetcode 题解(C++, Python)(代码+文字)

  • * 希望大家可以多分享参考链接

统计学

设计人 简介 面向对象 周期 难度 时间需求
王佳鑫、许辉 统计学中主要知识并梳理总结 语言基础的同学 7天 2~3 h/d

学习路线

  • 根据所学习内容进行
    • (1)统计学基本知识、二项及泊松分布、大数定律、正态分布等内容的总结进行整体的回顾、梳理与完善
    • (2)中心极限定理、置信区间、 假设检验等内容的总结进行整体的回顾、梳理与完善。

任务安排

ID Content Days
1 统计学基本知识 + 二项及泊松分布 + 大数定律 + 正态分布 2
2 中心极限定理 + 置信区间 1
3 假设检验 2
4 线性回归 + 卡方分布 + 方差分析 2
  • 学习内容:
    • (1)本次统计学学习以网易云可汗学院公开课为主:视频链接
    • (2)并以《深入浅出统计学》为辅:书籍链接

参考链接

编程(数据结构)

设计人 简介 面向对象 周期 难度 时间需求
光城 、LeoLRH 学习重温经典数据结构 语言基础和算法基础的同学 16天* 1+0.5 h/d
  • 学习时间未定,具体看(周末进行整体整理讨论)(每天任务时间具体看任务情况)

学习路线
数组 → 链表 → 栈 → 队列 → 递归 → 排序 → 二分查找 → 哈希表 → 字符串 → 二叉树 → 堆 → 图 → 回溯 → 分治 → 动态规划

任务安排

ID Content Days
1 数组 + 链表 2
2 栈 + 队列 + 递归 3
3 排序 + 二分查找 2
4 散列表(哈希表) + 字符串 2
5 二叉树 + 堆 2
6 2
7 递归 + 回溯 + 分治 + 动态规划 2

参考链接
MIT 数据结构(代码+文字)

  • * 希望大家可以多分享参考链接

数据分析/数据挖掘

Excel入门

设计人 简介 面向对象 周期 难度 时间需求
杨煜,李严 了解并掌握Excel核心功能 小白 12天 2~3 h/d

学习路线(无)

任务安排

ID Content Days
1 基础界面 + 文件操作 + 基础单元格操作 3
2 单元格引用 + 运算符 + 文本函数 + 逻辑函数 + 计算函数 2
3 vlookup函数用法 + match&index + 双条件查找 2
4 图表类型+图表类型选择指南 + 图表的构成要素 3
5 数据透视表+实现数据分段统计+变更值汇总依据+设置三种值百分比+计算字段&计算项 2

参考链接
爱知趣 Excel(视频)

  • * 希望大家可以多分享参考链接

MySQL

设计人 简介 面向对象 周期 难度 时间需求
杨皓博 孙涛 杨煜 了解并掌握MySQL主要内容 小白 8天 2~3 h/d

学习路线
MySQL软件安装及数据库基础 → 查询语句 → 表操作 → 表联结 → MySQL 实战 → MySQL实战 - 复杂项目

任务安排

ID Content Days
1 软件安装及数据库基础 + 查询语句 3
2 表操作 3
3 MySQL 实战 1
4 MySQL 实战 - 复杂项目 1

参考链接(无)

  • * 希望大家可以多分享参考链接

数据分析

设计人 简介 面向对象 周期 难度 时间需求
金娟娟 了解并掌握数据分析* 小白 22 2~4 h/d
  • 具体程度没有提及,有待了解

学习路线
以《python for data analysis》为辅,学习重要的python库

  • 重要的python库(numpy/pandas/matplotlib/seaborn等) → 数据清洗和分析

任务安排

ID Content Days
预备 github + jupyter 1
1 第4章numpy + 作业1 2
2 第5章pandas 2
3 第6章数据载入 2
4 第7章数据清洗 2
5 第8章数据联合 2
6 第10章数据聚合 2
7 第12章高阶pandas + 作业2 2
8 第9章matplotlib + 作业3 2
9 第11章时间序列 2
10 大作业+总结 3

参考链接(书籍暂缺)

爬虫

设计人 简介 面向对象 周期 难度 时间需求
光城、李方 了解并掌握爬虫* Python基础 8 天 2~3 h/d
  • 具体程度为:独立完成一个简易的爬虫项目

学习路线
请求 → re → beautifulsoup → lxml → selenium → IP问题 → 实战小项目

任务安排

ID Content Days
1 get与post请求 + 正则表达式 2
2 beautifulsoup + xpath 2
3 selenium + IP 2
4 实战大项目 2

参考链接

  • python爬虫基础(南京大学 张莉老师)
  • * 希望大家可以多分享参考链接

机器学习

算法梳理(初级)

设计人 简介 面向对象 周期 难度 时间需求
苏静、康兵兵 梳理传统机器学习算法 高数基础 6 天 2~3 h/d

学习路线
线性回归 → 逻辑回归 → 决策树

任务安排

ID Content Days
1 线性回归算法梳理 2
2 逻辑回归算法梳理 2
3 决策树算法梳理 2

参考链接

  • 更多链接可以看datawhale-学习路线-#机器学习
  • * 希望大家可以多分享参考链接

算法梳理(高级)

设计人 简介 面向对象 周期 难度 时间需求
黑桃,刘广月,于鸿飞 梳理机器学习算法 高数基础 10 天* 2~3 h/d
  • 原文为 7 天

学习路线
RF(random forest) → GBDT (Gradient Boosting Decision Tree)→ XGB(eXtreme Gradient Boosting)

任务安排

ID Content Days
1 随机森林算法梳理 2
2 GBDT算法梳理 2
3 XGB算法梳理 3
3 LightGBM算法梳理 3

参考链接
西瓜书 读书笔记
西瓜书 公式推导
西瓜书 课后习题

  • 更多链接可以看datawhale-学习路线-#机器学习
  • * 希望大家可以多分享参考链接

深度学习

PyTorch

设计人 简介 面向对象 周期 难度 时间需求
许辉 李奇锋 学习pytorch基本操作* Python 基础 14 天* 2~3 h/d
  • 具体程度为:独立完成手写数字的识别
  • 原文为 7 天

学习路线
安装pytorch → 设立图并计算 → 实现逻辑回归 → 构建多层神经网络 → PyTorch实现L1,L2正则化以及Dropout → 书写优化器代码 → 用PyTorch完成手写数字识别

任务安排

ID Content Days
1 PyTorch的基本概念 2
2 设立计算图并自动计算 2
3 PyTorch实现Logistic regression(对数几率回归) 2
4 PyTorch实现多层网络 2
5 PyTorch实现L1,L2正则化以及Dropout 2
6 PyTorch理解更多神经网络优化方法 2
7 手写数字识别 2

参考链接

  • 更多链接可以看datawhale-学习路线-#机器学习
  • * 希望大家可以多分享参考链接

理论应用

spark(入门)

设计人 简介 面向对象 周期 难度 时间需求
Summer spark基础知识 spark小白 12 天 2~4 h/d

学习路线
运行原理 → 环境搭建 → RDD编程 → SparkSQL → MLlib → 常用算法

任务安排

ID Content Days
1 运行原理,RDD设计,DAG,安装与使用 3
2 RDD编程,熟悉算子,读写文件 3
3 DataFrame,SparkSQL 2
4 MLlib流设计,特征工程 2
5 逻辑回归,决策树 2

参考链接

  • 更多链接可以看datawhale-学习路线-#机器学习
  • * 希望大家可以多分享参考链接

数据挖掘实战

设计人 简介 面向对象 周期 难度 时间需求
范晶晶、李碧涵 完整走完数据挖掘项目 Python+sklearn基础 12 天 2~3 h/d

学习路线
运行原理 → 环境搭建 → RDD编程 → SparkSQL → MLlib → 常用算法

任务安排

ID Content Days
1 数据分析 2
2 特征工程 2
3 模型构建 2
4 模型评估 2
5 模型调优 2
6 模型融合 2

参考链接

  • 更多链接可以看datawhale-学习路线-#机器学习
  • * 希望大家可以多分享参考链接

NLP(基础)(理论+实践)

设计人 简介 面向对象 周期 难度 时间需求
jepson NLP理论&优化实践 Python&框架基础 8天 3~4 h/d

学习路线
特征提取 → 特征选择 → 文本表示 → 传统机器学习算法跑模型 → LDA生成新特征

任务安排

ID Content Days
预备 tensorflow安装+tensrflow基础+NLP 1
1 数据集探索 2
2 特征提取 2
3 特征选择 2
4 传统机器学习+讨论 2

参考链接

  • 更多链接可以看datawhale-学习路线-#机器学习
  • * 希望大家可以多分享参考链接

NLP(进阶)(理论+实践)

设计人 简介 面向对象 周期 难度 时间需求
jepson NLP理论&优化实践 NLP基础 14天 3~4 h/d

学习路线
特征提取 → 特征选择 → 文本表示 → 传统机器学习算法跑模型 → LDA生成新特征

任务安排

ID Content Days
1 数据集探索 2
2 神经网络基础 2
3 简单神经网络+讨论 2
4 卷积神经网络 2
5 循环神经网络 2
6 Attention原理+讨论 2
7 Bert+讨论 2

参考链接

  • 更多链接可以看datawhale-学习路线-#机器学习
  • * 希望大家可以多分享参考链接

NLP论文复现

设计人 简介 面向对象 周期 难度 时间需求
杨开漠,王翔 spark基础知识 NLP基础&论文学习 14 天* 3~4 h/d
  • 1篇/周

学习路线
论文学习 → 研读模型 → 跑模型 → 针对学习中存在的问题进行后期讨论

任务安排

ID Content Days
1 论文1发布 + 论文研读笔记作业 + 后期讨论 7
2 论文2发布 + 论文研读笔记作业 + 后期讨论 7

参考链接

  • 更多链接可以看datawhale-学习路线-#机器学习
  • * 希望大家可以多分享参考链接

相关文章

网友评论

      本文标题:datawhale(2019暑期)组队学习资源汇总

      本文链接:https://www.haomeiwen.com/subject/shvbrctx.html