美文网首页ApacheCN程序员
Datawhale 三月组队学习计划

Datawhale 三月组队学习计划

作者: 布客飞龙 | 来源:发表于2019-03-19 12:06 被阅读22次

    这次一共打算组织14个组队学习,涵盖了AI领域从理论知识到动手实践的内容,难度系数分为低、中、高档,可以按照需要参加哦

    组队学习信息

    1 /Python基础

    课程设计:马晶敏,叶梁、许辉

    组队学习说明:学习Python基础知识,针对Python小白的学习之路

    任务路线:基础知识-函数-第三方模块-类和对象-基础爬虫

    组队学习周期:10天

    定位人群:Python小白,难度系数低

    每个任务完成大概所需时间:每天平均花费时间2小时-4小时不等,根据个人学习接受能力强弱有所浮动

    任务预览(2天)

    1、环境搭建

    2、Python初体验

    3、Python基础

    如:变量特性+命名规则、注释方法、“:”作用、学会使用dir( )及和help( )、import使用、pep8介绍

    4、Python数值基本知识

    如:Python中数值类型,int,float,bool,e记法等、算数运算符、逻辑运算符、成员运算符、身份运算符、运算符优先级

    2 /数据分析

    课程设计:金娟娟

    组队学习说明:学习python for data analysis基础知识

    任务路线:python基础-重要的python库(numpy/pandas/matplotlib/seaborn等)-数据清洗和分析

    组队学习周期:15天定位人群:数据分析小白,难度系数低

    每个任务完成大概所需时间:每天平均花费时间2小时-4小时不等,根据个人学习接受能力强弱有所浮动

    任务预览(2天)

    完成《利用python进行数据分析》书上1-2章的学习,代码实现的过程用上传到GitHub

    3 /初级算法梳理

    课程设计:苏静、康兵兵

    组队学习说明:通过查阅书籍或参考文献、学习视频等,对传统机器学习算法进行梳理

    任务路线:线性回归--->逻辑回归--->决策树

    组队学习周期:7天

    定位人群:有概率论、矩阵运算、求导、泰勒展开等基础数学知识;难度系数低

    每个任务完成大概所需时间:2-3h

    任务预览(2天)

    1. 机器学习的一些概念

    有监督、无监督、泛化能力、过拟合欠拟合(方差和偏差以及各自解决办法)、交叉验证

    2. 线性回归的原理

    3. 线性回归损失函数、代价函数、目标函数

    4. 优化方法(梯度下降法、牛顿法、拟牛顿法等)

    5、线性回归的评估指标

    6、sklearn参数详解

    学习时长:两天

    参考:西瓜书

    cs229吴恩达机器学习课程

    李航统计学习

    谷歌搜索

    4 /MySQL

    课程设计:杨皓博 孙涛 杨煜

    组队学习说明:一周内快速了解并掌握MySQL的主要内容。通过大量SQL语句的实战练习,可以在简历上写熟练掌握MySQL。(注意:本课程只关注SQL查询语句本身,对数据库的涉及较少。)

    任务路线: MySQL软件安装及数据库基础->查询语句->表操作->表联结->MySQL 实战->MySQL 实战-复杂项目

    组队学习周期:(7天)

    定位人群:小白,难度系数低

    每个任务完成大概所需时间:2-3h

    任务预览(2天)

    任务预览(3天)

    软件安装及服务器设置。

    数据库基础知识

    MySQL数据库管理系统

    SQL是什么?MySQL是什么?

    查询语句 SELECT FROM

    筛选语句 WHERE

    分组语句 GROUP BY

    排序语句 ORDER BY

    SQL注释

    SQL代码规范

    5 /统计学

    课程设计:王佳鑫、许辉

    组队学习说明:学习内容涵盖统计学中所有的主要知识,并对其分部分进行梳理总结。

    任务路线:根据所学习内容进行(1)统计学基本知识、二项及泊松分布、大数定律、正态分布等内容的总结进行整体的回顾、梳理与完善;(2)中心极限定理、置信区间、 假设检验等内容的总结进行整体的回顾、梳理与完善。

    组队学习周期:7天

    定位人群:微积分、基本概率知识储备,难度系数中

    每个任务完成大概所需时间:2-3h

    任务预览(2天)

    学习内容 1:统计学基本知识、二项及泊松分布

    学习内容 2: 大数定律、正态分布

    6 /LeetCode

    课程设计:老表、于鸿飞、杨皓博

    组队学习说明:LeetCode刷题组队学习,从零开始每周10道算法题,在良好的学习氛围下,培养刷题习惯,学习算法思想。(不限制编程语言)

    任务路线:按照LeetCode默认题目顺序每周10道题。

    组队学习周期:7天

    定位人群:适合有一门语言基础的同学,难度系数中

    每个任务完成大概所需时间:2-3h

    课程内容:选取leetcode上面的10道题

    7 /知乎小组

    课程设计:小尧、黑桃、李严

    组队学习说明:到知乎回答问题,巩固自身所学的知识,锻炼写作输出和表达能力,提升个人影响力,小组以“写出自己的最佳回答”为总目标

    任务路线:自己选择较为熟悉领域的相关1个问题,写出优质答案,并互相点评

    组队学习周期:7天

    定位人群:比较熟悉AI某领域,难度系数中,对输出能力有要求

    3个任务完成所需时间:6-8h

    在知乎上选择一道AI相关的题,回答并优化

    8 /爬虫

    课程设计:光城、李方

    组队学习说明:

    从零基础到能独立完成一个简易的爬虫项目

    任务路线:请求→re库→BeautifulSoup库→lxml库→selenium库→IP问题→实战小项目

    组队学习周期:7天

    定位人群:有Python基础。难度系数中

    每个任务完成大概所需时间:2-3h/天

    任务预览(2天)

    1、学习get与post请求,尝试使用requests或者是urllib用get方法向 https://www.baidu.com/ 发出一个请求,并将其返回结果输出。

    2、如果是断开了网络,再发出申请,结果又是什么。了解申请返回的状态码。

    3、了解什么是请求头,如何添加请求头。

    4、学习什么是正则表达式并尝试一些正则表达式并进行匹配。

    然后结合requests、re两者的内容爬取 https://movie.douban.com/top250 里的内容。

    9 /高级算法梳理

    课程设计:黑桃,刘广月,于鸿飞

    组队学习说明:通过查阅相关文献,对机器学习算法进行梳理

    任务路线:RF--->GBDT--->XGB

    组队学习周期:7天

    定位人群:有概率论、矩阵运算、求导、泰勒展开等基础数学知识;难度系数中

    每个任务完成大概所需时间:2-3h

    任务预览(2天)

    【参考框架】欢迎有自己的框架

    1. 集成学习概念

    2. 个体学习器概念

    3. boosting bagging

    4. 结合策略(平均法,投票法,学习法)

    5. 随机森林思想

    6. 随机森林的推广

    7. 优缺点

    8. sklearn参数

    9.应用场景

    10 /数据挖掘项目

    课程设计:范晶晶、李碧涵、

    组队学习说明:应用机器学习算法,完整地走完一个数据挖掘项目流程

    任务路线:数据分析→特征工程→模型构建→模型评估→模型调优→模型融合

    组队学习周期:12天

    定位人群:有Python基础,sklearn基础。难度系数中

    每个任务完成大概所需时间:2-3h/天

    任务预览(2天)

    要求:数据切分方式 - 三七分,其中测试集30%,训练集70%,随机种子设置为2018

    任务1:对数据进行探索和分析。时间:2天

    数据类型的分析

    无关特征删除

    数据类型转换

    缺失值处理

    ……以及你能想到和借鉴的数据分析处理

    11 /数据竞赛 - 达观杯

    课程设计:胡稳 李振强 居居

    组队学习说明:12天的时间实现数据预处理(TF-IDF与word2vec)、模型实践(朴素贝叶斯、SVM与LightGBM)以及模型优化的整套流程,一起完成一次NLP类型的比赛。

    任务路线:数据初识->数据处理->模型实践->模型优化

    组队学习周期:12天

    定位人群:能够熟练使用python,难度系数中

    每个任务完成大概所需时间:2-3h

    任务预览(2天)

    1、下载数据,读取数据,观察数据

    (提取5000条数据进行实践)

    2、将训练集拆分为训练集和验证集

    分享自己对数据以及赛题的理解和发现;

    12 /PyTorch基础

    课程设计:许辉 李奇峰

    组队学习说明:通过学习pytorch的基本操作,最终完成手写数字的识别

    任务路线:安装pytorch->设立图并计算->实现逻辑回归->构建多层神经网络->PyTorch实现L1,L2正则化以及Dropout->书写优化器代码->用PyTorch完成手写数字识别

    学习周期:7天

    定位人群:熟悉python的基础用法,难度系数中

    任务完成所需时间:2-3h/天

    任务预览(2天)

    什么是Pytorch,为什么选择Pytroch?

    Pytroch的安装

    配置Python环境

    准备Python管理器

    通过命令行安装PyTorch

    PyTorch基础概念

    通用代码实现流程

    设立计算图并自动计算

    阅读梯度下降代码并书写体会

    写一个简单的神经网络

    13 /深度学习-nlp

    课程设计:jepson

    组队学习说明:学习自然语言处理理论,并且通过对某些数据集的文本分类任务不断优化来进行实践。

    任务路线:特征提取—>特征选择—>文本表示—>传统机器学习算法跑模型—>LDA生成新特征—>深度学习算法跑模型

    定位人群:有Python基础,基本框架的基础(例如TensorFlow、Keras和pyTorch等)!难度系数高

    组队学习周期:18天

    每个任务完成大概所需时间:3-4h

    任务预览(2天)

    1、IMDB数据集下载和探索(参考TensorFlow官方教程)

    2、THUCNews数据集下载和探索(参考博客中的数据集部分和预处理部分)

    3、学习召回率、准确率、ROC曲线、AUC、PR曲线这些基本概念

    14 /编程

    课程设计:光城 、LeoLRH

    组队学习说明:利用自己所熟知的编程语言,具有一定基础,讨论在面试中可能出现的数据结构问题,一起学习重温经典数据结构

    任务路线:数组->链表->栈->队列->递归->排序->二分查找->哈希表->字符串->二叉树->堆->图->回溯->分治->动态规划

    组队学习周期:14天甚至往上大概16天左右(周末进行整体整理讨论)(每天任务时间具体看任务情况)

    定位人群:有一门语言基础和算法基础的同学,难度系数高,小白慎入!!!

    每个任务完成大概所需时间:平均每天学习时间在1个小时左右,晚上统一,半个小时进行集体讨论总结打卡。

    任务预览(2天)

    【数组】

    实现一个支持动态扩容的数组

    实现一个大小固定的有序数组,支持动态增删改操作

    实现两个有序数组合并为一个有序数组

    学习哈希表思想,并完成leetcode上的两数之和(1)及Happy Number(202)!(要求全部用哈希思想实现!)(选做)(注意:在第四天会进行继续学习)

    练习:

    Three Sum(求三数之和)

    Majority Element(求众数)

    Missing Positive(求缺失的第一个正数)

    【链表】

    实现单链表、循环链表、双向链表,支持增删操作

    实现单链表反转

    实现两个有序的链表合并为一个有序链表

    实现求链表的中间结点

    练习:

    Linked List Cycle I(环形链表)

    Merge k Sorted Lists(合并 k 个排序链表)

    报名意向

    我们会根据学习需求对Datawhale团队进行分工安排,不作为最终选择。

    在这里投票:https://mp.weixin.qq.com/s/35v6Dl2jvrguDRG7eoY0cg

    参与方式

    image

    图片: 伊小雪

    排版: 无 多 李 方

    相关文章

      网友评论

        本文标题:Datawhale 三月组队学习计划

        本文链接:https://www.haomeiwen.com/subject/ovrgmqtx.html