美文网首页
003 - 『Python爬虫小分队』作业布置 -- 持续更新

003 - 『Python爬虫小分队』作业布置 -- 持续更新

作者: 向右奔跑 | 来源:发表于2017-04-19 07:31 被阅读882次

(作业都在这篇文档中,每天更新,请保存一下地址,谢谢~)

提交作业方式:

第一组的同学,第一周(4.17~22)群内直接提问,截屏发自己的进度。
第二组的同学,要求把项目思路和结果写成文章,发到专题。
推荐代码提交到 github


2017-5-8 作业 18:
一组:1)文件读写,爬取数据写入csv或Excel; 2) 爬取数据存入数据库
二组:(晚上发布:最终项目)


2017-5-7 作业 17:
今天的作业是选做题,听了昨晚的分享,你有什么笔记、感悟或思考,可以写下来,仍然投到作业专题。


2017-5-6 作业 16:
推荐几篇文章,使用大家整理复习。鼓励大家多写多总结。


2017-5-5 作业15:
今天没有新任务,整理
整理前一段时间的内容,进度和问题。


2017-5-4 作业14:
一组:MySQL基本操作, SQL语句
二组:整理了解基本的爬虫防Ban措施

嘉宾分享提问收集。


2017-5-3 作业13:
一组 重点,理解结构化数据抓取,选取好循环点,分析网页代码,会调试。
010 - 使用BeautifulSoup和XPath抓取结构化数据


2017-5-2 作业12:
一组 本周内容:

二组 本周内容:
爬取两个站点:微博和知乎,把知乎上Python学习的高分回答抓取下来。


2017-4-28 作业11:
整理一周进度,把遇到的问题写下来,准备答疑交流。


2017-4-27 作业10:
一组内容:
从一小段代码开始,理解爬虫。007 - Python简单爬虫 - 正则表达式
需要的知识点:网络请求,源代码定位分析(HTML),正则表达式,Python网络访问库,逻辑基础。

需要说明的是,文章中代码方式(urllib+正则匹配方式)不是后续写爬虫的主要方式。

二组内容:
开始提交项目代码流程和结果分析。


2017-4-26 作业9:
一组内容:
1)了解HTML文档结构
2)了解常用的HTML标签 <a>,<img>,<p>,<div>,<ul>,<li>,<span>
3)了解url,分页url的基本规律
4)了解HTTP请求响应的过程


2017-4-23 作业8:
一组:HTML基础 & 正则表达式 (此内容2~3天)
了解HTML基本内容即可,HTML教程
正则表达式:

二组:本周要爬取的站点两个:拉钩网(Python工程师岗位,数据分析师岗位),豆瓣读书(比较 简书-读书,京东读东,学习数据处理、分析方法)


2017-4-22 作业7:
群内集中答疑辅导


2017-4-21 作业6:
一组:完成 万年历逻辑功能,学习函数调用
集中答疑交流

二组:集中答疑交流,爬虫流程分析,url分析


2017-4-20 作业5:
一组:完成 万年历的界面打印,学习函数定义、调用

二组:参考爬虫小分队二组作业题-20170420 ,把自己的代码和疑问整理一下,包括进度方面的问题,周末综合答疑。


2017-4-20 作业4:
一组:完成 循环语句
练习:求出1000以内的完全数有哪些
周六带着大家对本周所有知识点进行梳理。

二组:作业项目截止提交,把爬取的思路、结果写成文章,最好能加上一些对数据的处理和分析。


2017-4-19 作业3:
一组:完成 条件语言
练习:判断一个年份是不是闰年
一组的进度,如果每天都完成比较快,可以往前赶,本周需要完成的任务:002 - Python 程序逻辑训练3题


2017-4-18 作业2:
一组:完成变量和数据类型,操作符

二组:
第2组 简书热门文章数据(3天完成 4.18-20)

抓取简书七日热门数据,如果有时间加以分析
http://www.jianshu.com/trending/weekly

爬取数据字段:
1.用户
2.标题
3.阅读量
4.评论量
5.获赞量
6.打赏数
7.文章发表时间
(文章类别,来自哪个专题。选做)
数据保存为CSV或Excel


2017-4-17 作业1:
填写提交学习情况调查表。
安装Python和Python开发环境。


2017-4-16 作业0:
把自己学过的Python内容梳理一下(其他编程语言的情况也写出来),之前学习中的问题、困难点都可以提出来,每天的学习时间安排,写成文章,投到 Python爬虫作业

刚刚开始学习的同学,看我简书上000-002文章,了解尝试安装Python环境。

相关文章

网友评论

      本文标题:003 - 『Python爬虫小分队』作业布置 -- 持续更新

      本文链接:https://www.haomeiwen.com/subject/iclczttx.html