美文网首页
爬虫需求1

爬虫需求1

作者: sidyph | 来源:发表于2018-09-06 11:58 被阅读0次

需求描述:
利用requests库分别完成上交所监管问询意见函(编号10102,用于file_id),深交所监管函件(编号10202)、问询函件(编号10203),深交所债券信息(编号10204)的爬取。
上交所监管问询意见函地址:http://www.sse.com.cn/disclosure/credibility/supervision/inquiries/
深交所监管函件地址:http://www.szse.cn/disclosure/supervision/measure/index.html
深交所问询函件地址(包含主板、中小企业板、新三板):http://www.szse.cn/disclosure/supervision/inquire/index.html
深交所债券信息地址:http://www.szse.cn/disclosure/bond/notice/index.html

input:外部输入一个时间段(begin_date,end_date,均为int格式),和文件预计保存的根目录,如r‘D:\pdf’
output:对爬取的结果进行解析,最终提交一个Dataframe数据,该frm数据包含以下字段:
announce_date:文件发布日期
,company_name:公司简称
trade_code:公司代码,如果没有,为空
,file_title:文件名称
file_url:文件的网络地址,可以从此地址直接下载
file_id:文件的id,唯一,由三块组成,例如10102201809060,前面的10102指的是上交所监管问询意见函,中间的20180906指的是发布时间,后面的0是指从0开始0,1,2,3…10,11…依次编号。
file_path:文件预计要保存的本地地址,由文件预计保存的根目录+时间目录+文件名组成,例如:r‘D:\pdf\2018\09\06\10102201809060.pdf’
status:状态码,默认100
download_date:为空

验收标准:
1.提交代码。
2.提交数据:2008-01-01~2017-12-31这部分的数据(DataFrame格式)。
3.提交截图:网页显示的2008-01-01~2017-12-31这段时间数据总数和抓取下来的总数相同。
4.提交截图:验证10个公司,确保2008-01-01~2017-12-31这段时间每个公司网页显示数据数和抓取下来的数据数相同。
10个公司分别如下:
上交所监管问询意见函(编号10102,用于file_id):600515,603032,603880,600634,601011,600138,600057,600328,600749
深交所监管函件(编号10202):002613,000955,000979,002347,002511,002692,000042,002558,002569,002657
问询函件(编号10203):002613,000955,000979,002347,002511,002692,000042,002558,002569,002657
深交所债券信息(编号10204):17岸资01,18岸资01,15西部02,15西部01,16申宏03,16当代债,17昆投01,16万丰01,16宝龙03,16新大02

相关文章

网友评论

      本文标题:爬虫需求1

      本文链接:https://www.haomeiwen.com/subject/coztgftx.html